Норвежская библиотека строит LLM на 2 ПБ флеш-накопителей Huawei OceanStor Dorado

Национальная библиотека Норвегии (Nasjonalbiblioteket) строит собственную языковую модель (LLM), которая понимает норвежский язык. Для AI-пайплайна она использует 2 петабайта флеш-накопителей Huawei OceanStor Dorado. Мариус Хюснес, глава IT-платформы библиотеки, рассказал об этом на Huawei ID Forum 2026 в Париже. Ни один коммерческий разработчик LLM не делал модель под норвежский язык. Хюснес уверен: любая страна со своим языком без суверенной LLM оказывается в проигрыше — глобальная англоязычная модель не знает местной истории, новостей и культуры на родном языке.

Министерство культуры Норвегии поручило библиотеке создать такой AI. У библиотеки крупнейшая в стране цифровая коллекция: книги, газеты, веб-страницы. Как государственное учреждение, она обязана собирать и хранить всё культурное наследие Норвегии — на это распространяется legal deposit mandate. С норвежскими газетами заключили соглашение на тренировку модели на защищённом авторским правом контенте. Хюснес подчеркнул: «Ни у одной частной компании этого нет».

Библиотека оцифровывает фонды с 2005 года. Накоплено 20 PB уникальных данных, хранящихся по схеме 3–2–1 (три копии, два носителя, одна за пределами площадки) — итого около 60 PB. Оцифровка включает текст, звук, видео, изображения и веб-контент, много OCR и метаданных, есть API для онлайн-доступа.

Основной объём лежит в цифровом дисково-ленточном архиве — системе долговременного хранения. Задача Хюснеса — перегнать эти данные в LLM-тренировку. Узкое место — не вычисления, а качество данных, их очистка и пропускная способность пайплайна. Есть два этапа. Сначала — вычисления на месте: Nvidia DGX H200, кластер из 384 CPU-ядер и несколько массивов Huawei OceanStor Dorado на 2 PB флеша. Это низколатентое хранилище для пайплайнов и подготовки тренировки.

Пайплайн включает ингрессию, очистку, дедупликацию, нормализацию форматов, валидацию и подготовку. После обработки данные отправляются в национальный суперкомпьютер Sigma2 Olivia (HPE Cray Supercomputing EX) с 448 GPU и 64 512 CPU-ядрами, плюс система хранения Cray ClusterStor E1000 на 5,3 PB.

Главная проблема — два совершенно разных типа хранилищ. Архив на 60 PB оптимизирован под долговечность и дешевизну, у него высокая задержка на чтение — он рассчитан на редкий доступ. AI-пайплайн требует высокой пропускной способности и низкой задержки. Хюснес заметил: никто не обсуждает проблемы перемещения петабайтных наборов из архива через AI-конвейер. Его команде пришлось разбираться самим.

Обучение LLM продолжается. Команда Хюснеса учится на ходу: нет стандартных инструментов оценки суверенной норвежской LLM (у языка две письменные формы, множество диалектов и исторические изменения — строят свой eval-инструмент); неясно, кто контролирует доступ к модели и кто решает, для чего её использовать (вопросы институциональные и политические); сложно заставить три системы — архив, локальную AI-среду и суперкомпьютер Sigma2 — работать слаженно.

Вывод из проекта: Huawei-хранилища всерьёз работают в Европе, и любой стране, разрабатывающей свою LLM, стоит проконсультироваться с Хюснесом. Как он сам сказал: «Норвегия — маленькая страна, решающая проблему, с которой столкнётся каждый неанглоязычный народ: как построить AI, отражающий твой язык, культуру и историю. AI нужны custodians, а не просто строители».