Aleph Alpha Research представила Savanna для перевода обучения в код

Aleph Alpha Research представила Savanna — «фабрику моделей», которая переводит весь процесс обучения нейросетей в код. Идея называется Model Training as Code (MTaC). Зачем это понадобилось? Обучение моделей стало слишком сложным. Пайплайн обрастает новыми этапами, растут затраты GPU-часов, а главное — координация между командами превращается в ад.

В статье подробно разбирают три скрытые проблемы ручного подхода. Первая — человеческие ошибки на каждом шаге. Пример: команда данных скидывает путь к базе в Slack, претрейнинг запускается, через две недели падает из-за заполненного хранилища. Никто не знает, можно ли удалить 30-терабайтный датасет с названием do_not_delete. GPU простаивают. Вторая — потеря знаний. Команда SFT повторяет эксперименты, которые уже делала для прошлого чекпоинта несколько месяцев назад. История решений размазана по Slack, файловой системе, вики-страницам — её легко забыть. Третья — фрагментация ответственности при редких ручных передачах этапов. RL-команда получает чекпоинт от SFT, модель показывает плохие результаты. Никто не может выполнить чужой этап, каждый оптимизирует свой кусок, а не модель целиком. Месяц расхождений.

Savanna решает это, превращая пайплайн в код. Простая псевдо-функция post_train вызывает sft, rl, evaluate. Это даёт три вещи. Композируемость: ручные шаги становятся функциями с типизированными входами и выходами, пайплайн запускается одним кликом. Консенсус: ветка main содержит полный рецепт обучения, никакой ручной сборки. Происхождение (provenance): git blame хранит историю решений, код зафиксирован в коммите — можно откатиться и перезапустить.

Технически Savanna живёт в GitHub, CI — точка входа для обучения. Запустить лучшую модель так же просто, как триггернуть CI на main. Для быстрой валидации изменений используют маленький end-to-end прогон за 5 минут, а каждую ночь — большой тест для ловли семантических регрессий. Артефакты (данные, модели, токенизаторы) хранятся иммутабельно и версионируются в Weights & Biases. Пайплайн оркестрируется через Flyte в Kubernetes. Гиперпараметр-свипы запускаются программно — движок кеширует одинаковые этапы, не допуская комбинаторного взрыва лишних вычислений.

На практике MTaC ускорил итерации: ручной запуск и оценка автоматизированы. При большом прогоне обучение можно безопасно перезапускать сколько угодно — консенсус в коде устраняет ошибки сборки. Появились кросс-функциональные команды, владеющие конкретным поведением модели (например, мультиязычностью) от начала до конца. В перспективе Savanna рассматривают как базу для авто-исследований — агент на LLM сможет самостоятельно читать, менять и запускать пайплайн.