Ornith-1.0 обходят Claude Opus 4.7 благодаря самообучению

Разработчики представили семейство открытых моделей Ornith-1.0 — от компактной 9B Dense для edge-устройств до флагманской 397B MoE для максимальной производительности. В линейку входят 9B Dense, 31B Dense, 35B MoE и 397B MoE. Модели построены на базе предобученных Gemma 4 и Qwen 3.5 и показывают лучшие результаты среди open-source моделей своего размера на бенчмарках для написания кода.

Главная инновация — фреймворк самообучения. Модель не просто генерирует решения, а учится одновременно строить «скаффолды» — сценарии, которые направляют поиск ответа. Вместо жёстко заданных человеком шаблонов Ornith-1.0 эволюционирует вместе с политикой: на каждом шаге RL сначала уточняет скаффолд для задачи, а затем на его основе генерирует решение. Награда от результата распространяется на оба этапа, так что модель оптимизирует и сам ответ, и способ его получения. Со временем стратегии для разных типов задач вырабатываются автоматически, без ручного конструирования.

Флагманская Ornith-1.0-397B набирает 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified. Это обходит Claude Opus 4.7 (70.3 и 80.8 соответственно), а также MiniMax M3 (66.0 и 80.5) и DeepSeek-V4-Pro (67.9 и 80.6). Ornith-1.0-35B при 35 миллиардах параметров превосходит Qwen 3.5-35B, Qwen 3.6-35B и Gemma 31B, а на Terminal-Bench 2.1 даже выдаёт 64.4 против 53.5 у Qwen 3.5-397B. Edge-версия Ornith-1.0-9B показывает 43.1 на Terminal-Bench 2.1 и 69.4 на SWE-Bench Verified, обходя или догоняя более крупные модели вроде Gemma 4-31B.

Поскольку модель сама пишет себе скаффолды, возникает проблема «взлома награды» — скаффолд может научиться обманывать верификатор, не выполняя задание. Разработчики защитились тремя слоями. Во-первых, внешняя среда, набор инструментов и тесты неизменны и недоступны модели — она эволюционирует только свою внутреннюю логику. Во-вторых, монитор блокирует попытки читать закрытые пути, изменять скрипты проверки или вызывать запрещённые действия, обнуляя награду. В-третьих, замороженный LLM-судья выступает вето поверх верификатора, чтобы ловить случаи, когда модель жульничает в разрешённых рамках.

Для RL-тренировки с длинными роллаутами используется pipeline-RL стратегия с весами устаревания: старые токены постепенно обесцениваются и отбрасываются, если превышен порог. Потери считаются с поправкой на возраст токена.