DeepReinforce выпустила Ornith-1.0 — open-source модель кода с RL

Команда DeepReinforce выпустила Ornith-1.0 — open-source семейство моделей для написания кода (agentic coding). Они умеют самостоятельно улучшать себя через обучение с подкреплением (RL). Модели доступны в четырёх размерах: 9B-Dense, 31B-Dense, 35B-MoE и 397B-MoE. В основе лежат дообученные Gemma 4 и Qwen 3.5.

Ornith-1.0 показывает результаты на уровне или выше других open-source моделей схожего размера. Это подтверждают тесты на Terminal-Bench 2.1, SWE-bench, NL2Repo и OpenClaw. Например, Ornith-1.0-397B набирает 82.4% на SWE-bench Verified, а 9B-версия — 69.4%. Для сравнения, Claude Opus 4.8 на том же тесте получает 87.6%, но Ornith сильно обгоняет Qwen и Gemma.

Главная фишка — собственный фреймворк для самообучения. RL учит модель не только генерировать код, но и писать «леса» (scaffold) для его запуска и проверки. Модель оптимизирует оба процесса вместе и находит более удачные пути решения.

Все версии распространяются по лицензии MIT. Ограничений по региону нет. Ornith-1.0 — это reasoning model. По умолчанию в ответе сначала идёт блок <think>…</think> с цепочкой рассуждений, а потом финальный ответ. При правильной настройке сервера этот блок выносится в отдельное поле reasoning_content, а вызовы инструментов превращаются в стандартные OpenAI tool_calls.

Для развёртывания нужны свежие версии библиотек: Transformers ≥ 5.8.1, vLLM ≥ 0.19.1 или SGLang ≥ 0.5.9. Модель поддерживает контекстное окно в 256K токенов (262144 токена). Dense-версия 9B помещается на один GPU с 80GB памяти, MoE-версии требуют нескольких GPU с тензорным параллелизмом. Рекомендуемые параметры семплирования: temperature=0.6, top_p=0.95, top_k=20.

Ornith-1.0 совместима со стандартными инструментами: OpenHands, Hermes, OpenClaw, OpenCode, а также с llama.cpp, Ollama и Unsloth. Её можно использовать через любой OpenAI-совместимый клиент или напрямую через Transformers. Разработчики особенно рекомендуют модель для терминальных кодинг-агентов — чтобы понимать большие кодовые базы, автоматизировать рутину и ускорять разработку.