Chien Van Nguyen представила Orthrus для Qwen3

Команда Chien Van Nguyen представила Orthrus — новую архитектуру, которая объединяет точностьautoregressive-моделей и скорость генерации диффузионных систем. Проект использует бэкенд Qwen3 и гарантирует строгую безубыточность генерации, то есть полный соответствие распределению вероятностей исходной модели. Разработчики выпустили официальные чекпоинты и код на основе Qwen3-8B с меткой chiennv/Orthrus-Qwen3-8B. Установка работает через uv или стандартный pip, требуя пакетов типа flash-attn для ускорения вычислений. Ядро системы реализует двойную структуру, где авторегрессивный и диффузионный виды работают с одним высококачественным кэшем Key-Value (KV), что устраняет избыточное потребление памяти и сводит накладные расходы к порядку O(1). В отличие от многих диффузионных языковых моделей, которые страдают от дрейфа условий и потери точности на сложных задачах, Orthrus решает проблему, полностью разделяя параллельную генерацию от последовательных ограничений. Это позволяет достичь ускорения вывода в 7,8 раза, превосходя методы спекулятивного декодирования, такие как EAGLE-3 и DFlash. Скорость достигается за счёт того, что Orthrus не использует отдельные черновики моделей, а делится общим кэшем, что повышает процент принятия токенов. Эффективность параметризация достигается через тонкую настройку всего 16% параметров при полной заморозке базовой LLM. На тесте MATH-500 система показывает примерно в шесть раз более высокую пропускную способность по сравнению с базой Qwen3-8B, сохраняя идеальную точность, тогда как адаптации вроде Fast-dLLM-v2 теряют качество. Будущие обновления включают нативную интеграцию с vLLM и SGLang. Исследователи рекомендуют цитировать работу vannguyen2026orthrusmemoryefficientparalleltoken, опубликованную в 2026 году на arXiv с идентификатором 2605.12825.