Модель MAI-Code-1-Flash заточена не под бенчмарки, а под реальную работу. Её тренировали прямо на инфраструктуре GitHub Copilot — на тех же harnesses, которые используют разработчики. Модель училась взаимодействовать с окружением и инструментами в агентных задачах, поэтому она лучше адаптирована к реальным Copilot-сценариям, чем другие модели.
Во время обучения чекпоинты MAI-Code-1-Flash прогоняли через типичные задачи инженера: ответы на вопросы по репозиторию, рефакторинг, телеметрию с реальных сессий Copilot. Главная идея — чтобы улучшения на тестах переносились в продакшн без потери качества.
Модель использует adaptive solution length control и сама решает, когда отвечать коротко, а когда потратить больше reasoning на сложную проблему. Разработчики видят полезный вывод быстрее. На сложных задачах MAI-Code-1-Flash обходится до 60% меньшим числом токенов — это снижает задержки, уменьшает затраты и делает работу плавнее.
Чтобы проверить и качество, и эффективность, модель сравнили с Claude Haiku 4.5 на SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual и Terminal Bench 2. Запускали всё в том же production harness, что используют разработчики. MAI-Code-1-Flash обошла конкурента на всех четырёх тестах. Самый заметный разрыв — на SWE-Bench Pro: 51.2% против 35.2%, то есть +16 процентных пунктов на реальных задачах. При этом модель ещё и экономит токены — до 60% меньше на SWE-Bench Verified. Высокая точность и эффективность больше не конфликтуют.