MAI-Thinking-1 от Microsoft AI не уступает Claude Opus 4.6 по коду

Microsoft AI выпустила модель MAI-Thinking-1. Это средний по размеру разреженный Mixture of Experts (35B активных параметров, ~1T суммарных). Несмотря на скромный инференс-след, модель идёт ноздря в ноздрю с Claude Opus 4.6 на бенчмарке SWE-Bench Pro. Для разработчиков это значит, что продвинутую кодовую помощь можно встроить в повседневные рабочие процессы, а не только в исключительные задачи.

MAI-Thinking-1 обучали с нуля на чистых и коммерчески лицензированных данных — без дистилляции от сторонних моделей. AI-сгенерированный контент исключили из претрейнинга. Такой подход, по словам Microsoft, даёт полный контроль над качеством и поведением модели.

Вместе с моделью представили Hill-Climbing Machine — ко-спроектированный пайплайн, в котором каждый элемент (данные, награды, окружения, вычислительные ресурсы) можно независимо улучшать. Три принципа этой системы: способности должны быть изучены, а не унаследованы (имитатор привязан к учителю и плохо адаптируется); чистые данные (с отслеживаемым происхождением); самодостаточность всего стека — от собственных ускорителей MSFT до фреймворка обучения.

Для агентного кодинга компания вложилась в тренировочные окружения: каждое верифицированное окружение детерминировано, исполняемо и оценивается по реальным тестовым наборам. Модель практикуется на многошаговых задачах — читает код, редактирует файлы, запускает тесты, наблюдает за ошибками и восстанавливается после промежуточных сбоев.

В математике MAI-Thinking-1 показывает 97.0% на AIME 2025 и 94.5% на AIME 2026. Это подтверждает, что тренировочный цикл с собственными данными, наградами и оценкой способен создавать реальные gains в рассуждениях — и эта способность должна распространяться на другие домены со временем.