Anthropic и OpenAI перевели модели в надёжный рабочий код

Пять месяцев, прошедших после инфлекционной точки ноября 2025 года, принесли фундаментальные изменения в мире больших языковых моделей. Этот период охватил период между сентябрем 2025 и февралем 2026, когда лидерство в коде менялось каждые полгода, но главная новость заключалась не в сменах моделей, а в их качестве. Ключевым событием стало появление надежных агентов для написания кода. Компании OpenAI и Anthropic провели большую часть 2025 года, используя обучение с подкреплением от проверяемых наград. К ноябрю их агенты перестали быть экспериментальными инструментами, требующими постоянного исправления ошибок, и превратились в рабочие лошадки для ежедневной разработки. Этот прогресс был проверен на специфическом тесте с изображением фламинго, катающегося на велосипеде.

В ноябре crown, то есть лидерство, несколько раз переходила между моделями: от Claude Sonnet 4.5, выпущенного в сентябре, к GPT-5.1, Gemini 3, GPT-5.1 Codex Max, а затем обратно к Claude Opus 4.5, которое в итоге закрепило свои позиции на пару месяцев. В январе и феврале многие энтузиасты активно тестировали новые модели и агенты во время праздников. Автор проекта столкнулся с временной формой «психоза от ИИ», запустив амбициозные проекты, такие как микро-библиотека micro-javascript для выполнения JavaScript на Python через Pyodide в WebAssembly прямо в браузере. Несмотря на крутость демо, такие реализации были слишком нестабильными, и автор позже тихо отказался от этих проектов.

Сериальная модель Warelay, получившая свой первый коммит в ноябре от разработчика по имени Пит, быстро переродилась в феврале под названием OpenClaw. Проект взрывным темпом завоевал внимание сообщества и стал персональным ИИ-ассистентом. Автор назвал их «Claws» и сравнил с клинками доктора Октависа Альфреда Молины из фильма «Ползунки» 2004 года, которые управлялись ИИ и были безопасны только пока не повредились. Из-за спроса на такие модели в Силиконовой долине начали заканчиваться Mac Mini, так как люди покупали их для запуска своих Claws. Даже Дрю Брюнинг шутит, что Mac Mini стал идеальным аквариумом для этих цифровых питомцев.

В феврале вышли обновленные версии Gemini 3.1 Pro и серия Gemma 4, самые мощные открытые модели от американской компании. Китайская лаборатория GLM представила монструозную модель GLM-5.1 весом 1,5 ТБ, которая работает эффективно, если есть бюджет на оборудование. Google также выпустила видео с анимацией животных на транспортных средствах, которое напало даже ИИ-лаборатории. В частности, модель GLM-5.1 нарисовала фламинго на велосипеде, но при попытке анимации велосипед прыгнул вверх и помялся. Северная вирджинская опоссум на электросамокате также получилась идеально благодаря модели Claude. Главный вывод из полугода развития ясен: агенты для кода стали настоящими, а модели, помещающиеся на ноутбуке, начали уверенно бить все ожидания, хотя и уступают frontier-моделям.