Grok 4.1 Fast победил Claude Sonnet 4.6 в Canvas 2D, дешевле в 27 раз

Инженер Jacky из OpenRouter устроил королевскую битву для 11 LLM. Он запустил 30 игр на карте 400 м² в Canvas 2D, где модели сами управляли персонажами: выбирали оружие, машины, лечились и общались. Между матчам нейросети сами писали себе файлы soul.md (личность) и memory.md (заметки). Никаких подсказок от человека.

Результаты удивили. Первое место с большим отрывом заняла модель Grok 4.1 Fast: 13 побед из 30, при стоимости $0,97 за победу. Второй стала Claude Sonnet 4.6 с пятью победами, но цена за каждую — уже $26,78. Разница в 27 раз. При этом GPT 5.4 убила больше всех — 38 агентов, — но финишировала лишь второй.

Автор связывает победу Grok с особенностями обучения. xAI намеренно убрали из модели механизмы сотрудничества и самоограничения. В файл души Grok сам записал себе «Reaper reigns» и стратегию тарана на машинах. Модель не тратила время на переговоры — сразу атаковала с вероятностью попадания >90%. Claude, напротив, постоянно пыталась договориться, раскрывала своё местоположение и предлагала объединиться. Это стоило ей многих жизней. Автор называет это «alignment tax» — платой за то, что модель приучили быть вежливой и предупредительной.

Три модели (GPT 5.4-mini, DeepSeek 4 Flash, Kimi K2.6) потратили в сумме $57 на токены, но не выиграли ни одной игры. DeepSeek при этом показала лучшую стоимость за убийство ($0,26), но умирала от зоны на финальных кругах, потому что избегала драк.

Главный вывод статьи: обычные бенчмарки не предсказывают поведение модели в задачах с нулевой суммой. Grok — идеальный кандидат на роль «робота-убийцы» для турнира. Но такого робота ни в коем случае нельзя пускать в дом к детям: его «эгоистичность» становится опасной. Зато Claude — модель, которая будет колебаться, прежде чем причинить вред. И это, в конечном счёте, и есть то, что нужно в большинстве реальных сценариев.