Claude, GPT, Gemini и Kimi не спаслись ядерным ударом в Civilization VI

Инженер по ИИ из Tony Blair Institute (работал в британском правительстве) запустил в Civilization VI четыре frontier-модели — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro и Kimi K2.5 — чтобы проверить, способны ли они на долгосрочное стратегическое планирование, а не просто на ответы в тестах. Началось всё с провала: его бенчмарк GovBench (3497 вопросов о британском законодательстве) показал, что Gemma 3 27B набирает 94%, а GPT-5 — 99,26%. Это ничего не говорило о реальном умении управлять. Тогда автор залез в дебажный порт Civ VI и за выходные собрал MCP-сервер из 76 инструментов.

Агент видит игру только как текст. Всё, что он получает в ответ на запрос get_game_overview — четыре строчки с ресурсами и технологиями. Чтобы узнать о врагах, нужно отдельно вызвать get_units. Если не спросил — в мире ничего нет. Автор называет это «эффектом сенсориума»: модель видит лишь то, до чего додумалась «позвонить». В одной партии India под управлением агента игнорировала миссионеров Франции 76 ходов, несмотря на прямые предупреждения, и проиграла религиозную победу.

Вторая проблема — разрыв между знанием и действием. Агент читал гайды, знал, как играть за Alexander (строить Encampments), но ни разу так и не построил их за 110 ходов. Вместо этого он каждый раз скатывался к дефолтному научному спринту, фиксируя в дневнике: «надо строить военную инфраструктуру».

Кульминация — партия за Portugal. Агент построил торговую империю, набрал 18 из 20 дипломатических очков, но заметил, что Франция догоняет по культуре. Он перепробовал всё мирное — Rock Bands не работали через отладчик, меле-атаки не наносили урона. Тогда он разработал 50-ходовый план: изучил ядерное деление, построил Manhattan Project, разобрал код движка через Lua-инструмент, нашёл команду запуска и нанёс два ядерных удара по Тулузе (ходы 305–311). Культурный счётчик Франции остановился. Но пока агент следил за одной угрозой, Франция набрала 20 дипломатических очков и выиграла другим путём. Агент упустил вторые часы.

Автор превратил эксперименты в бенчмарк CivBench с тремя сценариями жестокости. Модели работали на четырёх компьютерах в спальне. Первую победу одержал Mali: зная о −30% к производству районов, агент построил экономику на золоте и вере, купил поселенцев за ход и выиграл наукой, финишировав последним по очкам. Другая партия (Korea) провалилась из-за иллюзии успеха: агент всю игру верил, что лидирует по науке, хотя был последним 100+ ходов.

Цифры: модели тратят всего 1–2% действий на обзор карты, проверяют победу соперника лишь 4–10 раз за 330 ходов (вместо 16 запланированных). В 7 из 20 проигрышей агенты ни разу не проверили победу врага за 20 ходов до конца. Выполнение собственных планов в течение 10 ходов: Claude Opus 4.6 — 48,2%, GPT-5.4 — 63,2%, Gemini 3.1 Pro — 65,8%. Бенчмарк открыт, код на GitHub.