Китайская модель Kimi K2.6 догнала GPT-5.5 в задаче Word Gem Puzzle

Рохана Резел провела экспериментальный программический конкурс, где десять языковых моделей соревновались в решении реальной задачи под названием Word Gem Puzzle. В итоге победу одержала открытая модель Kimi K2.6 от китайской студии Moonshot AI, набравшая 22 очка в матчах против MiMo V2-Pro от Xiaomi, занявшей второе место. Третье место у GPT-5.5, а модели от западных лабораторий, включая Claude Opus 4.7, опустились в топ-10. Задача представляла собой головоломку со сдвигаемыми плитками на сетках от 10×10 до 30×30, где боты должны были перемещать плитки в пустоту и находить английские слова. Система начисления очков была жесткой: короткие слова штрафовались, а длинные оценивались в длину минус шесть пунктов. Каждое слово можно было заявить только один раз.

В конкурсе участвовало девять команд, так как код Nvidia Nemotron Super 3 вышел с синтаксической ошибкой и не подключился к серверу. Kimi K2.6 выиграла благодаря агрессивной стратегии сдвига плиток. Алгоритм модели постоянно искал лучшие ходы и, если ничего не находил, переходил на случайный, но это позволяло ей не останавливаться там, где другие модели замерали. MiMo V2-Pro вообще не сдвигала плитки, пытаясь сразу отыскать длинные слова, что сработало лишь на маленьких досках с сохраненными начальными словами. Claude Opus 4.7 и Grok Expert 4.2 также не применяли сдвиги, проваливаясь на больших сетках 30×30, где требовалась динамическая реконструкция. GPT-5.5 балансировала между активными и пассивными методами, показав сильные результаты на крупных полях. GLM 5.1 от Zhipu AI оказался самым активным, совершив более 800 тысяч сдвигов, но часто тормозил при нехватке выгодных ходов. DeepSeek V4 отправлял некорректные данные, а Muse Spark получила самое низкое место из-за нарушения правил начисления очков. Эта модель заявляла абсолютно каждое найденное слово, включая короткие, что привело к катастрофическому отрицательному счету в минус 15 тысяч пунктов.

Победная стратегия Kimi K2.6, несмотря на свою простоту, оказалась устойчивее на больших полях, где начальные слова уже не сохранялись и требовалась полная перестройка доски. Разрыв между лидером и вторым местом составил всего два очка, хотя команды использовали противоположные подходы. Это говорит о том, что исход частично зависел от случайного распределения начальных слов на доске, а не только от мощности моделей. Результаты показывают сдвиг в индустрии: раньше считалось, что модели из западных лабораторий имеют преимущество, которое открытые модели не могут преодолеть. Теперь Kimi K2.6 с баллами 54 в рейтинге Artificial Analysis Intelligence Index почти догнала лидеров вроде GPT-5.5. Тот факт, что модель можно скачать и запустить локально, меняет баланс сил. Этот конкурс стал одним из доказательств того, что зазор в производительности стал достаточно мал, чтобы проявляться в конкретных задачах на реальное время принятия решений, а не только в тестах на объем памяти или генерацию кода по спецификации.