Claude Opus 4.8 обошел GLM-5.2 в 3D-платформере благодаря мультимодальности

GLM-5.2 вышла, и интернет сразу взорвался. Чтобы разобраться, где правда, а где хайп, авторы статьи устроили прямой тест: дали GLM-5.2 и Claude Opus 4.8 одинаковый промпт — собрать 3D-платформер на чистом WebGL с нуля, без игровых движков и библиотек вроде Three.js. Результат: переходить с Opus они не планируют.

Opus собрал игру за 33 минуты, GLM-5.2 — за 1 час 10 минут. Opus выдал 216 тысяч токенов, GLM-5.2 — 131 тысячу. Стоимость: $21.92 у Opus против $5.39 у GLM-5.2. Opus завершил игру чище и правильнее. Персонаж у GLM-5.2 оказался серым, без текстур, шипы не убивали, флаг не срабатывал, а на экране висел отладочный интерфейс. Opus справился лучше: анимации работали, текстуры на месте, есть условие победы. Единственный баг — слишком щедрый «койот-тайм», позволяющий стоять в воздухе у края платформы.

Ключевое отличие: Opus мультимодальный, он видит скриншоты. GLM-5.2 текстовый, он не читает изображения. Когда нужно было проверить результат, Opus просто посмотрел на картинку и заметил, что оставил на экране отладочные цифры — и убрал их. GLM-5.2 попытался проанализировать пиксели кодами, не заметил серого персонажа и решил, что всё в порядке. На визуальной задаче это решило исход.

GLM-5.2 от Z.ai — открытая модель под лицензией MIT. Её можно скачать и запустить локально или вызвать через API. Контекст — 1 миллион токенов, два уровня глубины мышления — High и Max. Цена: вход — $1.4 за миллион токенов, выход — $4.4. У Opus выход — $25, то есть GLM-5.2 дешевле в пять раз. Веса лежат на Hugging Face и ModelScope, региональных ограничений нет. Поднять можно на vLLM, SGLang или Transformers.

По бенчмаркам GLM-5.2 лидирует среди открытых моделей, но Opus удерживает большинство строчек по кодингу (SWE-bench Pro, NL2Repo, DeepSWE, SWE-Marathon) и агентным задачам (Tool-Decathlon, MCP-Atlas). По математике GLM-5.2 неожиданно силён: AIME 2026 — 99.2% (у Opus 95.7%), IMOAnswerBench — 91% (у Opus 83.5%). Саймон Уиллисон назвал её «вероятно, самой мощной текстовой открытой LLM». Artificial Analysis поставили GLM-5.2 на первое место среди открытых по Intelligence Index. Нейтан Ламберт отметил, что китайские лаборатории добиваются таких результатов на куда меньших вычислительных мощностях — это серьёзное достижение.

Итог: GLM-5.2 — genuinely сильная открытая модель. Для задач, где важны текст и логика (особенно длинные, многошаговые агентные сценарии), а цена имеет значение, она отличный выбор. Но там, где нужны визуальный контроль, аккуратность и «полировка», Opus всё ещё впереди. И главное: GLM-5.2 нельзя отозвать — веса у тебя на руках.