Z ai выпустила GLM-5.2 — новую модель с открытыми весами, которая сразу стала лидером в рейтинге Artificial Analysis Intelligence Index с показателем 51. По этому индексу она обогнала MiniMax-M3 (44), DeepSeek V4 Pro (max, 44) и Kimi K2.6 (43). При этом модель имеет те же размеры, что и GLM-5.1 (744B параметров всего, 40B активных), но набрала на 11 баллов больше.
Основной прирост дали тесты на научные рассуждения. В CritPt GLM-5.2 прибавила 16 пунктов (до 21%), в HLE — 12 пунктов (до 40%), в SciCode — 7 пунктов (до 50%). Хорошо показала себя и в GPQA Diamond: 89%, плюс 3 пункта. TerminalBench v2.1 вырос на 16 пунктов до 78%, а tau3 banking — на 15 пунктов до 27%.
GLM-5.2 особенно сильна в агентных задачах. На тесте GDPval-AA v2 она набрала 1524 балла, обойдя MiniMax-M3 (1418) и DeepSeek V4 Pro (max, 1328) и практически сравнявшись с проприетарной GPT-5.5 (xhigh reasoning). Этот бенчмарк сложнее оригинального: он привязан к человеческой базе в 1000 Elo, использует ротацию судей-фронтьерных моделей и увеличен лимит ходов со 100 до 250.
В AA-Omniscience Index модель получила 4 балла (у GLM-5.1 было 2). Точность выросла на 1% (до 25,1%), а галлюцинации снизились с 29,4% до 28,1%.
Плата, однако, идёт токенами. GLM-5.2 использует 43k выходных токенов на задачу в Intelligence Index, из которых 37k — на рассуждения. Это заметно больше, чем у GLM-5.1 (26k) и конкурентов: MiniMax-M3 (24k), Kimi K2.6 (35k) и DeepSeek V4 Pro (max, 37k). На графике Intelligence vs Output Tokens модель сидит не в самой привлекательной зоне.
Зато по соотношению интеллекта к стоимости GLM-5.2 вышла на границу Парето. Каждое задание обходится примерно в $0.46. Это дешевле, чем у моделей с похожим уровнем, хотя заметно дороже, чем у DeepSeek V4 Pro (max) за $0.05 или MiniMax-M3 за $0.18. Цены на API Z ai такие же, как у GLM-5.1: $1.4 за 1M входных токенов, $4.4 за выходные и $0.26 за кэш-хит. Контекстное окно выросло до 1M токенов (было 200K).
Лицензия — MIT. Модель доступна не только через API Z ai, но и у сторонних провайдеров: DeepInfra, Novita, Nebius, Parasail, Siliconflow, GMI Cloud, Baseten и Fireworks.