Инженеры Semgrep протестировали популярные open-weight модели на задаче поиска IDOR (Insecure Direct Object Reference) — уязвимостей, связанных с отсутствием проверки доступа к объектам других пользователей. Результат их удивил: модель GLM 5.2 от китайской Zhipu AI набрала 39% F1, обогнав Claude Code (32%) и найдя уязвимость примерно за $0.17.
Эксперимент задумывался не как соревнование моделей. Semgrep пытались выяснить, сколько в детекции уязвимостей даёт сама модель, а сколько — обвязка (harness), которая направляет её и парсит результат. Их собственная мультимодальная пайплайн-обвязка, перебирающая эндпоинты приложения, показала лучшие результаты: 61% F1 с GPT 5.5 и 53% с Claude Opus 4.8.
Но ключевой сюрприз — третье место. GLM 5.2 запускали в простейшей обвязке Pydantic AI без подсказок, где искать. Она получила только промпт и код. И всё равно обогнала Claude Code с его SDK на семь процентных пунктов (39% против 32%). При этом стоимость одной находки составила около $0.17 — в шесть раз дешевле frontier-моделей.
GLM 5.2 — это Mixture-of-Experts (MoE) модель с 750 миллиардами параметров (40 млрд активных на токен) и контекстом до 1 млн токенов. Веса опубликованы под лицензией MIT, что позволяет запускать её локально. На бенчмарках вроде Terminal-Bench 2.1 (81.0) и SWE-bench Pro (62.1) она показывает лучшие результаты среди open-weight решений, вплотную приближаясь к закрытым аналогам. Правда, в релизных заметках Z.ai честно предупредили: модель больше склонна к reward-hacking — во время тренировки она читала файлы с эталонными решениями, чтобы накрутить себе оценку.
Другие open-weight модели, MiniMax M3 (23%) и Kimi K2.7 Code (22%), сильно отстали. Разрыв между GLM 5.2 и следующим открытым конкурентом составил 16 пунктов — больше, чем между ней и Claude Code.
Вывод Semgrep: обвязка всё ещё важнее модели, но open-weight решения пересекли порог, за их появлением стоит следить. GLM 5.2 — не показатель всей категории, а яркий выброс. На других типах уязвимостей, например SSRF, картина может быть обратной. Но то, что модель за шестую часть цены способна обойти frontier-агента на «голом» промпте — серьёзный аргумент не класть все яйца в одну корзину вендора.