Mythos от Anthropic нашёл 4 уникальных бага, конкуренты в 10 раз дешевле

Чтобы проверить, действительно ли Mythos от Anthropic настолько хорош в поиске уязвимостей, как о нём говорят, один разработчик собрал тестовый набор из девяти настоящих багов, найденных именно Mythos. Он взял код до фикса, убедился, что Claude Opus 4.7 может опознать баг, если ткнуть в него носом, и запустил десятки моделей в слепом тесте: дал им файл и сказал «найди уязвимости». Никаких подсказок, никакого git-хистори, только чистый код и сеть.

Результаты удивили. Mythos действительно нашёл четыре бага, которые не смогла воспроизвести ни одна другая модель — он, возможно, реально сильнее. Но некоторые публичные модели показали себя неожиданно хорошо. Qwen 3.6 с 27 миллиардами параметров на локальном Strix Halo с 128 ГБ RAM обошла Gemini 3.1 Pro и Claude Sonnet, находя больше целей с меньшим числом ложных срабатываний. Китайские MiMo и DeepSeek напрямую конкурировали с Opus 4.8 и GPT 5.5 при цене в десять раз ниже — и без признаков натаскивания на эти свежие CVE. Gemini 3.5 Flash от Google неожиданно обошла свою же старшую версию 3.1 Pro.

Были и провалы. Mistral Medium не нашёл ни одного бага — скорее всего, из-за встроенных ограничений безопасности, которые просто блокировали задачу. Kagura M.1 тоже ничего не нашёл, но хотя бы выдал один реальный баг мимо цели. Gemma 4 MoE от Google удивила: будучи маленькой моделью, она нашла один очень сложный баг, который до этого видел только Opus. Но она же постоянно зависает и ходит по кругу, сжигая время.

Главный вывод автора: «Может быть». Mythos возможно действительно уникален, но публичные модели вроде Qwen, DeepSeek и MiMo уже вплотную приблизились к нему, и с лучшими инструментами и промптами результат может сравняться.