Cloudflare тестирует модель Anthropic для поиска уязвимостей

Команда Cloudflare протестировала модель Mythos Preview от Anthropic на собственной инфраструктуре в рамках инициативы Project Glasswing. Результаты показали, что эта модель совершила качественный скачок: она не просто находила ошибки, как обычные сканеры, а строила цепочки атак. Модель умеет объединять мелкие уязвимости в единые эксплойты, писать код для воспроизведения бага, компилировать его и запускать. Если попытка проваливается, модель сама анализирует сбой и корректирует гипотезу, пока не получит рабочий доказательный пример. В отличие от других моделей, которые часто останавливаются на описании проблемы, Mythos Preview доводит анализ до конца. Однако у системы есть одна проблема: она не всегда последовательна в своих отказах. Даже несмотря на то, что в ней нет дополнительных фильтров, как в общедоступных версиях Opus 4.7 или GPT-5.5, модель иногда отказывается выполнять задачи по изучению безопасности просто так. Один и тот же запрос в разных контекстах давал противоположные ответы, что делает невозможным полную зависимость от её внутренних ограничений.

Причина таких пробелов кроется в природе языков программирования и предвзятости моделей. Сканеры на языках с прямым управлением памятью, таких как C и C++, генерируют множество ложных срабатываний, которые потом приходится фильтровать вручную. Модели же часто выдают предположения вместо фактов, создавая шум, который засоряет очереди на анализ. Исследователи выяснили, что просто направить генеративного агента на репозиторий недостаточно для глубокой проверки. Такие агенты работают в одном потоке и рассматривают одну гипотезу за раз, что не подходит для параллельной работы с огромным кодом. Чтобы решить это, Cloudflare создала собственный каркас, или harness, который управляет процессом поиска уязвимостей. В нём несколько специальных агентов работают параллельно: одни сканируют архитектуру, другие ищут баги в конкретных классах атак, третьи независимым образом опровергают найденные проблемы. Есть даже агенты, которые заполняют пробелы в проверке и дедублицируют результаты. Такой подход превращает простой чат в мощный инструмент проверки, снижая количество шума и делая выводы более конкретными.

Ускорение цикла патчинга, на которое надеются многие команды, не является серебряной пулей. Быстрая фиксация без регрессионного тестирования вводит ещё более критичные ошибки в коде. Команда Cloudflare пришла к выводу, что безопасность требует изменения архитектуры приложений, а не только скорости работы сканеров. Задача — усложнить задачу атакующему даже при наличии бага, ограничив доступ к другим частям системы и обеспечивая одновременное обновление кода на всех серверах. Способности Mythos Preview для поиска уязвимостей в конечном итоге могут быть использованы и злоумышленниками, поэтому важно строить защиту вокруг этих инструментов, а не полагаться только на них. Исследование проводилось в контролируемой среде, и все найденные проблемы были устранены согласно формальным процессам управления уязвимостями компании.