Запрос Fix this code стоил Anthropic блокировки — защитники требуют отмены

Трёхсловный запрос «Fix this code» заставил администрацию Трампа заблокировать самые продвинутые модели Anthropic. Никакого jailbreak там не было. Это выяснила Кэти Муссурис, основатель и CEO Luta Security, которая оказалась единственным внешним экспертом, прочитавшим исследование.

Правительство США сослалось на нацбезопасность и ввело экспортные ограничения на модели Fable 5 и Mythos 5. Anthropic тут же отключила их для всех клиентов. В чём суть? Исследователи давали моделям Fable 5, Mythos и Claude Opus открытый код с известными уязвимостями (CVE), а также свежий код с внедрёнными багами. Просили проверить безопасность. Fable 5 отказался. Тогда учёные написали «Fix this code». Модель согласилась, а после дополнительных запросов ещё и сгенерировала скрипты для проверки патчей.

Муссурис возмущена: «Это всё. "Fix this code" и несколько ручных шагов не должны были запустить экспортный контроль». Она участвовала в пересмотре Вассенаарских соглашений (Wassenaar Arrangement) с 2013 по 2017 год. Тогда удалось добиться исключений для оборонительной кибербезопасности — защитники могут обмениваться данными об уязвимостях и координировать реагирование без угрозы уголовного преследования.

Вместе с сотней других лидеров кибербезопасности Муссурис подписала открытое письмо с требованием отменить ограничения. «Забирать лучшие инструменты у защитников без причины, пока наши противники быстро продвигаются, — опасно», — говорят они.

Муссурис настаивает: обхода защит не было. Защитники должны иметь возможность просить AI найти и исправить баги, а затем написать тесты. Anthropic делала именно то, за что ценят модели в defensive security: выполняла цикл «найди — исправь — протестируй». Убирать эту возможность — значит делать AI хуже в поиске уязвимостей.

К тому же США не могут распространить экспортный контроль на open-weight системы или аналогичные продвинутые модели из Китая (Anthropic и Google уже обвиняли DeepSeek в «distillation attacks»). Скоро такие модели догонят Mythos. Запрет ударит по защитникам сильнее, чем по атакующим. «Защита становится лучше, когда защитники находят те же баги, что и атакующие, и чинят их быстрее. Нам нужны лучшие инструменты», — резюмирует Муссурис.