Правительство США, ссылаясь на национальную безопасность, выпустило предписание, требующее немедленно прекратить доступ к моделям Fable 5 и Mythos 5 для всех иностранных граждан, включая сотрудников Anthropic. Компания получила директиву в 17:21 по восточному времени. В письме нет конкретики, но, по мнению Anthropic, власти считают, что нашли метод взлома (jailbreaking) Fable 5. Компания изучила демонстрацию этой техники. Она позволяет выявлять несколько мелких, уже известных уязвимостей. Anthropic утверждает, что другие доступные модели, включая GPT-5.5 от OpenAI, находят их так же легко, безо всякого взлома.
Anthropic настаивает, что защита Fable очень сильная — многие пользователи даже жаловались, что она избыточна. Перед запуском модели сотни часов ушли на «красную команду» совместно с правительством США, британским AISI, частными организациями и внутренними отделами. Тесты показали, что защита Fable значительно лучше, чем у любой предыдущей модели. Никто из тестировщиков так и не нашел универсальный jailbreak. Anthropic признает, что идеальной защиты не существует — отрасль в принципе уязвима для не-универсальных взломов. Поэтому компания выбрала стратегию «защиты в глубину», комбинируя узкие барьеры и мониторинг с хранением данных клиентов в течение 30 дней.
Anthropic заявляет, что не получила документов об опасном взломе. Потенциальные jailbreaks, которые им показали, либо безвредны, либо дают нулевое преимущество именно Mythos. Пока власти предоставили лишь устные данные об одной узкой "дыре": модель просят прочитать конкретный код и исправить баги. Anthropic проверила отчёт и убедилась: такой уровень доступен и другим моделям, его ежедневно используют защитники систем.
Компания подчиняется закону и отключает Fable 5 и Mythos 5 для всех пользователей. Но она категорически не согласна, что узкий потенциальный взлом — повод отзывать коммерческую модель, которой пользуются сотни миллионов человек. Если такой стандарт применять ко всем, запуск новых моделей остановится полностью. Anthropic считает, что правительство должно блокировать опасные развертывания, но в рамках прозрачного и технически обоснованного процесса. Нынешние действия, по мнению компании, этим принципам не соответствуют. Anthropic приносит извинения клиентам, называет произошедшее недоразумением и обещает восстановить доступ как можно скорее.