США сняли блокировку Claude Fable 5 — Anthropic обучила классификатор

12 июня правительство США ввело экспортные ограничения на новые модели Anthropic — Claude Fable 5 и Claude Mythos 5. Предписание вступило в силу немедленно, и у компании не было надёжного способа проверять гражданство в реальном времени, поэтому доступ к обеим моделям приостановили для всех пользователей. 30 июня ограничения сняли. С 1 июля Fable 5 снова доступна глобально на Claude Platform, Claude.ai, Claude Code и Claude Cowork. Mythos 5 пока вернули только ограниченному кругу американских организаций в программе Glasswing.

Причина экспортного контроля — отчёт исследователей из Amazon. Они нашли способ обойти защиту Fable 5: с помощью особого промпта модель идентифицировала несколько уязвимостей в софте и в одном случае сгенерировала код с демонстрацией эксплуатации. Anthropic проверила и выяснила, что те же уязвимости находят многие менее мощные модели (Claude Opus 4.8, GPT-5.5, Kimi K2.7), а код эксплуатации воспроизводит вообще любая популярная модель, включая Claude Haiku 4.5 и GPT-5.4. То есть байпас не раскрыл уникальных возможностей Mythos — поведение находилось на границе срабатывания защитных классификаторов Fable 5.

Anthropic оперативно обучила новый классификатор безопасности, который блокирует конкретную технику из отчёта Amazon более чем в 99% случаев. Цена — выросло число ложных срабатываний на обычных запросах вроде рутинного кодинга. Компания продолжит донастройку, чтобы уменьшить число ложных блокировок.

В статье Anthropic предлагает общую для индустрии схему оценки серьёзности джейлбрейков. Сейчас нет единого стандарта — каждый разработчик и правительство интерпретируют угрозу по-своему. Anthropic совместно с Amazon, Microsoft, Google и другими партнёрами по Glasswing разрабатывает фреймворк с четырьмя критериями: прирост возможностей (насколько байпас превосходит существующие инструменты), ширина (сколько разных задач закрывает одна техника), лёгкость превращения в атаку и обнаруживаемость (насколько сложно найти описание метода). Для самых опасных случаев компания создаёт круглосуточную команду мониторинга.

Параллельно Anthropic углубляет сотрудничество с правительством США. Компания обещает предоставлять ранний доступ к передовым моделям для независимых тестов, оперативно делиться информацией о значимых байпасах и выделять вычислительные ресурсы для совместных исследований. Цель — выработать системные добровольные стандарты для всех разработчиков frontier-моделей и закрепить их в регулировании.