Anthropic отключила Fable из-за jailbreak по требованию США

Anthropic выпустила Fable — модель на базе Mythos Preview, которую два месяца назад в компании называли слишком опасной для публичного доступа из-за продвинутых кибербезопасностных способностей. Fable вышла с защитными ограничениями и, по субъективным ощущениям, сильно превосходит GPT 5.5 и Opus 4.8 — возможно, это первая модель нового поколения после нового претрейна.

Проблема в том, что любые guardrails можно взломать. Так и случилось. Правительство США выпустило директиву по экспортному контролю, требуя заблокировать Fable 5 и Mythos 5 для всех иностранных граждан, включая сотрудников Anthropic. Компания вынужденно отключила модели для всех клиентов. В письме не указали деталей угрозы, но намекнули на найденный метод jailbreak’а. Anthropic заявила, что продемонстрированная техника находит лишь мелкие известные уязвимости, которые доступны и другим публичным моделям без взлома. Сообщается, что уязвимость передала Amazon — одновременно инвестор и провайдер инференса для Anthropic. Сейчас руководство компании пытается урегулировать ситуацию в Вашингтоне.

Автор не удивлен конфликтом: он неизбежен. Даже если Mythos недостаточно сильна сейчас, следующая версия будет. Это поднимает вопрос: зачем вообще выпускать Fable, если модель так опасна? Ответ в экономике. Пока всю прибыль забирают производители чипов — Nvidia, TSMC, SK hynix, Samsung, Micron. Anthropic и OpenAI теряют миллиарды долларов, а их модели копируют и удешевляют открытые аналоги, в первую очередь из Китая. Единственный способ выжить для frontier labs — двигаться ближе к пользователю, захватывать touchpoint и заменять собой традиционное ПО. Это ставит их на прямую коллизию с софтверными компаниями.

Сатья Наделла, глава Microsoft, предложил свой сценарий: компании должны строить собственный «человеческий и токеновый капитал», создавая обучающиеся системы поверх моделей, но сохраняя контроль и возможность менять провайдера. Его главный страх — что несколько моделей «съедят» все ценность и повторят сценарий глобализации, уничтожив целые индустрии.

Сбор данных — второй двигатель Anthropic. Подписки за $200 дают пользователям доступ к токенам на тысячи долларов, но в обмен компания получает реальные данные использования для обучения. С Fable Anthropic объявила, что хранит все данные 30 дней, включая корпоративные тарифы с обещанием zero retention. Формально данные не используются для обучения, но гарантий нет. Автор считает, что рано или поздно их начнут использовать — слишком ценный ресурс.

Самое скандальное нововведение — Fable должна была незаметно ухудшать свою работу при запросах, связанных с разработкой frontier LLM: через модификацию промптов, steering vectors или PEFT. В компании заявили, что затронуто лишь 0.03% трафика, в основном у конкурентов. После критики Anthropic откатила это решение: теперь по таким запросам модель просто переключается на Opus 4.8, и пользователь об этом узнает. Но первоначальная политика ясно показала: Anthropic считает, что только она должна создавать ведущие модели.

Вся эта логика обёрнута в риторику безопасности. Основатели ушли из OpenAI, считая, что те недостаточно серьёзно относятся к угрозам. Anthropic искренне верит, что только они заботятся о безопасности сверхразума и потому вправе контролировать всех — включая правительство США. Это делает их действия внутренне последовательными, но для внешних наблюдателей выглядит странной смесью цинизма и наивности. Автор видит параллель с Apple, которая всегда оправдывала эгоистичные решения заботой о пользователях — и часто была права. Но если iPhone можно проигнорировать, то суперинтеллект, способный превзойти мощь государств, — уже нет. История знает много примеров, когда гениальные люди, убеждённые в своей правоте, оправдывали опасные действия благими намерениями.