Anthropic Fable с жёсткими guardrails бесит экспертов

Anthropic выпустила новую модель Fable — публичную и урезанную версию нашумевшего cybersecurity-моделя Mythos. Но исследователи безопасности встретили её в штыки. Валентина «Chompie» Пальмиотти, известный security-исследователь из IBM X-Force, жалуется, что Fable отклоняет любой запрос, который хоть как-то связан с кибербезопасностью — даже безобидное чтение блога. Если срабатывают guardrails, чат ставится на паузу с сообщением, что «меры безопасности заблокировали это сообщение из-за темы кибербезопасности или биологии».

Ограничения поставили, чтобы модель не использовали для создания малвари или взлома софта — давняя головная боль Anthropic. Биологические темы закрыли из-за рисков разработки биооружия. Когда в апреле вышел Mythos, доступ к нему дали ограниченному кругу компаний в рамках Project Glasswing — инициативы по защите критической инфраструктуры. На прошлой неделе Anthropic расширила доступ до сотен организаций из 15 стран.

Но, несмотря на благие намерения, эксперты недовольны. Мэтт Суиш, ветеран кибербезопасности, объяснил TechCrunch: попроси модель написать безопасный код — она решит, что это cybersecurity-задача, и понизит качество ответа. Если Fable упирается в guardrails, она откатывается к Claude Opus 4.8. По словам Суиша, блокировка работает на ключевых словах — лексическое поле «cybersecurity» триггерит защиту.

Суиш, который работает в AI-стартапе Tolmo, считает, что на ранней стадии это объяснимо: guardrails будут со временем адаптироваться. «Лучше поймать больше людей, чем太少, и потом ослаблять ограничения», — говорит он. Другой исследователь в X возмутился, что даже просьба провести code review вызывает блокировку. Anthropic на запрос о комментарии не ответила.

Отдельно у Anthropic есть Cyber Verification Program — для профессионалов, которые после одобрения получают меньше ограничений на Claude для работы с безопасностью. Похожая программа есть у OpenAI — Trusted Access for Cyber.