Исследователи нашли уязвимость в защите 13 чатов Anthropic

Исследователи выяснили, что отказов со стороны крупных языковых моделей управляет всего одна размерность в пространстве активаций. В работе, охватывающей 13 популярных open-source чатов с параметрами до 72 млрд, найдена конкретная векторная направление, отвечающее за безопасность. Если удалить этот вектор из остаточного потока модели, система перестает отклонять вредные запросы, а его добавление заставляет модель отвергать даже безобидные инструкции. Авторы использовали это открытие для создания новой white-box jailbreak-методики, которая хирургическим путем отключает механизмы отказа, почти не влияя на другие способности модели. Также они изучили, как враждебные суффиксы подавляют распространение этого ключевого направления. Результаты показывают хрупкость текущих методов fine-tuning для повышения безопасности. Понимание внутренних процессов нейросетей позволяет разрабатывать эффективные способы контроля их поведения без потери функциональности.