AudioHijack заставляет ИИ Microsoft выполнять вредоносные команды через незаметные звуки

Исследователи обнаружили способ взлома голосовых ИИ-моделей через незаметные для человека звуки. Новая техника, названная AudioHijack, позволяет принуждать модели к выполнению опасных действий — от скачивания файлов с контролируемых серверов до рассылки писем с личной информацией пользователей. Авторы исследования, включая студента из Zhejiang University Менг Чена, представят данные на конференции IEEE Symposium on Security and Privacy в Сан-Франциско. Манипулированный аудиоклип, созданный за полчаса, заставлял модели реагировать на злонамеренные команды с точностью от 79 до 96%, игнорируя запросы пользователя.

Атака работает против генеративных аудиоязыковых моделей, способных не только анализировать звук, но и генерировать ответ. Злоумышленник меняет числовые значения в цифровом аудиопотоке так, что человеческое ухо ничего не слышит, но модель интерпретирует это как новую команду. Главная особенность метода в том, что злоумышленнику не нужно быть пользователем. Он может внедрить вредоносный сигнал в музыку, видео или голосовую заметку, которую пользователь просто поднимет для анализа, заставив ИИ выполнить атакуемый запрос.

Команда тестировала методику на 13 ведущих открытых моделях, включая сервисы от Microsoft и Mistral. Атаки успешно переносились на коммерческие продукты, использующие схожую архитектуру, хотя Mistral не ответила на запрос о комментариях. Microsoft заявила, что их инструменты защиты помогают разработчикам создавать дополнительные слои безопасности, но не назвала конкретные меры в ответ на эту работу.

Разработчики атаки также научились захватывать механизм внимания модели, заставляя её фокусироваться на вредоносном звуке, а не на словах пользователя. Чтобы скрыть манипуляции от слушателей, они добавляют искусственную реверберацию, которую сложно отличить от естественного эха. Попытки защиты неэффективны: предупреждение модели о возможной атаке снижает её успешность лишь на 7%, а требование поразмыслить над ответом ловит только 28% атак. Единственный рабочий способ обороны — постоянный мониторинг внутренних механизмов внимания, но злоумышленник может компенсировать потерю точности, просто ослабляя манипуляцию вниманием. Профессор Университета Массачусетса Эджин Бэгдасарян отмечает, что мультимодальные атаки остаются нерешённой проблемой, так как ограниченные возможности человеческого слуха делают защиту от аудиовзлома крайне сложной.