AI-прототип Thoughtworks нашел уязвимости — правила спасли 150 юзеров

Команда маркетинга Thoughtworks попыталась масштабировать прототип для сборки видео, собранный их же «citizen builder» с помощью Gemini, Replit AI и Claude AI. Прототип должен был работать на 10 000 сотрудников, но быстро выявил серьёзные дыры в безопасности.

AI предложил сделать облачное хранилище публичным, аргументируя это тем, что «так делают все». Только жёсткий отказ человека заставил модель предложить безопасную альтернативу. Второй случай — AI выдал сервисному аккаунту роль Access Token Creator, что давало доступ к базам данных и ресурсам, выходящим далеко за рамки задачи. Команда заметила это до запуска кода.

Проблема не единична. По данным 2026 года, 25% AI-сгенерированного кода содержит уязвимости, а каждая пятая утечка в enterprise вызвана таким кодом. 78% кодовых баз имеют критические уязвимости, а число атак на приложения выросло на 44% год к году.

Главный вывод: сказать AI-агенту «будь безопасным» недостаточно. Промпты можно переопределить, неверно истолковать или проигнорировать. Нужны детерминированные правила, которые работают как шлюзы. Инженер Thoughtworks Биргитта Бёклер описывает подход «harness engineering»: модели нужна внешняя обвязка из двух типов контролей. Guides (feedforward) предсказывают и предотвращают нежелательное поведение до того, как AI напишет код. Sensors (feedback) проверяют уже написанный код. Первые используют семантический анализ и промпты (inferential), вторые — быстрые детерминированные проверки вроде линтеров и SAST-сканеров (computational).

Команда внедрила два практических решения. Первое — security context file. Это версионированный файл с техническими правилами безопасности (zero trust, secrets management, целостность цепочки поставок), который загружается в каждую AI-сессию. Он заставляет агента отказываться от запросов вроде «сделай хранилище публичным». Второе — ежедневный security intelligence feed, который мониторит свежие CVE для стека технологий команды.

Ключевой сдвиг: вместо надежды на то, что человек заметит ошибку, правила теперь встроены в workflow. Детерминированные проверки (computational sensors) должны ловить проблему, даже если AI проигнорировал руководящие промпты. Итог — прототип для хакер-атона удалось довести до продакшена и развернуть на 150 пользователей без утечек.