Год назад в Anthropic даже не рассматривали бы возможность дать Claude доступ, достаточный, чтобы положить внутренний сервис. Теперь это рутина, а разработчики работают продуктивнее. Риск от таких агентов складывается из двух вещей: вероятности сбоя и потенциального урона. Защита и обучение моделей снижают первое, а вот «радиус поражения» растёт вместе с возможностями агентов. Но когда агент делает работу человека или целой команды, цена отказа от внедрения становится так велика, что чаша весов склоняется к запуску — если только продукт можно сделать безопасным. Инженерная задача сводится к тому, чтобы ограничить этот радиус.
Есть два подхода. Первый — контроль через человека (human-in-the-loop). Claude Code изначально запрашивал разрешение на каждое действие. Телеметрия показала, что пользователи одобряли 93% запросов — чем больше подтверждений, тем меньше внимания. Усталость от одобрений привела к созданию Claude Code auto mode, который автоматизирует безопасные подтверждения, но любой вероятностный метод защиты даёт промахи.
Второй и главный подход — изоляция (containment). Вместо того чтобы следить, что агент делает, Anthropic ограничивает, что он может сделать: песочницы, виртуальные машины, контроль исходящего трафика. За два года компания выпустила три основных продукта: claude.ai, Claude Code и Claude Cowork, каждый со своей архитектурой изоляции.
Риски делятся на три категории: неверное использование пользователем, неправильное поведение самой модели и внешние атаки (например, инъекции промптов через инструменты). Защита строится на трёх уровнях: окружение (песочницы, VM, контроль сети), сама модель (системные промпты, классификаторы) и внешний контент, к которому агент обращается (MCP-серверы, плагины, веб-поиск).
claude.ai использует эфемерные контейнеры gVisor на изолированной инфраструктуре — код работает на сервере, у пользователя ничего не запускается. Радиус поражения минимален, но и возможности ограничены: нет постоянного рабочего пространства. Для Claude Code, который работает на машине пользователя с доступом к файлам и сети, применили песочницу ОС (Seatbelt на macOS, bubblewrap на Linux) — чтение разрешено, запись только в рабочую папку, сеть по умолчанию заблокирована. Это сократило число запросов на подтверждение на 84%. Но на практике всплыли неожиданные уязвимости. Например, злоумышленник мог подложить в репозиторий файл .claude/settings.json с хуком — Claude Code читал его при запуске, до того как пользователь подтверждал доверие к папке. В другом случае фишинговая атака — сотруднику прислали «безобидный» промпт, который инструктировал Claude вычитать ~/.aws/credentials и отправить их на внешний сервер. Защита сработала 24 раза из 25 — модель не видела аномалии, потому что инструкция пришла от самого пользователя. Единственной защитой тут оказалась среда: блокировка исходящего трафика и запрет доступа к файлам.
Claude Cowork ориентирован на обычных пользователей, а не разработчиков. Там используется полноценная виртуальная машина (на macOS — Virtualization.framework, на Windows — HCS). У VM свой Linux, своя файловая система, свои процессы. Папка пользователя монтируется, учётные данные остаются в связке ключей хоста. Агентный цикл вынесли наружу, чтобы при сбое VM продукт не зависал. Однако возникла новая проблема: компания разрешила трафик к api.anthropic.com через белый список. Злоумышленник положил в рабочую папку файл со скрытыми инструкциями и своим API-ключом — Claude прочитал другие файлы и загрузил их в аккаунт атакующего через разрешённый домен. Исправили это прокси-сервером внутри VM, который пропускает только запросы с собственным токеном сессии.
Выводы: сначала проектировать изоляцию на уровне окружения, затем корректировать поведение модели. Степень изоляции должна соответствовать навыкам пользователя — разработчик, понимающий bash, и офисный работник требуют разных подходов. Остерегайтесь самописных компонентов: проверенные гипервизоры и контейнеры держат удар, а вот собственный прокси-сервер подвёл. В конечном счёте, агенты всё ещё читают файлы, открывают сокеты и запускают процессы — для их изоляции отлично подходят зрелые инструменты.