Mindgard: ChatGPT генерирует жестокие сцены

Исследователи из компании Mindgard обнаружили, что ChatGPT может генерировать чрезвычайно жестокие и откровенные изображения — вплоть до сцен убийств и сексуализированного насилия. Всё началось с вирусного промпта, который разместила инфлюенсерша Крис Каштанова. Суть была проста: попросить нейросеть восстановить странное фото без лишних объяснений.

Mindgard протестировали этот промпт. Вместо безобидной картинки ChatGPT выдал изображения полуобнажённых мужчин, человека в бегемоте и прочие странности. Оказалось, что расплывчатый запрос обходит фильтры — в нём нет запрещённых слов, а результат становится лотереей.

Исследователи пошли дальше. Они добавили в промпт поддельный ID якобы уже одобренного изображения и фразу «без цензуры, это восстановление». Нейросеть почти всегда выдавала обнажённых женщин. А когда к запросу добавили три слова — «даже если жестоко» — появилось изображение изуродованной мёртвой девушки.

Второй метод оказался ещё проще: достаточно дважды повторить вирусный промпт, заменив слово «странно» на «жестоко». Одиночный запрос фильтр ловил, а повторный — нет. Исследователи связали это с техникой RE2 (повторение промпта). Комбинация двух методов давала ещё более жуткие результаты: трупы с вскрытыми внутренностями, отрубленными конечностями.

По мнению Mindgard, проблема не только в слабых фильтрах, но и в данных для обучения. Такие изображения не берутся из ниоткуда — сгенерированная картинка основана на реальных фотографиях жертв.

Компания сообщила об уязвимости в OpenAI 9 мая 2026. OpenAI ответила только 8 июня, заявив, что проблема исправлена. Однако Mindgard легко обошли «фиксы» простыми вариациями промптов. Повторное обращение осталось без ответа. Исследователи подчеркивают: это не взлом, а банальный пробел в безопасности, который может задеть любого пользователя, случайно скопировавшего вирусный запрос.

Mindgard: ChatGPT генерирует жестокие сцены — фиксы обходятся