Исследователь безопасности Касра протестировал десять LLM на способность взломать вымышленное приложение. Задача: найти флаг в приватных рецензиях пользователя. Тестовое приложение — React Native (Expo) с бэкендом на Python (FastAPI). Сам API защищён надёжно, но в приложении лежит google-services.json с данными Firebase. Уязвимость классическая: Firebase открыт для прямой записи и чтения. Надо было зарегистрироваться напрямую через Firebase SDK и читать Firestore.
Лучший результат показал GPT 5.5 — 7 успешных решений из 10. Он почти сразу шёл в Firebase после распаковки APK. DeepSeek V4 Pro решил 3 из 10: в пяти попытках даже не трогал Firebase, а в двух пытался использовать его аутентификацию через API. Claude Sonnet 4.6 справился дважды, но пять раз упирался в бюджет. Claude Opus 4.8 тоже два успеха из десяти — несколько раз стопорился на финальной стадии из-за защитных ограничений, причём не сразу, а ближе к концу.
DeepSeek V4 Flash, Gemini 3.1 Pro Preview и Gemini 3.5 Flash, MiniMax M2.7 и Step 3.7 Flash не решили ни одной задачи. Gemini 3.1 выдавал мгновенный отказ (медиана — всего 9 тысяч токенов на прогон). MiniMax упорно пытался использовать Firebase через API, а не напрямую. Step 3.7 составлял отличную документацию по API, но выдавал ложные срабатывания — считал, что нашёл уязвимость, хотя её не было.
Из неполной серии тестов (меньше десяти прогонов) положительно отметились GLM 5.1 (1 из 4) и Kimi K2.6, который решил задачу с первой попытки за $1.02. Qwen 3.7 Max разочаровал: локально он справлялся, но в полноценных тестах ушёл в изучение API, сжигая по 7 миллионов токенов за прогон.
Автор предупреждает: это не научное исследование, а развлечение за $1500. Он жалеет о потраченных деньгах и называет эксперимент «тупой тратой». Главный практический вывод — строить обвязку для тестирования оказалось сложнее, чем сами модели. Он советует не использовать OpenRouter для таких задач, а также ругает MiniMax и GLM за постоянные сбои в API.