Современные CAPTCHA сломаны — нейросети легко распознают на картинках светофоры и гидранты. Но это не значит, что тест бесполезен. Оказывается, AI решает CAPTCHA не так, как люди. Разница не в результате (и те, и другие справляются одинаково), а в процессе: паттерны кликов, траектория движения мыши, количество лишних нажатий — всё это статистически отличается.
Исследователи пошли дальше и предложили CogCAPTCHA30 — батарею из 30 задач: классическая CAPTCHA плюс 29 тестов из когнитивной психологии (на память, восприятие, принятие решений). Они собрали данные от людей и от AI-агентов и сравнили их. Выяснилось: сходство по результатам (output) никак не связано со сходством по процессу (process). Поэтому они придумали Process Turing Test — модификацию теста Тьюринга, где судья смотрит не на то, что делает испытуемый, а как.
Сравнили разные модели: OpenAI's GPT, Anthropic's Claude, Google DeepMind's Gemini (фронт-энд), а также маленькую открытую Qwen (1.5B параметров) и Centaur (70B, специально учили на данных человека). Ироничный результат: большие модели (Claude, GPT, Gemini) менее похожи на человека по процессу, чем маленькая Qwen. А Centaur — самый человекообразный, потому что его долго дообучали на 10+ миллионах человеческих выборок. Вывод: чем мощнее AI, тем он не обязательно человечнее.
Но главный вопрос — насколько этот тест устойчив к атакам. Если злоумышленник узнает, по каким признакам его оценивают, он сможет под них подстроиться. Исследователи проверили: они взяли модель Qwen2.5 Instruct и дообучили её (P-SFT — process-level fine-tuning), дав полную информацию о том, как работает дискриминатор. Разрыв между человеком и машиной исчез. Но как только часть признаков убрали или попросили модель обобщить на новые задачи — разрыв вернулся. Значит, Process Turing Test устойчив, если AI не знает, как именно его будут проверять.
Главный вывод: CAPTCHA и одноразовые проверки (пароли, документы) — прошлый век. Проверка процесса, то есть моделирование всей человеческой когнитивной психологии, — задача на порядок сложнее. И пока что AI не может её имитировать, если не знать точных критериев оценки. Так что человеческая проверка становится игрой в кошки-мышки, где у людей пока есть преимущество.