Пять топовых LLM спорят по 67% запросов: 34%

Исследователи из Lenz Research провели эксперимент: взяли 1000 свежих реальных запросов от пользователей факт-чекинговой платформы Lenz и отдали их на проверку пяти топовым LLM — GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google), Gemini 3 Pro + Search (Google) и Sonar Pro (Perplexity). Никаких тестовых задачек с готовыми ответами — только реальные утверждения живых людей.

Результат: на 67% этих утверждений модели не смогли прийти к единому мнению. Хотя бы одна из них не соглашалась с большинством, или консенсуса не было вообще. Коэффициент согласия Криппендорфа (Krippendorff's α) для порядковой шкалы — 0.639. Это, скажем так, «что-то есть», но до слаженной работы панели судей далеко.

На 34% утверждений разногласия вышли за рамки простой калибровки: разрыв между вердиктами разных моделей составил две и более категории из четырёх. True против False — уже не нюанс, а принципиальный спор. При этом модели почти никогда не сходились в «серых» зонах. Из 328 единогласных решений только 4 пришлись на «Misleading» и ноль на «Mostly True». Модели либо дружно ошибаются в одну полярную сторону, либо расходятся в середине шкалы.

Попарная согласованность тоже хромает. Лучше всех ладят между собой версии Gemini 3 Pro и Gemini 3 Pro + Search (75% совпадений) — логично, база одна. А вот Claude Opus 4.7 и обе версии Gemini 3 Pro, а также Gemini 3 Pro и Sonar Pro замыкают список с результатом 53% совпадений.

Авторы подчёркивают: они не меряют «правильность», у них нет эталона. Но сам факт такого разброса — тревожный звоночек. Если вы строите систему на одном фронтирном LLM, вы наследуете все его расхождения с коллегами. Научный подход тут честный: без привлечения человеческих оценок — это просто замер разногласий, а не поиск истины. Человеческую разметку для этого же корпуса авторы пообещали в следующем исследовании.

Пять топовых LLM спорят по 67% запросов: 34% — принципиальный спор