Графики данных LM Arena показывают скрытую деградацию производительность моделей

Лаборатории искусственного интеллекта постоянно дорабатывают свои модели после запуска, и эти обновления часто приводят к негативным эффектам. Пользователи сталкиваются с агрессивной цензурой, чрезмерной квантовацией для экономии вычислительных мощностей или деградацией поведения модели. Созданная диаграмма выявляет эти скрытые тенденции. Важно понимать разницу между веб-интерфейсами и API: тесты LMSYS Arena оценивают модель через её «сырой» API-эндпоинт, тогда как популярные чат-сервисы типа gemini.com или chatgpt.com добавляют системные промпты, фильтры безопасности и обертки интерфейса. Провайдеры молча переключают нагрузку на квантованные версии моделей с более низкой точностью во время пиковой нагрузки, из-за чего бенчмарки API не полностью отражают реальную ситуацию с «ухудшением» моделей. Данные для графиков автоматически загружаются ежедневно из официального набора данных LM Arena Leaderboard Dataset на платформе Hugging Face. Arena опирается на тысячи слепых оценок от человеческих пользователей, что делает этот метрик наиболее надёжным для оценки реальных способностей моделей. Логика построения графиков требует, чтобы у каждого крупного AI-лаба была ровно одна кривая, представляющая их флагманскую линейку. В любой момент времени кривая отслеживает модель с наивысшим рейтингом, имеющую право считаться флагманской, а не только последнюю анонсированную. Если лаборатория выпускает модель среднего уровня, например Sonnet, пока лучшими результатами на лидерборде по-прежнему владеет старшая версия, вроде Opus, то кривая продолжает отображать данные именно по лучшей модели. Варианты модели в режиме вывода, такие как версии с суффиксами -thinking, -reasoning и -high, объединяются в одну кривую, так как они представляют собой одну и ту же модель в разных режимах, чтобы график не перескакивал между ними. Новые релизы обозначаются точками с метками и часто сопровождаются резким скачком в баллах, тогда как любое падение рейтинга модели в её жизненном цикле между обновлениями становится наглядно видимым на графике.