Независимые eval-стартапы почти всегда прогорают

Независимые eval-стартапы почти никогда не выживают. Кроме тех, что занимаются safety evals. С остальными — три проблемы. Первая: талантливые исследователи уходят из eval в другие части стека. Там больше денег и влияния. Собрать качественные данные для eval — сложно, но для post-training нужно в тысячи раз больше лейблов. Отдача от хорошего post-training — миллиарды долларов, от eval — максимум цена контракта. Умные люди это понимают и уходят. Например, трое инженеров бросили Epoch AI, где оценивали агентов, и запустили стартап по post-training для них.

Вторая проблема — клиентов почти нет. Eval-стартапы хотят продавать разработчикам. Но разработчик, который понимает разницу между 10% на AIME 2024 и разными моделями, легко запустит eval сам. А тот, кто не понимает разницы между GPT 4o и GPT 4.1, хочет готовое решение, а не инструмент для сравнения. Он не будет разбираться в ELO. Рынок оказывается крошечным, даже при росте спроса на AI.

Третья — большие лаборатории активно натаскивают модели на публичные бенчмарки. Они полируют результаты, подбирают варианты, иногда просто тренируются на тестовых данных — Meta так делала с Llama 1, и ходят слухи про Llama 4. На LMSys Chatbot Arena каждая новая модель оказывается на вершине. Недавний отчёт Cohere утверждает, что Meta протестировала 27 вариантов Llama 4, прежде чем выпустить одну. А рекламировали версию, оптимизированную под Chatbot Arena, — в релизе результаты оказались провальными. Goodhart’s Law: когда метрика становится целью, она перестаёт быть полезной.

Safety evals — исключение. Исследователи, работающие над безопасностью, часто идеологически не хотят заниматься capabilites, поэтому не уходят. Им нужна внешняя независимая проверка — заказчики могут быть техническими, но внешний аудит важен по сути. Плюс регуляторы могут обязать проводить такие eval. Goodharting тут тоже возможен, но если лаборатории натаскивают модели на safety evals — это повод беспокоиться о другом.

Дополнительно: продавать eval и продавать инструменты для eval — принципиально разный бизнес. LM Arena (организация за Chatbot Arena) привлекла $100 млн seed — больше, чем Mistral в свой seed-раунд. Но у них миллионы волонтёров, которые размечают бесплатно. Деньги, скорее всего, пойдут на дополнительные сервисы — софт или доступ к потокам данных, а не на сами eval как бизнес.

Независимые eval-стартапы почти всегда прогорают — кроме safety evals