Scaling laws: Kaplan vs Chinchilla — чьи цифры верны

Scaling laws — одно из важнейших эмпирических открытий в глубоком обучении. Суть проста: loss предсказуемо падает по степенному закону при увеличении размера модели (N), объёма данных (D) и затраченных вычислений (C) (приближённо (C \approx 6ND)). Это позволяет запустить несколько мелких экспериментов, подогнать кривую и экстраполировать требования к токенам и FLOPs для гораздо более крупных моделей.

Ещё до того, как scaling laws стали мейнстримом, Амари с коллегами в 1992 году вывели четыре типа кривых обучения для простой бинарной классификации — все они ложились на степенной закон. Хестнесс и соавторы в 2017 году подтвердили это эмпирически на четырёх разных доменах (машинный перевод, классификация изображений, языковое моделирование, распознавание речи) и заметили, что архитектура меняет сдвиг кривой, но не её наклон. Розенфельд с коллегами в 2020-м пошли дальше и построили параметрическую модель, объединяющую зависимость error от (N) и (D) — её можно подогнать на маленьких конфигурациях и экстраполировать на большие.

Каплан и соавторы в 2020 году популяризировали scaling laws для языковых моделей. Их ключевой и спорный вывод: оптимальный размер модели должен расти быстрее объёма данных ((N_\text{opt} \propto C^{0.73})). То есть при увеличении бюджета в 10 раз модель нужно увеличивать в 5,5 раз, а токены — лишь в 1,8.

Chinchilla paper (Хоффманн и соавторы, 2022) опровергла этот тезис. На 400 экспериментах с моделями от 70M до 16B параметров и токенами до 500B они тремя независимыми методами показали: (N_\text{opt} \propto C^{0.5}). Иными словами, на каждое удвоение модели должно приходиться удвоение токенов. Демонстрация: Chinchilla (70B, 1.4T токенов) при том же бюджете, что у Gopher (280B, 300B токенов), обошла его по всем метрикам.

Расхождение с Kaplan объясняют две вещи. Во-первых, Каплан экспериментировал на мелких моделях, а Chinchilla — на порядок крупнее, и экстраполяция чувствительна к области подгонки. Во-вторых, разный учёт embedding parameters. Пирс и Сонг (2024) показали, что если пересчитать данные Kaplan с поправкой на эмбеддинги, локальный показатель степени в той области совпадает с коэффициентом Каплана 0,73, а на больших масштабах сходится к 0,5.

Отдельная проблема — нехватка уникальных качественных данных. Мюннихофф и соавторы (2023) на 400 экспериментах выяснили, что полезность повторяющегося токена затухает экспоненциально. Лавлейс и соавторы (2026) добавили явный штраф за переобучение, который растёт с числом эпох и отношением (N/U_D).

Наконец, подгонка scaling laws на практике капризна. Бесироглу и соавторы (2024) перепроверили данные Chinchilla и нашли ошибки в методе 3: из-за неправильного усреднения Huber loss и преждевременной остановки L-BFGS оценки оказались смещёнными. Мелочи вроде точности loss или выбора диапазона подгонки способны сильно изменить прогноз для моделей на порядки крупнее.