Ученые Diffusion Group ускорили обучение модели в пять раз

Ученые из Diffusion Group при Стэнфорде предложили радикально новую теорию глубокого обучения, объясняющую феномен «благотворного переобучения», когда нейросети идеально запоминают обучающие данные с шумом, но при этом отлично обобщаются на тестах. Вместо привычного анализа пространства параметров, где миллиарды весов становятся неуправляемым хаосом, команда предлагает рассматривать сеть как динамическую систему в пространстве выходов. Весь тренинг сводится к тому, как поток ошибок распространяется и затухает. Ключевым объектом здесь выступает эмпирическое ядро нейронных касательных (eNTK), которое описывает, как шаг градиента в одной точке влияет на предсказание в другой. Теория разделяет все данные на два компонента: сигнал-канал, куда попадают полезные закономерности, и резервуар, куда устремляется шум. Градиентный спуск первым выхватывает из резервуара быстрый сигнал, а медленный шум остаётся там надолго. Когда модель достигает порога интерполяции, она полностью запоминает обучающую выборку, включая шум, но тестовые примеры всё равно работают хорошо, потому что шум физически скрыт в инертном резервуаре и не может повлиять на предсказания. Это объясняет двойное спускание ошибки: пик на пороге интерполяции возникает, когда шум мигрирует в сигнал-канал, после чего он снова уходит обратно. Явление гроккинга, или внезапного обобщения через миллионы шагов, — это просто медленное перетекание полезного сигнала из резервуара в сигнал-канал по мере эволюции ядра. Теория также вводит оператор передачи на тест, который исчезает на любых направлениях резервуара, гарантируя, что забытые детали не повлияют на результат. На основе этих формул исследователи вывели простой правило обновления параметров: меняй вес только если сигнал в батче превосходит шумLeave-one-out. Такой алгоритм ускоряет гроккинг в пять раз и убирает необходимость в валидационных наборах, позволяя тренировать сети напрямую на популяционном риске. В будущем это открывает путь к созданию компактных моделей, которые, подобно идеальным устройствам, будут отсеивать шум ещё на этапе архитектуры, не требуя гигантских вычислительных мощностей.