Centaur: гибрид LLM и CMA-ES обошел классику и чистые LLM

Исследователи из группы Фабио Феррейры опубликовали работу, в которой сравнивают подходы к подбору гиперпараметров нейросетей. Они использовали репозиторий autoresearch — это среда, где LLM-агент может оптимизировать параметры, напрямую редактируя код обучения. В качестве теста взяли настройку небольшой языковой модели с фиксированным бюджетом вычислений.

Когда пространство поиска задано жёстко, классические алгоритмы вроде CMA-ES и TPE стабильно обходят LLM-агентов. Главная проблема для языковых моделей — избежать ошибок памяти (out-of-memory), и с этим классические методы справляются куда лучше. Если дать LLM возможность самостоятельно править код, разрыв сокращается, но не исчезает — даже с топовыми моделями вроде Claude Opus 4.6 и Gemini 3.1 Pro Preview. Модели плохо отслеживают состояние оптимизации от попытки к попытке.

Авторы пошли дальше и объединили сильные стороны обоих подходов. Они создали гибрид под названием Centaur, который делится с LLM внутренним состоянием CMA-ES: средним вектором, размером шага и ковариационной матрицей. Результат — Centaur показал лучший результат во всех экспериментах. Причём модель на 0.8B параметров уже обходит и классические алгоритмы, и чистые LLM-методы.

Выяснилось ещё кое-что важное: свободное редактирование кода требует больших моделей, чтобы хотя бы сравняться с классикой. Анализ разнообразия поиска и масштабирования (от 0.8B до топовых моделей) подтверждает: LLM стоит использовать как дополнение к классическим оптимизаторам, а не как их замену.