Fugu-Ultra с AutoResearch обогнала топ-3 модели во всех тестах

В серии экспериментов сравнили модель Fugu-Ultra с тремя ведущими frontier-моделями (A, B, C) в шести разных задачах. В основе лежит фреймворк AutoResearch (Карпати и соавторы), который позволяет AI-агенту самостоятельно улучшать код обучения: он итеративно меняет параметры, запускает эксперименты и оставляет только те изменения, которые снижают метрику bits-per-byte (BPB). На одной H100 GPU агент провёл 123 эксперимента за 14 часов. По итогу Fugu-Ultra показал лучший средний BPB — 0,9774 ± 0,0019, обогнав Model C (0,9781), Model B (0,9793) и Model A (0,9822). В лучшем прогоне он достиг 0,9748.

Во втором тесте модели восстанавливали порядок чтения японских писем XVII века в стиле «тирасигаки» (разбросанные иероглифы). Оценка шла по метрике NED (1,0 — идеальное совпадение с разметкой эксперта). Fugu-Ultra набрал 0,80, тогда как Model A — лишь 0,24, Model B — не лучше, а Model C вообще не смог выдать рабочий код.

Третья задача — написать на чистом Python солвер для кубика Рубика без сторонних библиотек. Модели решали 300 случайно перемешанных кубиков. Fugu-Ultra и Model A справились со всеми, а Model B и Model C выдали код, который упал с ошибкой (0/300). В среднем Fugu-Ultra тратил 19,72 хода против 19,76 у Model A, причём ни разу не проиграл по числу ходов (7 побед, 293 ничьи).

Четвёртый кейс — создание механической диафрагмы (апертуры) в CAD. У Fugu-Ultra лопасти чётко вращались вокруг внешних штифтов и полностью открывали/закрывали отверстие. У остальных моделей появлялись зазоры, слабые соединения или незакрывающаяся апертура.

Пятый тест — четыре партии в шахматы вслепую (без доски, только по памяти). Fugu обыграл три frontier-модели и движок Stockfish с рейтингом 2100 Elo, сохраняя точность и завершая каждую партию матом.

Наконец, трейдинг на анонимной акции STOCK_X за 50 недель — модели принимали онлайн-решения без заглядывания в будущее. Fugu-Ultra за пять прогонов увеличил портфель с $10 000 до $11 943 ± $634 (+19,43% доходности). Остальные модели показали менее +15%.

Результаты говорят, что оркестрация нескольких сильных моделей может превзойти любую отдельную frontier-модель в агентных ML-исследованиях.