DeepSeek R1 сделали M2M2 с Manim-анимацией и RL для Prime Intellect

Math-To-Manim стартовал 20 января 2025 года — по словам автора, в день инаугурации Дональда Трампа. Около 4:30 утра китайская лаборатория DeepSeek выложила модель R1 на Hugging Face. Автор прочитал это как осознанный сигнал в духе «Спутника»: открытые reasoning-модели стали геополитическим фактом. Он склонировал R1 и нацелил её на математические рассуждения.

Интересен не сам факт, что reasoning-модель решает математику. Важнее, что путь к хорошему объяснению стал видимым: из темы можно получить список необходимых знаний, потом порядок их преподавания, потом уравнения, потом раскадровку, потом код на Manim, потом видео.

Так появился пайплайн M2M2. Учитель, репетитор, студент или агент задаёт вопрос или присылает заметку — система возвращает проверяемое объяснение: концепцию, недостающие предварительные знания, порядок идей, раскадровку, сгенерированный код Manim и, опционально, готовое видео.

Рендер — это сильный первый черновик 4–5-минутного объяснения с настоящей математической и физической нотацией в LaTeX, а не с декоративной псевдоматематикой. Продукт — не только MP4. Каждый запуск сохраняет артефакты рассуждений, что полезно для отладки, передачи между агентами и для обучения с подкреплением (в частности, в среде Prime Intellect).

Архитектура пайплайна — обратное рассуждение. Стандартные демки прыгают от запроса к Python-коду. Здесь путь длинный: от финальной концепции назад к предварительным знаниям, а потом вперёд — через обучаемую визуальную последовательность. Эта цепочка зафиксирована в AnimationPipeline.generate() — одиннадцать этапов от IntentAgent до PublisherAgent, каждый со своим типизированным артефактом в формате JSON.

Math-To-Manim также становится средой обучения с подкреплением для Prime Intellect. Первая цель — не «сделать всё видео с одного дубля», а исправить сломанный код анимации. Агент получает типизированный план сцены, сломанный generated_scene.py и отчёты валидации, а возвращает исправленный код Manim. Быстрый цикл обучения работает на тексте и AST, а медленный рендерер Manim остаётся аудитором.

Установка стандартная: клонировать репозиторий, создать виртуальное окружение, установить пакет в dev-режиме. Для рендера нужны FFmpeg и LaTeX. Пайплайн можно запускать без API-моделей (детерминированный smoke-тест) или с OpenAI (например, gpt-4.1). Можно также маршрутизировать генерацию кода через локально аутентифицированный Codex CLI. Каждый запуск создаёт самодостаточную папку runs/<run_id>/ со всеми артефактами.

Следующее направление — рекурсивное редактирование, вдохновлённое рекурсивными языковыми моделями. Идея: готовое видео и его бандл становятся средой, которую агент может проверить и переделать. Запрос «пересними, но наклони камеру, чтобы было удобнее читать» должен пройти обратно через план сцены и код Manim, вычислить правку, проверить, отрендерить заново и оставить новый трейс для обучения следующей политики.

Лицензия — MIT.