Open R1 от Hugging Face воспроизводит DeepSeek-R1

Проект Open R1 от Hugging Face — это попытка полностью воспроизвести архитектуру DeepSeek-R1 в открытом доступе. Репозиторий собирает недостающие части пайплайна, чтобы любой мог повторить результат.

План разбит на три этапа. Первый — дистилляция качественного корпуса данных из DeepSeek-R1, чтобы повторить модели R1-Distill. Второй — чистая RL-тренировка, как у R1-Zero, с новыми крупными датасетами для математики, логики и кода. Третий — показать многостадийный переход от базовой модели к RL-тюнингу.

Первый этап уже закрыт. Команда выпустила датасет Mixture-of-Thoughts — 350 тысяч проверенных цепочек рассуждений от R1 по математике, программированию и науке. На нём обучили OpenR1-Distill-7B, который повторяет способности DeepSeek-R1-Distill-Qwen-7B. Результаты близки: на AIME 2024 — 52.7 против 51.3, на MATH-500 — 89.0 против 93.5, на GPQA Diamond — 52.8 против 52.4, на LiveCodeBench v5 — 39.4 против 37.4.

Ещё раньше выложили OpenR1-Math-220k — 220 тысяч трейсов, дистиллированных из R1 на базе NuminaMath. Модели, обученные на нём, догоняют дистиллированные версии DeepSeek. А датасет CodeForces-CoTs содержит 10 тысяч задач с олимпиад по программированию и 100 тысяч решений от R1. С ним модель на 7B параметров обходит Claude 3.7 Sonnet на новом бенчмарке IOI24, а 32B — превосходит сам R1.

Для тренировки используют SFT и GRPO с поддержкой vLLM и FlashAttention. Обучение заточено под кластеры с H100 (80GB). Код работает через ускорение DeepSpeed (ZeRO-2 и ZeRO-3). Есть интеграция с песочницами E2B и Morph для выполнения кода на тренировке — можно проверять решения задач вроде Codeforces прямо во время обучения.

Авторы смогли воспроизвести результаты DeepSeek на всех ключевых бенчмарках в пределах 1–3 стандартных отклонений. Разница в цифрах объясняется разным количеством сэмплов на запрос: для AIME нужно 64 ответа, для MATH-500 — 4, для GPQA Diamond — 8, для LiveCodeBench — 16. Всё замеряли через lighteval с vLLM.