← На главную

NanoGPT соберет GPT-2 на ноутбуке за час

05.05.2026 04:09 · hackernews

Workshop Andreya Karpathy позволит собрать GPT-2 с нуля, не используя готовые библиотеки. Проект использует код NanoGPT, который сначала воспроизводит модель GPT-2 весом 124 млн параметров, но затем упрощается для обучения ~10 млн параметров на ноутбуке за час. Всё пишется вручную: токенизатор, архитектура трансформера, цикл обучения и генерация текста. Поддерживаются MacBook с чипами Apple Silicon M4, видеокарты NVIDIA, CPU и Google Colab. Для установки нужен Python 3.12+ и менеджер пакетов uv. Скрипт автоматически определяет аппаратное ускорение. Участники пишут токенизатор по уровням символов, так как байтовый кодирование (BPE) не подходит для малых датасетов вроде Шекспира. Далее строится полная модель: вставки эмбеддингов, механизмы внимания, нормализация слоёв и сети MLP. Цикл обучения включает подсчёт потерь, обратное распространение, оптимизатор AdamW и регуляризацию. На финальном этапе происходит декодирование температуры и генерация autoregressively. В конфигурации задаются число слоёв, голов внимания и размер эмбеддинга для разных режимов: от Tiny (~0.5 млн параметров, 2 минуты) до Medium (~10 млн, 45 минут). Размер словаря фиксирован на 65 символов. Блок размером 256 символов используется для обработки входных данных. Пошаговая инструкция ведёт от простейших примеров к конкуренции поэтов на отладанных датасетах. Итогом становятся файлы model.py, train.py и generate.py, полностью написанные вами без скрытых зависимостей.

Читать оригинал →