Vintage LLM 340M: обучена на текстах до 1900 года без alignment

Разработчик под псевдонимом croqaz собрал свою LLM с нуля — и обучил её только на текстах до 1900 года. Он написал собственные скрипты для тренировки, обработки данных и сборки датасета. Модель называется Vintage LLM 340M v1 (340 млн параметров), базируется на архитектуре Llama, лежит на HuggingFace, код открыт на GitHub.

Идея пришла после Reddit-постов Hayk Grigorian, который тренировал модель исключительно на лондонских текстах XIX века. croqaz загорелся сделать «викторианского чат-бота» и работал над ним каждый день три месяца. Данные собирал вручную: Project Gutenberg, Oxford Text Archive, Internet Archive, TheBritishLibrary/blbooks и другие источники. Отбирал только английские тексты до 1900 года, отбрасывая всё без даты. Самый муторный этап — дедупликация и чистка. Отказался от MinHash и векторной схожести — слишком медленно. В итоге дедуплицировал по нормализованному тексту (без учёта регистра и пробелов). Перепробовал кучу баз (Qdrant, Zvec, Lance, ValKey), остановился на LevelDB — 12 млн строк без проблем.

Для оценки качества считал энтропию Шеннона, коэффициент сжатия ZLIB и свой собственный quality_score. Отбраковал меньше 1% документов. Токенизатор тоже написал сам — чтобы не тратить словарь на «import sys» и «async function». Обучал на чистых книгах Gutenberg и Oxford.

Первые эксперименты делал на своём ПК (Cachy OS Linux, AMD Ryzen 7 9700X, 64GB RAM, Radeon RX 9070 16GB VRAM). Модель Pythia-14M заработала за час и выдавала связный, но бессмысленный английский. С Pythia-70M начались падения — пришлось писать свой тренировочный скрипт на базе HuggingFace Trainer, подсмотрев решения в nanoGPT, nanoChat и NanoWhale.

Большую модель (340M, контекст 4096 токенов) гонял в облаке: RunPod, ThunderCompute и Vast.ai. Итоговый счёт за GPU — около $80. Первый этап base-training прошёл на Vast.ai (RTX PRO 5000, 10 000 шагов, почти 3 млрд токенов). Второй этап — на RTX PRO 6000 во Франции (10 150 шагов, ~6 млрд токенов). По закону Chinchilla Scaling Law, 9 млрд токенов — как раз норма для 340M параметров.

Финальный fine-tuning пока не завершён. Уже сделал базовый датасет на простые вопросы (еда, цвета, животные). Модель научилась отвечать в формате «Question:... Answer:...» на нескольких сотнях примеров. Иногда выдаёт осмысленные ответы про Бога, любовь и жизнь, хотя этого не было в обучающем датасете. С математикой хуже: после fine-tuning на операции с числами от -2 до 12 модель правильно сложила 44% примеров. Разработчик предупреждает: это игрушечная LLM, она галлюцинирует, выдаёт исторически точный, но потенциально токсичный контент — alignment не делали намеренно, чтобы не портить аутентичность.