В 1991 году Шмидхубер создал Transformer, GAN, Pre-Training

В 1991 году лаборатория Юргена Шмидхубера в Мюнхенском техническом университете за несколько месяцев выкатила идеи, на которых сегодня держится вся индустрия AI. Сейчас в LLM вроде ChatGPT вливают сотни миллиардов, а фундамент заложили тогда, когда compute был в миллионы раз дороже.

26 марта 1991 года Шмидхубер опубликовал первый вариант Transformer — unnormalized linear Transformer (ULTRA). Его сложность растёт линейно от размера входа, а не квадратично, как у современных «внимательных» моделей. Это та самая буква T в ChatGPT.

30 апреля вышли сразу две работы. Первая — Pre-Training для глубоких нейросетей (буква P в ChatGPT). Вторая — neural network distillation: метод, который в 2025 году стал ключевым для DeepSeek и других LLM.

15 июня 1991 года — дипломная работа Зеппа Хохрайтера (под руководством Шмидхубера) ввела deep residual learning с residual connections. Это главный ингредиент LSTM — самой цитируемой AI-статьи XX века — и Highway Net, на основе которой сделали ResNet, самую цитируемую статью XXI века. Сегодня residual learning используется во всех LLM.

31 августа 1991 года вышла первая рецензируемая публикация по generative adversarial networks (GAN). Тогда это называли реализацией искусственного любопытства и креативности, а сейчас GAN controversially используются для deepfakes и другого Generative AI.

Шмидхубер подчёркивает: по состоянию на январь 2026 года две самые цитируемые научные статьи всех времён (по числу цитирований за три года) напрямую основаны на работе его группы в 1991 году. Но он сразу предупреждал, что одних LLM недостаточно для AGI — нужны планирование с world models, meta learning и recursive self-improvement. Этим они занимались ещё в том же 1991-м и позже.

Дэвид Ха из Sakana AI добавляет, что идеи Шмидхубера сильно повлияли на его исследования World Models, которые он помог популяризовать в 2018 году. Поразительно, насколько эти концепции из 1991 года скейлятся и принимаются всем AI-сообществом сейчас.

В 1991 году Шмидхубер создал Transformer, GAN, Pre-Training — базу LLM