Эпоха AI-субсидий закончилась — Microsoft, Uber, GitHub режут расходы

Microsoft на этой неделе отозвала внутренние лицензии на Claude Code (почему — не ясно, может, просто интегрировали его в свои продукты). Uber за четыре месяца сожгла весь AI-бюджет на 2026 год. GitHub отказывается от flat-rate планов во всех продуктах. Всё это — признаки того, что эпоха «AI-субсидий» заканчивается.

Раньше компании закидывали AI-фишки во все тарифы, рассчитывая, что стоимость инференса будет падать. Она не упала. Кривая затрат разворачивается в обратную сторону, и лабораториям приходится перекладывать это на клиентов.

Проблема в том, что все забыли про эффект второго порядка. Да, стоимость токена на новом поколении моделей формально снижается — иногда в 10 раз. Но это для сопоставимого качества. Бизнес-модели строились на экстраполяции, а экстраполяция не работает, когда появляются новые сценарии. В дорожном планировании это называется «индуцированный спрос»: добавил полосу — получил новые поездки, которых не было. С AI то же самое. Дешёвый инференс не сокращает счёт — он расширяет запросы. Раньше рассуждение занимало 2 минуты, теперь — больше 4. Агентные пайплайны делают 50 вызовов там, где раньше был один. Юнит-стоимость падает, общий счёт растёт.

Плюс подвела supply-side. Память подорожала в 4 раза. GPU — более чем на 95%. Frontier-тренировка и инференс работают на ускорителях Nvidia с HBM-памятью. Потолок теперь не в транзисторах, а в HBM и продвинутой упаковке (CoWoS от TSMC). Morgan Stanley оценивает, что BOM на NVIDIA VR200s вырос на 95%, и 435% этого роста — только память. SK Hynix доминирует в HBM, Samsung отстаёт, Micron — ещё дальше. Никто не может быстро нарастить мощности. Это закладывалось на 18–36 месяцев вперёд, при прогнозах спроса на порядок ниже реального. GPU-цены — это то, как выглядит scarcity pricing. Элитные ускорители стали в два раза дороже прошлого поколения. HBM взлетела в 4 раза за 18 месяцев. Охлаждение и энергия — теперь реальные ограничители в местах, где их раньше не моделировали. Поэтому каждый гиперскейлер объявляет про «гигаваттный кампус» и ядерный PPA.

CFO Anthropic под присягой показал: компания потратила $10 млрд на вычислительные мощности, а заработала $5 млрд. Лаборатории глубоко под водой и поднимают цены. Компании, продававшие flat-rate AI-всюду, сами загнали себя в маржинальный кризис. Ставка на то, что одна из кривых изогнётся в их пользу, не сыграла.

Теперь вопрос не «где добавить AI?», а «какие сценарии окупают стоимость инференса?». Три подхода к ценообразованию известны давно. Per-action: каждый вызов API, генерация, шаг агента — это цена. Выручка индексирована к событию, как у Twilio (с 2008) или AWS (с 2006). Минус — прозрачность: клиенты видят счётчик и торгуются. Credits: предоплаченные пакеты. Сглаживают денежный поток, позволяют миксовать модели. Ловушка — breakage: неиспользованные кредиты становятся «застрявшими активами». Hybrid: базовая подписка с включёнными токенами и перерасход по счётчику. Enterprise-продажи это принимают.

Ключевой выбор: если ценообразование привязано к событию — можно строить дальше, выпускать тяжёлые агентные пайплайны и мощные модели рассуждения. Если застрял в per-seat (или flat-rate) — два проигрышных пути: либо маржа сжимается с каждым кварталом, когда растёт использование, либо AI убирается из дешёвых тарифов, и падает конверсия нижних когорт. Оба варианта увидят в совете директоров. Ни один не выглядит весёлым.