Uber сожгла годовой AI-бюджет за 4 месяца

Uber сожгла годовой AI-бюджет за четыре месяца. Microsoft, Salesforce и Github тоже начали урезать траты сотрудников на AI. Проблема в том, что ведущие лаборатории вроде OpenAI и Anthropic продают так называемые frontier-модели по бешеным ценам. GPT 5.5, например, стоит $5 за миллион входных токенов и $30 за выходные. Автор статьи попробовал поправить Typescript в 50 файлах этой моделью — заплатил $54 за один afternoon.

Модели больше не удивляют скачками качества. Улучшения с каждым релизом всё мельче. Без принципиально нового прорыва текущие методы обучения и инференса упрутся в потолок. Данных для тренировки тоже почти не осталось — лаборатории уже скормили моделям всё, что можно оцифровать. Улучшать датасеты становится всё сложнее. Цены уже не растут так уверенно: Claude Opus 4.8 стоит столько же, сколько Claude Opus 4.7. Как только прогресс замедлится окончательно, конкуренция начнёт давить на ценник.

OpenAI лидировала в 2022 году с ChatGPT, но к 2025-26 пальму первенства перехватила Anthropic. Теперь же open-weight модель GLM-5.2 бьёт GPT и Opus в бенчмарках по кодингу и стоит в десять раз дешевле GPT 5.5. Лаборатории закладывают в цену не только инференс, но и исследование архитектур, сбор данных, обучение за сотни миллионов долларов и маркетинг. Поставщик open-weight модели просто берёт готовую архитектуру, хостит её и накидывает небольшую наценку.

Ещё один фактор — специализированные чипы. Cerebras, Groq и Google поняли, что GPU для AI неэффективны. Разработать свой кастомный чип дорого, но тиражировать его копейки. TPU, например, на 30–70% дешевле Nvidia H100. Архитектуры тоже эволюционируют: кэширование, MoE-модели и другие подходы ускоряют работу без потери точности.

У AI нет «замков» вроде тех, что держали пользователей Windows, MS Office или Salesforce. CRM не переставишь за день — это месяцы. А переключить модель на OpenRouter.ai можно за секунды. Нулевая стоимость перехода (zero switching costs) означает, что как только появится модель лучше или дешевле, пользователи уйдут мгновенно.

И главный фактор — локальные модели. Сейчас локальный AI либо слишком большой, либо слишком медленный. За 4–5 лет чипы и дешёвая RAM сделают развёртывание моделей на ПК и смартфонах обычным делом. Операционные системы получат встроенный интерфейс для локального AI. Тогда облачные модели останутся только для сложных задач, а табы кода и проверку фактов будет делать железо прямо у пользователя. Никаких $20 или $200 в месяц за подписку. Цены рухнут, и это хорошо для всех.

Uber сожгла годовой AI-бюджет за 4 месяца — GLM-5.2 обходит лидеров