Xiaomi и TileRT: MiMo‑V2.5‑Pro‑UltraSpeed — 1k+ ток/с на обычных GPU

Xiaomi совместно с TileRT выпустили MiMo-V2.5-Pro-UltraSpeed — версию своей флагманской модели на триллион параметров, которая впервые разогнала декодинг до 1000+ токенов в секунду на обычных GPU. Пиковая скорость достигает ~1200 tps. Для сравнения: тариф в три раза дороже обычного MiMo-V2.5-Pro, но генерация быстрее примерно в десять раз. Доступ к API — по заявкам, в окно с 9 по 23 июня 2026 года (по пекинскому времени). Утверждённые пользователи получают бесплатный чат с лимитом десять входов в день, сессии до 30 минут.

Разработчики заявляют, что 1000 tps для модели такого размера — не просто цифра, а смена парадигмы. Во-первых, скорость превращается в псевдоинтеллект: за то же время модель может прогнать десятки вариантов рассуждений (Best-of-N, Tree Search) и сама себя проверять. Во-вторых, Coding-агенты перестают быть узким местом — код генерируется практически мгновенно. В-третьих, триллионные модели входят в real-time контуры: высокочастотная торговля, антифрод, хирургическая диагностика — любая задача, где важны миллисекунды.

Чтобы обойтись без специализированного железа вроде Cerebras или Groq, инженеры применили жёсткий codesign софта и модели. На стороне модели: FP4-квантизация (MXFP4), но не всей модели — только MoE-экспертов, которые составляют основную массу параметров и терпимы к сжатию. Остальные модули остались в полной точности. Обучали через QAT (Quantization-Aware Training), потери качества почти нет.

Второй ключевой компонент — спекулятивное декодирование DFlash. Вместо того чтобы гонять маленькую модель-черновик токен за токеном, DFlash заполняет целый блок маскированных позиций за один проход forward. Это ломает автокорреляционное узкое место. Драфт-модель использует Sliding Window Attention — зависимость от контекста перестаёт расти линейно. В кодинге средняя длина принятых токенов — 6.30 из 8, в математике и reasoning — 5.56, в агентных сценариях — 4.29. Лучшие образцы выдавали 7.14.

Системная часть — TileRT — выжимает из обычных GPU микросекунды. Вместо запуска операций по одной ядро работает как Persistent Engine: весь конвейер остаётся в GPU, данные предвыбираются, пока текущий Tile считается на Tensor Cores. Warp Specialization разбивает коммуникацию, перемещение данных и тензорные вычисления на физически независимые потоки. Всё это сшито так, чтобы «зазоры исполнения» не появлялись в принципе.

Весь стек собран на одном узле с восемью обычными GPU. Xiaomi и TileRT открыли чекпоинт MiMo-V2.5-Pro-FP4-DFlash на HuggingFace с квантизованными весами и параметрами DFlash. UltraSpeed-поддержку для остальных версий обещают позже.