Тех-превью Kog: 3000 токенов/с на 8×AMD MI300X

Kog запустила публичное тех-превью своего Inference Engine, который выдаёт 3000 токенов в секунду на один запрос на стандартных 8-GPU серверах с AMD MI300X. Это скорость, сопоставимая с железом, заточенным под инференс, и достигается она не аппаратными ухищрениями, а полной переработкой софта.

Проблема в том, что для AI-агентов важна не столько суммарная пропускная способность (tokens/s на всех юзеров), сколько скорость генерации для одного запроса. Агенты работают последовательно: подумал — написал код — запустил тесты — исправил ошибки. Если на рабочий процесс нужно 50 000 токенов, то 100 токенов/с — это 8 минут ожидания, а 3000 токенов/с — меньше 20 секунд. Разница между «попробовать идею» и «заскучать и уйти».

Узкое место здесь — не вычислительная мощность (FLOPS), а пропускная способность памяти (HBM bandwidth). При batch size 1 дека́динг сводится к пересылке весов из HBM в вычислители. У H200 пиковое соотношение — 400 FLOPS на байт, поэтому в реальности всё упирается в то, как быстро можно гонять память. 8×H200 дают ~30.7 TB/s, 8×MI300X — ~33.6 TB/s. Для 2B-модели в FP16 теоретический потолок — около 7700–8400 токенов/с. Но стандартные стеки (PyTorch, Triton, vLLM) этот потолок не берут.

Почему? Они теряют микросекунды на каждом шагу. Запуск одного ядра на GPU — около 4.5 мкс. 10 ядер на слой, 25 слоёв — это больше 1 мс оверхеда до того, как начнётся хоть какая-то работа. А бюджет на токен при 3000 токенов/с — всего 333 мкс. Стандартные стеки просто не влезают.

Kog переписала всё снизу доверху. Вместо цепочки отдельных GPU-ядер, которые запускает CPU, используется монокернел — одна программа, которая живёт на GPU и выполняет весь дека́динг: MatMul, attention, нормы, семплинг, коммуникации — без единого возврата на CPU. Своя библиотека KCCL для меж-GPU обмена делает AllReduce быстрее 3 мкс (вместо ~8 мкс у вендорских библиотек). Архитектура модели Laneformer использует Delayed Tensor Parallelism, чтобы перекрывать коммуникацию вычислениями. Для AMD MI300X инженеры Kog докопались до физической топологии чипов: привязали буферы к нужным HBM-стекам, чтобы XCD не ходили за памятью через чужой I/O die — это дало стабильный барьер за 600 нс.

В превью используется собственная 2B модель, обученная на 6 триллионах токенов без квантизации, без спекулятивного дека́динга и прочих трюков — чистая скорость стека. На MI300X выходит 3000 токенов/с, на H200 пока 2100, но это догонят.

Kog не планирует останавливаться на маленьких моделях. Тот же подход применяют к большим MoE: DeepSeek-V4-Flash (13B активных), Kimi-K2.6 (32B активных), DeepSeek-V4-Pro (49B активных). Оценки показывают, что на текущем поколении GPU с учётом ~36% MBU можно получить 1000–5000 токенов/с на таких моделях. А новые Rubin и MI450 (2026 год) с четырёхкратным ростом пропускной способности HBM поднимут потолок ещё выше.

Kog — французский стартап из 11 человек, основанный в 2023 году, с $5M инвестиций от Varsity VC и BPI France. Они получили госметку French Tech 2030. Их тезис: GPU уже достаточно быстрые, проблема — в софте, а не в железе.Kog запустила публичное тех-превью своего Inference Engine, который выдаёт 3000 токенов в секунду на один запрос на стандартных 8-GPU серверах с AMD MI300X. Это скорость, сопоставимая с железом, заточенным под инференс, и достигается она не аппаратными ухищрениями, а полной переработкой софта.