Huawei представила KVarN: 3–5× ёмкости KV-cache без потерь

KVarN — новая техника квантизации KV-cache от Huawei. Она решает главную проблему таких методов: обычно приходится жертвовать либо скоростью, либо точностью. Например, в блоге vLLM TurboQuant описано, что сжатие даёт больше ёмкости, но теряет 40–52% пропускной способности при выигрыше в 2.3–3.7×. Плюс агрессивное снижение разрядности бьёт по точности. Поэтому KV-cache квантизацию редко включают в продакшене.

KVarN построен иначе. Он держит и скорость, и точность. На Qwen3-32B (AIME25, 16K контекст, TP=2) он совпадает с FP16 по точности, обгоняет его по throughput и даёт примерно в 4 раза больше ёмкости KV-cache. В характеристиках заявлено 3–5× увеличение ёмкости и до ~1.3× пропускной способности относительно FP16 — при точности, неотличимой от FP16.

Внутри KVarN обрабатывает KV-cache фиксированными тайлами токенов. Сначала применяется преобразование Адамара по каналам — это размазывает выбросы и облегчает квантизацию. Потом итеративная нормализация дисперсии (в лог-пространстве, по строкам и столбцам) выравнивает дисперсию. И наконец — асимметричное округление до ближайшего с низкой разрядностью: ключи хранятся в 4 бита, значения — в 2 бита. Веса считываются обратно на чтении.

Интеграция — форк vLLM. Установка такая же, как у vLLM, только добавляется флаг --kv-cache-dtype kvarn_k4v2_g128. Никаких изменений модели, калибровки не нужно. Работает в float16.

Производительность раскрывается полностью на мульти-GPU или с высоким --gpu-memory-utilization. На одиночной карте с малым бюджетом памяти может понадобиться отключить CUDA-graph профайлер.

KVarN выпущен под лицензией Apache 2.0. Оригинальная статья лежит на arXiv (2606.03458).