Google ужал Gemma 4 до 1 ГБ для запуска на обычных GPU

Google выпустил новые чекпоинты Gemma 4, оптимизированные с помощью Quantization-Aware Training (QAT). Два месяца назад вышла оригинальная модель, потом добавили Multi-Token Prediction (MTP) для ускорения инференса, а на днях — 12B модель. Теперь взялись за эффективность: QAT симулирует квантование прямо во время обучения, так что качество страдает меньше, чем при обычном Post-Training Quantization (PTQ). В релиз вошли QAT-чекпоинты для популярного формата Q4_0 и новый формат, заточенный под мобильные устройства. С ним память Gemma 4 E2B сжали до 1 ГБ — это серьёзно упрощает запуск на обычных потребительских GPU и edge-девайсах.

Квантование само по себе снижает потребление VRAM и ускоряет декодинг, но стандартный PTQ часто режет качество. QAT эту проблему сглаживает: модель учится работать с округлениями и шумом заранее. Для мобильных моделей E2B и E4B придумали особую схему квантования, которая ещё сильнее экономит память. В статье приводят приблизительные требования к VRAM — видимо, таблицу, но мы её не копируем, просто фиксируем факт: памяти нужно заметно меньше, а качество остаётся на уровне, ожидаемом от Gemma 4.

Короче: Google продолжает дробить модели для edge и мобил, не жертвуя точностью. QAT-релиз — следующий шаг после MTP и 12B-модели. Если у вас есть железка с 1 ГБ свободной памяти, теперь можно попробовать запустить Gemma 4 E2B локально.