Llama.cpp с MTP разогнал Gemma 4 на Mac M1 Max до 72 токен/с

Автор решил запустить локальный кодовый агент на своём Mac после того, как интернет несколько раз пропадал. Выбрал Gemma 4. Настраивал так, чтобы работало через OpenAI-совместимый API, было быстро и умело обрабатывать скриншоты.

Финальная сборка выглядит так: llama.cpp с ускорением Metal, основная модель gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf, к ней — MTP-черновик gemma-4-26B-A4B-it-Q8_0-MTP.gguf для спекулятивного декодинга, мультимодальный проектор mmproj-BF16.gguf и агент Pi в качестве терминального интерфейса. Всё это запускали на Apple M1 Max с 64 ГБ памяти.

Без MTP модель выдавала 58,2 токена в секунду. С добавлением Q8 MTP-черновика скорость генерации выросла до 72,2 токен/с — прирост 24%. Промпт тем временем обрабатывался с той же скоростью. Автор перебрал количество токенов для спекулятивного декодинга (--spec-draft-n-max от 1 до 6) и нашёл, что лучше всего на его машине работает значение 3. Для сравнения запустили MLX через mlx-lm: лучший результат там был 45,8 токен/с. llama.cpp с MTP обогнал MLX без вопросов.

Когда подключили мультимодальный проектор через --mmproj, изображения начали правильно передаваться агенту Pi, а производительность на тексте не упала. Итоговый стек: llama.cpp + Metal + Unsloth GGUF Q4 + Q8 MTP — даёт локальный сервер на 127.0.0.1:8080 с OpenAI-совместимым API. Pi видит его как провайдера с поддержкой текста и картинок.

В постскриптуме автор упоминает альтернативу: Qwen3.6 35B-A3B. По бенчмаркам Qwen заметно лучше как кодовый агент, но на той же конфигурации выдаёт только 55 токен/с — почти на 24% медленнее Gemma 4. Для интерактивной работы 72 токен/с ощущаются куда комфортнее.