Qwen 3.6 27B обходит Gemma 4 и догоняет GPT-5 на MacBook M5

Я долго разочаровывался в локальных моделях, но Qwen 3.6 меня поразила. Это первая локальная модель, которая действительно работает как полноценный интеллект.

Вышло два варианта: mixture-of-experts Qwen 3.6 35B A3B и плотная Qwen 3.6 27B — медленнее, но мощнее. Автор рекомендует именно 27B. Модель нагружает компьютер так, что плавит колени — это проверили тепловизором.

На Hacker News пишут, что Qwen 3.6 27B бьёт выше своего веса. Саймон Уиллисон проверил её тестом «пингвины на велосипеде». Автор тестировал иначе: попросил написать стих о танце Zouk и квантовой физике — модель хорошо подумала над рифмами и терминами. Затем в OpenCode она с первого промпта создала гексагональный сапёр на pnpm. Сборка заработала сразу. Версия 35B A3B была быстрее, но проигнорировала требование собрать пакет и сделала всё в одном index.html.

Для реальной работы Qwen 3.6 27B тоже годится. Знакомый попросил сделать инструмент для визуализации — модель выдала рабочий прототип с первого промпта. Ничего выдающегося по меркам топовых моделей, но это уже практическая задача.

Запускать модель лучше через llama.cpp — это прямой open-source инструмент. Не нужен Ollama (автор рекомендует против него по этическим соображениям). Скачиваете квантизацию с Hugging Face, например unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0, и запускаете llama-server с multi-token prediction (--spec-type draft-mtp), flash attention и контекстом 64k токенов. Команда простая — несколько строк в CLI.

На Macbook Max M5 (128 GB) 27B выдаёт около 30 токенов в секунду — на уровне обычных API-моделей. llama.cpp оказался быстрее mlx-lm, загружая GPU на 95%. На RTX 5090 (пост на Hacker News) с квантизацией Q6_K модель стабильно даёт 50 токенов/с при контексте 123k. 35B A3B в три раза быстрее, но автор предпочитает качество 27B.

По бенчмаркам Artificial Analysis: Gemma 4 31B примерно на уровне конца 2024 (o1 / Claude 3.5 Sonnet). Qwen 3.6 35B A3B — начало 2025. Qwen 3.6 27B — середина 2025 (GPT-5 / Claude Sonnet 4.5). DeepSeek-V4-Flash — конец 2025, почти уровень GPT-5.2 / Claude Opus 4.5. Qwen 3.6 27B заметно обходит Gemma 4 31B.

Автор считает, что мы входим в эру, когда можно запускать свои модели. Флагманские модели (вроде снятого Claude Fable 5) работают с гигантскими субсидиями — $100 в месяц дают доступ к тысячам долларов ресурсов. Локальная модель никуда не денется, её можно дообучить, она безопасна для чувствительных данных. С выходом GLM 5.2 новая эра: Qwen 3.6 была ступенькой, но даже GLM 5.2 уже можно запустить локально (правда, на отдельной машине за бюджет компании). Автор уверен: скоро появятся модели умнее нынешних топов, работающие на ноутбуках и смартфонах — за счёт разделения знаний и вывода в tool calling.