Основатель небольшой софтверной компании (OpenFaaS, SlicerVM, Inlets, Actuated) честно рассказывает, почему локальные модели вроде Qwen 3.6 27B — это не «уровень Opus», даже если бенчмарки говорят обратное.
Автор использует AI с ранних дней — от таб-комплита до работы с Claude и Codex. Переломный момент наступил между ноябрём 2025 и январем 2026: Claude Opus настолько прокачался, что ручное кодирование стало ненужным. Топовые подписки стоят ~200 USD в месяц — терпимо, если не оставлять модель без присмотра.
Локальные модели интересны не ценой, а контролем, приватностью и защитой от вендорского риска (когда Anthropic внезапно удаляет модель, как Fable 5). Но проблема в том, что их нельзя оставлять на долгих задачах. Автор сравнивает это с закалкой ножа: чуть перегрел — и клинок идёт вразнос. Qwen начинает бесконечно повторять одно и то же или галлюцинировать имена файлов (faas-netes превращается в faaned). Ничего не помогает, кроме сброса контекста.
Сначала у автора была пара RTX 3090. Они постоянно глючили: одна карта не определялась без ритуальных танцев с питанием. Квантование приходилось делать слишком агрессивным, что ухудшало качество. Настройка vLLM с NVLink оказалась медленнее, чем llama.cpp.
Тогда он купил RTX 6000 Pro Blackwell за ~12 000 USD (сейчас цена выросла до 15 400). Карта окупилась за 2–3 месяца: на локальной модели без утечки данных нашли, что клиент недоплачивал по лицензии в 4–5 раз больше года, и восстановили выручку. Также модель анализирует диагностические дампы из airgapped VM (Slicer) — так решают проблемы поддержки, не отправляя данные в облако.
Текущая настройка: две независимые инстанции llama.cpp, Qwen 3.6 27B в квантизации Q8_K_XL с полным контекстом 262k токенов. С MTP-спекулятивным декодингом скорость — 130–200 токенов/сек, что быстрее облака. Но Qwen всё равно впадает в циклы. Автор просит добавить команды в faas-cli — модель генерирует 58 пунктов, а потом бесконечно их повторяет, сжигая 600 Вт. На вопрос «добавь --json ко всем get и list» — сначала пишет тесты, потом ломает файл и застревает.
Для доступа к модели написали сервис Toilgate (vibe-coded, не опенсорсный) — управляет моделями, метриками, квотами. Два Shelly Plus Plug мониторят энергопотребление.
Итог: локальная Qwen — не замена Claude. Она хороша для узких задач (поддержка, телеметрия, объяснение кода), но не для написания Go-распределённых систем. Она не следует инструкции «будь краток», галлюцинирует race condition’ы. Автор советует всегда параллельно гонять одну и ту же задачу на локальной и облачной модели, не давать ей долгих заданий без присмотра и экспериментировать с файнтюнами вроде Qwopus.