Локальный Qwen 3.5 избавляет от ежемесячных подписок

Автор долго тестировал работу локальных моделей искусственного интеллекта и нашел настройку, которая позволяет им справляться с базовыми задачами, исследованиями и планированием без интернета. Такой подход даже немного снижает зависимость от крупных технологических компаний США. Однако собрать всё это своими силами непросто. Сначала нужно выбрать программное окружение: Ollama, llama.cpp или LM Studio. У каждого есть свои особенности и ограничения, да к тому же поддерживаются не все модели. Выбор самой модели тоже важен: она должна уместиться в оперативную память, оставив место для обычных приложений типа браузеров, и обладать контекстным окном хотя бы в 64K, лучше — в 128K или больше. Автор пробовал Qwen 3.6 Q3, GPT-OSS 20B, Devstral Small 24B, которые теоретически вписывались в память, но на практике не работали, а Gemma 4B хоть и запускался, но плохо справлялся с инструментами.

Лучший результат показал Qwen 3.5-9B с квантованием @q4_k_s, работающий в LM Studio со скоростью около 40 токенов в секунду и поддержкой инструментов. Модель требует внимания, часто отвлекается или уходит в циклы, но на MacBook Pro с 24 ГБ памяти она вполне применима. Настройки для режимов мышления и программирования включают температуру 0.6, top_p=0.95 и добавление флага enable_thinking=true в шаблон промпта. Автор сравнивает интерфейсы Pi и OpenCode: Pi кажется более отзывчивым, но OpenCode позволяет гибкую настройку, хотя требует много времени на доводку параметров.

Локальные модели не решают сложные задачи автономно за долгие периоды, как это делают топовые решения. Лучше использовать интерактивный подход с пошаговым общением и инструкциями. Это заставляет пользователя быть более вовлеченным, чем просто слепо доверять системе. Модель выступает отличным помощником в коде, «резинкой-уточкой» и носителем знаний по языкам программирования.

В качестве примеров автор приводит исправление предупреждений линтера credo на Elixir через Qwen и решение конфликтов при ребейзе git с помощью dependabot. Иногда модель успешно делает правки сразу, а иногда забывает их применить, например, когда пытается запустить git rebase --continue и в итоге зависает в редакторе. Локальные ИИ требуют меньше затрат, кроме электричества для собственного железа, и не зависят от подписок. Несмотря на экологические издержки на обучение моделей, использование открытого кода на своем оборудовании считается более устойчивым решением. Эксперименты с локальными нейросетями — это увлекательно, особенно когда они совершают забавные ошибки, но работают.