Собрал двух-GPU систему за £200 и запустил Qwen3.6-27B-MTP

Я купил Tesla V100 SXM2 16GB на eBay примерно за £150. Это датацентровый GPU от NVIDIA без обычного PCIe-разъёма, без видеовыходов и без стандартного коннектора питания — он предназначен для серверных стоек. Но через SXM2-to-PCIe адаптер за £50 я воткнул его в свой игровой ПК рядом с RTX 4080. Итог: 32GB суммарной VRAM за £200.

V100 — это Volta-чип с 5120 CUDA-ядрами и HBM2-памятью. Её главное преимущество — пропускная способность 900 ГБ/с. Это на 22% больше, чем у RTX 4080 (736 ГБ/с), и больше, чем у любого Apple M-чипа вплоть до M5 Max (614 ГБ/с). Единственный потребительский GPU, который заметно быстрее — RTX 5090 за £2000+. Для LLM-инференса, где узкое место — bandwidth, V100 даёт 94% скорости RX 7900 XTX за четверть цены.

Главная проблема — шум. Штатный вентилятор на адаптере выдаёт 82 децибела — уровень газонокосилки. Управлять им через nvidia-smi или Afterburner нельзя. Я выяснил, что распиновка стандартная для кейс-вентиляторов, подключил её через JST PH2.0-кабель к материнской плате, выставил 10% PWM — и шум пропал, температура под нагрузкой не поднимается выше 50°C.

Софтовая часть — NixOS. Последний драйвер, поддерживающий одновременно RTX 4080 (Ada) и V100 (Volta) — ветка 550.x (legacy_535). Он требует ядра 6.6 и CUDA не выше 12.2. Я подтянул CUDA 12.2 из nixpkgs 24.05, прописал services.xserver.enable = true (иначе модули NVIDIA не грузятся) — и обе карты заработали.

На двух GPU я запускаю Qwen3.6-27B-MTP в квантизации Q5_K_M (~19GB). Модель целиком помещается в VRAM с запасом под 128k-токенный контекст. Скорость инференса — около 32 tok/s, промпт-процессинг — 133–160 tok/s. Этого хватает для интерактивной работы быстрее, чем через облако с учётом задержек.

Сама модель неожиданно хороша: Qwen3.6-27B на Agentic Index от Artificial Analysis идёт вровень с Claude Sonnet 4.6, а на MMMU-Pro и Terminal-Bench 2.0 даже превосходит её. Да, Sonnet 4.6 сильнее на GPQA и SWE-Bench, но отрыв смешно мал для модели, работающей на железе ценой в £200. Multi-Token Prediction в названии — это фича, ускоряющая генерацию до 1.5-2x без потери качества, когда модель предсказывает несколько токов за раз. В llama.cpp MTP пока новая, пришлось собирать из исходников под нужный коммит.

Модель поддерживает изображения через mmproj-файл (~1GB): отдельный визион-энкодер переводит пиксели в эмбеддинги, и LLM обрабатывает их как обычные токены. Я использую всё это через OpenCode, который стучится к llama.cpp по сети из любой точки дома. Сами модели хранятся на TrueNAS, смонтированном по NFS. ОС загружается с Corsair MP600 MINI в USB-C корпусе DockCase — отключаешь флешку, перезагружаешься в Windows, и можно играть на RTX 4080.

Единственная мозоль: после тёплой перезагрузки V100 иногда пропадает из lspci — помогает только полное выключение питания. Но это не критично. В итоге за £200 я получил 32 VRAM, работоспособный локальный LLM с видением и скоростью, сопоставимой с топовыми облачными моделями. Если готовы возиться с вентилятором и софтом — вторичный рынок серверных GPU сейчас лучший вариант за свои деньги.