Связка RTX 3090 и RTX 5080 выдала 80–90+ токенов/с на Qwen3.6 q8

Автор год назад купил RTX 5080 для игр и AI-экспериментов, но к 2026 году 16 ГБ памяти стало не хватать для моделей вроде Qwen 3.5, Gemma, Qwen 3.6. Он взял refurbished RTX 3090 на 24 ГБ — сначала получал ~30 токенов/с, потом 50–60 с MTP. Но RTX 5080 почти простаивала, поэтому он решил задействовать обе карты вместе.

Уже были DDR4-планки и SSD, требовалась материнка с поддержкой двух карт. Выбор пал на Asus Prime X570-Pro — версия «Pro» позволяет разбить 16x PCIe на 2x8. Для RTX 5080 купил качественный райзер PCIe 4.0.

Настройка BIOS оказалась сложнее, чем думал. Главное: нельзя загружать OS в режиме BIOS/MBR — иначе не получится использовать обе карты. В BIOS нужно: отключить CSM, включить Above 4G Decoding, поставить ReSize BAR Support в Auto или Enabled, а для обоих слотов PCIEX16 выставить Gen 4.

С драйверами NVIDIA тоже пришлось повозиться. Документация — бардак, ссылка на инструкцию ведёт в раздел /tesla. Две карты разных поколений, поэтому фирменный патч open-gpu-kernel-modules не подходит (он работает только для одинаковых GPU). Пришлось использовать обычный nvidia-open драйвер. После перезагрузки nvidia-smi показал обе карты — RTX 3090 и RTX 5080.

Сборка llama.cpp — ключевой момент. Флаги cmake включают -DGGML_CUDA=ON, -DGGML_CUDA_FA=ON, а главное — -DCMAKE_CUDA_ARCHITECTURES="86;120", чтобы поддерживать сразу архитектуры Ampere (3090) и Blackwell (5080). Флаг -DGGML_CUDA_NCCL=OFF пришлось отключить — nccl только мешал, хотя llama-server утверждал обратное.

Запуск: llama-server с моделью Qwen3.6 в квантизации q8, параметры -sm tensor -ts 2,3 распределяют нагрузку между картами. Результат — от 80 до 90+ токенов/с на генерации. Проверить, что карты работают на полной скорости, можно командой lspci -vvv — должно показывать Speed 16GT/s, Width x8 (downgraded, потому что x16 разбит на два x8).