Linux-модуль превратил USB4/Thunderbolt AMD mini PC в InfiniBand с 95 Гбит/с для AI

Один разработчик потратил несколько недель на создание Linux kernel module, который заставляет обычные USB4/Thunderbolt порты на AMD mini PCs притворяться InfiniBand-устройствами. Цель — позволить AI-рантаймам вроде vLLM и RCCL запускать инференс и тренировку на нескольких домашних машинах без enterprise-сетевого оборудования.

Всё завязано на экспериментальном RDMA-over-USB4 для 128GB Strix Halo mini PCs. Два потребительских бокса обмениваются данными достаточно быстро, чтобы запускать tensor-parallel inference и FSDP. Результаты впечатляют: ~95 Gb/s двунаправленной сырой RDMA, задержка в одну сторону ~7 микросекунд. MiniMax-M2.7 с tensor parallelism = 2 (не влезает на одну машину) спокойно работает, а шаг LoRA FSDP для Gemma 3 27B ускорился с 1359 секунд через Ethernet до 126 секунд через 4-HCA USB4 RDMA.

Сравнение с обычными сетями: ~48 Gb/s на направление (~95 Gb/s в обе стороны) в тесте ib_write_bw при агрегации через 4 HCA, 1 MiB и 8 QPs с отключённым IOMMU. Против ~2,3 Gb/s у встроенного 2.5 GbE и ~9 Gb/s у soft-RoCE поверх thunderbolt-net на одном канале. Задержка ib_write_lat для 64 байт на одном QP — ~7 микросекунд, тогда как через RXE/2.5 GbE она составляет ~28 мкс, а через RXE/TBnet — ~65 мкс.

Важно: это исследовательский код, большая часть сгенерирована AI. Автор загружал экспериментальные модули ядра на машины, которые готов был много раз ронять. Он старался разобраться достаточно, чтобы не уйти в сторону, но в коде почти наверняка есть ложные допущения и острые углы. Никаких гарантий, никакой поддержки, это не production-софт.