Best Paper на FPGA 2026: KAN-архитектура ускорила нейросети в 2700 раз

Дук Хоанг, Ааруш Гупта и Филип Харрис представили архитектуру для сверхбыстрых нейросетей на FPGA, получившую Best Paper на FPGA 2026. Они использовали Kolmogorov-Arnold Networks (KAN) и получили прирост скорости в 2700 раз по сравнению с предыдущими реализациями KAN на FPGA.

Современные GPU плохо подходят для задач, требующих субмикросекундной задержки. У них слишком много накладных расходов на планирование инструкций и динамический доступ к памяти. FPGA, напротив, позволяет превратить нейросеть прямо в цифровую логику на lookup tables (LUT). Oбычные LUT-сети масштабируются плохо: если делать многомерную функцию, количество записей в таблице растёт экспоненциально. KAN решают эту проблему. В KAN на каждом ребре сидит обучаемая унарная функция, а в узле — обычное суммирование. Это даёт линейное масштабирование вместо экспоненциального.

Авторы сначала обучили KAN в PyTorch, затем «заморозили» активации и преобразовали их в LUT на FPGA. LUT хранит готовую активацию для каждого возможного квантованного входа. Сложение идёт через adder tree. В результате получился чип с латентностью в наносекундах.

Но основная новизна — в обучении прямо на FPGA в реальном времени. Модели, развёрнутые на ускорителях, обычно статичны. Однако, например, в задачах квантового контроля или термоядерного синтеза система меняется за микросекунды. Авторы запрограммировали на FPGA не только forward pass, но и backward pass с градиентным спуском. Для этого в LUT хранят не сами активации, а B-сплайны, из которых они составлены. Ключевое — локальность B-сплайнов: из G+S базисных функций только S+1 ненулевые для любого входа. Аппаратная логика масштабируется с S+1, а не с G, поэтому сеть можно расширять без роста ресурсов.

Дополнительно авторы доказали устойчивость фиксированной арифметики: сумма B-сплайнов всегда равна единице, поэтому выход зажат между минимумом и максимумом коэффициентов. Градиенты тоже ограничены предсказуемо. Это позволяет выбирать оптимальную разрядность и избегать взрывов градиентов.

В тестах KAN на FPGA обучили до 50 000 параметров с субмикросекундной задержкой на forward и backward pass — ранее такого для градиентного обучения не было. По сравнению с MLP сеть показала почти постоянное потребление ресурсов при росте числа ячеек сетки G и лучшую сходимость на задачах аппроксимации функций, считывания кубитов и нестационарного управления. Авторы заключили, что свойства KAN, сложные для GPU, идеально раскрываются на кастомных ускорителях.