SubQ выпустила модель с вниманием в 56 раз быстрее FlashAttention

Проблема длинного контекста в AI наконец-то решается не костылями. SubQ — компания, построившая модель на новой архитектуре Subquadratic Sparse Attention (SSA) — выпустила модель-карту для SubQ 1.1 Small. Это вторая итерация их подхода, и она меняет экономику обработки гигантских объёмов данных.

Главная фишка — SSA заменяет квадратичную сложность обычного attention (O(n²)) на линейную. В цифрах это выглядит так: на контексте в 1M токенов SubQ требует в 64,5 раза меньше вычислений, чем dense attention, и работает в 56 раз быстрее, чем FlashAttention-2. Attention сжимается до 0,13% всех возможных связей, но модель всё равно находит иголку в стоге сена.

Тесты это подтверждают. На Needle-In-A-Haystack (NIAH) SubQ 1.1 Small выдаёт почти идеальный результат при длине контекста 1M, 2M, 6M и даже 12M токенов. И это при том, что модель тренировали в основном на 1M — обобщение на 12x длину сработало из-за того, что SSA маршрутизирует внимание по смыслу, а не по позиции. На RULER (13 задач на multi-hop и агрегацию) результат — 99,12% при 128K.

С бенчмарками общего назначения тоже порядок. GPQA Diamond — 85,4% pass@1, LiveCodeBench v6 — 89,7% pass@4. Эти цифры ставят модель чуть ниже топовых фронтиров (вроде GPT-5.5 и Opus 4.8), но уверенно выше мелких моделей и многих мидлов. На AutomationBench Finance SubQ выдал 13% — рядом с сильнейшими, хотя абсолютные цифры у всех низкие.

Сборка модели происходила интересно: взяли open-weight фронтирную модель, заменили dense attention на SSA, потом поэтапно наращивали контекст (262K → 512K → 1M → 2M) и докрутили на примерно триллионе токенов длинных текстов — книг, документов, репозиториев кода. Провели больше сотни экспериментов на 6-7 поколениях модели, чтобы сбалансировать длинный и короткий контекст. Без SSA такой объём итераций был бы невозможен.

Главные применения — работа с целыми артефактами, а не с кусками. Финансовый анализ: filings, отчёты, контракты — модель видит всё вместе. Юриспруденция: термин на странице 2, уточнение на 12-й, исключение на 46-й — SubQ удерживает всю логику. Программирование: загрузка целого репозитория в один контекст для архитектурного рефакторинга и отслеживания зависимостей.

В ближайшие недели стартует пилот с первыми партнёрами, в течение квартала — расширение, а к концу года обещают полноценный релиз линейки моделей от 2M до 12M токенов.