Google ускорила Magenta RealTime 2: задержка упала с 2 с до 0,2 с

В новой версии Magenta RealTime 2 команда Google полностью переписала архитектуру модели, чтобы получить по-настоящему низкую задержку. В основе лежит Codec Language Modeling — модель учится предсказывать дискретные токены аудиокодека. Для кодирования звука используется SpectroStream: он упаковывает стерео 48 кГц в токены со скоростью 3 кбит/с (25 фреймов в секунду, 12 токенов на фрейм, словарь на 1024 токена).

Главное отличие от первой версии — способ авторегрессии. В Magenta RealTime модель генерировала чанки по 2 секунды. Это давало время на обработку, но вводило минимальную задержку управления в 2 секунды. В Magenta RealTime 2 авторегрессия идёт покадрово — каждый фрейм длится 40 мс. Чтобы потоковый вывод работал на таких коротких отрезках, архитектуру перевели на decoder-only с локальным Sliding Window Attention (SWA). Это убрало последовательный bottleneck от двунаправленного энкодера и позволило держать фиксированный размер KV cache. Проблему выпадения первых токенов из окна решили learnable attention sink, а от позиционных эмбеддингов вообще отказались (NoPE), заметив, что RoPE мешает обобщению на длины длиннее тренировочных.

Минимальная задержка управления упала с 2 с до ≈0.2 с (фрейм + декодирование глубины + декодирование кодека). Контроль стал покадровым: модель принимает условия на каждый фрейм (стиль, ноты, ударные) через streaming cross-attention. Для гибкого баланса сигналов расширили classifier-free guidance (CFG) на несколько каналов — можно задать степень следования каждому условию отдельно.

Стиль задаётся через аудио или текст, используя замороженные эмбеддинги MusicCoCa. Чтобы сгладить несовпадение распределений текста и аудио, обучили отдельный генератор (pixel Mean Flow) на разнообразные аудио-эмбеддинги из текстового запроса — за один шаг.

Нотный контроль работает через 128-канальную pianoroll на частоте фреймов. Модель тренировали на 71 тыс. часов инструментальной музыки с MIDI-разметкой от MT3. В словаре 4 токена: note off, generic note on, onset, continuation. Режим Auto-Strum позволяет модели самой расставлять атаки, если не заданы явные onset’ы. Auto-Strum OFF даёт точное управление атаками. Оба режима совместимы благодаря onset masking — обучение с заменой onset-токенов на маску.

Контроль ударных реализован через тренировку на транскрипциях от OaF Drums. Прямое управление отдельными ударами недоступно из-за сквозной задержки, но переключение между генерацией с барабанами и без неё работает через ту же мульти-сигнальную CFG.

На этапе инференса применяют маскинг условий: входные сигналы случайно закрывают масками разного масштаба во время тренировки. Это учит модель быть робастной к шуму и одновременно даёт творческую свободу — можно, например, разрешить ей добавлять гармонии, маскируя часть пианоролла, или жёстко задать все ноты.