Стандартный вывод больших языковых моделей ограничен пропускной способностью памяти: процессор проводит львиную долю времени на перенос миллиардов параметров из VRAM в вычислительные блоки просто чтобы получить один токен. Это создает огромные задержки и недовольно загруженные вычисления, особенно на потребительском железе. Технология спекулятивного декодирования решает проблему, разделяя процесс генерации и проверки. Пairs тяжелый целевой алгоритм, например Gemma 4 31B, с легким дрофтером — моделью MTP, чтобы использовать свободное время процессора. Дрофтер «угадывает» сразу несколько будущих токенов быстрее, чем целевая модель может обработать один. Затем целевая модель параллельно проверяет все предложенные варианты. Если они совпадают, система принимает всю последовательность за один проход и сразу генерирует еще один токен. Это позволяет выводить полный набросок плюс один токен за то время, которое обычно требуется для одного токена. Исследователи из Google представили этот метод в работе Fast Inference from Transformers via Speculative Decoding. Обычно модели работают автогрессивно, тратя равные усилия на очевидные фразы и сложные логические задачи. МTP устраняет неэффективность, позволяя приложениям отвечать мгновенно. Разработчики используют это для кодинговых ассистентов, автономных агентов с быстрым планированием и мобильных приложений, работающих локально. Соединение Gemma 4 с соответствующим дрофтером дает улучшенную отзывчивость для чатов в реальном времени и голосовых интерфейсов. Локальная разработка ускоряется в разы, позволяя запустить модели MoE на 26B и Dense модели на 31B на обычных компьютерах и потребительских видеокартах для сложных оффлайн-задач. Производительность на устройстве тоже растет: быстрее генерируемые ответы на моделях E2B и E4B экономят заряд батареи. Качество не падает, так как конечную проверку все равно делает основная модель Gemma 4, сохраняя точность и способность к сложным рассуждениям уровня frontier, но уже значительно быстрее.
Google ускорила вывод Gemma 4 спекулятивным декодированием
05.05.2026 16:14 · hackernews