Moebius (0.22B) в 15 раз быстрее FLUX.1-Fill-Dev без потери качества

Инструменты для дорисовки изображений на базе Foundation-моделей уровня 10B параметров показывают отличные результаты, но требуют огромных вычислительных ресурсов. На практике это сильно ограничивает их применение. Сделать компактную специализированную модель — логичное решение, но при сильном сжатии архитектуры возникает проблема «бутылочного горлышка»: теряется способность представлять сложные данные.

Авторы новой работы предложили Moebius — сверхлёгкую структуру для inpainting, которая эту проблему решает. Они пересобрали бэкбон диффузионной модели, введя блок Local-λ Mix Interaction (LλMI). Внутри него два модуля: Local-λ и Interactive-λ. Вместо того чтобы тащить через всю сеть огромные карты признаков, они элегантно суммируют пространственный контекст и глобальную семантику в маленькие линейные матрицы фиксированного размера. Это сохраняет сложные скрытые зависимости, но радикально сокращает количество параметров.

Чтобы такая сжатая архитектура не потеряла в качестве, модель обучили с хитрой стратегией — адаптивной многогранулярной дистилляцией. Вся магия происходит строго в скрытом пространстве (latent space), без дорогостоящего декодирования в пиксели. Система динамически балансирует несколько градиентных функций потерь, чтобы добиться точного совпадения с учителем.

Результат впечатляет: Moebius (0.22B параметров) обходится или даже превосходит по качеству генерации индустриального гиганта FLUX.1-Fill-Dev (11.9B параметров). При этом Moebius использует менее 2% параметров конкурента и выдает изображения более чем в 15 раз быстрее по полному времени инференса. Фактически, авторы задали новый стандарт эффективности для high-fidelity inpainting — без компромиссов в качестве, но с кардинально меньшими затратами.