ByteDance выпустила Lance-3B — модель с 3B параметров бьет конкурентов

Команда ByteDance (Фэнъи Фу, Мэн Ци Хуан, Шаоцзинь У и другие) загрузила Lance — унифицированную мультимодальную модель с тремя миллиардами параметров. Lance поддерживает понимание, генерацию и редактирование изображений и видео в одном фреймворке. При этом активных параметров всего 3B — это небольшой размер для такой связки задач.

Модель учили с нуля на 128 GPU A100, используя многоэтапный рецепт. Исключение — энкодеры ViT и VAE, их взяли готовыми. Сам трансформерный бэкбон обучали с нуля. Lance решает шесть типов задач: генерация текста в изображение и текст в видео, редактирование изображений и видео, а также понимание картинок и видео (x2t_image и x2t_video).

Примеры из статьи показывают, как модель отвечает на вопросы по видео: считает повторяющиеся действия, описывает сцены, определяет нереалистичные явления. Она пишет, что в ролике мужчина хватает объект сквозь экран телефона, и описывает бабочку и пчелу на лугу за 6 секунд.

По бенчмаркам Lance уверенно держится. На DPG-Bench модель набирает 84.67% Overall, обгоняя Janus-Pro-7B и OmniGen2. На GenEval — 0.90 Overall, почти догоняя TUNA и Mogao при вдвое меньшем числе параметров. На GEdit-Bench средняя оценка 7.30 — лучше, чем у Gemini 2.0 и GPT Image 1. На VBench для генерации видео Lance получает 85.11 Total Score — выше, чем у Kling, Gen-3 и всех unified-конкурентов, включая TUNA и Show-o2.

Модель доступна на Hugging Face под именем Lance-3B. Для инференса нужен GPU с минимум 40GB VRAM, Python 3.10+ и CUDA 12.4+. В репозитории лежат скрипты для всех задач и готовые бенчмарки.