Krea 2 нацелена на творческий поиск, а не на идеальный результат

Krea 2 — это серия фундаментальных моделей для генерации изображений, которые позиционируются не как инструмент для получения одного «правильного» фотореалистичного результата, а как движок для творческого поиска. Авторы считают, что современные модели слишком сильно оптимизированы под узкий набор «красивых» картинок, и это убивает исследование стилей и настроений.

Инфраструктуру для обучения они написали с нуля. Датасет собирали не по принципу «чем выше качество, тем лучше». Обычные фильтры вроде aesthetic score отбрасывают, например, размытые кадры, хотя размытие может быть художественным приёмом. В претрейнинг не брали только дубликаты, артефакты и синтетику. Авторы специально отфильтровывали AI-generated изображения, так как они слишком легко усваиваются моделью и ограничивают её потолок качества. Текстовые описания (капшены) проходили несколько этапов: сначала OCR с извлечением текста, затем обогащение через VLM, а потом перепаковка в разные длины с помощью дешёвой LLM.

Архитектура — diffusion transformer (DiT), но с рядом изменений. От стандартного multi-head attention отказались в пользу GQA с gated sigmoid attention: это стабильнее. MLP заменили на SwiGLU. Отдельные MLP для каждой временной метки (timestep conditioning) выкинули — они жрали 20-30% параметров. Вместо них поставили простой обучаемый bias на каждый блок. Текст-энкодер — Qwen3-VL (VLM, а не просто энкодер), с дополнительным слоем аггрегации фичей по всем слоям, а не взятием последнего. Из автоэнкодеров выбрали Qwen Image VAE и FLUX 2 VAE — они давали лучшую сходимость.

Тренировка шла в несколько этапов. Претрейнинг — с прогрессивным ростом разрешения (256→512→1024). На первом эпохе 256px использовали iREPA для ускорения. Мидтрейнинг — вручную отобранные домены с разными стилями, с кластеризацией через FAISS и PageRank по Википедии для покрытия редких сущностей. SFT — маленький, но тщательно отобранный датасет эстетичных картинок. Затем Preference Optimization (PO) с синтетическими парами и человеческими аннотациями. Авторы заметили, что стандартный DPO уводит модель от исходного распределения, и сделали свою версию — STPO. Финальный этап — Reinforcement Learning с несколькими ревард-моделями (эстетика, следование промпту, рендеринг текста, детектор артефактов). Без CFG на тренировке — для выравнивания распределений.

Для пользователей сделали prompt expander (LLM, которая превращает короткий запрос в развёрнутый капшен) и style-reference system (перенос стиля с референсных изображений с контролем силы смешивания). На бенчмарке Artificial Analysis модель входит в топ-10 и занимает второе место среди независимых лабораторий.