Текст, который вы предоставили, является глубоким теоретическим обзором Flow Maps (карт потоков) и их связи с диффузионными моделями. В нем обсуждаются преимущества одношаговой генерации, различные параметризаций (предсказание точки назначения или скорости) и три фундаментальных правила согласованности, на которых строятся алгоритмы обучения этих моделей.
Ниже представлен структурированный конспект ключевых идей, уравнений и концепций из вашего текста, а также логическое завершение последнего предложения, которое оборвалось на слове "When learning a".
- Определение: Карта потока $F(\mathbf{x}_s, s, t)$ предсказывает точку $\mathbf{x}_t$ на пути (от данных к шуму или обратно), начиная с $\mathbf{x}_s$ в момент времени $s$.
- Отличие от диффузии: В отличие от диффузионных моделей, которые интегрируют ОДУ по малым шагам (требуя много шагов для генерации), Flow Map позволяет сделать один шаг от шума ($t=1$) до данных ($t=0$) напрямую: $F(\mathbf{\varepsilon}, 1, 0)$.
- Глобальный характер: Это глобальная характеристика пути, а не локальное предсказание. Это делает навигацию в пространстве данных более надежной (нет риска "свалиться" с пути).
- Цена успеха: Обучение такой модели сложнее, так как она "обобщает" локальное знание диффузионной модели (скорости $v_t$ или чистых данных $\hat{x}_0$) на глобальный масштаб.
Существуют два эквивалентных способа параметризации, аналогичные диффузионным моделям: 1. Карта потока (Destination): Предсказывает конечную точку. $$F(\mathbf{x}s, s, t) = \mathbf{x}_s + (t - s) V(\mathbf{x}_s, s, t)$$ 2. Средняя скорость (Velocity): Предсказывает усредненную скорость по интервалу $[s, t]$. $$V(\mathbf{x}_s, s, t) = \dfrac{1}{t - s} \int_s^t v(\mathbf{x}\tau, \tau) \mathrm{d} \tau$$ * При $s=t$, $V$ сводится к мгновенной скорости $v(\mathbf{x}_t, t)$. * Это показывает, что Flow Map содержит в себе "деноизер" (дезинтегратор) и может использоваться как обычная диффузионная модель.
Все алгоритмы обучения Flow Maps основаны на одном из трех правил, которые выражают внутреннюю логику траекторий.
- Суть: Путешествие от $s$ к $u$ можно сделать напрямую или через промежуточную точку $t$. Результат должен быть одинаковым.
- Уравнение: $$F(F(\mathbf{x}_s, s, t), t, u) = F(\mathbf{x}_s, s, u) = \mathbf{x}_u$$
- Обратимость: Также следует, что $F(F(\mathbf{x}_s, s, t), t, s) = \mathbf{x}_s$ (функция обратима относительно своего аргумента).
-
Применение: Позволяет переносить информацию с малых временных интервалов на большие, "соединяя" короткие шаги в длинный путь.
-
Метод: Изучаем, как меняется выход функции при изменении целевого времени $t$ (движение "цели" или "финишного поста").
- Смысл: Если мы немного увеличиваем $t$ до $t+\Delta t$, выход функции должен сдвинуться вдоль траектории со скоростью $\mathbf{v}_t$.
- Уравнение: $$\dfrac{\partial}{\partial t} F(\mathbf{x}_s, s, t) = v(F(\mathbf{x}_s, s, t), t)$$
-
Интерпретация: Производная по целевому времени равна скорости в этой точке. Это частный случай композиции при бесконечно малом шаге.
-
Метод: Изучаем, что происходит, если меняется начальный пункт $s$, при этом целевое время $t$ фиксировано.
- Смысл: Если мы сдвигаем начальное время $s$, точка выхода $F(\mathbf{x}_s, s, t)$ должна остаться неизменной, так как мы просто выбираем другую точку на той же траектории.
- Математика: Здесь нужно учесть, что и вход $\mathbf{x}s$, и время $s$ зависят от изменения. Используется цепное правило: $$\dfrac{\mathrm{d}}{\mathrm{d} s} F(\mathbf{x}_s, s, t) = \nabla F = 0$$}_s} F \cdot \dfrac{\mathrm{d}\mathbf{x}_s}{\mathrm{d}s} + \dfrac{\partial}{\partial s
- Финальное уравнение: $$\dfrac{\partial}{\partial s} F(\mathbf{x}s, s, t) + \nabla_s, s) = 0$$}_s} F(\mathbf{x}_s, s, t) v(\mathbf{x
- Интерпретация: Разница между лагранжевым (идти вместе с потоком) и эйлеровым (наблюдать за потоком из фиксированной точки) взглядов.
Текст оборвался на фразе: "When learning a".
Логически завершая мысль о построении функций потерь (loss functions) из равенств согласованности:
"...neural network is flexible enough to learn almost any function... but most of these possibilities will not be consistent... When learning a flow map, we construct a loss function based on one or more of these consistency rules to constrain the neural network. Specifically, we minimize the difference between the left-hand side and right-hand side of these equations using samples from the diffusion model (which provides the ground truth velocity $v$) or from the generated data."
Текст описывает переход от локальных диффузионных моделей к глобальным Flow Maps. Ключевая идея в том, что хотя Flow Maps теоретически могут заменить диффузию (сделав генерацию за один шаг), на практике их часто обучают, используя существующие диффузионные модели как учителя (bootstrapping), enforcing constraints of compositionality, Lagrangian, or Eulerian consistency для восстановления глобальной картины.