JEPA оказался нелинейным CCA, придуманным Хотеллингом в 1936

Харольд Хотеллинг в 1936 году ввёл Canonical Correlation Analysis (CCA). CCA ищет общий сигнал между двумя большими матрицами. В Joint Embedding Predictive Architecture (JEPA) задача та же, но вторая матрица — просто другое представление тех же данных (через аугментацию или пространственную близость). Недавняя работа (Huang, 2026) признаёт: JEPA неявно выполняет нелинейное обобщение CCA.

Эта связь всплывает в споре Шмидхубера с ЛеКуном о том, кто изобрёл JEPA. Шмидхубер утверждает, что его Predictability Maximization 1992 года идентична JEPA. Автор статьи считает, что сам Хотеллинг заслуживает признания за идею максимизации корреляции в пространстве вложений.

CCA и JEPA сильно различаются. CCA линейна и накладывает жёсткие ограничения: эмбеддинги должны иметь единичную дисперсию и нулевую ковариацию (whitening). JEPA нелинейна, но не требует whitening — из-за этого модель может схлопнуться (все эмбеддинги становятся равными константе). Метод SIGReg от Balestriero и LeCun (2025) исправляет это, поощряя изотропное гауссово распределение эмбеддингов — то есть по сути те же ограничения, что и в CCA.

Математически CCA максимизирует след матрицы кросс-корреляции при whitening. Оказывается, это эквивалентно минимизации MSE между эмбеддингами. JEPA минимизирует MSE, но без ограничений — отсюда и коллапс. SIGReg добавляет ограничения обратно.

Кроме того, существуют Deep CCA (Andrew et al., 2013) — нелинейная версия CCA, и Deep Generalized CCA (Benton et al., 2017), которая обобщает CCA на произвольное число наборов переменных. JEPA тоже можно расширить на больше чем два вида.

Вывод автора: JEPA и Predictability Maximization — архитектурные улучшения поверх CCA. Нелинейность — улучшение. Все эти модели решают одну задачу: найти преобразования, дающие максимальную корреляцию между многомерными данными. Идея принадлежит Хотеллингу, а не ЛеКуну или Шмидхуберу.