DINOv3 и SAE раскладывают изображения на тысячи признаков

Модель DINOv3 ViT-S (Siméoni et al., 2025) сжимает любое изображение в 384 числа — эмбеддинг. Чтобы понять, что именно кодируют эти цифры, их надо превратить обратно в картинку. DINOv3 полностью дифференцируема: можно менять пиксели, пока эмбеддинг не совпадёт с нужным вектором. Этот трюк известен со времён DeepDream (Mordvintsev et al., 2015) и работ Олаха по визуализации признаков (Olah et al., 2017). Дополнительно модель обучали так, что разные кропы и аугментации одного снимка дают одинаковый эмбеддинг — эту логику копируют при генерации, чтобы подавить шум и подстроиться под собственное определение «похожести» у DINOv3. Картинку создают через нетренированный трансформер (по аналогии с Deep Image Prior, Ulyanov et al., 2017) и минимизируют потерю полной вариации.

Эмбеддинг DINOv3 содержит гораздо больше 384 визуальных концепций. Это возможно благодаря суперпозиции (Elhage et al., 2022): модель упаковывает тысячи признаков в те же 384 измерения, выстраивая каждый по почти ортогональному направлению. Чтобы разделить их, используют разреженный автоэнкодер (SAE) — он даёт около 12 000 интерпретируемых направлений. Такой SAE, обученный на DINOv3 ViT-S/16 CLS-эмбеддингах (расширение 384 → 12 288, ReLU, L1-штраф, ресемплинг мёртвых признаков по Bricken et al., 2023), на инференсе активирует не больше 32 признаков на одно изображение.

С помощью SAE можно разложить любой эмбеддинг: например, у фотографии леса в красном дереве ярче всего срабатывают признаки «деревья», «зелень», «изгородь», «тропинки». Для моста «Золотые Ворота» сильнейший признак — именно этот мост.

SAE предполагает, что признаки можно складывать. При суммировании «кукурузных зёрен» и «триумфальной арки» получается арка, выложенная из зёрен. А при сложении «кукурузы» и «шурупов» — шурупы поверх кукурузы. Интерполяция между признаками показывает, как форма и текстура постепенно перетекают друг в друга.

Два признака «клубника» — feature 1511 и feature 2314. Оказалось, что 1511 активируется сильнее на одну крупную целую ягоду, а 2314 — на много мелких (целых или разрезанных). Если разрезать крупную клубнику, 1511 резко падает. То есть каждый признак кодирует не просто объект, а конкретную комбинацию масштаба и количества.

В конце авторы прогнали SAE по всему ImageNet Val, записали, какие признаки срабатывают вместе, и с помощью UMAP (McInnes et al., 2018) визуализировали пространство из 2500 самых активных признаков. Это похоже на атласы активаций Картера (Carter et al., 2019) — наглядная карта того, как модель видит мир.