Исследователи представили PICO (Perceptual Image Codec) — первый обучаемый кодек, оптимизированный прямо под зрительную систему человека, а не под абстрактные метрики. Чтобы его получить, авторы перебрали миллионы конфигураций моделей, одновременно оценивая качество восприятия и скорость работы на устройстве.
По результатам крупномасштабных субъективных тестов, PICO даёт экономию битрейта в 2.3–3 раза по сравнению с традиционными кодеками — AV1, AV2, VVC, ECM и JPEG-AI. Среди других обучаемых кодеков выигрыш составляет 20–40%. То есть PICO передаёт ту же картинку существенно меньшим объёмом данных.
При этом кодек работает очень быстро. На iPhone 17 Pro Max он кодирует 12-мегапиксельное фото за 230 миллисекунд, а декодирует за 150. Это быстрее, чем большинство топовых ML-кодеков работают даже на V100 GPU. Кроме того, в отличие от многих обучаемых решений, PICO гарантирует стабильную работу на разных платформах — без просадок при смене железа или операционной системы.
Работа выложена как препринт на arXiv. Авторы — Кедар Татвавади, Париса Рахимзаде, Чжанхао Сунь, Чжици Чэнь, Цзыюнь Ян, Санджай Наир, Дивиджа Хастир и Орен Риппель.