MIT научил лидар смартфона за $100 видеть за углами

Обычный лидар в смартфоне за 100 долларов может видеть объекты за углами. Раньше для этого нужны были лабораторные приборы стоимостью до миллиона долларов. Теперь хватает потребительского сенсора. Это выяснили учёные из MIT Media Lab во главе с докторантом Siddharth Somasundaram. Они опубликовали результаты 20 мая в журнале Nature и выложили код в открытый доступ.

Принцип прост: лидар бросает лазерный луч, тот отражается от стен и предметов, а сенсор ловит фотоны после нескольких отскоков. Так можно восстановить то, что скрыто за углом. Проблема в том, что дешёвые лидары дают очень шумную картинку — у них слабые лазеры из соображений безопасности глаз и всего около 100 пикселей. Движение камеры или объекта вносит дополнительные помехи.

Команда MIT обошла это хитростью: они не пытались вытянуть сигнал из одного кадра, а совмещали информацию из множества последовательных снимков. Вдохновлялись тем, как смартфоны делают burst-съёмку для улучшения качества, и как работает синтезированная апертура в спутниковой съёмке. Алгоритмы сложили слабые сигналы, и зашумлённая картинка превратилась в осмысленные данные.

Система смогла построить 3D-модели статичных скрытых объектов и отслеживать движение предметов известной формы. Более того, она использовала сами скрытые объекты как ориентиры — это поможет роботам не теряться в пустых помещениях без текстур. Всё работало без специальной калибровки.

Впрочем, не стоит ждать фотографий с детализацией в мегапиксели. Сейчас система вытаскивает из чрезвычайно слабых сигналов только редкие точки и грубую информацию о движении. Алгоритм завязан на допущение, что форма и движение объекта стабильны от кадра к кадру. Если человек резко сменит позу или камера дёрнется — всё может сломаться.

Дальше авторы хотят уменьшить зависимость от этих допущений — через более умную обработку сигналов и машинное обучение. А ещё они предлагают перепроектировать сами лидары: если делать их сразу с расчётом на скрытые сцены, а не только на прямую видимость, эффективность visions-на-угол резко вырастет.