Эйб Девис: Новая видеотехнология открывает незаметные свойства объектов

Вокруг нас полно неуловимых движений, мельчайших колебаний, вызванных звуком. Новая технология позволяет использовать такие колебания, чтобы восстановить вызвавший их звук, используя лишь видео неподвижного объекта. Однако Эйб Девис не останавливается на этом. Смотрите презентацию программы, которая позволяет взаимодействовать со скрытыми свойствами объекта, снятого на обычное видео

Будущее

Большинство из нас думают, что движение можно только видеть. Когда я хожу по сцене или жестикулирую, пока говорю, — это движение, которое вы видите. Но есть и целый мир движений, еле заметных человеческому глазу, и в течение последних лет мы узнали, что видеокамеры могут заметить такие движения, даже если их не видит человек.

Сейчас я покажу, что я имею в виду. Слева — видео запястья человека, а справа — видео спящего ребенка. Но если бы я не сказал вам, что это видео, вы могли бы подумать, что смотрите на два изображения. Потому что в обоих случаях изображения на видео кажутся застывшими. На самом деле, там происходит много неуловимых движений, и если вы могли бы коснуться запястья на видео слева, то ощутили бы пульс, а если бы смогли подержать ребенка на видео справа, то ощутили бы, как поднимается и опускается грудная клетка с каждым вздохом. И эти движения имеют большое значение, но они обычно настолько слабы, что едва видимы.

Так что мы можем ощутить их, непосредственно взаимодействуя с объектом, касаясь его. Но несколько лет назад, мои коллеги из МИТа создали так называемый микроскоп движения — это компьютерная программа, которая находит малозаметные движения на видео и усиливает их так, что они становятся заметными для нас. Если мы применим программу для видео слева, то сможем увидеть пульс, и если мы посчитаем удары, то сможем узнать частоту сердечных сокращений. Если мы используем программу на видео справа, то увидим каждый вдох, который делает ребенок, мы можем видеть это без прямого контакта для проверки дыхания. Эта технология действительно мощная, потому что использует процесс, который мы привыкли ощущать через прикосновения, и позволяет воспринимать его зрительно, без вмешательства.

Несколько лет назад я начал работу вместе с группой, создавшей эту программу, и мы задумали проверить сумасшедшую идею. Мы подумали: здорово, что можно использовать эту программу для визуализации незаметных движений и воспринимать их так, будто это способ расширить наши способности. А что, если мы могли бы сделать то же с нашей способностью слышать? Что, если мы могли бы использовать видео, чтобы записать вибрации звука, ведь это тоже лишь одна из форм движения, и превратить любые видимые объекты в микрофон? Это немного странная идея, но давайте я поясню ее более развернуто. Обычный микрофон устроен так, чтобы преобразовывать движение внутренней мембраны в электрический сигнал, и мембрана сделана так, чтобы двигаться под воздействием звука. Дальше эти вибрации записываются и воспроизводятся как звук. Но звук заставляет все объекты колебаться. Эти вибрации малы и слишком быстры, чтобы их заметить. А что, если мы запишем их с помощью высокоскоростной камеры, и используем программу для извлечения незаметных движений из полученного видео, и обработаем движения, чтобы понять, какие звуки их вызывают? Это позволило бы нам превратить удаленные видимые объекты в микрофоны. Так что мы начали испытания.

Вот один из наших экспериментов, где мы использовали растение в горшке, его вы видите справа. Мы снимали его на высокоскоростную камеру, в то время как в динамике рядом проигрывался звук. (Музыка: «У Мэри был маленький барашек») [Эдисон тоже использовал её на фонографе] Вот получившаяся видеозапись, и мы записали ее на скорости тысяча кадров в секунду. Но даже так, если вы всмотритесь, то увидите только листья, которые, вероятней всего, совершенно не двигаются. Все потому, что звук отклоняет листья на микрометр — это одна десятитысячная сантиметра, что равняется примерно одной сотой или тысячной от пикселя на этом изображении. Так что вы можете вглядываться, сколько хотите, но движение настолько мало, что незаметно для глаза. В то же время то, что настолько неуловимо, может быть численно оценено. И используя подходящий алгоритм, мы можем из этого видео без звука восстановить музыку. (Музыка: «У Мэри был маленький барашек»)

Как же это возможно? Как нам удалось восстановить столько информации из столь малого движения? Допустим, эти листья двигаются лишь на один микрометр, и скажем, что это сдвигает наше изображение на тысячную пикселя. Кажется, что этого мало, но на одном кадре такого видео могут быть сотни тысяч пикселей. Если мы соберем все микродвижения, найденные на изображении, то получим тысячи пикселей и можем начать составлять из них что-то более заметное. Честно говоря, мы чуть было не сошли с ума, когда нашли это. Но даже с хорошим алгоритмом мы по-прежнему упускали важную деталь мозаики. Есть много факторов, влияющих на то, когда и как хорошо сработает эта методика. Есть объект и расстояние до него; камера и используемые объективы; свет, попадающий на объект, и громкость звука. Даже применяя правильный алгоритм, нужно быть очень внимательным с ранними экспериментами. Потому что если какой-то из факторов был упущен, то нет способа сказать, какой именно. Все, что мы получим, — лишь шум.

Поэтому наши первые эксперименты выглядели так. Вот я, и слева внизу одна из наших высокоскоростных камер, которая направлена на пачку чипсов, место съемки освещено яркими лампами. И как я сказал, нужно было быть внимательными на первых этапах, и вот как это происходило.

(Видео) Эйб Дейвис: «Три, два, раз, запись». «У Мэри был маленький барашек! Маленький барашек! Маленький барашек!»

Да, эксперимент выглядит нелепым. То есть я кричу на пачку чипсов, и свет настолько яркий, что мы почти расплавили упаковку чипсов, пока записывали. Но, несмотря на нелепость эксперимента, все это было очень важно, потому что мы смогли восстановить звук.

(Аудио) «У Мэри был маленький барашек! Маленький барашек! Маленький барашек!»

ЭД: И это было действительно значимым, потому что впервые мы четко восстановили речь человека из беззвучной съемки объекта. Это дало нам точку отсчета, и мы могли начать изменять наш эксперимент, используя разные объекты и отодвигая их дальше от камеры, уменьшая освещенность или используя более тихий звук. Мы анализировали все эти эксперименты до тех пор, пока не поняли границы применения нашей методики, а когда мы осознали эти границы, то смогли расширить их. И мы провели следующий эксперимент: я снова разговаривал с упаковкой чипсов, но на этот раз мы отодвинули камеру на 4,5 метра, установив за звуконепроницаемым стеклом, используя лишь естественное освещение. И вот снятое нами видео. Вот звук, записанный рядом с упаковкой чипсов.

(Аудио) «У Мэри был маленький барашек, Его шерсть была белой, как снег, И всюду, куда Мэри шла, Барашек всегда следовал за ней».

ЭД: А вот звук, который мы смогли восстановить из видео, снятого за звуконепроницаемым стеклом.

ЭД: Есть другие пути расширения границ. Вот эксперимент с более тихим звуком, в котором мы снимали наушники, подсоединенные к ноутбуку. Наша цель была восстановить музыку, играющую в этом ноутбуке, используя беззвучную съемку двух пластиковых наушников. Нам удалось это настолько хорошо, что даже Shazam может распознать музыку.

(Музыка: «Under Pressure» группы «Queen»)

Мы смогли еще дальше сдвинуть границы, меняя аппаратуру для записи. Все предыдущие эксперименты, которые я показывал, мы проводили, используя высокоскоростную камеру, которая может записывать видео со скоростью в 100 раз больше, чем камеры большинства сотовых телефонов. Однако мы нашли способ применить наш метод с помощью обычных камер, используя эффект сдвига изображения. Большинство камер записывают изображение объекта построчно, и если объект движется во время записи, происходит запаздывание при записи строк, и это приводит к появлению искажений, находящихся в каждом кадре видео. Мы обнаружили, что анализируя эти искажения, мы можем восстановить звук, используя модификацию нашего алгоритма. Мы провели следующий эксперимент, в котором снимали упаковку конфет, а в динамиках рядом проигрывалась все та же музыка «У Мэри был маленький барашек». Однако в этот раз мы использовали обычную камеру, купленную в магазине. Сейчас я проиграю восстановленный звук, и он будет немного искаженным в этот раз, но послушайте и проверьте, сможете ли вы узнать музыку.

И хотя звук искажен, но по-настоящему удивительное в этом то, что вы можете проделать подобное буквально с камерой, купленной в обычном магазине. В этот момент многие из слушателей начинают думать про слежку, прослушку. По правде говоря, нетрудно представить, как использовать эту технологию для слежки. Но помните, что уже есть технологии гораздо совершеннее для подобной прослушки. Давно используются лазеры, наведенные на отдаленный объект, для подслушивания. Но новое в этом, принципиально отличное заключается в том, что этот способ, при помощи которого мы снимаем вибрацию с объекта, дает нам новый ракурс, с которого мы можем взглянуть на мир. Мы можем использовать его, чтобы узнать не только о звуке, заставляющем объект вибрировать, но и о самом объекте.

Вернемся теперь немного назад и подумаем, как это может изменить привычное использование видео. Мы привыкли использовать видео, чтобы смотреть на вещи, а недавно я показал, как использовать видео, чтобы услышать звук. Но есть и другой важный аспект того, как мы познаем мир: напрямую взаимодействуя с ним. Мы толкаем, тянем, тычем в предметы. Мы трясем предметы, чтобы понять, что произойдет. И это именно то, что видео пока не дает нам испытать, по крайне мере, в привычном виде.

И я хочу показать вам новый проект, основанный на идее, возникшей у меня пару месяцев назад, так что это первый раз, когда я делюсь этой идей с широкой аудиторией. Основная идея состоит в том, чтобы использовать вибрации в видео таким образом, который бы позволил нам взаимодействовать с ним и видеть то, как предмет реагирует на нас. Перед вами объект. На этот раз это проволочная фигурка человека, и мы снимаем этот объект обычной камерой. Так что нет ничего особенного в этой камере. В действительности, я проделывал это же с камерой в телефоне. Нам необходимо увидеть, как объект вибрирует, и чтобы это сделать, мы просто постучим по той поверхности, на которой он стоит, и запишем это на видео. Вот и все — пять секунд обычного видео, пока стучат по поверхности. Далее мы используем вибрации объекта с видео, чтобы понять конструктивные свойства и материал этого объекта и использовать эту информацию, чтобы создать новый способ взаимодействия.

И вот что мы создали. Это выглядит как обычное изображение, но это не изображение, и не видео, потому что как только я беру мышь, я могу взимодействовать с объектом. То, что вы видите здесь, — это симуляция того, как объект будет реагировать на новые воздействия, которые мы ранее не оказывали. И мы создали это, используя лишь 5 секунд обычного видео. И это достаточно мощный способ познания мира, потому что он может предсказывать, как объект будет реагировать на новые события. Вы можете представить ситуацию, к примеру, смотря на старый мост и задаваясь вопросом: что произойдет, выдержит ли этот мост, если я проеду по нему на машине. И это — вопрос, на который вы захотели бы получить ответ до того, как проедете по мосту.

Конечно же, будут ограничения в применении такого способа, так же как это было в экспериментах с визуальным микрофоном. В то же время, мы поняли, что метод работает во многих ситуациях, где мы не ожидали успеха, особенно, если использовать более длинную по времени запись. Вот, для примера, видео, на котором я заснял куст, растущий во дворе дома. Я не делал ничего особенного с ним, а просто снимал 1 минуту. Легкий ветерок создал вибрации, которых было достаточно для создания этой симуляции. Можете представить, что даете такой инструмент кинорежиссеру, и он сможет контролировать силу и направление ветра в сцене, которую уже сняли. А вот в этом случае мы снимали занавеску. Здесь вы не видите даже каких-либо движений, но за две минуты съемок циркуляция воздуха в комнате создала легкие, едва заметные движения и вибрации, достаточные, чтобы мы смогли создать симуляцию.

Как ни парадоксально, но мы привыкли к такому способу взаимодействия, когда речь идет о виртуальных объектах в видеоиграх и трехмерных моделях. Но возможность получить такую же информацию от объектов реального мира, используя простое, обычное видео, — это действительно что-то новое и с большим потенциалом.

Вот замечательные люди, с которыми я работал над этими проектами. И то, что я вам показал сегодня, — это только начало. Мы только начали по-настоящему узнавать, чего можно достигнуть, применяя такой подход. Это дает нам новый способ запечатлеть окружающее с помощью простых и доступных технологий. И заглядывая в будущее, будет по-настоящему интересно узнать, что эта технология сможет рассказать нам об окружающем мире.

Перевод: Лирит Фуксман
Редактор: Алекс Тери

Источник

Лекции

Эйб Девис: Новая видеотехнология открывает незаметные свойства объектов

Пол Грэм: Правильная настойчивость творит волшебство

«Нам нужен принцип планетарной субсидиарности, а не глобальное управление»

Волновые маркеры: как мозг отмечает то, что нужно запомнить