Супасорн Суваджанакорн: Поддельные видео реальных людей — как их распознать

Умеете ли вы распознавать поддельные видео, на которых известные люди говорят то, что в реальной жизни никогда не говорили? Посмотрите, как они создаются, в выступлении и демонстрационном видео Супасорна Суваджанакорна. Ученый в области компьютерных наук показывает, как, будучи студентом старших курсов, он использовал ИИ и 3D-моделирование для создания фотореалистичных поддельных видеороликов людей, синхронизируя их с аудио. Узнайте, какие этические последствия и творческие возможности есть у этой технологии, а также о попытках борьбы с ее неправильным использованием

Будущее

Взгляните на изображения.

А теперь скажите, на котором из них настоящий Обама.

(Видео) Барак Обама: Помочь семьям рефинансировать жилье, инвестировать в высокотехнологичное производство, экологичную энергию и инфраструктуру, которая создает новые рабочие места.

Супасорн Суваджанакорн: Кто-нибудь знает? Правильный ответ: ни на каком.

На самом деле все они поддельные. Я расскажу вам, как мы это сделали. На это меня вдохновил проект, предоставляющий нам последний шанс узнать правду о Холокосте от оставшихся в живых. Он называется «Новые измерения в свидетельских показаниях» и позволяет участвовать в интерактивном диалоге с голограммами выживших жертв Холокоста.

(Видео) Мужчина: Как вы выжили во время Холокоста?

(Видео) Голограмма: Как я выжил? Я думаю, что я выжил, потому что так было угодно Богу.

СС: Оказывается, эти ответы были записаны в студии. И все же эффект поразительный. Чувствуется связь с историей его жизни и лично с самим человеком. Есть нечто особенное в общении людей, что делает его более проникновенным и личным, чем любая информация из книг или фильмов.

Увидев это, я задался вопросом: возможно ли создать подобную модель любого человека? Модель, которая выглядит, говорит, ведет себя, как реальный человек? Я решил выяснить, возможно ли это, и в итоге придумал новую методику, которая позволяет создать модель человека, используя лишь его существующие фото и видео. Если можно воспользоваться данной пассивной информацией, только лишь имеющимися фото и видео, то это ляжет в основу моделирования любого человека.

Кстати, это Ричард Фейнман: будучи лауреатом Нобелевской премии по физике, он также известен как выдающийся педагог. Было бы здорово, если бы мы смогли воскресить его, чтобы он прочел свои лекции и вдохновил бы миллионы детей. Возможно, не только на английском языке, но и на любом другом? Или если можно было бы посоветоваться с покойными бабушками и дедушками и услышать их утешительные слова? А может быть, при помощи этого устройства авторы книг, живые или нет, смогли бы прочесть вслух свои произведения любому желающему?

Возможности творчества здесь безграничны, и это меня завораживает. Вот как это работает сейчас.

Во-первых, мы используем новую технику, которая позволяет воссоздать сверхточную 3D-модель лица с любого изображения без помощи 3D-сканирования человека. Вот та же самая готовая модель с разных точек обзора. Это работает и с видео: мы запускаем этот же алгоритм на каждом видеокадре и создаем движущуюся 3D-модель. А вот готовая модель с разных ракурсов.

На самом деле это довольно сложно, но главная хитрость в том, что мы заранее анализируем большую коллекцию фотографий конкретного человека. Фотографии Джорджа Буша-младшего можно просто погуглить и на их основе создать усредненную модель, итеративную, высокоточную модель, чтобы воссоздать выражение лица по таким мелким деталям, как складки и морщины. Самое увлекательное в том, что коллекция фотографий составляется из ваших обычных фото. Не имеет особого значения, какое выражение лица у вас было и где были сделаны эти фотографии. Важно то, что их много. Пока мы не можем сделать их цветными, поэтому следующий шаг — разработать новую технику смешивания, которая усовершенствует основной алгоритм для создания четкой текстуры лица и цвета. Это станет возможным для любой мимики.

Итак, мы добились контроля над моделью человека, который достигается последовательностью статических фотографий. Заметьте, как появляются и исчезают морщинки в зависимости от выражения лица. Чтобы управлять моделью, мы также можем использовать видео.

(Видео) Дэниел Крейг: Верно, но каким-то образом нам удалось привлечь еще несколько удивительных людей.

СС: А вот еще одно забавное демо-видео. То, что вы здесь видите, — управляемые модели людей, которые я создал на основе их фото из интернета. Если перенести движение от первоначального видео, фактически мы можем управлять всем процессом.

Джордж Буш-младший: Это сложный законопроект, потому что в нем много поправок, а законодательные процедуры могут быть неприглядными.

СС: Возвращаясь немного назад, скажу, что наша конечная цель — скопировать манеры людей, то есть уникальность их мимики во время разговора и улыбки. Чтобы это сделать, можем ли мы фактически научить компьютер имитировать манеру речи, только показав ему видеозапись человека? И я сделал вот что — я дал компьютеру посмотреть 14 часов записей речей Барака Обамы. И вот что у нас получилось, когда мы использовали только аудио.

(Видео) БО: Результаты очевидны. Предприятия Америки создали 14,5 млн новых рабочих мест за последние шесть с небольшим лет.

СС: Здесь синтезируется только область рта, и вот как мы это делаем. Наше устройство использует нейронную сеть для преобразования и ввода звука в эти точки рта.

(Видео) БО: Мы получаем его на работе через Medicare или через Medicaid.

СС: Затем мы синтезируем текстуру, добавляем четкости деталям, зубам и накладываем их на изображение головы и фона из исходного видео.

(Видео) БО: Женщины могут пройти бесплатное обследование, и вы не обязаны переплачивать лишь за то, что вы женщина. Молодые люди могут воспользоваться планом родителей, пока им не исполнится 26 лет.

СС: Эти результаты кажутся очень реалистичными и интригующими, но в то же время пугающими даже меня. Нашей целью было создать точную модель человека, а не исказить его. Но больше всего меня беспокоит возможность злоупотребления этой технологией. Люди уже давно пытаются решить эту проблему, еще со времен, когда на рынке впервые появился Photoshop. Как исследователь я также работаю над технологией противодействия и вхожу в команду «Фонд ИИ», который использует комбинацию машинного обучения и человека для обнаружения поддельных фото и видео, то есть борюсь со своей же работой. Один из инструментов, который мы планируем выпустить, — «Защитник реальности». Это плагин для браузера, способный автоматически распознавать потенциально поддельный контент прямо в самом браузере.

Несмотря на все это, поддельное видео может причинить вред еще до того, как у кого-то появится шанс его проверить, поэтому очень важно предупредить каждого о современных возможностях, чтобы составить правильное представление и критично относиться к тому, что видим.

Нам еще далеко до полного моделирования конкретных людей и до обеспечения безопасности этой технологии. Но я воодушевлен и полон надежды, ведь, если мы будем пользоваться этим инструментом правильно и осторожно, он позволит любому человеку положительно повлиять на наш мир в огромных масштабах и помочь сделать наше будущее таким, каким мы хотим.

Перевод: Алена Черных
Редактор: Полина Никитина

Источник

Лекции

Супасорн Суваджанакорн: Поддельные видео реальных людей — как их распознать

Пол Грэм: Правильная настойчивость творит волшебство

«Нам нужен принцип планетарной субсидиарности, а не глобальное управление»

Волновые маркеры: как мозг отмечает то, что нужно запомнить