Ложный звук: как мошенники пользуются чужими голосами

Представьте себе такую сцену. Звонит телефон. Сотрудник снимает трубку и слышит начальницу, которая в панике сообщает, что забыла перевести деньги новому подрядчику перед уходом, и ему нужно сделать это. Она диктует ему реквизиты, деньги переводятся, кризис предотвращен.

Сотрудник откидывается на спинку стула, делает глубокий вдох и смотрит, как его руководительница входит в дверь. Голос на другом конце провода ей не принадлежал. На самом деле это был даже не человек. Это был аудиофейк, сгенерированный машиной

Подобные атаки с использованием записанного аудио уже происходили, и не за горами появление аналогичных разговоров в режиме реального времени.

Дипфейки, как аудио, так и видео, стали возможны только с развитием сложных технологий машинного обучения, которое произошло в последние годы. Они принесли с собой новый уровень неопределенности в отношении цифровых медиа. Чтобы обнаружить дипфейки, многие исследователи обращаются к анализу визуальных артефактов — мелких сбоев и несоответствий, обнаруженных в видео.

Аудиофейки потенциально представляют еще большую угрозу, потому что люди часто общаются вербально без видео — например, с помощью телефонных звонков, радио и голосовых записей. Эти голосовые сообщения значительно расширяют возможности злоумышленников.

Для обнаружения аудиоподделок мы с коллегами из Университета Флориды разработали методику, которая измеряет акустические и гидродинамические различия между образцами голоса, органично созданными дикторами и синтетически сгенерированными компьютерами.

Органические и синтетические голоса

Люди издают звуки, прогоняя воздух через различные структуры голосового тракта, включая голосовые связки, язык и губы. Перестраивая эти структуры, вы изменяете акустические свойства голосового тракта, что позволяет создать более 200 различных звуков или фонем. Однако анатомия человека существенно ограничивает акустическое поведение этих фонем, и это приводит к относительно небольшому диапазону правильных звуков для каждой из них.

Напротив, аудиодипфейки создаются путем предварительного прослушивания компьютером аудиозаписи речи жертвы. В зависимости от используемых методов компьютеру требуется прослушать от 10 до 20 секунд записи. Этот звук используется для извлечения ключевой информации об уникальных аспектах голоса жертвы.

Злоумышленник выбирает фразу, которую произносит дипфейк, а затем, используя модифицированный алгоритм преобразования текста в речь, генерирует аудиосэмпл, который звучит так, как будто жертва произносит выбранную фразу. Процесс создания одного сфальсифицированного образца занимает считанные секунды, что потенциально дает злоумышленникам достаточную гибкость для использования дипфейкового голоса в разговоре.

Обнаружение дипфейков в аудио

Чтобы отличать человеческую речь от дипфейков, первым делом нужно понимать, как акустически моделируется речевой тракт. К счастью, у ученых есть методы, позволяющие оценить, как будет звучать кто-то — или какое-то существо, например динозавр, — на основе анатомических измерений его голосового тракта.

Мы сделали наоборот. Инвертировав эти методы, мы получили приближенное изображение голосового тракта диктора во время фрагмента речи. Это позволило нам эффективно заглянуть в анатомию диктора.

Исходя из этого, мы предположили, что в дипфейковых аудиосэмплах не будет тех же анатомических ограничений, что есть у людей. Другими словами, анализ фальшивого аудио имитировал формы голосового тракта, которых нет у людей.

Результаты тестирования не только подтвердили нашу гипотезу, но и выявили кое-что интересное. Извлекая оценки голосового тракта из дипфейкового аудио, мы обнаружили, что они часто были до смешного неверными. Например, зачастую получался голосовой тракт с таким же относительным диаметром и консистенцией, как у питьевой соломинки, в отличие от речевых трактов человека, которые гораздо шире и имеют более изменчивую форму.

Таким образом, дипфейк-аудио, даже убедительное для слушателей, нельзя назвать неотличимым от человеческой речи. Оценивая анатомию, ответственную за создание наблюдаемой речи, можно определить, был ли звук сгенерирован человеком или компьютером.

Почему это важно

Современный мир определяется цифровым обменом информацией. Все, от новостей до развлечений и разговоров с близкими, обычно происходит в цифровом формате. Даже в зачаточном состоянии дипфейковые видео и аудио подрывают доверие людей к этому обмену, фактически ограничивая его полезность.

Чтобы цифровой мир оставался важнейшим ресурсом в жизни людей, необходимо иметь эффективные и безопасные методы определения источника информации, в том числе аудиозаписей.

Источник

30 ноября 2022