Голос рассказывает о вас больше, чем вы думаете. Так, человеческому уху он мгновенно выдает ваше настроение. Например, легко определить, взволнованы вы или расстроены. Но машины умеют понимать гораздо больше: возраст, пол, этническую принадлежность, социально-экономический статус, состояние здоровья и многое другое. Исследователи даже смогли создать изображения лиц на основе информации, содержащейся в голосовых данных человека.
Поскольку новые технологии все лучше понимают вас по голосу, компании пользуются этим. Системы распознавания голоса, начиная от Siri и Alexa и заканчивая теми, что используют голос в качестве пароля, в последние годы получили широкое распространение, поскольку искусственный интеллект и машинное обучение открыли возможность понимать не только то, что вы говорите, но и кто вы. За последние несколько лет Big Voice превратился в индустрию стоимостью $20 млрд. По мере роста рынка исследователи, изучающие конфиденциальность, все настойчивее пытаются найти способы для защиты людей от использования голосовых данных против них.
Голосовые угрозы
Эммануэль Винсент, старший научный сотрудник, специализирующийся на голосовых технологиях во французском Национальном институте исследований в информатике и автоматике (Inria) говорит, что для идентификации можно использовать как слова, которые мы произносим, так и манеру произношения. «Вы также получите и другую информацию об эмоциях или состоянии здоровья», — говорит он.
«Эта дополнительная информация помогает создать более полный профиль, который затем используется для всевозможной целевой рекламы», — объясняет Винсент. Помимо того, что голосовые данные потенциально попадают в обширную область данных, используемых для показа онлайн-рекламы, существует риск, что хакеры получат доступ к местоположению, где хранятся голосовые данные, и начнут использовать их, выдавая себя за вас. Такие случаи уже были, и это доказывает ценность голоса. Простые мошенники использовали автоматический обзвон, чтобы записать слово «Да» и использовать его при подтверждении платежей.
В прошлом году TikTok изменил политику конфиденциальности и начал собирать отпечатки голоса (свободный термин для обозначения данных, включающий голос) у людей в США наравне с другими биометрическими данными, такими как сканирование лица. В более широком смысле колл-центры используют ИИ для анализа «поведения и эмоций» людей во время телефонных разговоров, оценивая «тон, темп и тональность каждого слова» для формирования базы и увеличения продаж. «Мы, можно сказать, находимся в ситуации, когда системы, позволяющие распознать человека и связать все воедино, уже существуют, но с защитой есть проблемы — она все еще далека от того, чтобы широко применяться», — рассказывает Генри Тернер, который исследовал безопасность голосовых систем в Оксфордском университете.
Скрытый смысл
Голос формируется в результате сложного процесса, включающего легкие, голосовой аппарат, горло, нос, рот и придаточные пазухи. По словам исследователя голоса в Медиа-лаборатории MIT Ребекки Кляйнбергер, в момент разговора активируется более сотни мышц.
По словам Натальи Томашенко из Авиньонского университета, исследователи экспериментируют с четырьмя способами повышения конфиденциальности голоса. Ни один из них не идеален, но они изучаются как возможные способы повышения конфиденциальности в инфраструктуре, обрабатывающей голосовые данные.
Во-первых, это умышленное искажение, при котором личность говорящего полностью скрывается. Вспомните голливудские фильмы о хакерах, полностью изменяющих голос во время телефонного разговора, когда они говорят о дьявольском заговоре или требуют выкуп (или рекламные ролики хакерской группы Anonymous). Простое оборудование позволяет любому быстро поменять звучание голоса. Более продвинутые системы преобразования речи в текст расшифровывают слова, а затем проделывают все наоборот и произносят их уже новым голосом.
Во-вторых, говорит Томашенко, исследователи рассматривают распределенное и федеративное обучение, когда данные не покидают устройство, но модели машинного обучения все равно учатся распознавать речь, делясь с более крупной системой. Другой подход предполагает создание зашифрованной инфраструктуры для защиты голосов людей от слежки. Однако большинство усилий направлено на обезличивание голоса.
Оно предполагает, что голос звучит вполне обычно, но при этом из него удаляется информация, которая используется для идентификации. В настоящее время усилия в этой сфере развиваются в двух направлениях: деперсонализация сказанного путем удаления или замены любых конфиденциальных слов в файлах перед их сохранением и обезличивание самого голоса. На сегодня большинство попыток анонимизации голоса связаны с передачей его через экспериментальное программное обеспечение, которое изменит некоторые параметры голосового сигнала, чтобы он звучал иначе. Сюда входит изменение высоты тона, замена фрагментов речи информацией из других голосов и синтез конечного результата.
Работает ли технология обезличивания? Мужские и женские голосовые клипы, которые были деперсонализированы в рамках программы Voice Privacy Challenge в 2020 году, несомненно звучат по-разному. Они более роботизированы, звучат немного неприятно и порой кажется, что они принадлежат совсем другим людям. «Я думаю, что это уже гарантирует более высокий уровень защиты, чем бездействие в настоящее время», — говорит Винсент, которому удалось повысить сложность идентификации людей в исследованиях. Но люди — не единственные слушатели.
Профессор института языковых технологий университета Карнеги-Меллон Рита Сингх говорит, что полностью исключить идентификацию голосового сигнала невозможно, ведь у машин всегда будет потенциал, чтобы установить связи между атрибутами и отдельными лицами, даже те, которые не понятны людям. «Обезличивание относится к слушателю-человеку или машине?» — спрашивает профессор электротехники и вычислительной техники в университете Южной Калифорнии Шри Нараянан.
«Настоящая деперсонализация невозможна без полного изменения голоса, — говорит Сингх. — Когда вы изменяете его полностью, это уже не тот голос». Но, несмотря на эти нюансы, технологию защиты голоса стоит развивать, добавляет Сингх, поскольку ни одна система конфиденциальности или безопасности не будет абсолютно безопасной. Отпечатки пальцев и системы идентификации лиц на iPhone в прошлом удавалось обходить, но в целом они до сих пор считаются эффективным методом защиты частной жизни людей.
Пока, Алекса
Голос все чаще используется как способ подтверждения личности. Например, большинство банков и других компаний анализируют голосовые отпечатки с вашего разрешения, чтобы изменить пароль. Кроме того, анализ голоса обнаруживает болезнь до того, как станут очевидны симптомы. Но технология копирования или подделки голоса быстро развивается.
Имея несколько минут, а порой и секунд, записи чьего-то голоса можно воссоздать его с помощью технологий. Например, актеров озвучки «Симпсонов» легко заменить дипфейками. А коммерческие инструменты для воссоздания голосов доступны в интернете. «Определенно, сейчас больше работают над идентификацией говорящего, а также преобразованием речи в текст и наоборот, чем над защитой людей от любой из этих технологий», — говорит Тернер.
Многие из методов обезличивания голоса, разрабатываемых в настоящее время, все еще далеки от использования в реальном мире. Когда они будут готовы к применению, компаниям придется внедрять инструменты для защиты конфиденциальности клиентов, а пока люди легко уязвимы. Единственное, что можно сделать, чтобы оградить себя от записи голоса и снизить возможность атаки, — это не звонить в колл-центры или компании, использующие анализ голоса, а также не пользоваться голосовыми помощниками.
Но наибольшую защиту обеспечивают судебные дела и меры защиты. Европейский регламент по защите данных охватывает биометрическую информацию, включая голоса людей, в рамках защиты конфиденциальности. Согласно руководящим принципам, люди должны знать об использовании их данных и давать согласие на идентификацию. Кроме того, необходимы некоторые ограничения на персонализацию. Тем временем в США суды штата Иллинойс, где действуют одни из самых строгих биометрических законов в стране, все чаще рассматривают дела, связанные с голосовыми данными людей. McDonald’s, Amazon и Google сталкиваются с судебными разбирательствами при использовании голосовых данных людей. Решения по этим делам устанавливают новые правила защиты людей в этой области.