Для создания голосовых дипфейков используются нейросети, которые учатся на большом наборе данных аудиозаписей. Используемый набор данных может включать в себя записи голоса одного человека или нескольких человек. После обучения алгоритм может генерировать новые аудиозаписи с клонированным голосом для разных целей.
Как создаётся дипфейк голоса?
Для создания голосового дипфейка злоумышленникам понадобится компьютер или смартфон, а также специальная программа - нейросеть, которая позволяет менять голос. Также злоумышленникам нужен набор данных - аудиозаписей. Такие данные найти сегодня несложно в силу развития соцсетей, различного видео контента на соответствующих платформах. Многие люди оставляют сегодня свой голосовой след.
Голосовые дипфейки могут использоваться злоумышленниками для подмены голоса человека в различных целях, например:
создание поддельных аудиозаписей, в которых человек говорит то, что он никогда не говорил на самом деле;
создание поддельных аудиозаписей, которые могут быть использованы для шантажа или вымогательства, распространение дезинформации и пропаганды;
Кроме того, дипфейки могут помочь злоумышленникам получить доступ к той или иной конфиденциальной информации (финансовой, медицинской). Лицу (и его близким), которое станет жертвой злоумышленников, может быть нанесен серьёзнейший репутационный, финансовый и морально-психологический урон.
Использование голосовых дипфейков
В качестве примеров подобной схемы мошенничества можно привести такие примеры.
В 2019 г. мошенники использовали голосовые дипфейки, чтобы ограбить британскую энергетическую компанию на сумму 243 тыс. долларов. Злоумышленник притворился генеральным директором главного немецкого подразделения компании и потребовал срочно перевести деньги на счета компании - поставщика. После того, как платеж был отправлен, мошенник звонил ещё дважды, чтобы усыпить бдительность сотрудников британского офиса и потребовать ещё одного перевода. Руководитель британского подразделения был уверен, что разговаривает со своим боссом, поскольку узнал, как его немецкий акцент, так и тембр, и манеру языка. Второй перевод не был отправлен только потому, что в последний раз мошенник прокололся и позвонил по телефону с австрийского номера вместо немецкого, что насторожило британского директора.
В 2020 г. с использованием голосовых дипфейков мошенникам удалось украсть до 35 млн долларов у японской компании. Сумма украденного не раскрывается следствием. Неизвестно, какие именно решения — открытые, платные или вообще собственные — использовали злоумышленники для подделки голоса, но в обоих случаях компании пострадали от дипфейк - мошенничества.
Однако мы можем этому противостоять, если будем внимательны. Голосовой дипфейк может звучать неестественно: высоко или низко. Тембр дипфейка может существенно отличаться от оригинала. Также могут наблюдаться подозрительные паузы в речи, например, пауза может возникнуть в неожиданном месте, быть слишком длительной и неестественной. При этом могут быть слышны странные посторонние электронные шумы.
Но, нам надо иметь в виду, что нейросети учатся, а поэтому в ближайшем будущем отличить подделку от оригинала будет все сложнее.
Что ещё мы можем сделать?
Во-первых, не надо отвечать на незнакомые телефонные номера. Однако если вам по работе все же приходится это делать, то имеет смысл установить специальные программы для блокировки рискованных звонков.
Следует взять за правило, что нельзя сообщать конфиденциальную информацию в ходе телефонных разговоров. Нельзя сообщать информацию о своих родственниках, банковских счетах, страховых договорах, личном имуществе и тп.
Государству и бизнесу необходимо работать над развитием технологий, которые могут автоматически определять и разоблачать цифровые подделки (анализ интонации голоса, распознавание слов и фраз, поиск неестественных особенностей в голосе и прочих электронных шумов).
Законодатели в свою очередь должны обращать самое пристальное внимание на эту ситуацию, вовремя совершенствовать законодательство, прислушиваться к мнению профессиональных юристов и специалистов в области информационной безопасности. Так как технологии развиваются быстро, то и законодательство должно не отставать от этого процесса. Нужно вооружить правоприменителей современными и эффективными правовыми инструментами регулирования отрасли ИИ.
Требуется и сотрудничество на международном уровне, несмотря на все сложности в сфере международных отношений в наше время. Одним из возможных шагов может быть принятие международной конвенции, запрещающей использование голосовых дипфейков в целях мошенничества и дезинформации. Такая конвенция может помочь обеспечить унификацию правовых норм и облегчить сотрудничество между правоохранительными органами.