Специалисты НИЯУ МИФИ создали интеллектуальную систему для выявления голосовых дипфейков. Проект получил название «Сипуха», отсылающее к птице из семейства совиных, известной своим отличным слухом. Для обучения нейронной сети, лежащей в основе системы, использовались более 200 тыс. голосовых записей, включающих как оригинальные, так и сгенерированные искусственно.
В последние два года проблема голосовых дипфейков приобрела особую актуальность, поскольку злоумышленники начали применять искусственный интеллект для создания фальшивых аудиозаписей. В будущем такая система сможет предупредить потенциальную жертву о том, что она общается не с реальным человеком, а с цифровой имитацией его голоса, созданной с помощью алгоритмов.
«В 2022 году, когда дипфейки еще не получили широкого распространения, мы приступили к решению этой задачи. Первоначально работа была сосредоточена на задачах голосовой биометрии. В дальнейшем стало очевидно, что эти технологии можно эффективно применять для противодействия удалённому мошенничеству. Был сформирован набор данных, содержащий записи голосов реальных людей и синтезированные образцы. На этом наборе данных была обучена нейронная сеть для различения подлинных и фальсифицированных голосов. Для интеграции функции распознавания в различные проекты была разработана специализированная библиотека pyara», ― это стало возможным благодаря применению принципиально новых алгоритмов», ― сообщил в интервью корреспонденту портала «Научная Россия» разработчик, доцент кафедры «Криптологии и кибербезопасности» НИЯУ МИФИ Дмитрий Ефанов.
Для определения, является ли аудиозапись синтезированной, нейросеть проводит анализ кепстральных коэффициентов – числовых параметров, характеризующих аудиосигналы. Предполагается, что программа сможет обнаруживать поддельные записи за несколько секунд. Дмитрий Ефанов подчеркнул, что человеческий голос представляет собой крайне сложное явление, а на синтезированный голос могут накладываться шумы и помехи, что затрудняет его анализ. На данный момент в России отсутствуют аналогичные программы, широко представленные на рынке. Отдельные решения для автоматизированного распознавания голоса доступны только крупным компаниям. В будущем система может быть реализована в виде облачного сервиса, который разработчики смогут интегрировать в свои проекты для проверки подлинности голоса. Такая возможность может оказаться особенно полезной в контактных центрах или в приложениях для обмена сообщениями.
«Необходимо учитывать, что технологии клонирования голоса стремительно совершенствуются, поэтому «Сипуха» не является безоговорочным средством защиты от мошенников, а представляет собой инструмент, уменьшающий вероятность успешной атаки. Информационные системы можно классифицировать на две группы: системы, в которых взаимодействие происходит с автоматизированной системой (голосовая биометрия, «умный» дом, голосовые помощники, беспилотные автомобили), и системы, предназначенные для общения пользователей друг с другом (мессенджеры, колл-центры). В первую очередь, мы сосредоточены на колл-центрах банков. В настоящее время банки разрабатывают коммерческие биометрические системы, позволяющие использовать голосовую биометрию для повышения качества обслуживания клиентов. К этим системам можно интегрировать функцию распознавания голосовых дипфейков, которая должна в режиме, близком к реальному времени, информировать оператора о том, с кем он разговаривает: с подлинным голосом или с цифровой копией голоса клиента, чьими данными пользуются мошенники.
По словам ученого, разработка подобных решений – это непрерывный процесс, не допускающий однократного создания программы и ее последующего выпуска. Группа специалистов во главе с Дмитрием Ефановым продолжает изучение кепстральных коэффициентов и увеличивает объем данных, используемых для обучения нейронной сети.
Новость создана при содействии Министерства науки и высшего образования РФ
Фотография предоставлена пресс-службой Национального исследовательского ядерного университета «МИФИ