Специализирующаяся на технологиях кибербезопасности компания NCC Group создала работающий на основе искусственного интеллекта метод воссоздания голоса любого человека, функционирующий в реальном времени. Система построена на общедоступных программных решениях и общедоступном оборудовании.
Источник изображения: Vitaly Gariev / unsplash.com
Средство для создания голосовых дипфейков в реальном времени после обучения активируется всего одним нажатием кнопки — управление осуществляется при помощи веб-интерфейса, и потенциальный злоумышленник может изобразить из себя кого угодно. Невысоким может быть и качество входного сигнала — голос на выходе всё равно звучит убедительно, а задержка оказывается незначительной. Это значит, что данное решение можно использовать даже с микрофонами, встроенными в ноутбуки и смартфоны.
Работа в режиме реального времени — важное преимущество. Существующие технологии подделки голоса на выходе выдают звуковой файл. То есть злоумышленник может заранее записать реплики, но потенциальная жертва легко разоблачит схему, если разговор отклонится от ожидаемого сценария. А если мошенник попробует сгенерировать дипфейк на лету, его выдаст задержка в разговоре. Инженеры NCC Group опробовали свою технологию на собственных клиентах — с их разрешения, конечно — и те ни разу не заметили подвоха. В программной части решения используются инструменты с открытым исходным кодом, а для эффективной работы аппаратной желательно использовать мощные видеокарты, но и ноутбук с одной из наименее производительных в актуальной линейке Nvidia RTX A1000 давал задержку всего в полсекунды.
К счастью дипфейки с видеорядом пока не работают в реальном времени. Сейчас крупные соцсети, в том числе TikTok, YouTube и Instagram✴ захлестнула очередная волна видеодипфейков, для создания которых используются два инструмента: генератор картинок Google Gemini Flash 2.5 Image (он же Nano Banana) и открытый генератор видео Alibaba WAN 2.2 Animate — они позволяют добавлять на видеоролик любого человека. Слабой стороной дипфейков с видео пока остаётся недостаточная согласованность картинки и звукового ряда — мимика не всегда соответствует интонациям, а если человек якобы взволнован, но его лицо остаётся спокойным — это, вероятно, подделка. Но новые решения заставляют задуматься о необходимости усовершенствовать средства защиты: методы аутентификации теперь не должны полагаться на голосовые и видеозвонки, предупреждают эксперты.
Источник:


MWC 2018
2018
Computex
IFA 2018






