За 2025 год качество дипфейков — создаваемых при помощи искусственного интеллекта медиафайлов — значительно повысилось. Лица, голоса и движения тела, которые ИИ генерирует, имитируя реальных людей, превзошли ожидания многих экспертов; эти материалы всё чаще используются, чтобы обманывать людей, предупреждает Gizmodo.
Источник изображения: Tom Kotov / unsplash.com
Во многих повседневных ситуациях, будь то видеозвонки низкого разрешения или медиаконтент в соцсетях, качество ИИ-дипфейков уже достаточно высоко, чтобы обмануть простых людей, которые не являются экспертами. Качеством всплеск дипфейков не ограничивается: в 2023 году таких материалов было 500 тыс., а в 2025 году их стало около 8 млн, подсчитали в DeepStrike, и темпы роста составляют около 900 % в год.
Резкому росту показателей способствовали несколько технических прорывов. Во-первых, генерируемые ИИ материалы отличаются согласованностью по времени: люди в кадре правдоподобно движутся, люди легко узнаются, а содержание видео остаётся осмысленным в каждом кадре. Модели отделяют информацию, связанную с представлением личности человека, от информации о движении: одно и то же движение может сопоставляться с разными личностями, а одна и та же личность — с несколькими типами движений. Изображения лиц не мерцают, не искажаются и не имеют деформаций, которые раньше явно указывали на дипфейки.
Во-вторых, качество клонирования голоса уже преодолело условный порог неразличимости. Чтобы создать убедительную имитацию голоса, достаточно нескольких секунд — у клона будут естественная интонация, ритм, акцент, эмоции, паузы и даже шум дыхания. И это огромное пространство для крупномасштабного мошенничества. Субъективные признаки, которые раньше выдавали синтетические голоса, в значительной степени исчезли.
В-третьих, технический барьер для работы с генераторами контента, снизился практически до нуля — с OpenAI Sora 2 и Google Veo 3, а также с моделями некоторых стартапов любой желающий может сформулировать идею, составить подробный сценарий при помощи OpenAI ChatGPT или Google Gemini и в считанные минуты сгенерировать качественный контент. Автоматизировать весь процесс можно при помощи ИИ-агентов. В итоге возможность создавать связные дипфейки с сюжетами в больших масштабах уже демократизировали.
Источник изображения: Mark Farías / unsplash.com
Выявлять неотличимые от реальных людей дипфейки в социальных сетях становится крайне непросто, тем более, что внимание пользователей платформ уже фрагментировано, и материалы распространяются быстрее, чем их можно проверить. Дипфейки используются для дезинформации, преследования людей и финансовых махинаций, и люди не успевают понять, что вообще происходит.
Траектория на следующий год представляется очевидной — дипфейки движутся в сторону генерации контента в реальном времени. Видеоролики максимально точно имитируют нюансы внешности человека и оказываются способны обходить системы обнаружения. Граница смещается от статического визуального реализма к согласованности по времени и поведению — контент будет появляться в реальном времени, и предварительно отрисованными клипами дело уже не обойдётся. Результат выйдет за рамки простого узнавания человека — персонажи на роликах будут вести себя как их реальные прототипы. Участники видеозвонков смогут синтезироваться в реальном времени — их лица, голоса и манеры будут мгновенно адаптироваться к запросам, и вместо записанных видеороликов мошенники станут показывать своим жертвам подобные ИИ-аватары.
Субъективное восприятие уже не поможет людям защититься от подобных дипфейков — потребуются технические средства защиты, например, криптографическая подпись подлинных материалов и маркировка средств ИИ-редактирования. Тщательного изучения картинки на уровне пикселей может оказаться уже недостаточно.
Источник:


MWC 2018
2018
Computex
IFA 2018






