Сегодня 22 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Alibaba представила нейросеть EMO — она оживляет портреты, заставляя их разговаривать и даже петь

Исследователи из Института интеллектуальных вычислений Alibaba разработали (PDF) систему искусственного интеллекта EMO (Emote Portrait Alive), которая анимирует статическое изображение человека, заставляя его реалистично говорить или петь.

 Источник изображения: youtube.com/@ai_beauty303

Источник изображения: youtube.com/@ai_beauty303

Система изображает реалистичную мимику и движения головы, точно соответствующие эмоциональным оттенкам звукового ряда, на основе которого генерируется анимация. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», — пояснил глава группы разработчиков Линьжуй Тянь (Linrui Tian).

В основе системы EMO лежит диффузионная модель ИИ, зарекомендовавшая себя как способная генерировать реалистичные изображения. Исследователи обучили её на массиве данных, включающем более 250 часов видеозаписей «говорящей головы»: выступлений, фрагментов фильмов, телешоу и вокальных выступлений. В отличие от предыдущих методов, предполагающих создание трёхмерной модели или механизмов имитации человеческой мимики, EMO предполагает прямое преобразование звука в видеоряд. Это позволяет системе передавать мельчайшие движения и связанные с естественной речью особенности личности.

Авторы проекта утверждают, что EMO превосходит существующие методы по показателям качества видео, сохранения идентичности и выразительности. Исследователи опросили фокус-группу, и та показала, что созданные EMO видеоролики более естественны и эмоциональны, чем произведения других систем. Система создаёт анимацию не только на основе речи, но и с использованием звукового ряда с вокалом — она учитывает форму рта человека на оригинальном изображении, добавляет соответствующую мимику и синхронизирует движения с вокальной партией. Единственной связанной с EMO проблемой является вероятность злоупотребления этой технологией. Исследователи сообщают, что планируют изучить методы выявления созданных ИИ видеороликов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Windows 11 получила мелкое, но очень полезное обновление индикатора батареи ноутбука 6 ч.
Хардкорный режим, скачки и три сюжетных дополнения: Warhorse рассказала, как будет поддерживать Kingdom Come: Deliverance 2 после релиза 6 ч.
HPE проводит расследование в связи с заявлением хакеров о взломе её систем 6 ч.
«Мы создали CRPG нашей мечты»: продажи Warhammer 40,000: Rogue Trader превысили миллион копий 7 ч.
Создатели Lineage и Guild Wars отменили MMORPG во вселенной Horizon Zero Dawn и Horizon Forbidden West 7 ч.
Instagram начал переманивать блогеров из TikTok денежными бонусами до $50 тысяч в месяц 8 ч.
Eternal Strands, Starbound, Far Cry New Dawn и ещё шесть игр: Microsoft рассказала о ближайших новинках Game Pass 9 ч.
ИИ превзойдёт человеческий разум в течение двух-трёх лет, уверен глава Anthropic 10 ч.
Keep Driving вышла на финишную прямую — новый трейлер и дата релиза ностальгической RPG о путешествии по стране на своей первой машине 10 ч.
Google стала на шаг ближе к ИИ, который думает как человек — представлена архитектура Titans 12 ч.
GeForce RTX 5000 Kingpin не будет — легендарный оверклокер рассказал о планах на будущее, в которых есть место не только Nvidia 4 ч.
Слухи: OpenAI, Oracle и Softbank вложат $100 млрд в ИИ-инфраструктуру США, а в перспективе — до $500 млрд 4 ч.
Новая статья: Обзор смартфона OPPO Find X8: очень удобный флагман 5 ч.
К мемкоинам приведут настоящих инвесторов — поданы заявки на крипто-ETF в Dogecoin и TRUMP 5 ч.
Fujifilm представила гибридную камеру мгновенной печати Instax Wide Evo с широкоугольным объективом 9 ч.
Новый Apple iPhone SE получит вырез Dynamic Island вместо чёлки 11 ч.
К 2035 году США смогут получать до 84 ГВт из источников возобновляемой энергии на федеральных землях 11 ч.
Maxsun выпустила новые видеокарты на чипах Nvidia Kepler десятилетней давности 11 ч.
«Транснефть» направила повторный иск к Cisco на 56 млн рублей 12 ч.
Sparkle представила видеокарту Arc B580 Titan Luna с белой печатной платой и подпоркой 12 ч.