Сегодня 25 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Alibaba представила нейросеть EMO — она оживляет портреты, заставляя их разговаривать и даже петь

Исследователи из Института интеллектуальных вычислений Alibaba разработали (PDF) систему искусственного интеллекта EMO (Emote Portrait Alive), которая анимирует статическое изображение человека, заставляя его реалистично говорить или петь.

 Источник изображения: youtube.com/@ai_beauty303

Источник изображения: youtube.com/@ai_beauty303

Система изображает реалистичную мимику и движения головы, точно соответствующие эмоциональным оттенкам звукового ряда, на основе которого генерируется анимация. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», — пояснил глава группы разработчиков Линьжуй Тянь (Linrui Tian).

В основе системы EMO лежит диффузионная модель ИИ, зарекомендовавшая себя как способная генерировать реалистичные изображения. Исследователи обучили её на массиве данных, включающем более 250 часов видеозаписей «говорящей головы»: выступлений, фрагментов фильмов, телешоу и вокальных выступлений. В отличие от предыдущих методов, предполагающих создание трёхмерной модели или механизмов имитации человеческой мимики, EMO предполагает прямое преобразование звука в видеоряд. Это позволяет системе передавать мельчайшие движения и связанные с естественной речью особенности личности.

Авторы проекта утверждают, что EMO превосходит существующие методы по показателям качества видео, сохранения идентичности и выразительности. Исследователи опросили фокус-группу, и та показала, что созданные EMO видеоролики более естественны и эмоциональны, чем произведения других систем. Система создаёт анимацию не только на основе речи, но и с использованием звукового ряда с вокалом — она учитывает форму рта человека на оригинальном изображении, добавляет соответствующую мимику и синхронизирует движения с вокальной партией. Единственной связанной с EMO проблемой является вероятность злоупотребления этой технологией. Исследователи сообщают, что планируют изучить методы выявления созданных ИИ видеороликов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Apple выпустила первые публичные беты iOS 26 и других ОС с прозрачным дизайном Liquid Glass 2 ч.
«Парадокс успеха»: глава Microsoft попытался успокоить сотрудников после новой волны увольнений 2 ч.
Ubisoft раскрыла дату выхода дополнения Claws of Awaji к Assassin’s Creed Shadows и план улучшений игры 2 ч.
Официальный сайт Electronic Arts случайно подтвердил, когда выйдет Battlefield 6 5 ч.
Apple запустила онлайн-генератор обоев с логотипом компании 5 ч.
Маск анонсировал возрождение «вайнов», но «в форме с искусственным интеллектом» 5 ч.
Techland уверена, что Dying Light: The Beast отобьёт каждый потраченный на неё доллар, в отличие от Assassin’s Creed Shadows 6 ч.
Figma открыла доступ к ИИ-генератору приложений по текстовому описанию всем желающим 6 ч.
Их заменил ИИ: ведущие технологические компании уволили более 100 000 специалистов с начала года 6 ч.
Стало известно, как будут выглядеть переделанные новостные сводки Apple Intelligence в iOS 26 6 ч.
Новая статья: Обзор игрового QD-OLED DQHD-монитора Acer Predator X49X 1 мин.
Endgame Gear извинилась за инцидент с трояном в драйвере для мыши и пообещала больше такого не допускать 2 ч.
Новая статья: Ноутбук Digma Pro Fortis M с процессором Intel Raptor Lake: для учёбы и не только 2 ч.
Для изучения полярных щелей Земли NASA запустило два космических зонда 4 ч.
Анонсированы смартфоны Realme 15 и 15 Pro с улучшенными камерами и чипами Snapdragon 7 Gen 4 и Dimensity 7300+ 4 ч.
Vivo представила смартфон iQOO Z10R — чип Dimensity 7400, защищённый корпус и цена от $225 6 ч.
Intel отбилась от иска акционеров из-за падения капитализации на $32 млрд 6 ч.
Gartner: объём мирового IT-рынка в 2025 году превысит $5,4 трлн, а его основным драйвером станут ИИ ЦОД 8 ч.
Ryzen Threadripper Pro 9995WX разогнали с помощью системы охлаждения спорткара BWM — до жидкого азота далеко 9 ч.
Amazon выпустила более доступный ридер Kindle Colorsoft с цветным экраном, а также версию для детей 9 ч.