YouTube тестирует технологию на базе искусственного интеллекта (ИИ), предназначенную для синхронизации движений губ спикеров при автоматическом переводе. Эта разработка дополняет существующую функцию автодублирования, которая уже использует ИИ для перевода аудиодорожки.

Источник изображения: AI
По словам руководителя продукта по автодублированию Будхики Коттахаччи (Buddhika Kottahachchi), команде пришлось разработать инструменты, способные «модифицировать пиксели на экране так, чтобы они соответствовали переведённой речи». Для этого система анализирует не только форму губ, но и положение зубов, мимику, осанку и другие визуальные параметры. По сообщению PCMag, на текущем этапе тестирования технология показала наилучшие результаты в видео с разрешением Full HD. В 4K её эффективность ниже, однако качество может быть улучшено к моменту официального запуска.
Напомним, YouTube впервые продемонстрировал функцию на мероприятии в сентябре, но дата публичного релиза пока не объявлена. Первая версия инструмента поддерживает синхронизацию губ при переводе на английский, французский, немецкий, испанский и португальский языки. В дальнейшем планируется расширить охват на все языки, поддерживаемые системой автодублирования, включая бенгальский, голландский, иврит, хинди, индонезийский, итальянский, японский, корейский, малаялам (дравидийский язык), польский, панджаби, румынский, русский, тамильский, телугу, турецкий, украинский и вьетнамский. Стоимость использования функции не раскрывается.
В настоящее время функция находится на ранней стадии тестирования, и доступ к ней ограничен избранными пользователями платформы.
Источник: