Сегодня 23 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Meta✴ представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь

Инженеры Meta рассказали о нейросетевой модели Voicebox, которая обладает широкими возможностями по работе с устной речью: генерация, редактирование или стилизация по образцу. Авторы проекта охарактеризовали её как прорыв в моделях речевого ИИ.

 Источник изображения: ***

Источник изображения: Meta

Voicebox озвучивает заданный текст с высоким качеством или производит обработку уже готовой записи голоса, например, удаляет из него посторонние звуки вроде автомобильных гудков и собачьего лая, сохраняя содержание и стилистику речи. При необходимости можно даже «переиграть» фрагмент записи, точечно исправив, например, неправильно произнесённое слово. Поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский. Voicebox может использоваться в качестве синхронного переводчика, передавая голос и манеру речи собеседника.

Модель была обучена на 50 часах аудиокниг, и этого ей хватило, чтобы овладеть навыками устной речи в полной мере: она составляет профиль голоса и манеры речи на основе образца продолжительностью всего две секунды, после чего может воспроизвести её с любым текстом. На практике эти возможности могут оказаться полезными в приложениях метавселенной, обеспечив естественное звучание голосов для виртуальных помощников и неигровых персонажей; или для слабовидящих людей — модель может озвучивать письма голосами их авторов.

Meta часто делает свои ИИ-модели общедоступными, но не на сей раз. В компании не раскрыли, на каких материалах производилось обучение Voicebox, и не предложили испытать технологию на практике — опасаются злоупотреблений.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Anthropic Claude 4 научился избегать «лазеек» и точнее выполнять сложные задания 2 ч.
Sega анонсировала «вдумчивую реставрацию» оригинальной Warhammer 40,000: Space Marine для нового поколения игроков 6 ч.
Культовая стратегия Warhammer 40,000: Dawn of War в 2025 году получит новую жизнь благодаря ремастеру — трейлер и подробности 7 ч.
Warhammer 40,000: Boltgun 2 выйдет в 2026 году, а бесплатный «печатный» шутер по мотивам первой части ждать не придётся 8 ч.
Owlcat Games анонсировала ролевую игру про борьбу с ересью Warhammer 40,000: Dark Heresy и новые дополнения для Warhammer 40,000: Rogue Trader 9 ч.
Чемпионат мира по киберспорту в Саудовской Аравии остался без GeoGuessr — разработчики отказались от участия после протеста фанатов 10 ч.
Разработчики ролевого боевика Alkahest в духе Dark Messiah of Might and Magic анонсировали геймплейную демонстрацию и показали новый тизер 11 ч.
День биткоин-пиццы: 15 лет назад майнер купил две пиццы за 10 000 BTC — сегодня это $1,1 млрд 11 ч.
«Яндекс» запустил «Вертикали Поиска» — теперь искать в интернете можно сразу по объектам 12 ч.
Надёжный инсайдер раскрыл, когда для Assassin’s Creed Shadows выйдет дополнение Claws of Awaji и неанонсированный кооперативный режим 12 ч.
Apple рассчитывает выпустить умные очки до конца 2026 года, но передумала создавать «подглядывающие» часы Watch 26 мин.
Новая статья: Система жидкостного охлаждения ID-Cooling DX360 Max с радиатором увеличенной толщины 4 ч.
Xiaomi представила второй электромобиль — кроссовер Xiaomi YU7, который во многом превосходит Tesla Model Y 5 ч.
Qualcomm готовит 80-ядерный серверный Arm-процессор SD1 для ИИ-платформ 7 ч.
Xiaomi представила огромный 14-дюймовый планшет Pad 7 Ultra на фирменном процессоре Xring O1 10 ч.
Xiaomi представила часы Watch S4 на фирменном чипе Xring T1 с модемом 4G собственной разработки 10 ч.
SK hynix представила смартфонную память UFS 4.1 на основе 321-слойной 4D NAND 11 ч.
Представлен флагман Xiaomi 15S Pro — первый смартфон на фирменном процессоре Xring O1 11 ч.
Xiaomi представила процессор Xring O1, который быстрее и дешевле Apple A18 Pro — его разрабатывали 4 года и потратили $1,87 млрд 11 ч.
Учёные создали полупроводниковый кулер для всего — без движущихся частей, шума и жидкости 11 ч.