Новости Software

Microsoft создаёт машинный переводчик, сохраняющий голос пользователя

Исследователи из лабораторий Microsoft создали технологию, которая может изучить то, как звучит чей-либо голос, а затем использовать его при синтезе иностранной или родной речи. Система может применяться в создании более персонализированного ПО для изучения иностранного языка или же при создании специальных устройств для автоматического перевода речи путешественников.

Во время недавней демонстрации в редмондском кампусе Microsoft исследователь компании Фрэнк Сунг (Frank Soong) показал, что его технология может читать на испанском с помощью голоса его босса Рика Рашида (Rick Rashid), который возглавляет исследовательские проекты Microsoft. Во втором примере господин Сунг использовал своё ПО для того, чтобы дать директору по исследованиям и стратегии корпорации Microsoft Крейг Манди (Craig Mundie) возможность заговорить на китайском.

В качестве примера можно ознакомиться с записью голоса Рика Рашида на родном английском языке, а затем — с автоматическими переводами и синтезом его речи на испанском, итальянском и китайском. Голос, как можно убедиться, действительно похож, хотя некоторые интонации и логические паузы в синтезированной речи отсутствуют, из-за чего она приобретает выраженный роботизированный оттенок.

Фрэнк Сунг, разработавший технологию вместе с коллегами из Microsoft Research Asia в Пекине, полагает, что для изобретения можно найти несколько применений. «Для одноязычного путешественника, посещающего чужую страну, мы сможем сделать распознавание речи, последующий перевод и затем звуковой вывод её на другом языке, но с сохранением его собственного голоса», — сказал он.

По мнению исследователя, технология также может быть использована для помощи студентам в изучении иностранного языка. Образцы иностранной речи, произнесённые собственным голосом, могут не только служить неким ободрением, но позволят проще повторять иностранные фразы.

Применяться технология может и в любых других вариантах, предполагающих синтез речи. Система нуждается примерно в часе обучения для разработки модели чтения любого текста голосом отдельного человека. Записанные образцы звуков тщательно изучаются автоматикой, и при синтезе речи на иностранном языке она подстраивается под нужный голос.

В настоящее время этот подход позволяет, по словам создателей, осуществлять преобразование между любыми двумя языками из 26 поддерживаемых. Качество такого преобразования, конечно, может заметно страдать, но в перспективе технология призвана серьёзно упростить общение носителей различных языков.

Сохранение языка человека при синтезе речи на другом языке сделает взаимодействие при помощи автоматических переводчиков более эффективными, полагает Шрикант Нараянан (Shrikanth Narayanan), профессор университета Южной Каролины и руководитель группы исследователей, работающей над системами перевода речи в ситуациях подобных консультациям между доктором и пациентом.

«Слово — лишь часть того, что человек произносит, — отмечает он, добавляя, что для передачи всей информации речью определённого человека системы перевода должны сохранять параметры голоса и много другое. — Сохранение голоса, сохранение интонации очень важны, и это учитывается в проекте».

Его исследовательская группа изучает вопрос того, как такие особенности речи, как ударение, интонация, использование пауз или заиканий влияет на эффективность и воспринимаемое качество автоматического перевода. По мнению Шриканта Нараянана, новый проект Microsoft позволяет значительно улучшить взаимодействие между людьми посредством машинного перевода.

Материалы по теме:

Источник:

window-new
Soft
Hard
Тренды 🔥
Бизнес получит доступ к ведомственным обезличенным данным для обучения ИИ 27 мин.
«Яндекс» и Национальная система платёжных карт поддержали Samsung в патентном споре, связанном с Samsung Pay 32 мин.
Новый владелец объединит киберспортивные компании ESL Gaming и FACEIT в одну 39 мин.
Новая функция Steam Cloud позволит на лету переключаться между игровыми сессиями на Steam Deck и ПК с сохранением прогресса 51 мин.
Отличия от «беты», открытый мир и «Новая игра +»: свежие подробности Elden Ring с Taipei Game Show 2022 2 ч.
Роскомнадзор может создать систему блокировки звонков с подменных телефонных номеров 3 ч.
VR-экшен с элементами выживания The Walking Dead: Saints & Sinners получит продолжение 3 ч.
Переиздание классического арканоида Breakout от Atari поступит в продажу 10 февраля 3 ч.
Интерактивная поэма A Memoir Blue «переехала» на март 3 ч.
Видео: бои, навыки и стелс в новом геймплейном ролике ролевого экшена Weird West 4 ч.
Lenovo готовит к выпуску игровой смартфон Legion Halo на чипе Snapdragon 8 Gen1 Plus 32 мин.
Электрическое аэротакси Joby установило мировой рекорд по скорости полёта в своей категории 45 мин.
Aruba Networks: подавляющее большинство компаний в EMEA интересуется NaaS, но не все до конца понимают, что это такое 48 мин.
Космический грузовик SpaceX Dragon успешно вернул с МКС на Землю более 2000 кг научных грузов 2 ч.
В последнем квартале выручка Logitech оказалась на 2 % ниже, чем годом ранее — тогда удалёнка лучше подогревала спрос 2 ч.
Acer представила Chromebook Spin 311 — ноутбук-трансформер для учёбы на процессоре MediaTek 3 ч.
Южнокорейский телеком-оператор SK Telecom ускорил темпы разработки летающих такси 4 ч.
Кулер Akasa Alucia H4 предназначен для процессоров с TDP до 185 Вт 4 ч.
IBM завершила квартал рекордным ростом выручки за последние десять лет 5 ч.
Эксперты Moody’s: в ближайшие годы Tesla останется лидером рынка, но столкнётся с растущей конкуренцией 5 ч.