Теги → синтез речи

Видео: Google Assistant заговорит голосом знаменитостей, первая ласточка — Джон Ледженд

Google Assistant отныне сможет разговаривать голосом знаменитостей, и первым из них станет американский певец, автор песен и актёр Джон Ледженд (John Legend). В течение ограниченного времени лауреат Грэмми будет петь пользователям «С днём рождения», сообщать погоду и отвечать на вопросы типа «Кто такая Крисси Тейген?» и так далее.

Джон Ледженд — один из шести новых голосов Google Assistant, которые были предварительно анонсированы на Google I/O 2018, где компания представила предварительную версию своей модели синтеза речи WaveNet. Последняя основана на искусственном интеллекте Google DeepMind, работает на основе выборки человеческой речи и прямого моделирования звуковых сигналов, создавая более реалистичную искусственную речь. «WaveNet позволила нам сократить время записи в студии — модель действительно может передать богатство голоса актёра», — сказал на сцене исполнительный директор Google Сундар Пичаи (Sundar Pichai).

В Google есть несколько записей прямых ответов господина Ледженда на ряд подобранных заранее запросов, таких как: «Привет, Google, исполни мне серенаду» или «Привет, Google, мы обычные люди?». Есть и пара пасхалок, вызывающих ответы голосом знаменитости, но в остальных случаях по стандарту система на английском отвечает стандартным голосом.

Чтобы активировать голос Джона Ледженда, пользователи могут сказать: «Привет, Google, говори как Ледженд» или перейти в настройки Google Assistant и переключиться на его голос. Функция доступна только на английском языке в США, но это, вероятно, только начало — в будущем компания продолжит эксперименты в этом направлении.

Радиорепортёр вернул свой утраченный голос с помощью синтеза речи

Два года назад работающий много лет на радио репортёр Джейми Дюпри (Jamie Dupree) потерял голос, что в его профессии можно считать приговором. 54-летний ветеран американской политической журналистики, работавший в Cox, нашёл выход: он сосредоточился на текстовых выпусках и брал интервью с помощью текстовых вопросов.

Но неспособность разговаривать затрагивает не только профессиональную деятельность, но и все остальные сферы жизни. Теперь с помощью современных технологий он может снова «говорить». Шотландская компания CereProc, которая развивает технологии преобразования текста в речь, создала новый голос для господина Дюпри: ПО, которое озвучивает напечатанные им предложения. Благодаря этому голос Дюпри вернётся в эфир на следующей неделе на радиостанциях в городах нескольких штатов: Атланте, Орландо, Джексонвилле, Дейтоне и Талсе.

Живущий в Вашингтоне Джейми Дюпри начал работу ещё с эпохи президентства Рейгана и освещал каждую президентскую кампанию с 1992 года. Проблемы журналиста начались в апреле 2016 года, во время семейной поездки в Англию. «Когда я вернулся домой, то взял несколько недель, чтобы поправиться, и за это время мой голос просто начал сходить на нет, превратился в писк, а потом полностью исчез», — написал он в интервью The Associated Press. Оказалось, что это дистония с выпячиванием языка — редкое неврологические заболевание, которое заставляет язык перекрывать горло, когда мозг посылает сигнал говорить. Врачи не знают, как лечить такое заболевание.

В декабре 2017 года член палаты представителей Илеана Рос-Лехтинен (Ileana Ros-Lehtinen) из Майами, штат Флорида, которая уже более двух десятилетий знала господина Дюпре, подняла проблему в Белом доме. В итоге это привело к переговорам с CereProc. Как правило, для создания голоса клиенты CereProc должны производить надиктовку, что невозможно в случае Дюпре — благо у него были записи за годы работы на радио.

«Мы использовали его архивные радиорепортажи в качестве исходного материала для голоса», — сказал участвовавший в работе Грэм Лири (Graham Leary). Через несколько недель машинный голос был готов. Илеана Рос-Лехтинен считает, то история Джейми Дюпри способна вдохновить людей, страдающих различными заболеваниями. Она счастлива, что решение было найдено и хочет снова услышать в передачах на радио его речь, пусть уже синтезированную.

Когда голос был готов 10 мая, репортёр сразу опробовал его в тестовой речи: «Моё имя — Джейми Дюпри. Это мой голос». Компьютер воспроизвёл слова. «Да, они звучат немного роботизированно, но я узнаю себя в этих словах, — сказал он. — Я быстро отправил аудиоклип моим детям и включил в него все их имена, чтобы они могли услышать».

Господин Дюпри отмечает, что новый голос даёт ему больше, чем шанс возобновить свою карьеру в эфире — он также позволяет ему возобновить общение в других областях своей жизни. Он будет получать обновления для алгоритма синтеза речи, которые сделают его реалистичнее. Но всё же журналист надеется когда-нибудь восстановить способность говорить самостоятельно, настоящим голосом, без использования технологий.

Технология BabelOn сможет переводить речь на другие языки голосом говорящего

Технологии мгновенного перевода за последние несколько лет сделали большой шаг вперёд, но всё ещё далеки от совершенства. Стартап BabelOn хочет это исправить: его система синтеза речи должна позволить переводить всё, что вы говорите, на множество других языков вашим собственным голосом.

Компания использует своё программное и аппаратное обеспечение в студии в Сан-Франциско для захвата различных атрибутов звучания голоса. Эти атрибуты входят в состав языкового информационного профиля BabelOn (BabelOn Language Information Profile, или BLIP).

Далее, основываясь на полученном профиле, система сможет синтезировать речь на языках, на которых пользователь не говорит. Сейчас разработчики нацелены на английский, французский, испанский, немецкий, португальский, японский, мандаринский китайский языки и хинди.

Технология находится в разработке уже 13 лет. По словам BabelOn, её можно будет использовать в озвучивании фильмов и игр, образовательного контента и виртуальных помощников на телефонах и медицинских устройствах. Более того, система позволит сохранить языки и голоса для потомков и будущего повторного использования.

Впрочем, технология будет готова ещё не скоро. На захват голоса в студии уходит примерно два часа, на генерирование возможностей модуляции и перевода — от недели до нескольких месяцев. Для создания первого прототипа потребуется шесть месяцев. Лишь примерно через три года система сможет переводить в реальном времени.

Для защиты BLIP от кражи и последующего использования со злым умыслом компания собирается использовать «надёжно зашифрованное оффлайн-хранилище». Система будет включать контрольный визуальный сигнал, который указывает на изменения в голосах и языках.

BabelOn собирает деньги на проект на Indiegogo. Конечная цель кампании — $30 тысяч. На момент написания новости стартап набрал чуть более $6,6 тысяч от 25 вкладчиков.

Носимое устройство на базе ИИ отличает человека от машины по голосу

Команда австралийских исследователей из технологического агентства DT представила устройство для тех, кто боится, что скоро отличить человека от машины будет невозможно. Носимая система под названием Anti-AI AI определяет синтетическую речь и предупреждает пользователя, что голос, который он слышит, не принадлежит человеку.

Прототип устройства был разработан всего за пять дней. Он работает на нейронной сети на базе системы машинного обучения Tensorflow от Google.

Исследователи натренировали искусственный интеллект, используя базу данных синтетических голосов. Так сеть научилась распознавать образцы искусственной речи. Носимое устройство захватывает звук и отправляет его в облако. Если оно распознаёт синтетическую речь, то тонко намекает человеку, что он общается не с себе подобным.

Вместо того, чтобы предупреждать пользователя посредством света, звука или вибраций, прототип делает это с помощью миниатюрного термоэлектрического охлаждающего элемента.

«Мы хотели, чтобы устройство давало носителю уникальное ощущение, которое соответствует тому, что он чувствует, когда понимает, что голос синтетический», — объяснили разработчики.

«Используя термоэлектрический элемент Пельтье размером 4 × 4 мм, мы смогли воссоздать заметный холодок на коже в районе задней части шеи, не используя слишком много тока», — добавили исследователи.

Anti-AI AI — пока всего лишь концепция: маловероятно, что в ближайшее время устройство выйдет на рынок. Но исследователи продолжают совершенствовать технологию и обещают, что в будущем система будет распознавать синтетические голоса гораздо лучше.

Baidu представила систему быстрого синтеза человеческой речи

Baidu не афиширует работу над некоторыми своими проектами, проводимую в центре исследования искусственного интеллекта в Кремниевой долине, однако как минимум некоторые из них несут в себе огромный потенциал. Недавно китайский технологический гигант поведал об одном таком проекте публике — а именно о технологии преобразования текста в речь под названием Deep Voice, более быстрой и эффективной, чем WaveNet от Google. Разработка Baidu может быть обучена речи всего за несколько часов практически без человеческого вмешательства. И поскольку компания может контролировать передаваемые системой эмоции, технология способна быстро синтезировать речь, которая звучит довольно естественно и реалистично.

WaveNet от Google также может синтезировать реалистичную человеческую речь, но требует больших вычислительных мощностей — к тому же на сегодняшний день её трудно использовать в связке с существующими приложениями. Baidu заявила, что решила проблему WaveNet, задействовав технологии глубокого обучения для преобразования текста в наименьшие воспринимаемые единицы речи — феномы. Система затем превращает их в звуки, используя собственную сеть синтеза речи.

В обеих стадиях используются технологии глубокого обучения, при этом человеческое вмешательство не требуется. Тем не менее, система не способна определять, на какие феномы или слоги должны ставиться ударения и как долго они должны звучать. Поэтому Baidu приходится вручную определять эти параметры для передачи тех или иных эмоций.

Компания говорит, что решила проблему технологии Google, но для функционирования Deep Voice, тем не менее, по-прежнему требуются большие вычислительные мощности. Для имитации человеческого говорения компьютер должен генерировать один образец речи не более чем за 20 микросекунд. По словам исследователей Baidu, они должны быть очень осторожны, чтобы им никогда не приходилось обрабатывать результаты заново, а также вынуждены хранить модель целиком в кеше процессора и оптимально использовать доступные вычислительные средства.

Впрочем, исследователи уверены, что синтез речи в реальном времени вполне возможен. Они опубликовали ряд примеров работы Deep Voice в сервисе Mechanical Turk компании Amazon, попросив большую группу людей оценить качество образцов. Судя по результатам, система справляется с преобразованием текста в речь великолепно.

Microsoft улучшит доступность Windows 10 для людей с ограниченными возможностями

Во время анонса своего «творческого» обновления Windows 10, которое выйдет в 2017 году, корпорация Microsoft сообщила, что платформа будет включать ряд новшеств для людей с различными недугами или ограничениями. Теперь компания рассказа подробнее о расширении списка специальных возможностей в своей операционной системе.

В частности, экранный диктор в Windows 10 Creators Update получит поддержку ввода и вывода шрифта Брайля для слепых: бета-версия будет поддерживать соответствующие тактильные дисплеи от 35 производителей на 40 языках и различных вариантах шифра. Даже установить обновление можно будет с помощью экранного диктора. Добавлена поддержка порядка десяти новых голосов для преобразования текста в речь, а также возможность озвучивания текста на нескольких языках одновременно.

При использовании диктора, музыка и звуки на фоне в приложениях вроде Spotify, Groove или Pandora будут приглушаться, а персональный помощник Cortana перестанет пытаться распознавать команды, произносимые компьютером. Масса улучшений внесены с точки зрения понимания диктором контекста и объектов, взаимодействия с браузером Edge, а также управления контроллером на консоли Xbox.

Более того, Microsoft позаботилась и о пользователях Office 365 с ограниченными возможностями. В следующем году приложения Office получат больше специальных возможностей. Технологии машинного зрения и искусственного интеллекта смогут описывать изображения в Word и PowerPoint для слепых пользователей. Компания сообщает, что алгоритм подбирает описание к изображениям с довольно высокой точностью благодаря технологиям глубинного обучения. Подобная же технология будет применяться для описания гиперссылок.

Последняя функция уже развёртывается для участников программ Office Insiders и First Release. Остальным пользователям Office стоит подождать до весны.

Google добилась прорыва в области синтеза речи с помощью ИИ

В настоящее время довольно просто понять, говорит ли реальный человек, или же речь идёт об искусственном преобразовании текста в речь. Но может пройти не так много времени, когда робот может заставить поверить в то, что разговор ведётся с настоящим человеком — всё благодаря новому искусственному интеллекту WaveNet, разработанному командой Google DeepMind.

DeepMind ранее уже не раз отличилась в создании успешных алгоритмов нейронных сетей — например, команда создала искусственный интеллект AlphaGo, который оказался весьма хорош при игре в го и обошёл одного из лучших игроков в эту настольную игру.

PASIEKA/Science Photo Library

PASIEKA/Science Photo Library

В настоящее время разработчики используют два основных метода для создания программ генерации человеческой речи. Один подразумевает использование огромной коллекции слов и фрагментов речи, произнесённых одним человеком, из-за чего сложно манипулировать со звуками и интонациями голоса. Другой формирует слова электронно, в зависимости от того, как они должны звучать — интонации здесь задавать проще, но результат звучит гораздо менее естественно.

Чтобы создать синтезатор, звучащий близко к человеческой речи, команда в качестве входящих данных передала нейронной сети аудиозаписи реальных людей. WaveNet обучается соответствию текста определённым формам колебаний волны и затем на основании этой базы знаний формирует из текстовых отрывков отдельные звуковые волны.

Участвовавшие в тестировании люди оценивали новый метод в сравнении с другими алгоритмами на слух. Предпочтение было отдано WaveNet — этот ИИ звучал наиболее «по-человечески» из всех представленных. DeepMind заявляет, что их метод сокращает дистанцию между самыми лучшими синтезаторами и настоящей человеческой речью более чем вдвое. В эксперименте участвовали тексты на английском и китайском. Команда, впрочем, отмечает, что пока WaveNet не может применяться в приложениях, зато можно ознакомиться с образцами синтезированной речи на сайте DeepMind.

В ночных сборках Firefox 48 появится синтезатор речи

В ночных сборках браузера Firefox 48 появится возможность под названием Narrate, позволяющая запускать синтезатор речи в режиме читателя (Reader View). Этот режим, напомним, позволяет отображать веб-страницу в виде, удобном для чтения, отсекая все лишние элементы.

monotonous.org

monotonous.org

Сообщается, что эта возможность получит регулировку темпа речи и выбор голоса (мужской или женский). Интересно, что чтение будет идти в том числе в фоне, даже в случае переключения на другую страницу.

Для реализации синтеза речи будут использоваться возможности операционной системы, потому на первых порах качество будет явно не очень. Возможно в будущем система будет «привязана» к сервисам Google или иным сетевым службам, что позволит снизить нагрузку на локальное устройство.

Когда эта возможность появится в релизной версии — не сообщается.

Microsoft создаёт машинный переводчик, сохраняющий голос пользователя

Исследователи из лабораторий Microsoft создали технологию, которая может изучить то, как звучит чей-либо голос, а затем использовать его при синтезе иностранной или родной речи. Система может применяться в создании более персонализированного ПО для изучения иностранного языка или же при создании специальных устройств для автоматического перевода речи путешественников.

Во время недавней демонстрации в редмондском кампусе Microsoft исследователь компании Фрэнк Сунг (Frank Soong) показал, что его технология может читать на испанском с помощью голоса его босса Рика Рашида (Rick Rashid), который возглавляет исследовательские проекты Microsoft. Во втором примере господин Сунг использовал своё ПО для того, чтобы дать директору по исследованиям и стратегии корпорации Microsoft Крейг Манди (Craig Mundie) возможность заговорить на китайском.

В качестве примера можно ознакомиться с записью голоса Рика Рашида на родном английском языке, а затем — с автоматическими переводами и синтезом его речи на испанском, итальянском и китайском. Голос, как можно убедиться, действительно похож, хотя некоторые интонации и логические паузы в синтезированной речи отсутствуют, из-за чего она приобретает выраженный роботизированный оттенок.

Фрэнк Сунг, разработавший технологию вместе с коллегами из Microsoft Research Asia в Пекине, полагает, что для изобретения можно найти несколько применений. «Для одноязычного путешественника, посещающего чужую страну, мы сможем сделать распознавание речи, последующий перевод и затем звуковой вывод её на другом языке, но с сохранением его собственного голоса», — сказал он.

По мнению исследователя, технология также может быть использована для помощи студентам в изучении иностранного языка. Образцы иностранной речи, произнесённые собственным голосом, могут не только служить неким ободрением, но позволят проще повторять иностранные фразы.

Применяться технология может и в любых других вариантах, предполагающих синтез речи. Система нуждается примерно в часе обучения для разработки модели чтения любого текста голосом отдельного человека. Записанные образцы звуков тщательно изучаются автоматикой, и при синтезе речи на иностранном языке она подстраивается под нужный голос.

В настоящее время этот подход позволяет, по словам создателей, осуществлять преобразование между любыми двумя языками из 26 поддерживаемых. Качество такого преобразования, конечно, может заметно страдать, но в перспективе технология призвана серьёзно упростить общение носителей различных языков.

Сохранение языка человека при синтезе речи на другом языке сделает взаимодействие при помощи автоматических переводчиков более эффективными, полагает Шрикант Нараянан (Shrikanth Narayanan), профессор университета Южной Каролины и руководитель группы исследователей, работающей над системами перевода речи в ситуациях подобных консультациям между доктором и пациентом.

«Слово — лишь часть того, что человек произносит, — отмечает он, добавляя, что для передачи всей информации речью определённого человека системы перевода должны сохранять параметры голоса и много другое. — Сохранение голоса, сохранение интонации очень важны, и это учитывается в проекте».

Его исследовательская группа изучает вопрос того, как такие особенности речи, как ударение, интонация, использование пауз или заиканий влияет на эффективность и воспринимаемое качество автоматического перевода. По мнению Шриканта Нараянана, новый проект Microsoft позволяет значительно улучшить взаимодействие между людьми посредством машинного перевода.

Материалы по теме:

Источник:

Sensory предложила недорогой чип для речевого интерфейса

Компания Sensory, специализирующаяся на микросхемах для реализации речевого интерфейса, анонсировала новый чип NLP-5X, который способен распознавать и синтезировать речь, воспроизводить MP3 и MIDI-файлы, и стоит при этом всего около 2 долл. Создатели столь впечатляющего устройства полагают, что новым чипом, в первую очередь, заинтересуются ведущие производители электронных игрушек, такие как JVC, Mattel и Hasbro. Впрочем, на этом перечень возможных применений NLP-5X отнюдь не заканчивается, поскольку речевой интерфейс может оказаться востребованным в самой разнообразной электронике. По словам производителя, при разработке NLP-5X по сравнению с его предшественниками была полностью переработана архитектура всего чипа. В частности, внутренние микроконтроллеры были модернизированы до сигнальных процессоров (DSP) с увеличением производительности, а разрядность цепей цифроаналогового и аналого-цифрового преобразования была увеличена с 12 до 16 бит. Система распознавания речи, встроенная в NLP-5X, относится к типу, не требующему обучения для привязки к конкретным особенностям произношения того или иного человека (в отличие от обучаемых систем, например, от Dragon Naturally Speaking от Nuance). Но все же, по информации Sensory, возможности распознавания нового чипа остаются достаточно широкими. Тодд Мозер (Todd Mozer), исполнительный директор компании, говоря о возможностях NLP-5X, привел пример с духовкой, организация речевого интерфейса в которой была сложной задачей на элементной базе предыдущего поколения, но может быть достаточно просто реализована с применением представленной микросхемы. В результате, сказал он, духовке можно голосом «объяснить» желаемую температуру нагрева или, скажем, способ приготовления. Ну а сама духовка может при необходимости «уточнить» пожелания владельца – тоже голосом. Наконец, при наличии соединения с Интернетом вполне можно организовать чтение рецептов вслух. Мозер сообщил, что встроенная система голосового морфинга обеспечивает возможность синтезирования сотен голосов, включая мужские и женские, но уточнил, что записей семплов речи знаменитостей компания не делала. Он сообщил также, что чип содержит 24-голосый MIDI-синтезатор, и даже поддерживает интерфейс на основе жестов, а низкий ток потребления – всего 30 мкА при интенсивной нагрузке – обеспечивает возможность применения NLP-5X в мобильных устройствах. По заверениям Мозера, на сегодняшний день Sensory заметно опережает конкурентов в данном сегменте. Материалы по теме:

"Телепатический воротник"

Компания Ambient продемонстрировала действие разработки, позволяющей распознавать проговариваемые мысленно слова, без произнесения их вслух, и передавать их на удаленный компьютер, где они воспроизводятся средствами речевого синтеза. При всем сходстве с телепатией, на самом деле система, получившая название Audeo, реагирует на нечто значительно большее, чем просто мысли. Пользователю предстоит немало предварительно потренироваться, чтобы научиться передавать голосовым связкам такие же усилия, как если бы он проговаривал передаваемые слова обычным образом.
В настоящее время Audeo «понимает» около 150 слов и предложений. В качестве дальнейшего развития разработчики предполагают перейти от распознавания целых слов к распознаванию лексем, с тем, чтобы убрать ограничения на размер словарного запаса. По утверждениям создателей, система в какой-то степени способна поддерживать выразительность речи – так, например, есть возможность определить, насколько «громко» мысленно произнес пользователь тот или иной фрагмент предложения. Предполагается, что подобные системы в перспективе можно будет использовать, например, для переговоров по мобильному телефону в тех условиях, когда говорить вслух нежелательно. Кроме того, они могут применяться как своего рода «речевые протезы» для людей, утративших способность нормально разговаривать из-за каких-либо заболеваний. Кстати, на предыдущей стадии работ способности разработки к распознаванию мысленных импульсов использовались для передачи управляющих сигналов приводам инвалидных колясок. Материалы по теме: - Многоязыковой синтез человеческой речи от Epson;
- Создана технология распознавания слитной русской речи.

window-new
Soft
Hard
Тренды 🔥