Теги → речь
Быстрый переход

WhatsApp научат преобразовывать голосовые сообщения в текст

Уже известно, что скоро мессенджер WhatsApp станет поддерживать сквозное шифрование не только самих переговоров в любой форме, но и аналогичную защиту сохранённых резервных копий чатов. Но если подобная функция скоро станет доступна всем, то ещё одну полезную возможность пока получат только бета-тестеры с iOS.

91mobiles.com

91mobiles.com

По данным портала WABetaInfo, помимо возможности шифрования копий чатов уже скоро владельцам iPhone будет обеспечена и возможность преобразовать в текст голосовые сообщения. Функция находится в разработке и, как ожидается, скоро станет доступна участникам программы бета-тестирования.

wabetainfo.com

wabetainfo.com

Считается, что данные голосовой переписки не будут отправляться на серверы Facebook. По имеющимся сведениям, преобразование будет осуществляться на уровне самих смартфонов. По данным портала, после того как сообщение транскрибировано первый раз, текст сохраняется в локальной базе WhatsApp, поэтому его не придётся преобразовать каждый раз.

wabetainfo.com

wabetainfo.com

Новая функция дополнительно поможет Apple усовершенствовать технологию распознавания речи. Конечно, для её использования придётся предоставить доступ WhatsApp к «движку», распознающему голос — это может вызвать некоторую обеспокоенность у сторонников тотальной защиты персональных данных.

О доступности новой функциональности на Android будет объявлено позже.

Российский рынок речевых IT-технологий вырастет до $120 млн

Объём российского рынка решений в сфере разговорного искусственного интеллекта может достигнуть $120 млн по итогам текущего года. При этом самыми крупными заказчиками в данном сегменте станут государственные учреждения. Об этом сообщает «Коммерсант» со ссылкой на разработчика технологий разговорного ИИ Just AI.

Источник: freepik.com

Источник: freepik.com

Даже без учёта работы с государственным сектором рынок речевых технологий на базе искусственного интеллекта по итогам 2021 года вырастет на 81 % и достигнет отметки в $80 млн. С учётом государственного подряда общий рост составит 58 % при абсолютном показателе $120 млн. В качестве исходных данных аналитики Just AI воспользовались различными источниками: интервью с участниками рынка, анализом динамики тендерных площадок, а также бухгалтерской отчётностью профильных компаний.

Рынок условно разделили на шесть сегментов: речевые технологии, речевая аналитика, исходящие коммуникации (телефонные звонки), конструкторы сценариев, работа с естественной речью (Natural Language Processing, NLP) и группу «ассистенты, навыки и прочее». Два последних направления, по мнению Just AI, являются самыми перспективными. К 2025 году их рост окажется наиболее существенным.

Отдельным сегментом выступает рынок госзаказа. Здесь больше всего потребителей решений на основе речевого искусственного интеллекта. Крупнейшим подрядчиком по госзаказам выступает принадлежащая «Сбербанку» группа ЦРТ, её выручка оценивается в 1 млрд рублей в год, причём 80 % от этой суммы приносят контракты с государственными организациями. Вторым игроком в России названа сама Just AI, её выручка достигает 500 млн рублей в год. Далее следуют Yandex.Cloud, 3iTech и «АТС Аэро», эти компании имеют годовую выручку более 200 млн рублей. В целом рынок представлен более чем сотней компаний, в их число вошли также небольшие стартапы.

Источник: kommersant.ru

Источник: «Коммерсантъ» (kommersant.ru)

Гендиректор ЦРТ Дмитрий Дырмовский не в полной мере согласился с выводами аналитиков Just AI. Он указал, что в сегменте речевого искусственного интеллекта у компании преобладает выручка от контрактов с коммерческими структурами. В настоящий момент, уточнил господин Дырмовский, среди госзаказчиков особый интерес к данной сфере проявляют МФЦ, которые активно оптимизируют сценарии взаимодействия с клиентами. В целом гендиректор ЦРТ согласился с оценкой диспозиции на рынке, хотя в его версии рост по итогам года может оказаться примерно на 15 % ниже.

Опрошенные эксперты уверены, что в коммерческом секторе наибольший интерес к речевым технологиям проявляют банки, телекоммуникационные компании, розница и e-commerce. В обозримом будущем колл-центры вообще могут существенно утратить позиции, уступив место искусственному интеллекту, и эта тенденция будет определяющей на всём рынке B2B. А в сегменте B2C продолжит лидировать направление голосовых ассистентов, в том числе формата «умных» колонок. Здесь следует ожидать наиболее активного роста.

Российский программист-самоучка создаёт приложения для людей с речевыми и двигательными нарушениями

Петербуржец Иван Бакаидов страдает от детского церебрального паралича и практически не разговаривает, но это не мешает ему быть талантливым разработчиком. В свои 22 года он уже создал несколько приложений, которые делают проще процесс общения для людей с речевыми и двигательными нарушениями.

Иван Бакаидов | Изображение: Ольга Павлова

Иван Бакаидов | Изображение: Ольга Павлова

В середине месяца Иван написал на своей странице в сети Facebook, что он пообщался с вице-президентом Google Джейсоном Титусом и обсудил с ним возможность интеграции синтезатора речи в звонки по телефону и сервис Meet. Через несколько дней Титус выступал перед зрителями ежегодной конференции Google I/O, где, помимо прочего, вспомнил и об Иване.

«Он создаёт софт для других людей с речевыми и двигательными трудностями, помогающие им общаться. Все эти приложения бесплатны, распространяются по модели Open Source и помогают людям по всему миру», — сказал вице-президент Google.

Бакаидов разработал несколько приложений «LINKa» на основе синтезатора речи. Эти решения подходят для людей с разными особенностями, начиная от тех, кто может печатать слова на клавиатуре, и заканчивая теми, кто может нажимать крупные картинки на экране планшета.

Недавно Иван с помощью одного из своих приложений «LINKa. Напиши» дал интервью интернет-изданию Republic, в рамках которого рассказал о своей жизни и работе, а также поделился планами на будущее.

Коллекторы в России начали использовать средства анализа эмоций должников

Сбербанк совместно со своим дочерним коллекторским агентством «АктивБизнесКонсалт» (АБК) начал использовать в центрах обработки звонков специальную систему, позволяющую по голосу клиента определять его эмоции.

О проекте рассказывает РБК, ссылаясь на информацию, полученную от гендиректора АБК Дмитрия Теплицкого. Идея заключается в том, чтобы в режиме реального времени корректировать сценарий диалога с должником, основываясь на его эмоциональном состоянии.

Платформа, разработанная компанией VS Robotics (дочерняя структура АБК), интегрируется в программу, которой пользуются операторы call-центров. Далее система «на лету» анализирует голос должника и делает вывод о том, в каком состоянии тот находится. В частности, распознаются семь эмоций: радость, удивление, нейтральное состояние, страх, уныние, раздражение и злость.

«Система в режиме реального времени на основе распознанных эмоций подсказывает оператору, надо ли следовать пользовательскому сценарию заказчика, или предлагает использовать специальный ситуационный скрипт. Например, проявить больше эмпатии при разговоре с данным абонентом», — поясняет господин Теплицкий.

Таким образом, формируется своеобразный психологический портрет должника, что позволяет оптимизировать сценарий дальнейшей беседы с ним. За счёт этого повышаются шансы на положительный результат диалога. 

«ВКонтакте» улучшила сервис аудиосообщений

Соцсеть «ВКонтакте» обновила функции сервиса аудиосообщений. Теперь пользователи могут записывать голосовые сообщения продолжительностью до часа и расшифровывать аудиозаписи продолжительностью до двух минут. Об этом написала пресс-служба социальной сети.

ВКонтакте

«ВКонтакте»

По словам компании, голосовые сообщения остаются самым популярным способом общения. С момента запуска функции расшифровки, количество пользователей сервиса увеличилось на 10 % и достигло 33 миллионов человек. Последнее обновление позволяет расшифровывать до 99 % отправляемых аудиосообщений.

«Технология распознавания аудио помогает любителям и ненавистникам голосовых сообщений общаться друг с другом в удобном формате, а ещё экономит время — прочитать расшифровку можно быстрее, чем прослушать аудио. Мы продолжим развивать технологию, увеличивать скорость её работы и улучшать качество распознавания», — заявил старший разработчик команды Core Infrastructure  «ВКонтакте» Сергей Ларионенко.

«ВКонтакте» запустила сервис распознавания голосовых сообщений в июне. На старте функция могла расшифровывать аудио продолжительностью до 30 секунд. Тогда сервисом ежемесячно пользовались около 30 миллионов человек.

«ВКонтакте» научилась распознавать текст аудиосообщений

В соцсети «ВКонтакте» появилась функция распознавания текста аудиосообщений. Об этом сообщается в пресс-службе компании. Пока что функция доступна только части пользователей мобильного приложения, но в ближайшую неделю ею смогут воспользоваться все желающие.

Распознаванием речи занимается нейросеть, разработанная сотрудниками «ВКонтакте». По словам разработчиков, она распознаёт сленг и учитывает сложные условия записи. В текст можно будет переработать как отправленные, так и полученные сообщения длительностью до 30 секунд. Кроме этого, нейросеть позволит искать голосовые сообщения по указанному тексту. В будущем функцию планируют добавить в декстопную версию соцсети.

«Расшифровка аудиосообщений значительно отличается от распознавания речи в голосовых помощниках. С другом в чате общаются совсем не так, как с умной колонкой: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений. Поэтому мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке», — директор по исследованиям в области искуственного интеллекта «ВКонтакте» Павел Кайдин.

Компания сообщила о планах добавить распознавание голосовых сообщений ещё в марте. Соцсеть объяснила необходимость тем, что голосовые сообщения являются очень популярным форматом общения — ежемесячно ими обмениваются около 30 миллионов пользователей.

Астронавты приняли технологии Mozilla по распознаванию речи для управления лунными роботами

На этой неделе создатель веб-браузера Firefox компания Mozilla сообщила о совместном проекте с немецким аэрокосмическим центром Deutsches Zentrum für Luft - und Raumfahrt (DLR), в рамках которого технология распознавания речи Mozilla DeepSpeech будет интегрирована в лунную робототехнику.

Роботы часто используются в космических программах для помощи астронавтам, работающим с задачами по техническому обслуживанию, ремонту, фотографическому освещению, а также для помощи в проводимых экспериментах и сборе различных образцов. В основном, конечно, автоматические аппараты используются для добычи ископаемых на поверхности Луны, но их потенциал гораздо больше.

Задача, с которой астронавты могут столкнуться в космосе, заключается в эффективном управлении роботами и в то же время в решении задач, требующих свободных рук. По словам компании Mozilla, программы автоматического распознавания речи Deep Speech (ASR) и преобразования речи в текст обеспечивают «астронавтам голосовое управление роботами, когда их руки заняты».

Инженеры немецкого агентства DLR сейчас упорно работают над интеграцией Deep Speech в собственные системы. Они также намерены внести свой вклад в проект Mozilla при помощи проведения тестов и предоставления примеров записей речи, которые могли бы улучшить точность работы программы.

Пока неизвестно, какие лунные аппараты получат обновление с распознаванием речи в текст, но DLR отвечает за разработку таких проектов, как «Rollin' Justin» — двурукого мобильного юнита, созданного для проверки возможности совместной работы астронавта и робота в сложных условиях.

Google запустила службу звонков на основе ИИ Duplex в Австралии, Канаде и Британии

Согласно обновлённой странице поддержки, впечатляющая служба Google Duplex доступна теперь в Австралии, Канаде и Великобритании в дополнение к США и Новой Зеландии. Напомним: сервис создан, чтобы при помощи ИИ делать голосовые звонки от имени пользователя для автоматизации процесса заказа столов в ресторанах или записи, например, к косметологам или парикмахерам.

Duplex была запущена в качестве ранней бета-версии в США через Google Assistant в конце 2018 года после громкого, но неоднозначного дебюта на конференции разработчиков Google I/O. Существовали опасения по поводу использования Duplex без явного согласия ресторана или другого малого бизнеса и без надлежащего раскрытия того, что автоматический вызов совершается цифровым голосовым помощником, а не человеком.

Google постаралась решить эти проблемы, предупреждая собеседника в начале разговора, а также давая компаниям возможность отказаться от общения с ИИ и переключиться на разговор с человеком-оператором. Кроме того, у Duplex есть штат людей, которые прослушивают телефонные звонки и комментируют их, чтобы улучшить базовые алгоритмы машинного обучения сервиса и подключиться к разговору в случае, если вызов идёт не так, как надо.

Google также расширила Duplex, начинав с телефонов Pixel, постепенно расширив поддержку на iOS и затем на другие устройства Android. Первым международным рынком сервиса стала Новая Зеландия в октябре 2019 года.

Google Переводчик для Android теперь может стенографировать и переводить речь в реальном времени

В последнее время возможность создавать субтитры и переводить их на лету стала популярной в нескольких приложениях Google, а теперь она была добавлена в Google Переводчик. Пользователи могут включить автоматический перевод речи с одного языка на другой по своему выбору в режиме реального времени.

Это может быть отличной возможностью при поездках за границу или при общении с людьми из другой страны. В настоящее время функция доступна на 8 языках, в число которых помимо русского входит также английский, французский, немецкий, хинди, португальский, испанский и тайский.

В последней версии Переводчика пользователь может нажать кнопку Transcribe («Расшифровать») и выбрать два языка, между которыми он хочет осуществлять перевод. Распознавание и перевод на лету начнутся после нажатия кнопки микрофона, расположенной ниже, с помощью той же кнопки можно приостановить процесс.

Пользователи также могут включить стенограмму на языке оригинала, изменить размер текста или выбрать тёмную тему в меню настроек. Чтобы использовать эту функцию, следует установить последнюю версию Google Переводчика из цифрового магазина Play для Android. Впрочем, функциональность, как обычно, разворачивается постепенно и в ближайшие дни будет доступна всем. Поддержка устройств iOS пока отсутствует, но наверняка появится в ближайшее время.

«ВКонтакте» будет использовать собственную технологию распознавания голосовых сообщений

Пресс-служба «ВКонтакте» сообщила о том, что в социальной сети началось тестирование технологии распознавания голосовых сообщений. Для того чтобы увидеть содержание голосового сообщения, пользователям будет достаточно нажать на соответствующую кнопку, после чего на экран будет выведен расшифрованный текст.

В настоящее время воспользоваться технологией распознавания речи могут только участники программы тестирования VK Testers. Функция распознавания речи работает на iOS, опираясь на стороннюю технологию. В дальнейшем планируется интегрировать собственную разработку социальной сети, на основе которой функция распознавания речи станет доступна широкому кругу пользователей. Технология представляет собой нейросетевое решение, способное обучаться русскому сленгу, а также может масштабироваться и настраиваться. В будущем данная технология может стать основой функции поиска по сообщениям, в том числе голосовым.

«Ежемесячно 30 миллионов человек обмениваются голосовыми сообщениями ВКонтакте. Для такого высоконагруженного сервиса требовалось решение, способное обрабатывать огромное количество входящей информации без потери качества. Поэтому мы создали его сами. Ещё одним серьёзным вызовом стал разговорный язык. Записывая голосовые сообщения, люди редко выражаются как персонажи классической русской литературы — напротив, они используют много сленга и заимствованной лексики. Готовые решения на наших тестах плохо справлялись с распознаванием таких слов, но мы учли специфику современного русского языка при разработке собственной технологии», — сказал директор по исследованиям в области искусственного интеллекта ВКонтакте Павел Калайдин.

В каталоге навыков «Яндекс.Алисы» появился детский тренажёр для развития речи

Команда разработчиков «Яндекса» сообщила о расширении функциональных возможностей голосового ассистента «Алиса». Теперь с его помощью родители могут исправить или скорректировать дефекты речи у детей.

Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Новый навык «Яндекс.Алисы» получил название «Легко сказать» и представляет собой детский тренажёр для развития речи, созданный с участием опытных педагогов-логопедов. С его помощью дети 5–7 лет могут отработать правильное произнесение шести звуков, которые часто вызывают трудности: это [з], [ц], [ш], [ч], [р] и [л].

Занятия на тренажёре проходят в формате игры. Играть можно вместе с фиксиками и звуклями (персонажи, придуманные в «Яндексе» и озвученные популярными артистами). Каждое занятие длится примерно пять минут, в процессе которого ребёнок в развлекательной форме отрабатывает произношение того или иного звука.

Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Тренажёр «Легко сказать» доступен в умных колонках с «Алисой» и в мобильных приложениях «Яндекса». Для его запуска достаточно сказать: «Алиса, включи навык "Легко сказать"». Перед началом использования тренажёра рекомендуется проконсультироваться с логопедом. Таким образом родители будут точно знать, над какими звуками нужно работать с ребёнком.

Mozilla обновила систему распознавания речи DeepSpeech, значительно повысив её производительность

Система DeepSpeech, которая представляет собой набор средств распознавания речи и поддерживается группой разработчиков из Mozilla, получила обновление. Новая версия DeepSpeech v0.6 является одной из самых быстрых моделей распознавания речи с открытым исходным кодом среди представленных к сегодняшнему дню. О том, какие улучшения получила система, один из разработчиков компании Mozilla Рубен Морайс (Ruben Morais) рассказал в своём блоге.

В последней версии DeepSpeech была интегрирована поддержка TensorFlow Lite, версии системы машинного обучения компании Google, оптимизированной для работы на мобильных устройствах с ограниченными вычислительными возможностями. В результате размер DeepSpeech уменьшился с 98 Мбайт до 3,7 Мбайт, а размер готовой встроенной модели на английском языке снизился со 188 Мбайт до 47 Мбайт. Также отмечается, что потребление памяти сократилось в 22 раза, а скорость запуска процесса обработки данных выросла более чем в 500 раз.

Ещё система DeepSpeech v0.6 в целом стала значительно более производительной благодаря использованию нового потокового декодера, который обеспечивает постоянно низкий уровень задержек и использования памяти независимо от длины транскрибируемого звука. Обе основные подсистемы платформы (акустическая модель и декодер) теперь поддерживают потоковую передачу, благодаря чему разработчикам не потребуется осуществлять тонкую настройку собственного оборудования. Обновлённая версия DeepSpeech способна обеспечить транскрипцию уже через 260 мс после окончания аудио, что на 73 % быстрее в сравнении с показателями системы до интеграции потокового декодера.

Стоит отметить, что в плане производительности новая система работает в два раза быстрее, когда дело доходит до обучения модели. Добиться этого удалось благодаря использованию системы TensorFlow 1.14 и интеграции новых API.

Для обучения модели используется набор голосовых данных Common Voice, состоящий из 1400 часов речи на 18 разных языках. Разработчики отмечают, что это один из самых крупных многоязычных наборов голосовых данных. Он значительно больше набора Common Voice, опубликованного в прошлом и состоящего из 500 часов речи с примерами произношения 20 000 добровольцев (все записи на английском языке). В настоящее время компания ведёт активную работу по сбору данных на 70 языках, чтобы в будущем сделать DeepSpeech ещё более совершенной.

Нейросети вывели качество синтеза русскоязычной речи на новый уровень

Группа компаний ЦРТ, входящая в экосистему Сбербанка, сообщила о разработке передовой платформы синтеза речи, которая, как утверждается, обеспечивает плавность и выразительность прочтения любого текста.

Представленное решение — это третье поколение системы синтеза речи. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. Разработчики заявляют, что результатом работы этих алгоритмов является самый реалистичный синтез русскоязычной речи.

В состав платформы входит модуль предсказания ударений в словах, которых ещё нет в базовом словаре. Кроме того, предусмотрено автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.

Ещё одно достоинство платформы заключается в том, что ей не требуются дорогостоящие серверы, оснащённые GPU-ускорителями. Использовать технологию можно двумя способами — через облачный сервис или встроив в собственное решение.

Среди возможных областей применения разработки называются чат-боты и голосовые помощники, сервисы информирования и оповещения, голосовые сервисы с моментальным синтезом любого текста в процессе звонка и пр.

«В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений, и любой текст может быть синтезирован в процессе звонка», — говорят разработчики.

Опробовать технологию можно здесь

Компания Бекмамбетова занялась синтезом речи русских знаменитостей

Компания продюсера Тимура Бекмамбетова Screenlife Technologies совместно со «Стафори», разработчиком сервиса «Робот Вера» на основе искусственного интеллекта, создали совместное предприятие для развития проекта Vera Voice, — сообщает РБК. Целью является синтез голоса русских знаменитостей с помощью обучения нейросети.

Технологии синтеза речи знаменитостей достаточно широко применяются. Открытый алгоритм WaveNet ещё в 2016 году представила принадлежащая Google компания DeepMind. Именно благодаря этой технологии голосовой помощник Google Assistant научился в этом году общаться голосом известных людей, первым из которых стал американский певец и актёр Джон Ледженд (John Legend). «WaveNet позволила нам сократить время записи в студии — модель действительно может передать богатство голоса актёра», — сказал исполнительный директор Google Сундар Пичаи (Sundar Pichai).

Тимур Бекмамбетов (Фото: Евгений Биятов / РИА Новости)

Тимур Бекмамбетов (Фото: Евгений Биятов / РИА Новости)

В сентябре Amazon объявила, что её умная колонка с помощником Alexa тоже сможет разговаривать голосами знаменитостей. Первым стал актёр Самуэль Ли Джексон (Samuel Leroy Jackson). А немногим раньше, в июле 2019 года, Facebook представила синтезатор речи и продемонстрировала его работу на примере голоса Билла Гейтса (Bill Gates).

В России учреждённая Сбербанком компания АБК в январе представила короткий ролик с синтезированным голосом актера Иннокентия Смоктуновского. Прослушав около 18 часов записей артиста с сопроводительной транскрипцией, нейронная сеть научилась говорить его голосом. Сбербанк представил технологию на Российском инвестиционном форуме в Сочи. Заместитель председателя правления банка Станислав Кузнецов выразил опасения, что подобные проекты могут использоваться и с незаконными целями.

По оценке консалтинговой компании Markets&Markets, к 2023 году рынок клонирования голоса достигнет $1,73 млрд.

«Яндекс.Почта» для iOS получила поддержку голосового ввода и функцию озвучивания сообщений

Компания «Яндекс» объявила о запуске новых функций для своего почтового приложения, которые станут доступна всем пользователям устройств, работающих на базе iOS. Функция голосового ввода текста сообщений с сегодняшнего дня может использоваться обладателями продукции Apple. Это означает, что пользователи смогут набирать текст сообщений не вручную, а просто произнося предложения. Приложение осуществляет распознавание речи и переводит её в текст, после чего лишь остаётся указать адресата и отправить послание.

Функция окажется полезной во многих ситуациях, когда заняты руки или неудобно осуществлять ввод текста по каким-то другим причинам. Кроме того, при необходимости к сообщению может быть прикреплена запись голоса, на случай, если в процессе распознавания речи были допущены ошибки. Ещё «Яндекс.Почта» для iOS получает функцию озвучивания входящих сообщений, которая позволяет приложению читать вслух тему и текст письма.

Реализация новых возможностей стала возможна благодаря комплексу Yandex SpeechKit, который объединил в себе технологии распознавания, семантического анализа, синтеза речи и голосовой активации. Комплекс технологий Yandex SpeechKit помимо почтового приложения используется в других сервисах компании, в том числе в поисковике, браузере, картографическом сервисе, навигаторе и др. Кроме того, он может использоваться сторонними компаниями для решения собственных задач.

На данный момент новые функции доступны только части пользователей приложения «Яндекс.Почта» для iOS. Массовое распространение функций займёт некоторое время. Ожидается, что в течение двух недель голосовой набор и озвучивание текста станут доступны всем пользователям приложения.

window-new
Soft
Hard
Тренды 🔥