Теги → распознавание речи
Быстрый переход

Астронавты приняли технологии Mozilla по распознаванию речи для управления лунными роботами

На этой неделе создатель веб-браузера Firefox компания Mozilla сообщила о совместном проекте с немецким аэрокосмическим центром Deutsches Zentrum für Luft - und Raumfahrt (DLR), в рамках которого технология распознавания речи Mozilla DeepSpeech будет интегрирована в лунную робототехнику.

Роботы часто используются в космических программах для помощи астронавтам, работающим с задачами по техническому обслуживанию, ремонту, фотографическому освещению, а также для помощи в проводимых экспериментах и сборе различных образцов. В основном, конечно, автоматические аппараты используются для добычи ископаемых на поверхности Луны, но их потенциал гораздо больше.

Задача, с которой астронавты могут столкнуться в космосе, заключается в эффективном управлении роботами и в то же время в решении задач, требующих свободных рук. По словам компании Mozilla, программы автоматического распознавания речи Deep Speech (ASR) и преобразования речи в текст обеспечивают «астронавтам голосовое управление роботами, когда их руки заняты».

Инженеры немецкого агентства DLR сейчас упорно работают над интеграцией Deep Speech в собственные системы. Они также намерены внести свой вклад в проект Mozilla при помощи проведения тестов и предоставления примеров записей речи, которые могли бы улучшить точность работы программы.

Пока неизвестно, какие лунные аппараты получат обновление с распознаванием речи в текст, но DLR отвечает за разработку таких проектов, как «Rollin' Justin» — двурукого мобильного юнита, созданного для проверки возможности совместной работы астронавта и робота в сложных условиях.

Google Переводчик для Android теперь может стенографировать и переводить речь в реальном времени

В последнее время возможность создавать субтитры и переводить их на лету стала популярной в нескольких приложениях Google, а теперь она была добавлена в Google Переводчик. Пользователи могут включить автоматический перевод речи с одного языка на другой по своему выбору в режиме реального времени.

Это может быть отличной возможностью при поездках за границу или при общении с людьми из другой страны. В настоящее время функция доступна на 8 языках, в число которых помимо русского входит также английский, французский, немецкий, хинди, португальский, испанский и тайский.

В последней версии Переводчика пользователь может нажать кнопку Transcribe («Расшифровать») и выбрать два языка, между которыми он хочет осуществлять перевод. Распознавание и перевод на лету начнутся после нажатия кнопки микрофона, расположенной ниже, с помощью той же кнопки можно приостановить процесс.

Пользователи также могут включить стенограмму на языке оригинала, изменить размер текста или выбрать тёмную тему в меню настроек. Чтобы использовать эту функцию, следует установить последнюю версию Google Переводчика из цифрового магазина Play для Android. Впрочем, функциональность, как обычно, разворачивается постепенно и в ближайшие дни будет доступна всем. Поддержка устройств iOS пока отсутствует, но наверняка появится в ближайшее время.

«ВКонтакте» будет использовать собственную технологию распознавания голосовых сообщений

Пресс-служба «ВКонтакте» сообщила о том, что в социальной сети началось тестирование технологии распознавания голосовых сообщений. Для того чтобы увидеть содержание голосового сообщения, пользователям будет достаточно нажать на соответствующую кнопку, после чего на экран будет выведен расшифрованный текст.

В настоящее время воспользоваться технологией распознавания речи могут только участники программы тестирования VK Testers. Функция распознавания речи работает на iOS, опираясь на стороннюю технологию. В дальнейшем планируется интегрировать собственную разработку социальной сети, на основе которой функция распознавания речи станет доступна широкому кругу пользователей. Технология представляет собой нейросетевое решение, способное обучаться русскому сленгу, а также может масштабироваться и настраиваться. В будущем данная технология может стать основой функции поиска по сообщениям, в том числе голосовым.

«Ежемесячно 30 миллионов человек обмениваются голосовыми сообщениями ВКонтакте. Для такого высоконагруженного сервиса требовалось решение, способное обрабатывать огромное количество входящей информации без потери качества. Поэтому мы создали его сами. Ещё одним серьёзным вызовом стал разговорный язык. Записывая голосовые сообщения, люди редко выражаются как персонажи классической русской литературы — напротив, они используют много сленга и заимствованной лексики. Готовые решения на наших тестах плохо справлялись с распознаванием таких слов, но мы учли специфику современного русского языка при разработке собственной технологии», — сказал директор по исследованиям в области искусственного интеллекта ВКонтакте Павел Калайдин.

Mozilla обновила систему распознавания речи DeepSpeech, значительно повысив её производительность

Система DeepSpeech, которая представляет собой набор средств распознавания речи и поддерживается группой разработчиков из Mozilla, получила обновление. Новая версия DeepSpeech v0.6 является одной из самых быстрых моделей распознавания речи с открытым исходным кодом среди представленных к сегодняшнему дню. О том, какие улучшения получила система, один из разработчиков компании Mozilla Рубен Морайс (Ruben Morais) рассказал в своём блоге.

В последней версии DeepSpeech была интегрирована поддержка TensorFlow Lite, версии системы машинного обучения компании Google, оптимизированной для работы на мобильных устройствах с ограниченными вычислительными возможностями. В результате размер DeepSpeech уменьшился с 98 Мбайт до 3,7 Мбайт, а размер готовой встроенной модели на английском языке снизился со 188 Мбайт до 47 Мбайт. Также отмечается, что потребление памяти сократилось в 22 раза, а скорость запуска процесса обработки данных выросла более чем в 500 раз.

Ещё система DeepSpeech v0.6 в целом стала значительно более производительной благодаря использованию нового потокового декодера, который обеспечивает постоянно низкий уровень задержек и использования памяти независимо от длины транскрибируемого звука. Обе основные подсистемы платформы (акустическая модель и декодер) теперь поддерживают потоковую передачу, благодаря чему разработчикам не потребуется осуществлять тонкую настройку собственного оборудования. Обновлённая версия DeepSpeech способна обеспечить транскрипцию уже через 260 мс после окончания аудио, что на 73 % быстрее в сравнении с показателями системы до интеграции потокового декодера.

Стоит отметить, что в плане производительности новая система работает в два раза быстрее, когда дело доходит до обучения модели. Добиться этого удалось благодаря использованию системы TensorFlow 1.14 и интеграции новых API.

Для обучения модели используется набор голосовых данных Common Voice, состоящий из 1400 часов речи на 18 разных языках. Разработчики отмечают, что это один из самых крупных многоязычных наборов голосовых данных. Он значительно больше набора Common Voice, опубликованного в прошлом и состоящего из 500 часов речи с примерами произношения 20 000 добровольцев (все записи на английском языке). В настоящее время компания ведёт активную работу по сбору данных на 70 языках, чтобы в будущем сделать DeepSpeech ещё более совершенной.

Компания Бекмамбетова занялась синтезом речи русских знаменитостей

Компания продюсера Тимура Бекмамбетова Screenlife Technologies совместно со «Стафори», разработчиком сервиса «Робот Вера» на основе искусственного интеллекта, создали совместное предприятие для развития проекта Vera Voice, — сообщает РБК. Целью является синтез голоса русских знаменитостей с помощью обучения нейросети.

Технологии синтеза речи знаменитостей достаточно широко применяются. Открытый алгоритм WaveNet ещё в 2016 году представила принадлежащая Google компания DeepMind. Именно благодаря этой технологии голосовой помощник Google Assistant научился в этом году общаться голосом известных людей, первым из которых стал американский певец и актёр Джон Ледженд (John Legend). «WaveNet позволила нам сократить время записи в студии — модель действительно может передать богатство голоса актёра», — сказал исполнительный директор Google Сундар Пичаи (Sundar Pichai).

Тимур Бекмамбетов (Фото: Евгений Биятов / РИА Новости)

Тимур Бекмамбетов (Фото: Евгений Биятов / РИА Новости)

В сентябре Amazon объявила, что её умная колонка с помощником Alexa тоже сможет разговаривать голосами знаменитостей. Первым стал актёр Самуэль Ли Джексон (Samuel Leroy Jackson). А немногим раньше, в июле 2019 года, Facebook представила синтезатор речи и продемонстрировала его работу на примере голоса Билла Гейтса (Bill Gates).

В России учреждённая Сбербанком компания АБК в январе представила короткий ролик с синтезированным голосом актера Иннокентия Смоктуновского. Прослушав около 18 часов записей артиста с сопроводительной транскрипцией, нейронная сеть научилась говорить его голосом. Сбербанк представил технологию на Российском инвестиционном форуме в Сочи. Заместитель председателя правления банка Станислав Кузнецов выразил опасения, что подобные проекты могут использоваться и с незаконными целями.

По оценке консалтинговой компании Markets&Markets, к 2023 году рынок клонирования голоса достигнет $1,73 млрд.

«Яндекс.Почта» для iOS получила поддержку голосового ввода и функцию озвучивания сообщений

Компания «Яндекс» объявила о запуске новых функций для своего почтового приложения, которые станут доступна всем пользователям устройств, работающих на базе iOS. Функция голосового ввода текста сообщений с сегодняшнего дня может использоваться обладателями продукции Apple. Это означает, что пользователи смогут набирать текст сообщений не вручную, а просто произнося предложения. Приложение осуществляет распознавание речи и переводит её в текст, после чего лишь остаётся указать адресата и отправить послание.

Функция окажется полезной во многих ситуациях, когда заняты руки или неудобно осуществлять ввод текста по каким-то другим причинам. Кроме того, при необходимости к сообщению может быть прикреплена запись голоса, на случай, если в процессе распознавания речи были допущены ошибки. Ещё «Яндекс.Почта» для iOS получает функцию озвучивания входящих сообщений, которая позволяет приложению читать вслух тему и текст письма.

Реализация новых возможностей стала возможна благодаря комплексу Yandex SpeechKit, который объединил в себе технологии распознавания, семантического анализа, синтеза речи и голосовой активации. Комплекс технологий Yandex SpeechKit помимо почтового приложения используется в других сервисах компании, в том числе в поисковике, браузере, картографическом сервисе, навигаторе и др. Кроме того, он может использоваться сторонними компаниями для решения собственных задач.

На данный момент новые функции доступны только части пользователей приложения «Яндекс.Почта» для iOS. Массовое распространение функций займёт некоторое время. Ожидается, что в течение двух недель голосовой набор и озвучивание текста станут доступны всем пользователям приложения.

Google тестирует технологию преобразования текста в речь в смартфонах Pixel

Сетевые источники сообщают о том, что Google добавила автоматизированную функцию преобразования текста в речь в приложении «Телефон» на устройствах Pixel. За счёт этого пользователи смогут буквально в одно касание передать информацию о своём местонахождении медицинским, пожарным или полицейским службам без необходимости использования речи.

Новая функция имеет достаточно простой принцип действия. В момент совершения экстренного вызова приложение «Телефон» выводит на экран три дополнительные иконки с надписями «Медицина», «Пожар» и «Полиция». После нажатия на нужную кнопку активируется функция преобразования текста в речь. Это сообщение, а также данные о том, что абонент использует автоматическую службу, будут зачитаны оператору соответствующей службы. В сообщении будет указано, какой вид помощи требуется абоненту, а также где он находится.

В компании говорят о том, что новая функция предназначена для людей, нуждающихся в экстренной помощи, но не способных общаться с оператором устно. Такая ситуация может возникнуть из-за полученных травм, какой-либо опасности или нарушения речи.

Стоит отметить, что данная функция является расширением возможностей, которые появились в смартфонах Pixel ещё в 2017 году. Речь идёт об автоматическом отображении карты местоположения на экране набора при вызове экстренной помощи. Новая система преобразования текста в речь делает процесс связи с экстренными службами более простым, поскольку человеку вообще не нужно считывать какую-либо информацию.

В сообщении говорится о том, что в ближайшие месяцы новая функция будет развёрнута на смартфонах Pixel на территории США. Также не исключено, что в будущем возможность преобразования текста в речь появится в устройствах на базе Android.  

Facebook создаёт систему набора с помощью мысли

Илон Маск (Elon Musk) — не единственный, кто со своей компанией Neuralink хочет, чтобы люди начали общаться посредством мозговых волн. Facebook тоже вынашивает амбициозные планы по взаимодействию с компьютерами с использованием носимых устройств, и однажды, возможно, это позволит людям осуществлять быстрый набор текстов просто усилием мысли. В настоящее время нейробиологи из Калифорнийского университета в Сан-Франциско (UCSF) при поддержке Facebook Reality Labs продемонстрировали систему, которая может переводить речь в текст в режиме реального времени, используя только мозговую активность. Хотя это впечатляет, демонстрация также доказывает, что технологии ещё предстоит пройти долгий путь.

Эмили Маглер — инженер Facebook Reality Labs

Эмили Маглер — инженер Facebook Reality Labs

Системы интерфейса между мозгом человека и компьютером уже существуют, но они требуют, чтобы пользователи мысленно выбирали одну букву за раз на виртуальной клавиатуре — процесс, который пока происходит очень медленно. Но исследователи UCSF попытались использовать контекст, чтобы помочь машинам переводить целые слова и фразы. Учёные имплантировали электрические матрицы на поверхность мозга добровольцев, проходивших лечение от эпилепсии. Они были помещены в области мозга, связанные как с речью, так и с пониманием.

Испытуемые вслух отвечали на вопросы с несколькими вариантами ответов, например: «От нуля до 10, как вы себя чувствуете?» или «Какой из музыкальных инструментов вам не нравится слушать?» Используя только электрическую активность мозга, система затем угадывает, когда был задан вопрос, каков он был, и, исходя из этого, определяет ответы субъекта. Если правильно определяется заданный человеку вопрос, то затем система может сузить варианты возможных ответов. В результате точность оказалось в диапазоне 61–76 % против 7–20 % в случае простого угадывания. Не особенно впечатляет, но нужно понимать, что это лишь начало пути. «Наша работа показывает ценность расшифровки обеих сторон разговора: и вопросов, которые кто-то слышит, и того, что человек говорит в ответ», — сказал в своём заявлении профессор Эдвард Чанг (Edward Chang).

Эксперимент дал положительные результаты, но показал и текущие ограничения технологии. Электрические матрицы, хотя и менее навязчивы, чем зонды, используемые для других экспериментов с интерфейсом мозга, но всё же потребовали имплантации путём операционного вмешательства. И вместо того, чтобы просто произносить ответы про себя, они делали это вслух (в таком случае обычное распознавание речи было бы куда эффективнее). В довершение всего диапазон из девяти вопросов и 24 ответов крайне ограничен. Всё это бесконечно далеко от заявленной цели Facebook — перевод 100 слов в минуту случайной речи с использованием пассивных носимых устройств.

Ранний образец носимого устройства для связи между мозгом человека и компьютером без инвазивных методов

Ранний образец носимого устройства для связи между мозгом человека и компьютером без инвазивных методов

Компания, впрочем, считает, что даже ограниченная функциональность может быть крайне полезной. «Возможность декодировать даже несколько воображаемых слов, таких как „выбрать“ или „удалить“, предоставила бы совершенно новые способы взаимодействия с системами виртуальной реальности и очками дополненной реальности», — говорится в сообщении компании.

Марк Шевийе — директор команды по разработке интерфейса между мозгом и компьютером в Facebook Reality Labs

Марк Шевийе — директор команды по разработке интерфейса между мозгом и компьютером в Facebook Reality Labs

Однако движение в этом направлении не может не беспокоить людей: немногие хотели бы предоставлять Facebook (или какой-либо другой компании) прямой доступ к своему мозгу. Контекстная реклама на основе прочитанных случайных мыслей? — Почему бы и нет? Тем не менее, директор организации Reality Labs Марк Шевийе (Mark Chevillet) попытался коснуться и этой этической проблемы в своей публикации на тему: «Мы не можем предвидеть или решать все этические проблемы, связанные с этой технологией, самостоятельно. Нейроэтическое проектирование — один из ключевых столпов нашей программы. Мы хотим быть полностью открытыми в своей работе, чтобы люди могли рассказать нам о своих опасениях по поводу этой технологии».

Центробанк назвал основные параметры для удалённой идентификации клиентов

Первый зампред Центробанка Ольга Скоробогатова в ходе форума инновационных финансовых технологий Finopolis 2017 в Сочи рассказала, какие биометрические параметры были выбраны в качестве основных для идентификации личности клиента при оказании услуг дистанционного банковского обслуживания без личного присутствия.

Mac Rumors

Mac Rumors

По её словам, в основу общей биометрической платформы первоначально предполагается заложить определение клиента по голосу и с помощью распознавания лица. В дальнейшем можно будет добавить идентификацию по радужной оболочке глаза и другим параметрам. В любом случае надёжная идентификация должна быть построена на сравнении 2–3 параметров.

В дальнейшем, как утверждает Скоробогатова, единые стандарты по биометрии будут также применяться пенсионными фондами и страховыми компаниями.

«Больше идёт вопрос о некой общей шине, которая задаёт единые стандарты по биометрии и по безопасности, к которой подключаются банки при идентификации своих клиентов, а в дальнейшем и госуслуги, и пенсионные фонды и страховые (компании). При этом ещё раз подчеркну, что сами банки для своих дополнительных услуг и каких-то целей внутри банка могут использовать и иную биометрию, и это приветствуется», — отметила Скоробогатова.

Законопроект о биометрических параметрах, необходимых для внедрения механизма удалённой идентификации, был принят в первом чтении 27 сентября 2017 г. Для удалённой идентификации будет использоваться Единая система идентификации и аутентификации (ЕСИА). Предполагается, что после очного подтверждения клиентом личности в одном банке он сможет использовать удалённую идентификацию при обслуживании в другом банковском учреждении.

Infineon инвестирует в разработчика голосовых процессоров

Немецкая компания Infineon сообщила о стратегических инвестициях в британскую компанию XMOS (базируется в Бристоле). Сумма инвестиций относительно небольшая (миноритарная) и составляет $15 млн в виде покупки акций XMOS серии E. Специализируется компания XMOS на разработке голосовых процессоров для вещей с подключением к Интернету. Это бесфабричный разработчик и, кстати, он не впервые сотрудничает с Infineon.

XMOS

XMOS

Как считают аналитики, например, из компании IHS, в последующие годы рынок устройств с голосовым управлением или голосовым интерфейсом человек-машина в среднем будет расти на 46 % в год. Это хороший процент с большими перспективами для тех, кто начнёт работать на этом направлении. Голосом будет управляться бытовая техника, автомобили, промышленное оборудование и коммерческие системы. Через три года, считают в Infineon, будет развёрнуто не менее 30 млрд устройств, относящихся к категории IoT (Internet of Things).

Infineon

Infineon

Особняком могут идти голосовые помощники и платформы для контекстной подсказки. Это относительно новое направление вещей с подключением к Интернету, но оно начало развиваться достаточно бурно и имеет все шансы стать главным на ближайшие годы. Для таких платформ, как, собственно, для машинного интерфейса по распознаванию голоса, важно отделять речь живого человека от «синтезированной» речи.

XMOS

XMOS

Помощнику трудно отличить голос хозяина от звука голоса из включённого телевизора, особенно если уровень громкости последнего значительно выше. Для решения этой проблемы Infineon предлагает комбинировать радары и направленные микрофоны. Машина будет определять положение человека и направлять микрофоны на него, пространственно отсекая посторонние звуки. Подобную платформу Infineon и XMOS демонстрировали ранее в текущем году и намерены предложить в будущем более интересные решения.

Microsoft поставила новый рекорд в точности распознавания речи

Microsoft сообщила об очередных доработках системы распознавания речи и снижении частоты появления ошибочных слов при обработке голосовых данных до рекордного показателя 5,1 %. В октябре прошлого года группе исследователей компании удалось достичь отметки 5,9 %, что обозначило паритет с человеком.

В обоих исследованиях сотрудники проводили транскрибирование записей с корпуса бесед Switchboard. Он включает примерно 2,4 тысячи диалогов и используется для тестирования систем распознавания голоса с начала 90-х годов XX века.

Новое исследование было проведено с целью достижения уровня точности, соответствующего уровню профессиональных наборщиков текста из аудиофайлов. У них была возможность прослушать материал несколько раз и определить его разговорный контекст, параллельно работая со своими коллегами.

По сравнению с прошлогодним достижением исследователи снизили частоту ошибочных слов приблизительно на 12 %. Они смогли достичь нового показателя благодаря улучшению акустических и языковых моделей на базе нейронных сетей. Также исследователи сумели заставить систему использовать цельные диалоги. Это позволило ей адаптировать транскрипции к контексту и прогнозировать слова и фразы — примерно так же, как и разговаривающие друг с другом люди.

Система распознавания речи Microsoft используется в таких сервисах как Cortana, Presentation Translator и Microsoft Cognitive Services.

Google обновила облачный речевой API рядом новых возможностей

Google Cloud Speech, облачный речевой API, позволяющий разработчикам использовать службы поискового гиганта для преобразования голоса в текст, получил первое крупное обновление с момента своего запуска в 2016 году. Наиболее существенное новшество, пожалуй, — поддержка трёх десятков новых языков в дополнение к 89 понимаемым службой ранее.

Впрочем, «языки» — это не вполне верно: с точки зрения Google различные региональные диалекты английского, испанского или арабского входят в этот список отдельным пунктом. Так или иначе, среди новых языков присутствуют такие, как бенгальский, латвийский, суахили и другие, покрывающие в совокупности порядка миллиарда человек.

Кроме того, Google внесла и другие ключевые новшества в свою службу. Среди прочего речь идёт о поддержке временных меток на уровне слов. Идея состоит в том, чтобы пометить каждое слово своей меткой времени, чтобы разработчики могли, например, позволить пользователям слышать, кто произнёс то или иное слово. Это особенно интересно для транскрипционных и переводческих услуг, которые используют этот API для ускорения своих рабочих процессов. Иметь возможность разметить звук текстовыми метками, по словам соучредителя Happy Scribe Андрэ Бастье (André Bastie), существенно снижает время, затрачиваемое на проверку автоматических транскрипций (его компания берёт за такую работу $0,1 на минуту интервью).

Кроме того, длительность файлов, загружаемых разработчиками в службу, повышена с 80 минут до 3 часов (при необходимости можно запросить дополнительное расширение). Как и прежде, разработчики могут использовать Google Cloud Speech API бесплатно на отрывках до 60 минут, а каждые дополнительные 15 секунд оплачиваются по тарифу $0,006.

Infineon представила MEMS-микрофон повышенной чувствительности

Технологии распознавания речи становятся обыденностью. «Умные» колонки Amazon Echo или Google Home, голосовые ассистенты Apple или Samsung, а также многие другие решения из этой области сильно зависят от качества записи звука и, прежде всего, от микрофонов. Когда производители научились делать их на основе микроэлектромеханических матриц MEMS, микрофоны значительно выиграли в характеристиках и снизили себестоимость. Дальше дело за малым — улучшать технологию производства микрофонов MEMS и совершенствовать их параметры, чем, собственно, активно занялась немецкая компания Infineon.

MEMS микрофон (Infineon Technologies AG)

MEMS микрофон (Infineon Technologies AG)

Свежим пресс-релизом производитель заявил, что подготовил к массовому производству высокопроизводительные MEMS-микрофоны с улучшенным соотношением сигнал/шум (SNR). Это означает, что повышена чувствительность микрофонов. Новые микрофоны Infineon улучшили параметр SNR на 6 дБ и подняли его до уровня 70 дБ. На практике это означает, что дистанция безошибочного распознавания голоса между человеком и устройством (микрофоном) может быть удвоена или запись может вестись без искажения с пониженным уровнем громкости.

Сравненние коэффициента гармонических искажения новых MEMS-микрофонов Infineon с конкурирующей продукцией (http://electronicsmaker.com)

Сравнение коэффициента гармонических искажения новых MEMS-микрофонов Infineon с конкурирующей продукцией (http://electronicsmaker.com)

Частотные характеристики микрофона также превосходны. Суммарный коэффициент гармонических искажения до уровня 135 дБ не превышает 10 % (Total Harmonic Distortion, THD), оставаясь ниже 1 % до отметки 130 дБ. Конкурентов этому решению нет, уверены в Infineon. Смартфон с таким микрофоном без искажения или с минимальными искажениями запишет всё: от рок-концерта до журчания ручья.

«Классическая» схема конденсаторного микрофона и схема микрофона Infineon с двумя электродами (http://electronicsmaker.com)

«Классическая» схема конденсаторного микрофона и схема микрофона Infineon с двумя электродами (http://electronicsmaker.com)

Секрет высокой чувствительности MEMS микрофона Infineon заключается в его строении. Обычные конденсаторные микрофоны (включая MEMS) состоят из заряженной подвижной мембраны и жёсткого электрода. Колебания мембраны под воздействием звука ведут к изменению ёмкости «таблетки» и к изменениям амплитуды и полярности напряжения на её контактах. Встроенный в микрофон чип либо обрабатывает аналоговый сигнал (если микрофон аналоговый), либо с помощью ЦАП переводит его в «цифру», если микрофон цифровой.

Микрофон MEMS Infineon состоит из двух неподвижных электродов вместо одного (http://electronicsmaker.com)

Микрофон MEMS Infineon состоит из двух неподвижных электродов вместо одного с диафрагмой посередине (http://electronicsmaker.com)

В микрофоне Infineon два неподвижных электрода с мембраной посередине. Это позволяет генерировать два полярных сигнала и лучше фильтровать помехи и бороться с искажениями. Также микрофон с двойным электродом лучше защищён от повреждений при резких перепадах давления во время падений устройства и лучше ведёт себя при работе во время сильного ветра.

Наконец, новые микрофоны имеют настолько небольшой разброс параметров, что они прекрасно согласовываются при создании массивов микрофонов для направленной записи звука. Разброс в чувствительности не превышает 1 дБ, а фазовый разброс — не более 2 градусов. Габариты микрофонов, кстати, составляют всего 4 × 3 × 1,2 мм. Рабочие образцы микрофонов компания начнёт рассылать в четвёртом квартале 2017 года с началом массового производства в первом квартале 2018 года.

Алгоритмы Google научились распознавать голосовые команды с невероятной точностью

За технологией распознавания голоса, которая позволила бы не только безошибочно понимать устные команды для дистанционного управления электроникой, но и могла бы идентифицировать пользователей, стоит будущее. По крайней мере, так считают в корпорации Google, задающей темп развития для многих отраслей.

Однако на данном этапе смарт-колонки и прочие устройства с цифровым ассистентом «внутри» не всегда могут безошибочно уловить сказанное человеком. Данный факт подталкивает разработчиков ПО совершенствовать механизм распознавания речи, делая голосового помощника ещё больше похожим на живого собеседника. И как раз у Google это выходит как нельзя лучше.

www.androidcentral.com

www.androidcentral.com

За прошедшие четыре года точность распознавания устной речи алгоритмами, на которых базируются Google Now и Google Assistant, возросла на 20 %. Достигаемый платформой от Google показатель теперь демонстрирует погрешность, характерную для общения двух живых людей. По данным аналитиков из агентства KPCB, точность распознавания голосовых команд смарт-продукцией Google составляет невероятные 95 %. И в дальнейшем её показатели будут лишь увеличиваться.

Устные команды и запросы становятся всё популярнее, что требует от лидеров рынка внедрения новых методик для понимания программой слов пользователей. Статистика от KPCB свидетельствует, что 20 % обращений к поисковой системе Google в 2016 году осуществлялись голосовым набором, а не посредством ввода печатного текста. Google, в свою очередь, двигается в сторону совершенствования технологии, собирая и анализируя речевые данные, а также подключая голосовой ввод для всех своих сервисов.  

Частота ошибочных слов в распознавании речи Google снизилась до 4,9 %

Генеральный директор Google Сандар Пичаи (Sundar Pichai) сообщил, что частота ошибочных слов технологии распознавания речи компании снизилась до 4,9 %. Другими словами, Google расшифровывает неправильно каждое 20 слово. В 2013 году показатель составлял 23 %, два года назад во время конференции I/O 2015 — 8 %.

VentureBeat

VentureBeat

Пичаи сообщил о достижении в рамках I/O 2017, на которой компания уделила огромное внимание искусственному интеллекту. Для достижения высокой точности распознавания речи Google использует технологии глубокого обучения.

«Мы используем голос как средство ввода во многих наших продуктах, — сказал Пичаи. — Всё потому, что компьютеры стали гораздо лучше понимать речь. У нас было несколько значительных достижений, но с прошлого года темп роста был удивительным. Наша частота ошибочных слов продолжает улучшаться даже в очень шумных местах. Поэтому мы можем точно захватывать ваш голос, когда вы говорите с Google через ваш телефон или Google Home».

В октябре 2016 года Microsoft сообщила, что достигла паритета с человеком в плане машинного распознавания речи. Тогда её уровень ошибок в распознавании слов составил 5,9 %. Неясно, производят ли обе компании оценку по одним и тем же стандартам.

В начале года Google рассказала, что её частота ошибок в распознавании речи с 2012 года сократилась более чем на 30 %. По словам компании, этому поспособствовало активное использование нейронных сетей.

Пичаи поделился интересной подробностью разработки «умной» колонки компании. «Когда мы готовились к поставкам Google Home, то сначала планировали добавить восемь микрофонов, — рассказал генеральный директор. — Но благодаря нейронным сетям и использованию технологии под названием “нейронное формирование луча” мы смогли выпустить её всего с двумя микрофонами и достичь того же качества».

window-new
Soft
Hard
Тренды 🔥