Теги → распознавание речи
Быстрый переход

Центробанк назвал основные параметры для удалённой идентификации клиентов

Первый зампред Центробанка Ольга Скоробогатова в ходе форума инновационных финансовых технологий Finopolis 2017 в Сочи рассказала, какие биометрические параметры были выбраны в качестве основных для идентификации личности клиента при оказании услуг дистанционного банковского обслуживания без личного присутствия.

Mac Rumors

Mac Rumors

По её словам, в основу общей биометрической платформы первоначально предполагается заложить определение клиента по голосу и с помощью распознавания лица. В дальнейшем можно будет добавить идентификацию по радужной оболочке глаза и другим параметрам. В любом случае надёжная идентификация должна быть построена на сравнении 2–3 параметров.

В дальнейшем, как утверждает Скоробогатова, единые стандарты по биометрии будут также применяться пенсионными фондами и страховыми компаниями.

«Больше идёт вопрос о некой общей шине, которая задаёт единые стандарты по биометрии и по безопасности, к которой подключаются банки при идентификации своих клиентов, а в дальнейшем и госуслуги, и пенсионные фонды и страховые (компании). При этом ещё раз подчеркну, что сами банки для своих дополнительных услуг и каких-то целей внутри банка могут использовать и иную биометрию, и это приветствуется», — отметила Скоробогатова.

Законопроект о биометрических параметрах, необходимых для внедрения механизма удалённой идентификации, был принят в первом чтении 27 сентября 2017 г. Для удалённой идентификации будет использоваться Единая система идентификации и аутентификации (ЕСИА). Предполагается, что после очного подтверждения клиентом личности в одном банке он сможет использовать удалённую идентификацию при обслуживании в другом банковском учреждении.

Infineon инвестирует в разработчика голосовых процессоров

Немецкая компания Infineon сообщила о стратегических инвестициях в британскую компанию XMOS (базируется в Бристоле). Сумма инвестиций относительно небольшая (миноритарная) и составляет $15 млн в виде покупки акций XMOS серии E. Специализируется компания XMOS на разработке голосовых процессоров для вещей с подключением к Интернету. Это бесфабричный разработчик и, кстати, он не впервые сотрудничает с Infineon.

XMOS

XMOS

Как считают аналитики, например, из компании IHS, в последующие годы рынок устройств с голосовым управлением или голосовым интерфейсом человек-машина в среднем будет расти на 46 % в год. Это хороший процент с большими перспективами для тех, кто начнёт работать на этом направлении. Голосом будет управляться бытовая техника, автомобили, промышленное оборудование и коммерческие системы. Через три года, считают в Infineon, будет развёрнуто не менее 30 млрд устройств, относящихся к категории IoT (Internet of Things).

Infineon

Infineon

Особняком могут идти голосовые помощники и платформы для контекстной подсказки. Это относительно новое направление вещей с подключением к Интернету, но оно начало развиваться достаточно бурно и имеет все шансы стать главным на ближайшие годы. Для таких платформ, как, собственно, для машинного интерфейса по распознаванию голоса, важно отделять речь живого человека от «синтезированной» речи.

XMOS

XMOS

Помощнику трудно отличить голос хозяина от звука голоса из включённого телевизора, особенно если уровень громкости последнего значительно выше. Для решения этой проблемы Infineon предлагает комбинировать радары и направленные микрофоны. Машина будет определять положение человека и направлять микрофоны на него, пространственно отсекая посторонние звуки. Подобную платформу Infineon и XMOS демонстрировали ранее в текущем году и намерены предложить в будущем более интересные решения.

Microsoft поставила новый рекорд в точности распознавания речи

Microsoft сообщила об очередных доработках системы распознавания речи и снижении частоты появления ошибочных слов при обработке голосовых данных до рекордного показателя 5,1 %. В октябре прошлого года группе исследователей компании удалось достичь отметки 5,9 %, что обозначило паритет с человеком.

В обоих исследованиях сотрудники проводили транскрибирование записей с корпуса бесед Switchboard. Он включает примерно 2,4 тысячи диалогов и используется для тестирования систем распознавания голоса с начала 90-х годов XX века.

Новое исследование было проведено с целью достижения уровня точности, соответствующего уровню профессиональных наборщиков текста из аудиофайлов. У них была возможность прослушать материал несколько раз и определить его разговорный контекст, параллельно работая со своими коллегами.

По сравнению с прошлогодним достижением исследователи снизили частоту ошибочных слов приблизительно на 12 %. Они смогли достичь нового показателя благодаря улучшению акустических и языковых моделей на базе нейронных сетей. Также исследователи сумели заставить систему использовать цельные диалоги. Это позволило ей адаптировать транскрипции к контексту и прогнозировать слова и фразы — примерно так же, как и разговаривающие друг с другом люди.

Система распознавания речи Microsoft используется в таких сервисах как Cortana, Presentation Translator и Microsoft Cognitive Services.

Google обновила облачный речевой API рядом новых возможностей

Google Cloud Speech, облачный речевой API, позволяющий разработчикам использовать службы поискового гиганта для преобразования голоса в текст, получил первое крупное обновление с момента своего запуска в 2016 году. Наиболее существенное новшество, пожалуй, — поддержка трёх десятков новых языков в дополнение к 89 понимаемым службой ранее.

Впрочем, «языки» — это не вполне верно: с точки зрения Google различные региональные диалекты английского, испанского или арабского входят в этот список отдельным пунктом. Так или иначе, среди новых языков присутствуют такие, как бенгальский, латвийский, суахили и другие, покрывающие в совокупности порядка миллиарда человек.

Кроме того, Google внесла и другие ключевые новшества в свою службу. Среди прочего речь идёт о поддержке временных меток на уровне слов. Идея состоит в том, чтобы пометить каждое слово своей меткой времени, чтобы разработчики могли, например, позволить пользователям слышать, кто произнёс то или иное слово. Это особенно интересно для транскрипционных и переводческих услуг, которые используют этот API для ускорения своих рабочих процессов. Иметь возможность разметить звук текстовыми метками, по словам соучредителя Happy Scribe Андрэ Бастье (André Bastie), существенно снижает время, затрачиваемое на проверку автоматических транскрипций (его компания берёт за такую работу $0,1 на минуту интервью).

Кроме того, длительность файлов, загружаемых разработчиками в службу, повышена с 80 минут до 3 часов (при необходимости можно запросить дополнительное расширение). Как и прежде, разработчики могут использовать Google Cloud Speech API бесплатно на отрывках до 60 минут, а каждые дополнительные 15 секунд оплачиваются по тарифу $0,006.

Infineon представила MEMS-микрофон повышенной чувствительности

Технологии распознавания речи становятся обыденностью. «Умные» колонки Amazon Echo или Google Home, голосовые ассистенты Apple или Samsung, а также многие другие решения из этой области сильно зависят от качества записи звука и, прежде всего, от микрофонов. Когда производители научились делать их на основе микроэлектромеханических матриц MEMS, микрофоны значительно выиграли в характеристиках и снизили себестоимость. Дальше дело за малым — улучшать технологию производства микрофонов MEMS и совершенствовать их параметры, чем, собственно, активно занялась немецкая компания Infineon.

MEMS микрофон (Infineon Technologies AG)

MEMS микрофон (Infineon Technologies AG)

Свежим пресс-релизом производитель заявил, что подготовил к массовому производству высокопроизводительные MEMS-микрофоны с улучшенным соотношением сигнал/шум (SNR). Это означает, что повышена чувствительность микрофонов. Новые микрофоны Infineon улучшили параметр SNR на 6 дБ и подняли его до уровня 70 дБ. На практике это означает, что дистанция безошибочного распознавания голоса между человеком и устройством (микрофоном) может быть удвоена или запись может вестись без искажения с пониженным уровнем громкости.

Сравненние коэффициента гармонических искажения новых MEMS-микрофонов Infineon с конкурирующей продукцией (http://electronicsmaker.com)

Сравнение коэффициента гармонических искажения новых MEMS-микрофонов Infineon с конкурирующей продукцией (http://electronicsmaker.com)

Частотные характеристики микрофона также превосходны. Суммарный коэффициент гармонических искажения до уровня 135 дБ не превышает 10 % (Total Harmonic Distortion, THD), оставаясь ниже 1 % до отметки 130 дБ. Конкурентов этому решению нет, уверены в Infineon. Смартфон с таким микрофоном без искажения или с минимальными искажениями запишет всё: от рок-концерта до журчания ручья.

«Классическая» схема конденсаторного микрофона и схема микрофона Infineon с двумя электродами (http://electronicsmaker.com)

«Классическая» схема конденсаторного микрофона и схема микрофона Infineon с двумя электродами (http://electronicsmaker.com)

Секрет высокой чувствительности MEMS микрофона Infineon заключается в его строении. Обычные конденсаторные микрофоны (включая MEMS) состоят из заряженной подвижной мембраны и жёсткого электрода. Колебания мембраны под воздействием звука ведут к изменению ёмкости «таблетки» и к изменениям амплитуды и полярности напряжения на её контактах. Встроенный в микрофон чип либо обрабатывает аналоговый сигнал (если микрофон аналоговый), либо с помощью ЦАП переводит его в «цифру», если микрофон цифровой.

Микрофон MEMS Infineon состоит из двух неподвижных электродов вместо одного (http://electronicsmaker.com)

Микрофон MEMS Infineon состоит из двух неподвижных электродов вместо одного с диафрагмой посередине (http://electronicsmaker.com)

В микрофоне Infineon два неподвижных электрода с мембраной посередине. Это позволяет генерировать два полярных сигнала и лучше фильтровать помехи и бороться с искажениями. Также микрофон с двойным электродом лучше защищён от повреждений при резких перепадах давления во время падений устройства и лучше ведёт себя при работе во время сильного ветра.

Наконец, новые микрофоны имеют настолько небольшой разброс параметров, что они прекрасно согласовываются при создании массивов микрофонов для направленной записи звука. Разброс в чувствительности не превышает 1 дБ, а фазовый разброс — не более 2 градусов. Габариты микрофонов, кстати, составляют всего 4 × 3 × 1,2 мм. Рабочие образцы микрофонов компания начнёт рассылать в четвёртом квартале 2017 года с началом массового производства в первом квартале 2018 года.

Алгоритмы Google научились распознавать голосовые команды с невероятной точностью

За технологией распознавания голоса, которая позволила бы не только безошибочно понимать устные команды для дистанционного управления электроникой, но и могла бы идентифицировать пользователей, стоит будущее. По крайней мере, так считают в корпорации Google, задающей темп развития для многих отраслей.

Однако на данном этапе смарт-колонки и прочие устройства с цифровым ассистентом «внутри» не всегда могут безошибочно уловить сказанное человеком. Данный факт подталкивает разработчиков ПО совершенствовать механизм распознавания речи, делая голосового помощника ещё больше похожим на живого собеседника. И как раз у Google это выходит как нельзя лучше.

www.androidcentral.com

www.androidcentral.com

За прошедшие четыре года точность распознавания устной речи алгоритмами, на которых базируются Google Now и Google Assistant, возросла на 20 %. Достигаемый платформой от Google показатель теперь демонстрирует погрешность, характерную для общения двух живых людей. По данным аналитиков из агентства KPCB, точность распознавания голосовых команд смарт-продукцией Google составляет невероятные 95 %. И в дальнейшем её показатели будут лишь увеличиваться.

Устные команды и запросы становятся всё популярнее, что требует от лидеров рынка внедрения новых методик для понимания программой слов пользователей. Статистика от KPCB свидетельствует, что 20 % обращений к поисковой системе Google в 2016 году осуществлялись голосовым набором, а не посредством ввода печатного текста. Google, в свою очередь, двигается в сторону совершенствования технологии, собирая и анализируя речевые данные, а также подключая голосовой ввод для всех своих сервисов.  

Частота ошибочных слов в распознавании речи Google снизилась до 4,9 %

Генеральный директор Google Сандар Пичаи (Sundar Pichai) сообщил, что частота ошибочных слов технологии распознавания речи компании снизилась до 4,9 %. Другими словами, Google расшифровывает неправильно каждое 20 слово. В 2013 году показатель составлял 23 %, два года назад во время конференции I/O 2015 — 8 %.

VentureBeat

VentureBeat

Пичаи сообщил о достижении в рамках I/O 2017, на которой компания уделила огромное внимание искусственному интеллекту. Для достижения высокой точности распознавания речи Google использует технологии глубокого обучения.

«Мы используем голос как средство ввода во многих наших продуктах, — сказал Пичаи. — Всё потому, что компьютеры стали гораздо лучше понимать речь. У нас было несколько значительных достижений, но с прошлого года темп роста был удивительным. Наша частота ошибочных слов продолжает улучшаться даже в очень шумных местах. Поэтому мы можем точно захватывать ваш голос, когда вы говорите с Google через ваш телефон или Google Home».

В октябре 2016 года Microsoft сообщила, что достигла паритета с человеком в плане машинного распознавания речи. Тогда её уровень ошибок в распознавании слов составил 5,9 %. Неясно, производят ли обе компании оценку по одним и тем же стандартам.

В начале года Google рассказала, что её частота ошибок в распознавании речи с 2012 года сократилась более чем на 30 %. По словам компании, этому поспособствовало активное использование нейронных сетей.

Пичаи поделился интересной подробностью разработки «умной» колонки компании. «Когда мы готовились к поставкам Google Home, то сначала планировали добавить восемь микрофонов, — рассказал генеральный директор. — Но благодаря нейронным сетям и использованию технологии под названием “нейронное формирование луча” мы смогли выпустить её всего с двумя микрофонами и достичь того же качества».

Amazon предоставила разработчикам доступ к микрофонной технологии Echo

Amazon решила открыть сторонним производителям доступ к технологии, которая отвечает за работу микрофона «умной» колонки Echo. С помощью набора для разработки Amazon Alexa 7-Mic Far-Field Dev Kit компании могут создавать собственные продукты с поддержкой голосового управления на расстоянии.

Как следует из названия набора, выбор голосовых помощников ограничен Alexa — собственным ИИ Amazon. Комплект разработки позволяет создавать устройства, которые могут улавливать голос пользователя из другого конца комнаты или при возникновении посторонних шумов. Также производители могут активировать распознавание особых слов или фраз — например, «Эй, Алекса, сделай то, что обещала».

Стоит отметить, что Alexa и раньше можно было встраивать в устройства сторонних компаний. Но предлагая новый комплект разработки, Amazon даёт производителям возможность делать продукты, которые распознают голос не хуже Echo. Речь идёт о том, чтобы обеспечить определённый уровень качества везде, где присутствует Alexa.

«С запуска Amazon Echo и Echo Dot производители устройств просили нас предоставить технологию и инструменты, чтобы они могли добавить поддержку распознавания на расстоянии Alexa в свои продукты, — заявила Прия Абани (Priya Abani), директор Amazon Alexa. — С помощью этого нового эталонного решения разработчики могут создавать продукты с той же уникальной системой из семи микрофонов, технологией формирования луча и программным обеспечением обработки голоса, которые сделали Amazon Echo таким популярным среди клиентов».

Набор разработки бесплатен, однако Amazon откроет к нему доступ лишь некоторым производителям. Заинтересованные могут подавать заявки здесь.

Мессенджер Supersonic Fun Voice преобразует речь в текст и сам расставит «смайлы»

В современную цифровую эпоху эмоции при виртуальном текстовом общении лучше всего передают не слова или символы, а «смайлы». Выражающая гнев или радость иконка многим и вовсе заменяет традиционное общение. Разработчики мобильного мессенджера Supersonic Fun Voice Messenger решили предложить своим пользователям не просто ещё один сервис по обмену сообщениями, а услугу, которая бы смогла распознать ваше эмоциональное состояние и передать его собеседнику. 

На первый взгляд приложение Supersonic Fun Voice Messenger, доступное владельцам гаджетами с iOS и Android, представляет собой классический мессенджер. Однако его «изюминка» кроется в методе отправки текстовых сообщений, которые не нужно печатать на экранной или любой другой клавиатуре. Набор текста здесь осуществляется только голосом и никак иначе.

www.androidheadlines.com

www.androidheadlines.com

При этом разработчики из Area 120 — авторы Supersonic Fun Voice Messenger и по совместительству сотрудники корпорации Google — сделали «фишкой» мессенджера другую его особенность. Во время голосового набора программа распознаёт эмоциональный окрас фразы и автоматически ставит те самые «смайлы» для придания соответствующей интонации. «Смайлы» появляются в конце предложения, символизируя или вложенные в фразу чувства, или подчёркивая ключевое слово. 

Supersonic Fun Voice Messenger дублирует все отправленные сообщения в двух вариациях, предлагая собеседнику или прочитать распознанный приложением текст, или прослушать оригинальную голосовую запись. Возможна организация групповых бесед.

Мессенджер Supersonic Fun Voice Messenger доступен для загрузки в iTunes App Store и Google Play на бесплатной основе. 

Google Home может получить поддержку нескольких аккаунтов

Google скоро может решить одну из главных проблем «умных» колонок — то, что они работают с одним-единственным аккаунтом. Сайт Android Police в последней версии приложения Google Home обнаружил намёк на то, что компания работает над добавлением в систему поддержки нескольких пользователей. В коде приложения также присутствует упоминание устройства, способного распознавать голос человека и нуждающегося в тренировке, из чего можно сделать вывод, что переключение между пользователями будет осуществляться посредством идентификации голоса говорящего.

Компания отказалась напрямую отвечать на вопрос The Verge о том, действительно ли она работает над добавлением в Google Home поддержки нескольких пользователей, однако заявила: «Мы продолжаем проводить испытания с Google Home, но сейчас не можем поделиться чем-то конкретным».

Очень маловероятно, что Google, как и другие компании-производители «умных» колонок, не работает над такой возможностью, поскольку её отсутствие является одним из самых больших недостатков таких устройств. В данный момент при использовании «умных» колонок ото всех крупных производителей членам семьи или просто сожителям приходится пользоваться одним и тем же аккаунтом.

Также совсем недавно стало известно о том, что и голосовой помощник Alexa от Amazon может научиться различать голоса. По словам Time, разработка функции уже по большей части завершена, и Amazon осталось лишь разобраться с рядом условностей, включая связанные с конфиденциальностью.

При этом стоит учитывать, что поддержка несколько пользователей в Google Home может находиться на ранней стадии разработки и компания в конечном итоге вообще может от неё отказаться.

SoundHound планирует потягаться с конкурентами в сфере распознавания голоса

Компания SoundHound, разработчик одноименного сервиса распознавания музыки, получила финансирование в размере 75 миллионов долларов США, которое должно помочь ей в создании системы искусственного интеллекта для распознавания сложных голосовых команд, сообщает Bloomberg. Среди инвесторов — Samsung и NVIDIA, которые и раньше сотрудничали с SoundHound.

У компании уже есть собственная ИИ-технология под названием Houndify, способная интерпретировать сложные речевые запросы и другие звуки. Полученные SoundHound $75 миллионов пойдут на расширение платформы в плане территорий и устройств. В частности, разработчики планируют развивать свой бизнес в Азии и Европе.

Генеральный директор SoundHound Кейван Мохаджер (Keyvan Mohajer) рассказал Bloomberg, что он хочет добавить поддержку имеющейся в распоряжении компании технологии в устройства Интернета вещей. Таким образом, производителям не придётся создавать свои собственные системы искусственного интеллекта и полагаться на продукты Google, Microsoft, Apple или Amazon. Эти компании предлагают закрытые системы, забирающие всякий контроль над устройством у его производителя, подчеркнул Мохаджер.

«Если вы используете Amazon, вы теряете свой бренд, своих пользователей. Вам приходится просить пользователя войти в его аккаунт Amazon, ему приходится обращаться к Alexa, и все данные принадлежат им»,  пояснил глава компании. Мохаджер пообещал, что организации не будут терять контроль над клиентами или данными при использовании технологии SoundHound.

Система компании распознаёт слова и расшифровывает контекст в реальном времени, что, по словам генерального директора SoundHound, позволяет получать результат быстрее. Большинство других технологий для распознавания речи и языка задействуют фрагментарный подход — сначала программное обеспечение распознаёт слова, а уже затем определяет их значение. Судя по описанию технологии, компания использует инкрементный алгоритм распознавания — программа не ждёт, пока пользователь закончит говорить, а интерпретирует слова прямо на ходу, рассказал профессор Университета Карнеги-Меллон Александр Рудницкий. Тем не менее, он не уверен, как именно работает система SoundHound.

Частота ошибок Google в распознавании речи с 2012 года сократилась более чем на 30 %

Старший научный сотрудник Google Джефф Дин (Jeff Dean) в рамках конференции AI Frontiers Conference в Санта-Кларе, Калифорния, рассказал о том, насколько далеко компании удалось продвинуться в плане улучшения своего программного обеспечения для распознавания речи. В частности, Дин заявил, что частота ошибочных слов в распознавании речи, то есть то, насколько часто Google некорректно транскрибирует слова, снизилась более чем на 30 %. Изначально об этом написала Карисса Белл (Karissa Bell) с сайта Mashable в Twitter, после чего информацию подтвердил представитель Google изданию VentureBeat.

VentureBeat

VentureBeat

Дин связывает такой прогресс с «добавлением нейронных сетей» — систем, которые Google и другие компании используют для работы с технологиями глубокого обучения. Нейронные сети совершенствуются благодаря анализу больших объёмов данных вроде фрагментов речи. Впервые Google начала использовать нейронные сети в своих системах распознавания речи ещё в 2012 году, когда состоялся запуск Android Jelly Bean.

Google нечасто рассказывает о своих достижениях в улучшении этой, без сомнения, важной технологии, использующейся во всё большем количестве продуктов компании, начиная с «умных» колонок Google Home и заканчивая виртуальной клавиатурой Gboard для iOS и Android. Тем не менее, в 2015 году генеральный директор компании Сундар Пичаи (Sundar Pichai) рассказал, что её частота ошибочных слов составляет 8 %.

В августе прошлого года Алекс Асеро (Alex Acero), старший директор голосового помощника Siri компании Apple, рассказал, что частота ошибок Siri сократилось в два раза в рамках всех языков, а во многих случаях даже более чем в два раза. В сентябре 2016 года Microsoft сообщила, что её исследователям удалось достичь показателя частоты ошибочных слов в 6,3 %.

В ресторане KFC используют технологию распознавания лиц для предложения блюда

Поисковик Baidu, который нередко называют китайским Google, запустил с KFC China (китайский филиал международной сети ресторанов общественного питания, специализирующейся на блюдах из курицы) новый проект — «умный» ресторан в Пекине, где для рекомендации блюд используется технология распознавания лиц исходя из таких факторов, как пол, возраст и выражение лица клиента, позволяющее судить о его настроении.

У Baidu и KFC есть опыт сотрудничества в другом пилотном проекте — «умном» ресторане «Original+» в Шанхае, где для приёма заказов используется робот Dumi, воспринимающий голосовые команды. Клиенту достаточно вслух перечислить наименования блюд для того, чтобы робот оформил заказ.  

В новом ресторане KFC используемая технология Baidu после сканирования лица клиента позволяет предугадать его возможные предпочтения. В пресс-релизе компании указано, что мужчине лет двадцати будет предложен комплексный обед, включающий гамбургер из хрустящего цыплёнка, жареные куриные крылышки и кока-колу. А женщине в возрасте около 50 лет система порекомендует овсяную кашу и соевое молоко на завтрак.

Кроме того, система «запоминает» посетителей ресторана и в следующий раз будет рекомендовать блюда исходя из их предпочтений.

Также в новом ресторане KFC клиентам предлагается сыграть в игры дополненной реальности. Эта возможность имеется во всех 300 пунктах питания сети KFC в Пекине.

Microsoft улучшит доступность Windows 10 для людей с ограниченными возможностями

Во время анонса своего «творческого» обновления Windows 10, которое выйдет в 2017 году, корпорация Microsoft сообщила, что платформа будет включать ряд новшеств для людей с различными недугами или ограничениями. Теперь компания рассказа подробнее о расширении списка специальных возможностей в своей операционной системе.

В частности, экранный диктор в Windows 10 Creators Update получит поддержку ввода и вывода шрифта Брайля для слепых: бета-версия будет поддерживать соответствующие тактильные дисплеи от 35 производителей на 40 языках и различных вариантах шифра. Даже установить обновление можно будет с помощью экранного диктора. Добавлена поддержка порядка десяти новых голосов для преобразования текста в речь, а также возможность озвучивания текста на нескольких языках одновременно.

При использовании диктора, музыка и звуки на фоне в приложениях вроде Spotify, Groove или Pandora будут приглушаться, а персональный помощник Cortana перестанет пытаться распознавать команды, произносимые компьютером. Масса улучшений внесены с точки зрения понимания диктором контекста и объектов, взаимодействия с браузером Edge, а также управления контроллером на консоли Xbox.

Более того, Microsoft позаботилась и о пользователях Office 365 с ограниченными возможностями. В следующем году приложения Office получат больше специальных возможностей. Технологии машинного зрения и искусственного интеллекта смогут описывать изображения в Word и PowerPoint для слепых пользователей. Компания сообщает, что алгоритм подбирает описание к изображениям с довольно высокой точностью благодаря технологиям глубинного обучения. Подобная же технология будет применяться для описания гиперссылок.

Последняя функция уже развёртывается для участников программ Office Insiders и First Release. Остальным пользователям Office стоит подождать до весны.

Российские медики получат систему распознавания речи

Министерство промышленности и торговли Российской Федерации (Минпромторг), по сообщению газеты «Известия», поддержит проект по созданию голосового помощника для медиков.

Разработка речевого ассистента будет осуществляться в рамках госпрограммы «Развитие электронной и радиоэлектронной промышленности на 2013–2025 годы». Конкурс на создание голосового помощника выиграла компания «Центр речевых технологий» (ЦРТ), которая получит субсидию в размере 250 млн рублей.

Главной задачей новой системы станет избавление докторов от части трудоёмкой бумажной работы. Голосовой ассистент будет адаптирован под речь с обилием медицинских терминов, благодаря чему врачи смогут наговаривать анамнез и назначения в микрофон. Система затем преобразует всю информацию в электронный вид.

На текущий момент разработан прототип платформы распознавания профессиональной речи докторов с использованием словаря медицинских терминов. В конечном виде программно-аппаратный комплекс должен включать микрофон с шумоподавлением, диктофон для записи при работе на выездах, облачный сервис синтеза и распознавания речи, автоматизированное рабочее место подготовки медицинских протоколов и их шаблонов.

В течение следующего года в рамках проекта планируется проведение научно-исследовательских работ. Ещё примерно два года уйдут на создание комплекса. Ожидается, что система будет готова к 2020-му. 

window-new
Soft
Hard
Тренды 🔥