Сегодня 28 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → распознавание речи

Google начала тестирование нового способа поиска песен на YouTube: их достаточно напеть

Google тестирует новый способ поиска песен на YouTube — просто напевая их голосом. Этот инновационный шаг, уже доступный ограниченному числу пользователей Android, может кардинально изменить то, как мы находим музыкальные композиции в интернете.

 Источник изображения: SAM-RIZ44 / Pixabay

Источник изображения: SAM-RIZ44 / Pixabay

В мире смартфонов поиск песни по звуку используется уже давно. Сервисы вроде Google Assistant и SoundHound позволяют добавлять треки в плейлист Spotify или воспроизводить клипы на YouTube. Однако новый способ поиска песни кажется более удобным, если вы не помните её название или другие детали.

Google объявила о том, что экспериментирует с поиском песен на YouTube по напеву голосом. Кроме этого, пользователи могут использовать функцию определения песни, записав её фрагмент, который играет фоном, например, в кафе или на радио.

Для активации функции необходимо переключиться из голосового поиска YouTube на поиск песен. После этого пользователь должен напеть или записать фрагмент песни в течение минимум 3 секунд. Затем система перенаправит его к соответствующему контенту на YouTube — официальному клипу, пользовательскому видео или короткому ролику Shorts.

На этапе тестирования новый поиск доступен только ограниченному числу пользователей YouTube на Android. Перед тем, как он окажется в широком доступе, его характеристики могут измениться. Многие надеются, что компания добавит его и в YouTube Music.

Кроме этого, Google тестирует ещё одну функцию для YouTube — «Полка канала» (Channel Shelf) в ленте подписок. Она позволит объединять несколько свежих публикаций одного автора на одной «полке». Таким образом, подписчикам не придётся переходить на YouTube-канал, чтобы увидеть недавние публикации. Google утверждает, что это нововведение снизит давление на авторов контента в плане частоты его публикаций.

Microsoft регистрирует через Роспатент товарный знак Dragon, связанный с ПО для распознавания речи

Стало известно, что американская компания Microsoft через свой головной офис, находящийся в Вашингтоне, подала в Роспатент заявку на регистрацию товарного знака Dragon. В материалах Роспатента указано, что товарный знак связан с технологиями распознавания речи.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Согласно имеющимся данным, заявка Microsoft была подана 31 января. Софтверный гигант намерен зарегистрировать знак по двум классам по международной классификации товаров и услуг. В первом случае речь идёт о компьютерном программном обеспечении для использования в приложениях и системах распознавания речи, во втором — о ПО для обработки речи. Кроме того, Microsoft сможет использовать товарный знак для предоставления онлайн незагружаемого ПО для использования в приложениях и системах распознавания речи и диктовке, для оказания консультаций в сфере автоматизированной обработки транскрипций и в области систем распознавания речи.

Напомним, в 2021 году Microsoft купила компанию Nuance Communications за $19,7 млрд. В арсенале разработчиков имеется технология распознавания речи Dragon, которую Microsoft намерена интегрировать в свои продукты, например, в текстовый редактор Word. Отметим также, что в прошлом году Microsoft объявила о постепенном сворачивании деятельности в России и сокращении своего присутствия до минимума или даже полного ухода с рынка.

Технология EarCommand позволит беззвучно отдавать команды гаджетам, проговаривая их про себя

Хотя управлять устройствами с помощью голосовых команд довольно удобно, громкие отчётливые фразы могут беспокоить окружающих. Система EarCommand, разработанная учёными из университета штата Нью-Йорк, позволяет «считывать» команды, проговариваемые пользователем про себя, причём для этого не потребуется считывать мозговую активность.

 Источник изображения: Caley Vanular/unsplash.com

Источник изображения: Caley Vanular/unsplash.com

В норме голосовые команды могут быть услышаны другими, их распознаванию гаджетами может помешать окружающий шум, кроме того, устройствам может быть сложно отличать один голос от другого, что приведёт к ошибкам в работе.

Технология EarCommand, разрабатываемая командой исследователей из Университета штата Нью-Йорк в Буффало, основана на том, что даже проговаривание каких-либо слов про себя сопровождается активностью мышц и некоторым смещением костей, в результате чего по-разному деформируется ушной канал. Другими словами, разные «шаблоны» деформаций характерны для определённых слов.

Аппаратная составляющая EarCommand включает похожее на наушник устройство, транслирующее близкие к ультразвуку сигналы в ушной канал. Отражающиеся от внутренней поверхности канала сигналы принимаются внутренним микрофоном наушника, а связанный с устройством компьютер анализирует эти эхо, используя специальный алгоритм для того, чтобы оценить деформацию канала и определить, какое слово произнесено.

В проводимых экспериментах пользователи проговаривали 32 команды длиной в одно слово и 25 команд, состоящих из целых предложений. На уровне слов доля ошибок составила 10,2 %, а на уровне предложений — 12,3 %. Ожидается, что по мере развития технологии уровень ошибок будет снижаться. Кроме того, аппаратура работает даже тогда, когда пользователь носит маску или находится в шумном окружении и, в отличие от некоторых систем, считывающих произносимые про себя слова, для использования технологии не требуется камера.

Примечательно, что похожая технология EarHealth тестируется коллегами из того же университета в медицинских целях — аналогичные сигналы и считывание эха от них используются для выявления проблем со слухом, например — диагностики повреждённых барабанных перепонок или отита, который является весьма распространённым заболеванием.

У «Яндекса» появилась нейросеть-полиглот, распознающая десять языков одновременно

Облачное подразделение компании «Яндекс» (Yandex Cloud) сообщило о разработке новой системы на базе машинного обучения, которая способна распознавать более 10 иностранных языков одновременно.

 Источник изображений: «Яндекс»

Источник изображений: «Яндекс»

В основе модели лежат сервис синтеза и распознавания Yandex SpeechKit и специализированная архитектура под названием Transformer. Алгоритмы обрабатывают входные слова параллельно и независимо друг от друга, благодаря чему быстро обучаются.

Система распознаёт речь на любую тему и в разных форматах: это могут быть короткие и длинные фразы, имена, адреса, даты и пр. Модель способна распознавать язык автоматически в одном потоке: нейросеть может в любой момент переключаться между различными языками. При этом есть возможность давать ей «подсказки» — это повышает качество распознавания.

Для обучения модели использовались огромные массивы данных (десятки терабайт) из профессиональных источников, а также из сервисов и приложений самого «Яндекса». Нейросеть-полиглот может работать и с популярными языками, такими как английский и французский, и с более редкими — датским, финским, турецким и другими.


window-new
Soft
Hard
Тренды 🔥
Техническое тестирование роглайк-экшена Hades II завершится 29 апреля — ранний доступ стартует совсем скоро 47 мин.
Продажи средневековой градостроительной стратегии Manor Lords превысили миллион копий спустя сутки после релиза 5 ч.
Thoma Bravo купит за $5,3 млрд британского разработчика ИИ-решений для ИБ Darktrace 7 ч.
Positive Technologies увеличила в I квартале 2024 года объём отгрузок в 1,5 раза 8 ч.
Новая статья: XDefiant — любопытный конкурент Call of Duty. Превью по техническому тестированию 19 ч.
Новая статья: Gamesblender № 671: подробности Kingdom Come: Deliverance 2, Stellar Blade без цензуры и релиз Unreal Engine 5.4 19 ч.
Росту выручки Microsoft в III финансовом квартале способствовало облако и ИИ 21 ч.
Microsoft исправила поиск в Windows 10 — наконец-то он будет искать то, что надо 27-04 16:22
Программный комплекс Tarantool получил сертификат ФСТЭК России по 4-му уровню доверия 27-04 15:43
Госдума рассмотрит запрет на «организацию обращения криптовалют» с 1 сентября 2024 года 27-04 15:04