Новости Software

Intel представила огромные наборы данных, которые упростят обучение ИИ распознаванию речи

На проходящей в эти дни ежегодной конференции Neural Information Processing Systems (NeurIPS), которая посвящена искусственному интеллекту и машинному обучению, компания Intel представила два проекта, которые связаны с распознаванием и транскрибированием разговорного языка. Проект The People’s Speech нацелен на решение задач «автоматического распознавания речи», тогда как проект Multilingual Spoken Words Corpus (MSWC) предназначен для «поиска ключевых слов».

 Источник изображения: Intel

Источник изображения: Intel

В рамках каждого из проектов были созданы наборы данных, содержащие значительный объём аудиоданных и входящие в число крупнейших коллекций в своём классе. Обе инициативы были запущены в 2018 году, чтобы определить и свести в единый набор данных 50 наиболее используемых языков мира, а затем найти применение этой информации. В рамках The People’s Speech и MSWC инженеры Intel сотрудничали с коллегами из Alibaba, Oracle, Google, Baidu и др.

В рамках проекта People’s Speech разработчики создали набор данных, включающий в себя десятки тысяч часов контролируемого разговорного аудио. В настоящее время это один из крупнейших в своём классе наборов данных на английском языке, лицензированный для академического и коммерческого использования и доступный для бесплатного скачивания.

В это же время MSWC — это набор аудиоречевых данных, содержащий более 300 тыс. ключевых слов на десятках языках и доступный для интеллектуальных устройств. Набор данных MSWC охватывает языки, на которых разговаривают более 5 млрд человек и способствует разработке голосовых приложений для широкой аудитории. Оба набора данных будут доступны разработчикам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Starlink получил разрешения на работу в Нигерии и Мозамбике 10 ч.
Отток айтишников из России в первом полугодии оценили в 40 тыс., но половина вернётся обратно 11 ч.
Китайский завод BMW Group освоит замкнутый цикл переработки аккумуляторов электромобилей 15 ч.
Вьетнамское предприятие Intel научилось самостоятельно готовить процессорные подложки 16 ч.
По мере снятия пандемийных ограничений в Китае отмечается падение спроса на смартфоны 17 ч.
NASA наметило вторую репетицию запуска лунной ракеты Artemis I на 19 июня 17 ч.
В игровом сегменте выручка NVIDIA зависела от российского рынка на 4 % 22 ч.
Тираж смартфонов Apple серии iPhone 14 уступит объёмам выпуска предшественников в прошлом году 22 ч.
Samsung резко урезала план производства смартфонов на 2022 год — вместо 310 млн выпустят только 280 млн 27-05 23:34
Патентный тролль подал на Meta в суд из-за VR-гарнитуры Meta Quest 2 27-05 23:16