Сегодня 26 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Санкт-Петербурге разработали нейросеть, которая распознаёт речь по губам

В Санкт-Петербургском Федеральном исследовательском центре РАН (СПб ФИЦ РАН) создали приложение для смартфона, с помощью которого можно считывать речь пользователя в шумных местах по губам, что позволит повысить точность распознавания слов голосовыми помощниками в сложных условиях, пишет ТАСС.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В пресс-службе СПб ФИЦ РАН отметили, что приложение можно будет использовать в широком перечне отраслей с применением голосовых команд — от сферы услуг до тяжёлой промышленности.

Как сообщается, в основе приложения лежит нейросетевая модель, способная распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространённых команд и автоматически определять, какой вид данных обеспечивает максимальную точность — видео или звук, или оба сразу.

«Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научились при помощи алгоритмов искусственного интеллекта и компьютерного зрения распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжёлой техникой», — рассказали в пресс-службе корреспонденту ТАСС.

Программа прошла тестирование в одной из логистических компаний в России. Для этого приложение было установлено на смартфоны водителей шумных большегрузных автомобилей. Тестирование подтвердило тот факт, что совмещение двух видов считывания информации повышает эффективность работы алгоритмов — если при чтении по губам точность распознавания команд составила 60–80 %, то в сочетании со звуковым сигналом точность распознавания превышает 90 %.

«Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолётов и тяжёлой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», — сообщил старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Также следует отметить, что на проведение разработки был выделен грант Российского научного фонда.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Activision сыграет в кальмара: новый трейлер раскрыл, когда в Call of Duty: Black Ops 6 стартует кроссовер со Squid Game 2 30 мин.
«К чёрту Embracer Group»: неизвестный устроил утечку исходного кода Saints Row IV 2 ч.
Отечественная платформа Tantor повысит производительность и удобство работы с СУБД на базе PostgreSQL 5 ч.
В Steam вышла новая демоверсия голливудской стратегии Hollywood Animal от авторов This is the Police 6 ч.
IT-холдинг Т1 подал иск к «Марвел-Дистрибуции» в связи с уходом Fortinet из России 6 ч.
Рождественское чудо: в открытый доступ выложили документы Rockstar начала 2000-х, включая планы на GTA Online от 2001 года 7 ч.
«Битрикс24» представил собственную ИИ-модель BitrixGPT 8 ч.
За 2024 год в Китае допустили к релизу более 1400 игр — это лучший результат за последние пять лет 8 ч.
Google применила конкурирующего ИИ-бота Anthropic Claude для улучшения своих нейросетей Gemini 9 ч.
Платформер Restitched отправит исследовать и создавать красочные миры — геймплейный трейлер духовного наследника LittleBigPlanet 10 ч.
Китайский автопроизводитель GAC представил гуманоидного робота GoMate с 38 степенями свободы 6 мин.
Главный конкурент Tesla запустил разработку человекоподобных роботов 21 мин.
Omdia: быстрый рост спроса на TPU Google ставит под вопрос доминирование NVIDIA на рынке ИИ-ускорителей 2 ч.
Российскую игровую приставку собрались построить на процессоре «Эльбрус», для которого не существует игр 3 ч.
Ubitium придумала универсальный процессор — он один выполняет работу CPU, GPU, FPGA и DSP 3 ч.
Equinix предложил ИИ-фабрики на базе систем Dell с ускорителями NVIDIA 3 ч.
NASA показало «рождественскую ель» галактического масштаба 4 ч.
Китайский оператор ЦОД Yovole может выйти на IPO в США — после неудавшейся попытки в Китае 4 ч.
Patriot представила SSD P400 V4 PCIe 4.0 — до 4 Тбайт и до 6200 Мбайт/с 4 ч.
OnePlus представила доступные флагманы Ace 5 и Ace 5 Pro со Snapdragon, большими экранами и до 16 Гбайт ОЗУ 5 ч.