Сегодня 05 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Apple разработала ИИ, выявляющий нетипичные аспекты устной речи — это поможет диагностировать заболевания

В рамках проекта, посвящённого голосовым и речевым моделям искусственного интеллекта, Apple опубликовала материалы (PDF) нового исследования, касающегося одной из сложных проблем машинного обучения: распознавание не только того, что было сказано человеком, но и того, как это было сказано.

 Источник изображения: Slavcho Malezan / unsplash.com

Источник изображения: Slavcho Malezan / unsplash.com

В статье исследователи описывают схему анализа речи с использованием параметров качества голоса (Voice Quality Dimensions — VQD). Эти параметры указывают на разборчивость, резкость, монотонность речи, придыхание и другие аспекты. На них обращают внимание и логопеды, когда оценивают звучание голоса и влияние на него неврологических состояний и заболеваний. Apple работает над моделями ИИ, также способными их обнаруживать.

Большинство речевых моделей обучается на здоровых и типичных для большинства голосах. Если голос человека звучит иначе, ИИ может дать сбой, и это большой недостаток системы, если ей пытается воспользоваться человек с ограниченными возможностями. В работе над этой проблемой исследователи Apple обучили несколько дополнительных моделей ИИ, предназначенных для работы совместно с основными речевыми системами, на большом общедоступном наборе данных аннотированной нетипичной речи, в том числе на голосах людей с болезнью Паркинсона, боковым амиотрофическим склерозом (БАС) и детским церебральным параличом (ДЦП).

На этом инженеры компании не остановились — они не стали использовать эти модели для прямой расшифровки сказанного, а составили методику измерения того, как звучит голос, на основе семи основных критериев:

  • разборчивость — насколько легко понимается речь;
  • нечёткие согласные — насколько внятно артикулируются согласные звуки;
  • резкость голоса — грубая, напряжённая или хриплая характеристика голоса;
  • естественность — насколько плавно или типично звучит речь для слушателя;
  • равномерность громкости — отсутствие перепадов в громкости речи;
  • монотонность — отсутствие перепадов высоты тона, приводящее к ровной или «роботизированной» интонации;
  • придыхание — присутствие шума воздуха или шёпота в голосе, часто возникающее из-за неполного закрытия голосовых связок.
 Источник изображения: Iluha Zavaley / unsplash.com

Источник изображения: Iluha Zavaley / unsplash.com

Таким образом, ИИ научился «слушать как врач», а не просто регистрировать то, что говорят. Для извлечения звуковых характеристик Apple использовала пять моделей ИИ и обучила дополнительные легковесные алгоритмы, чтобы на основе этих характеристик предсказывать параметры качества голоса. Разработанные компанией дополнительные алгоритмы показали высокие результаты по большинству параметров, хотя качество срабатывания варьировалось в зависимости от конкретного признака и всей задачи. Важнейшим достоинством исследования стало то, что ответы моделей оказались объяснимыми — в отрасли ИИ это встречается нечасто. Вместо того, чтобы показывать условную оценку достоверности (confidence score), система указывает на конкретные характеристики голоса, что упрощает классификацию. Это поможет в клинической оценке и диагностике.

Но и на клинической речи в Apple не остановились. Исследователи протестировали свои модели на образцах эмоциональной речи из набора данных RAVDESS: модели VQD не обучались на эмоциональных записях, но также давали прогнозы. Так, в сердитой речи отмечалась низкая «равномерность громкости», а грустные голоса воспринимались как монотонные. Возможно, это поможет улучшить и голосового помощника Apple Siri, который сможет корректировать свои интонации и речь в зависимости от того, как интерпретирует настроение и состояние пользователя, а не только сказанное им.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Роботам нужно ваше тело»: сервис RentAHuman.ai позволит ИИ-агентам нанимать людей для работы в реальном мире 2 ч.
Олдскульный ролевой боевик Kromlech в духе «Готики» отправит игроков в мир на грани гибели — новый трейлер и дата выхода в раннем доступе Steam 3 ч.
Аудитория Google Gemini достигла 750 млн активных пользователей в месяц — до ChatGPT осталось совсем чуть-чуть 4 ч.
Создатель классической Prince of Persia расстроен «жестокой» отменой ремейка Prince of Persia: The Sands of Time, но надежды не теряет 4 ч.
Моддеры взялись воссоздавать отменённую Fallout 3 на движке Fallout: New Vegas — первый трейлер Fallout: The New West 4 ч.
Выручка YouTube достигла рекордных $60 млрд в 2025 году — больше, чем у Netflix 5 ч.
Годовая выручка Google впервые превысила $400 млрд — забрасывание ИИ деньгами усилится 5 ч.
Ставший вирусным ИИ-агент OpenClaw накрыло волной вредоносных дополнений 6 ч.
ICE — не айс: французская Capgemini продаст подразделение CGS, обслуживающее власти США 8 ч.
Никита Буянов опроверг связь загадочной Cor3 с Escape from Tarkov и Battlestate Games, ещё больше запутав фанатов 8 ч.
Флагманские Dimensity разогнали выручку MediaTek до $10 млрд — но 2026 год обещает быть сложным 5 мин.
Canon выпустила юбилейную «мыльницу» по цене «зеркалки» — PowerShot G7 X Mark III Anniversary Edition 19 мин.
Юпитер слегка «усох»: зонд «Юнона» уточнил реальные размеры самой большой планеты Солнечной системы 29 мин.
Supermicro удвоила квартальную выручку на фоне спроса на ИИ-оборудование, но прибыль выросла лишь на четверть 47 мин.
Alphacool представила жидкие термопрокладки Apex Thermal Putty X1 56 мин.
Sony научилась зарабатывать без роста продаж — рухнувшие на 16 % поставки PS5 компенсировали подписки 3 ч.
KKR и Singtel выкупили оператора ЦОД STT GDC за $5,1 млрд 3 ч.
«Яндекс» научил «Алису» понимать естественную речь для управления умным домом 3 ч.
Foxconn в очередной раз резко нарастила выручку — и снова благодаря Nvidia 3 ч.
В Москве не осталось электроэнергии для новых дата-центров — и быстро ситуацию не исправить 3 ч.