Сегодня 06 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Amazon представила голосовую ИИ-модель Nova Sonic

Amazon представила модель генеративного искусственного интеллекта Nova Sonic, способную обрабатывать голос и генерировать речь, которая звучит естественно. В тестах на замеры скорости, распознавание речи и качество разговора Sonic зарекомендовала себя как конкурентоспособная в сравнении с передовыми голосовыми моделями OpenAI и Google.

 Источник изображений: aboutamazon.com

Источник изображений: aboutamazon.com

Nova Sonic — ответ Amazon на новые голосовые модели ИИ, такие как лежащая в основе звукового режима ChatGPT; все они предлагают более естественные форматы общения, чем ранние версии голосового помощника Alexa. Технологические прорывы последних лет позволили сделать устаревшие модели и цифровых помощников, включая Alexa и Apple Siri, намного более естественными во взаимодействии с человеком. Модель Nova Sonic доступна через Bedrock — предлагаемую Amazon платформу для разработчиков корпоративных приложений с ИИ; поддерживается двунаправленный потоковый API. Nova Sonic, добавили в Amazon, обходится в эксплуатации на 80 % дешевле, чем мультимодальная OpenAI GPT-4o, а её компоненты уже работают в обновлённом варианте Alexa+.

Она превосходит конкурентов в маршрутизации пользовательских запросов к различным API — модель «знает», когда ей необходимо в реальном времени извлечь информацию из интернета, проанализировать собственный источник данных или выполнить действие во внешнем приложении — и использовать для этого соответствующий инструмент. Во время двустороннего диалога Nova Sonic ждёт, чтобы заговорить «в подходящее время», учитывая свойственные собеседнику паузы и запинки. Она также составляет текстовую расшифровку речи пользователя, которую разработчики могут использовать для различных приложений.

 Источник изображений: aboutamazon.com

В задачах, связанных с распознаванием речи, она менее склонна к ошибкам, чем другие голосовые модели ИИ, то есть относительно хорошо понимает пользователя, даже если он бормочет, говорит с ошибками или находится в шумной обстановке. В эталонном тесте Multilingual LibriSpeech, позволяющем оценить качество распознавания речи на разных языках и диалектах, Nova Sonic показала коэффициент ошибок в словах (WER) всего 4,2 % в среднем по английскому, французскому, итальянскому, немецкому, и испанскому языках. То есть при подготовке расшифровки речи она неверно распознает примерно четыре из ста слов по сравнению с человеком.

В бенчмарке Augmented Multi Party Interaction, оценивающем качество разговора вслух с несколькими участниками, Nova Sonic оказалась на 46,7 % точнее по критерию WER, чем OpenAI GPT-4o-transcribe. Модель от Amazon также оказалась очень быстрой — её средняя задержка составила 1,09 с против 1,18 с, которую показала GPT-4o, лежащая в основе OpenAI Realtime API. Компания намеревается представить ещё несколько моделей ИИ, способных к обработке изображений, видео, голоса и «других сенсорных данных, которые необходимы при переносе в физический мир».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Жидкое стекло» Apple можно будет заматировать: представлена нова бета iOS 26.1 12 мин.
Сервисы AWS упали второй раз за день — тысячи сайтов по всему миру снова недоступны 8 ч.
Fujitsu влила £280 млн в британское подразделение в преддверии выплат компенсаций жертвам багов в её ПО Horizon 8 ч.
Календарь релизов 20 – 26 октября: Ninja Gaiden 4, Painkiller, Dispatch и VTM – Bloodlines 2 8 ч.
В Windows сломалась аутентификация по смарт-картам после октябрьских обновлений — у Microsoft есть временное решение 9 ч.
Вместо Majesty 3: российские разработчики выпустили в Steam амбициозную фэнтезийную стратегию Lessaria: Fantasy Kingdom Sim 9 ч.
Слухи: Лана Дель Рей исполнит заглавную песню для «Джеймса Бонда», но не в кино, а в игре от создателей Hitman 10 ч.
Зов сердца: разработчики Dead Cells объяснили, почему вместо Dead Cells 2 выпустили Windblown 11 ч.
Adobe запустила фабрику ИИ-моделей, заточенных под конкретный бизнес 11 ч.
Китай обвинил США в кибератаках на Национальный центр службы времени — это угроза сетям связи, финансовым системам и не только 12 ч.
Президент США подписал соглашение с Австралией на поставку критически важных минералов на сумму $8,5 млрд 18 мин.
Новая статья: Обзор смартфона realme 15 Pro: светит, но не греется 5 ч.
Ещё одна альтернатива платформам NVIDIA — IBM объединила усилия с Groq 5 ч.
Учёные создали кибер-глаз, частично возвращающий зрение слепым людям 6 ч.
Samsung выпустила недорогой 27-дюймовый геймерский монитор Odyssey OLED G50SF c QD-OLED, 1440p и 180 Гц 6 ч.
Акции Apple обновили исторический максимум на новостях об отличных продажах iPhone 17 8 ч.
Представлен флагман iQOO 15 с чипом Snapdragon 8 Elite Gen 5 и батареей на 7000 мА·ч по цене меньше $600 9 ч.
Нечто из космоса врезалось в лобовое стекло самолёта Boeing 737 MAX компании United Airlines 10 ч.
Умные кольца Oura научатся выявлять признаки гипертонии, как последние Apple Watch 11 ч.
Дешёвая корейская термопаста оказалась вредна для процессоров и здоровья пользователей 11 ч.