Сегодня 30 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → голосовые ассистенты

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Голосовой режим ChatGPT встроили в чат — он стал естественнее и его можно перебивать

Разработчики из OpenAI значительно улучшили голосовой режим чат-бота ChatGPT. Теперь он ещё больше похож на естественное общение с человеком. В последнем обновлении ChatGPT голосовой режим по умолчанию объединён с основным текстовым режимом. Но при желании его можно отделить.

 Источник изображения: OpenAI

Источник изображения: OpenAI

OpenAI продемонстрировала некоторые преимущества нового голосового режима на своей странице в соцсети X. Например, ChatGPT теперь может показывать результаты поиска по карте в голосовом режиме. Он также отображает расшифровку голосового диалога в интерфейсе чата. В процессе ответа чат-бота на запрос его можно перебить, чтобы попросить, например, правильно произнести по буквам название нужного вам места или блюда в ресторане.

При желании можно вернуться к старому варианту взаимодействия с голосовым режимом. В настройках приложения появился новый переключатель для возврата в отдельный режим.

«Теперь вы можете использовать голосовой режим ChatGPT прямо в чате — отдельный режим не нужен. Вы можете разговаривать, наблюдать за появлением ответов, просматривать предыдущие сообщения и видеть визуальные элементы, такие как изображения или карты, в режиме реального времени. Доступно для всех пользователей мобильных устройств и веб-версии. Просто обновите приложение», — сообщили разработчики.

В электромобилях Tesla Model Y L появятся голосовые ассистенты на базе ИИ от DeepSeek и Doubao

Усилия Tesla по поддержанию спроса к своим электромобилям в Китае не ограничиваются выпуском шестиместного кроссовера Model Y L. Компания готова адаптировать возможности фирменного голосового ассистента к потребностям китайских клиентов, взяв на вооружение языковые модели местного происхождения.

 Источник изображения: Tesla

Источник изображения: Tesla

Как поясняет CnEVPost, бортовая информационно-развлекательная система Tesla Model Y L получит поддержку голосового ассистента на базе моделей DeepSeek и ByteDance Doubao, причём работать это решение будет на облачной платформе Volcano Engine той же ByteDance. Если Doubao будет отвечать за сервисные запросы, связанные с управлением бортовыми системами электромобиля, то DeepSeek реализует полноценный диалог с чат-ботом на самые разные темы.

В США, например, голосовой интерфейс Tesla полагается на разработки стартапа xAI, принадлежащего возглавляющему обе компании Илону Маску (Elon Musk). Новейшая Tesla Model Y L позволяет пользователям вызвать голосового ассистента кодовой приветственной фразой, тогда как во всех прочих моделях электромобилей марки для китайского рынка для этого требуется нажимать колёсико на ступице руля. В этой сфере Tesla отстаёт от китайских автопроизводителей, которые уже давно развивают интеллектуальные интерфейсы с учётом предпочтений местной публики. Помимо Tesla, голосовой ассистент на базе моделей DeepSeek на китайском рынке предлагают Zeekr, Dongfeng (Nissan, Voyah, M-Hero) и многие другие.

Тем временем, в США компания Tesla повысила стоимость старшей комплектации пикапа Cybertruck сразу на $15 000 до $114 990. Эта прибавка ограничилась нематериальными бонусами для покупателя — за эти деньги он получит комплекс систем активной помощи FSD, а также право бесплатно заряжаться на фирменных станциях Tesla Supercharger. Прочие комплектации пикапа Tesla не подорожали.

Xiaomi представила открытую голосовую ИИ-модель для автомобилей и бытовой техники

Компания Xiaomi сделала себе имя на рынке смартфонов и бытовой техники, но уже второй год выпускает электромобили, поэтому направление развития её фирменных языковых моделей было предсказать не так уж трудно. На этой неделе она представила голосовую модель MiDashengLM-7B, которая предусматривает интеграцию с Qwen2.5-Omni-7B китайской Alibaba Group и обладает открытым исходным кодом.

 Источник изображения: Xiaomi

Источник изображения: Xiaomi

Ориентация на работу с голосовой информацией объяснима тем, что пользователи электромобилей и бытовой техники чаще всего используют данный канал для передачи команд на устройства. Не желая оставаться в стороне от бума ИИ, компания Xiaomi сделала ставку на открытый исходный код и интеграцию с разработками известных игроков рынка, коим в Китае является конгломерат Alibaba Group.

Свои ИИ-модели, ориентированные на обработку изображений, видео и звука в последние месяцы активно предлагали Alibaba и Tencent Holdings, поскольку местным разработчикам хочется сохранять конкуренцию с решениями OpenAI и других зарубежных игроков рынка. Важность развития систем искусственного интеллекта подчёркивается властями США и Китая на самом высоком уровне. Для Xiaomi интеграция сервисов, доступных владельцам фирменных электромобилей, с уже существующей обширной экосистемой умных бытовых устройств, имеет особую важность.

Xiaomi представила смарт-очки AI Glasses с камерой Sony, чипом Snapdragon и автономностью выше 8 часов за $280

На масштабном мероприятии Xiaomi в Китае компания представила умные очки AI Glasses — ответ на Ray-Ban Meta✴. Устройство не имеет визуального интерфейса, полагаясь исключительно на голосовые команды. Также на правой дужке расположена область сенсорного управления. Владелец может установить в Xiaomi AI Glasses цветные линзы без диоптрий или использовать рецептурные и дополнительные электрохромные линзы.

 Источник изображений: Xiaomi

Источник изображений: Xiaomi

Очки Xiaomi AI Glasses построены на базе аппаратной платформы Snapdragon AR1 от Qualcomm и работают под управлением ОС Vela, разработанной Xiaomi. Умные очки Xiaomi используют встроенную камеру с 12-мегапиксельным датчиком Sony IMX681 для распознавания объектов и записи видео с разрешением 2K и скоростью до 30 кадров в секунду.

Пять микрофонов с костной проводимостью и шумоподавлением обеспечивают разборчивость речи владельца во время звонков и функционирование голосового ассистента Xiao Ai. Для воспроизведения мультимедиа в дужки очков встроены два динамика.

AI Glasses весят всего 40 граммов. Умные очки оснащены аккумулятором ёмкостью 263 мА·ч, который, по словам производителя, обеспечивает автономную работу в течение 8 часов и 36 минут, что почти вдвое больше, чем у очков Ray-Ban Meta✴. Очки оснащены портом USB Type-C и могут подключаться напрямую к любому совместимому зарядному устройству.

Xiaomi AI Glasses выпускаются в чёрном, коричневом и зелёном цветах и пока доступны только в Китае. Цена на устройство установлена ​​на уровне 1999 юаней (≈$278).

Apple призналась, что продолжит непублично совершенствовать Siri до следующего года

На мероприятии WWDC 2025 представители Apple практически обошли стороной тему создания более персонализированного голосового ассистента Siri, опирающегося на искусственный интеллект. Было лишь мимоходом сказано, что на доводку Siri до стандартов качества компании уйдёт больше времени, и новости в этой сфере появятся не ранее следующего года.

 Источник изображения: Apple

Источник изображения: Apple

Старший вице-президент Apple по разработке ПО Крейг Федериги (Creig Federighi) буквально заявил: «Как мы и говорили, мы продолжаем работу над созданием функций, которые сделают Siri более персональной. Эта работа требует больше времени, чтобы достичь нашей высокой планки качества, и мы готовы будем поделиться новыми подробностями в следующем году». По меркам развития прочих проектов в сфере ИИ это достаточно большая пауза, что явно не идёт на пользу репутации Apple.

Впервые о «более персональной Siri» компания заговорила ещё в прошлом году на WWDC 24, новое поколение голосового помощника должно было использовать искусственный интеллект, а потому рассматривалось как «следующий серьёзный шаг для Apple». Подразумевалось, что Siri после грядущего обновления сможет воспринимать более персонализированный контекст запросов, учитывая контакты и характер родственных связей пользователя, а также историю его активности. Планировалось также научить Siri работать с несколькими приложениями в сквозном режиме.

Издание Bloomberg ранее сообщило, что на данном этапе новый вариант Siri вполне функционален, но у него нет стабильности в достигаемых результатах. Лишь две трети запросов обрабатываются корректно, что не позволяет выпустить эту версию голосового интерфейса на рынок в ближайшее время. В марте этого года Apple уже пришлось признать, что подготовка к выпуску нового варианта Siri задерживается. В руководстве компании на этом фоне даже произошли кадровые перестановки. Чтобы компенсировать собственное отставание в сфере ИИ, компания Apple скооперировалась с OpenAI, и теперь наиболее сложные вопросы в экосистеме первой из них адресуются ChatGPT. На нынешней конференции WWDC 2025 представители Apple демонстрировали прогресс во внедрении ИИ, но он не касался голосового помощника Siri.


window-new
Soft
Hard
Тренды 🔥
Новая статья: От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте 2 ч.
MSI XpertStation WS300 — рабочая станция для ИИ на базе NVIDIA GB300 7 ч.
«Кремниевая прерия»: Crusoe пристроит к ИИ ЦОД OpenAI Stargate ещё 900 МВт, но уже для Microsoft 7 ч.
ESA запустило на орбиту два спутника Celeste для тестирования новых технологий навигации 14 ч.
Цены на Intel Arrow Lake Refresh выросли выше рекомендованных через 48 часов после начала продаж 14 ч.
Котировки акций производителей DRAM стабилизировались после первичного влияния TurboQuant 18 ч.
Китайские производители чипов стремятся к 2030 году добиться импортозамещения на 80 % 20 ч.
Microsoft потратит $146 млрд на ИИ, но это напугало инвесторов и вызвало падение котировок акций на 25 % 21 ч.
NASA возмутило частников отказом от коммерческих орбитальных станций — миллиарды инвестиций под угрозой 28-03 18:27
Худшая неделя за год: техногиганты потеряли миллиарды капитализации из-за войны и проблем Meta 28-03 18:16