Сегодня 16 июля 2026

18+

О сайте Реклама Рассылка Контакты

голосовые ассистенты

Теги → голосовые ассистенты

Быстрый переход

06:19 27.03.2026 Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух
00:09 26.11.2025 Голосовой режим ChatGPT встроили в чат — он стал естественнее и его можно перебивать
13:53 22.08.2025 В электромобилях Tesla Model Y L появятся голосовые ассистенты на базе ИИ от DeepSeek и Doubao
11:25 04.08.2025 Xiaomi представила открытую голосовую ИИ-модель для автомобилей и бытовой техники
20:18 26.06.2025 Xiaomi представила смарт-очки AI Glasses с камерой Sony, чипом Snapdragon и автономностью выше 8 часов за $280
04:50 10.06.2025 Apple призналась, что продолжит непублично совершенствовать Siri до следующего года

← В прошлое

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

27.03.2026 [06:19], Дмитрий Федоров

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Голосовой режим ChatGPT встроили в чат — он стал естественнее и его можно перебивать

26.11.2025 [00:09], Николай Хижняк

Разработчики из OpenAI значительно улучшили голосовой режим чат-бота ChatGPT. Теперь он ещё больше похож на естественное общение с человеком. В последнем обновлении ChatGPT голосовой режим по умолчанию объединён с основным текстовым режимом. Но при желании его можно отделить.

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Источник изображения: OpenAI

OpenAI продемонстрировала некоторые преимущества нового голосового режима на своей странице в соцсети X. Например, ChatGPT теперь может показывать результаты поиска по карте в голосовом режиме. Он также отображает расшифровку голосового диалога в интерфейсе чата. В процессе ответа чат-бота на запрос его можно перебить, чтобы попросить, например, правильно произнести по буквам название нужного вам места или блюда в ресторане.

При желании можно вернуться к старому варианту взаимодействия с голосовым режимом. В настройках приложения появился новый переключатель для возврата в отдельный режим.

«Теперь вы можете использовать голосовой режим ChatGPT прямо в чате — отдельный режим не нужен. Вы можете разговаривать, наблюдать за появлением ответов, просматривать предыдущие сообщения и видеть визуальные элементы, такие как изображения или карты, в режиме реального времени. Доступно для всех пользователей мобильных устройств и веб-версии. Просто обновите приложение», — сообщили разработчики.

В электромобилях Tesla Model Y L появятся голосовые ассистенты на базе ИИ от DeepSeek и Doubao

22.08.2025 [13:53], Алексей Разин

Усилия Tesla по поддержанию спроса к своим электромобилям в Китае не ограничиваются выпуском шестиместного кроссовера Model Y L. Компания готова адаптировать возможности фирменного голосового ассистента к потребностям китайских клиентов, взяв на вооружение языковые модели местного происхождения.

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Источник изображения: Tesla

Как поясняет CnEVPost, бортовая информационно-развлекательная система Tesla Model Y L получит поддержку голосового ассистента на базе моделей DeepSeek и ByteDance Doubao, причём работать это решение будет на облачной платформе Volcano Engine той же ByteDance. Если Doubao будет отвечать за сервисные запросы, связанные с управлением бортовыми системами электромобиля, то DeepSeek реализует полноценный диалог с чат-ботом на самые разные темы.

В США, например, голосовой интерфейс Tesla полагается на разработки стартапа xAI, принадлежащего возглавляющему обе компании Илону Маску (Elon Musk). Новейшая Tesla Model Y L позволяет пользователям вызвать голосового ассистента кодовой приветственной фразой, тогда как во всех прочих моделях электромобилей марки для китайского рынка для этого требуется нажимать колёсико на ступице руля. В этой сфере Tesla отстаёт от китайских автопроизводителей, которые уже давно развивают интеллектуальные интерфейсы с учётом предпочтений местной публики. Помимо Tesla, голосовой ассистент на базе моделей DeepSeek на китайском рынке предлагают Zeekr, Dongfeng (Nissan, Voyah, M-Hero) и многие другие.

Тем временем, в США компания Tesla повысила стоимость старшей комплектации пикапа Cybertruck сразу на $15 000 до $114 990. Эта прибавка ограничилась нематериальными бонусами для покупателя — за эти деньги он получит комплекс систем активной помощи FSD, а также право бесплатно заряжаться на фирменных станциях Tesla Supercharger. Прочие комплектации пикапа Tesla не подорожали.

Xiaomi представила открытую голосовую ИИ-модель для автомобилей и бытовой техники

04.08.2025 [11:25], Алексей Разин

Компания Xiaomi сделала себе имя на рынке смартфонов и бытовой техники, но уже второй год выпускает электромобили, поэтому направление развития её фирменных языковых моделей было предсказать не так уж трудно. На этой неделе она представила голосовую модель MiDashengLM-7B, которая предусматривает интеграцию с Qwen2.5-Omni-7B китайской Alibaba Group и обладает открытым исходным кодом.

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Источник изображения: Xiaomi

Ориентация на работу с голосовой информацией объяснима тем, что пользователи электромобилей и бытовой техники чаще всего используют данный канал для передачи команд на устройства. Не желая оставаться в стороне от бума ИИ, компания Xiaomi сделала ставку на открытый исходный код и интеграцию с разработками известных игроков рынка, коим в Китае является конгломерат Alibaba Group.

Свои ИИ-модели, ориентированные на обработку изображений, видео и звука в последние месяцы активно предлагали Alibaba и Tencent Holdings, поскольку местным разработчикам хочется сохранять конкуренцию с решениями OpenAI и других зарубежных игроков рынка. Важность развития систем искусственного интеллекта подчёркивается властями США и Китая на самом высоком уровне. Для Xiaomi интеграция сервисов, доступных владельцам фирменных электромобилей, с уже существующей обширной экосистемой умных бытовых устройств, имеет особую важность.

Xiaomi представила смарт-очки AI Glasses с камерой Sony, чипом Snapdragon и автономностью выше 8 часов за $280

26.06.2025 [20:18], Сергей Сурабекянц

На масштабном мероприятии Xiaomi в Китае компания представила умные очки AI Glasses — ответ на Ray-Ban Meta✴✴. Устройство не имеет визуального интерфейса, полагаясь исключительно на голосовые команды. Также на правой дужке расположена область сенсорного управления. Владелец может установить в Xiaomi AI Glasses цветные линзы без диоптрий или использовать рецептурные и дополнительные электрохромные линзы.

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Источник изображений: Xiaomi

Очки Xiaomi AI Glasses построены на базе аппаратной платформы Snapdragon AR1 от Qualcomm и работают под управлением ОС Vela, разработанной Xiaomi. Умные очки Xiaomi используют встроенную камеру с 12-мегапиксельным датчиком Sony IMX681 для распознавания объектов и записи видео с разрешением 2K и скоростью до 30 кадров в секунду.

Пять микрофонов с костной проводимостью и шумоподавлением обеспечивают разборчивость речи владельца во время звонков и функционирование голосового ассистента Xiao Ai. Для воспроизведения мультимедиа в дужки очков встроены два динамика.

AI Glasses весят всего 40 граммов. Умные очки оснащены аккумулятором ёмкостью 263 мА·ч, который, по словам производителя, обеспечивает автономную работу в течение 8 часов и 36 минут, что почти вдвое больше, чем у очков Ray-Ban Meta✴✴. Очки оснащены портом USB Type-C и могут подключаться напрямую к любому совместимому зарядному устройству.

Xiaomi AI Glasses выпускаются в чёрном, коричневом и зелёном цветах и пока доступны только в Китае. Цена на устройство установлена на уровне 1999 юаней (≈$278).

Apple призналась, что продолжит непублично совершенствовать Siri до следующего года

10.06.2025 [04:50], Алексей Разин

На мероприятии WWDC 2025 представители Apple практически обошли стороной тему создания более персонализированного голосового ассистента Siri, опирающегося на искусственный интеллект. Было лишь мимоходом сказано, что на доводку Siri до стандартов качества компании уйдёт больше времени, и новости в этой сфере появятся не ранее следующего года.

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Источник изображения: Apple

Старший вице-президент Apple по разработке ПО Крейг Федериги (Creig Federighi) буквально заявил: «Как мы и говорили, мы продолжаем работу над созданием функций, которые сделают Siri более персональной. Эта работа требует больше времени, чтобы достичь нашей высокой планки качества, и мы готовы будем поделиться новыми подробностями в следующем году». По меркам развития прочих проектов в сфере ИИ это достаточно большая пауза, что явно не идёт на пользу репутации Apple.

Впервые о «более персональной Siri» компания заговорила ещё в прошлом году на WWDC 24, новое поколение голосового помощника должно было использовать искусственный интеллект, а потому рассматривалось как «следующий серьёзный шаг для Apple». Подразумевалось, что Siri после грядущего обновления сможет воспринимать более персонализированный контекст запросов, учитывая контакты и характер родственных связей пользователя, а также историю его активности. Планировалось также научить Siri работать с несколькими приложениями в сквозном режиме.

Издание Bloomberg ранее сообщило, что на данном этапе новый вариант Siri вполне функционален, но у него нет стабильности в достигаемых результатах. Лишь две трети запросов обрабатываются корректно, что не позволяет выпустить эту версию голосового интерфейса на рынок в ближайшее время. В марте этого года Apple уже пришлось признать, что подготовка к выпуску нового варианта Siri задерживается. В руководстве компании на этом фоне даже произошли кадровые перестановки. Чтобы компенсировать собственное отставание в сфере ИИ, компания Apple скооперировалась с OpenAI, и теперь наиболее сложные вопросы в экосистеме первой из них адресуются ChatGPT. На нынешней конференции WWDC 2025 представители Apple демонстрировали прогресс во внедрении ИИ, но он не касался голосового помощника Siri.

← В прошлое

✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

выдано Федеральной Службой по надзору за соблюдением законодательства в сфере массовых коммуникаций и охране культурного наследия

При цитировании документа ссылка на сайт с указанием автора обязательна. Полное заимствование документа является нарушением
российского и международного законодательства и возможно только с согласия редакции 3DNews.