Сегодня 20 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Owlcat раскрыла статистику участников «беты» The Expanse: Osiris Reborn и рассказала, как будет улучшать игру после критики фанатов 3 мин.
«Ваше мнение имеет значение»: разработчики Subnautica 2 помогут игрокам защититься от рыб, но оружие добавлять не будут 46 мин.
Настольные приложения «Яндекс Диска» перестанут нормально работать у бесплатных пользователей 2 ч.
Режиссёр Returnal открыл студию Cosmic Division для создания новой однопользовательской франшизы с «беззастенчивым упором на геймплей» 2 ч.
Новая State of Play пройдёт в ночь на 3 июня — будет расширенная демонстрация Marvel’s Wolverine и не только 2 ч.
GitHub признала взлом 3800 репозиториев по вине своего сотрудника — он установил вредоносное расширение VS Code 4 ч.
«С возвращением, Empire Earth»: трейлер исторической стратегии Imperium Eternal напомнил фанатам жанра о серии с 25-летней историей 5 ч.
Google начала переводить «пожизненно бесплатные» аккаунты G Suite Legacy на платные тарифы 5 ч.
Разработчики Dark Scrolls отложили релиз на месяц, чтобы наиграться в Mina the Hollower от создателей Shovel Knight 6 ч.
Meta готова предоставить ИИ-ботам конкурентов бесплатный доступ к WhatsApp, но с ограничениями 6 ч.
«Сбер» встал в очередь за китайскими чипами для «ГигаЧата» — перед ним ByteDance и Alibaba 17 мин.
Intel запустила разработку сверхтонких техпроцессов Intel 10A и 7A, а первые 14-ангстремные чипы отправят на опыты уже в октябре 33 мин.
Представлен iQOO 15T — игровой смартфон с разогнанным Dimensity 9500, 200-Мп камерой и батареей на 8000 мА⋅ч 36 мин.
AMD готовит мини-ПК Ryzen AI Halo для вайб-кодинга без облака за $3999 45 мин.
Производитель премиальной мебели Herman Miller выпустил дебютный геймерский стол Coyl — от $1095 2 ч.
TSMC выпустила брендированные кроссовки и рисоварку, но только для своих 2 ч.
Обсерватория «Чандра» обнаружила следы древнего галактического ДТП в считавшемся спокойным скоплении Abell 2029 2 ч.
SpaceX отложила запуск огромной ракеты Starship V3 на 21 мая 3 ч.
Google пообещала выпустить умные очки на Android XR уже осенью — с Gemini и разнообразным дизайном 3 ч.
Топ-менеджер Google назвал главную причину провала Google Glass в 2013 году 3 ч.