Сегодня 06 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meta готовит персонального ИИ-помощника для миллиардов пользователей — проект на $145 млрд пугает инвесторов 13 мин.
Второй трейлер GTA VI вышел ровно год назад, а фанаты вычислили дату следующего показа по расположению планет 57 мин.
Серверы Ubuntu снова заработали после пятидневной DDoS-атаки 2 ч.
Соавтор Mortal Kombat подтвердил работу над новой Mortal Kombat «и не только» 2 ч.
Google проведёт 12 мая мероприятие Android Show I/O Edition — там расскажут об Android 17 и, вероятно, об Aluminium OS 3 ч.
Gemini в «Google Документах» научился запоминать «постоянные» инструкции 3 ч.
Московский суд запретил легендарный развлекательный портал «ЯПлакалъ» 3 ч.
Десктопный Google Chrome без предупреждения раздулся до более чем 4 Гбайт — из-за ИИ 3 ч.
Скандал с Horizon оказался лишь верхушкой айсберга: ошибки в ПО Почты Великобритании ломали судьбы сотрудников 30 лет 4 ч.
Iren купит Mirantis за $625 млн, чтобы расширить свой ИИ-стек 6 ч.
«Борьба за выживание»: Microsoft хочет отказаться от обязательств по энергосбережению ради процветания ИИ 46 мин.
AMD уйдёт от универсальных серверных CPU — EPYC ждёт дробление под ИИ, облака и другие сценарии 2 ч.
Россияне смогут с 1 сентября сохранять номера телефонов при переезде в другие регионы 2 ч.
ДАТАРК расширила производство модульных ЦОД 2 ч.
Президент OpenAI оказался владельцем долей в Cerebras и CoreWeave, у которых миллиардные сделки с самой OpenAI 3 ч.
Астрофизики открыли доступ к одной из крупнейших симуляций Вселенной— размером с 500 000 фильмов в HD 3 ч.
Представлен E Ink-планшет reMarkable Paper Pure — быстрее, легче и умнее, чем reMarkable 2 3 ч.
Выручка AMD от чипов выросла в полтора раза — акции компании на подъёме 4 ч.
Смартфоны Xiaomi 17T и 17T Pro на мощных чипах MediaTek показались на изображениях в преддверии анонса 4 ч.
ЦОД уходят в море: Samsung придумала плавучую платформу для ИИ 5 ч.