Сегодня 28 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Скрыть мою почту» не гарантирует анонимность — Apple раскрыла пользователя полиции 24 мин.
Apple удалила из российского App Store ряд популярных VPN по требованию РКН 50 мин.
Microsoft сделает Windows 11 стабильнее за счёт ужесточения требований к драйверам 4 ч.
Apple наняла бывшего руководителя Google, чтобы эффективнее продвигать Siri на рынке 5 ч.
Суд в Нидерландах тоже запретил чат-боту Grok генерировать изображения реальных людей без одежды 6 ч.
Новая статья: Slay the Spire 2 — свободное время, прощай! Предварительный обзор 10 ч.
Новая статья: Обзор нового сезона Warface «Стальные кварталы»: брутальность в каждой катке! 12 ч.
В Telegram обнаружена крайне опасная уязвимость нулевого дня, но детали держат в секрете 13 ч.
«Отправьте меня в будущее, чтобы я смог поиграть в эту игру»: новый геймплей ролевого боевика Exodus в духе Mass Effect взбудоражил фанатов 14 ч.
Инсайдеры: легендарная The Legend of Zelda: Ocarina of Time получит ремейк для Nintendo Switch 2, причём уже скоро 15 ч.
«На Xbox это было не похоже»: Microsoft пояснила, почему остановила кампанию «Это Xbox» 18 мин.
Лунный экипаж NASA прибыл на космодром — до запуска Artemis II остались считанные дни 21 мин.
«Смартфон Трампа» всё же существует — недавно его сертифицировала FCC 4 ч.
Microsoft приберёт к рукам ЦОД почти на 1 ГВт в Техасе, который не осилили построить Oracle и OpenAI 4 ч.
Meta построит ещё семь газовых электростанций для своего гигантского ИИ ЦОД Hyperion 12 ч.
Meta построит сразу семь газовых ТЭС на 5,2 ГВт, чтобы не отстать в гонке ИИ 13 ч.
SoftBank одолжила $40 млрд на год, чтобы инвестировать их в OpenAI 13 ч.
«Не хотите ускорители? Возьмите хотя бы сеть!» — NVIDIA открыла свои ИИ-стойки для чужих чипов 15 ч.
Вебинар T1 Облако и Curator. Выбор без выбора: почему защита от DDoS-атак — не опция, а необходимость 16 ч.
Глава Nvidia выступит на Computex 2026 — ожидается анонс ноутбучного процессора Nvidia N1 17 ч.