Сегодня 30 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Forza Horizon 6 — в Японию с ветерком. Рецензия 2 ч.
Microsoft проигнорировала баги Windows, а потом пригрозила уголовным делом исследователю за их публикацию 2 ч.
Открытое тестирование мрачного экшена Mistfall Hunter с нестандартной механикой эвакуации стартует 15 июня 3 ч.
OpenAI отправит на пенсию ИИ-модели GPT-4.5 и o3 до конца лета 3 ч.
«Как в оригинальной игре, но больше и лучше»: разработчики ремейка «Готики» рассказали об особенностях боевой системы 4 ч.
Gartner: большинство кастомных ИИ-моделей и проектов генеративного ИИ ожидает провал 6 ч.
Fable всё-таки не выйдет в 2026 году — в том числе из-за GTA VI 6 ч.
Ролевая игра The Witch's Bakery подружит геймеров с общительной ведьмой-пекарем из Парижа — релиз намечен на август 7 ч.
Дополнение «Баллады прошлого» к The Witcher 3 станет «прологом» к будущему «Ведьмака» 8 ч.
Кроссовер с Clair Obscur, онлайн-кооператив и элементы 3D: инсайдеры поделились новыми подробностями ремейка Rayman Legends 9 ч.
ASRock анонсировала игровые мониторы Taichi и Phantom Gaming на базе QD-OLED и Tandem OLED 2 ч.
Анонсирован 120-мм корпусный вентилятор Eurocase EU-FN120ARGB_8+14 с тихой работой и ARGB-подсветкой 2 ч.
Acer представила пятёрку игровых мониторов Predator и Nitro с частотой обновления до 540 Гц и разрешением до 4K 4 ч.
FuriosaAI и Broadcom создадут ИИ-ускоритель для платформы инференса для агентной эры 5 ч.
Dell представила самый лёгкий ноутбук XPS — килограммовый XPS 13 c Intel Wildcat Lake и ценой от $599 6 ч.
Утечка показала iPhone 18 Pro в цвете «Тёмная вишня» — он может стать новым трендом для Android 6 ч.
ASRock выпустит видеокарту Radeon RX 9070 XT Taichi 10th Anniversary Edition по случаю 10-летия бренда Taichi 6 ч.
Acer показала портативную консоль Nitro Blaze Link для трансляции игр с ПК по Wi-Fi 6 ч.
Acer представила флагманский игровой ноутбук Predator Helios 18 с чипами Core Ultra 9 290HX и RTX 5090 7 ч.
Работа МКС будет продлена до 2030 года, даже если Россия уйдёт со станции 7 ч.