Сегодня 06 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Скандал с Horizon оказался лишь верхушкой айсберга: ошибки в ПО Почты Великобритании ломали судьбы сотрудников 30 лет 25 мин.
Iren купит Mirantis за $625 млн, чтобы расширить свой ИИ-стек 3 ч.
Google Chrome для Android научился не показывать сайтам точное местоположение 3 ч.
Невероятный мод Zagreus’ Journey для Hades 2 вышел из «беты» и поразил даже разработчиков Hades 3 ч.
Издатели: Цукерберг лично одобрил массовое пиратство книг для обучения ИИ 4 ч.
Студия разработчиков MindsEye уволила 90 % сотрудников, а план спасения игры под угрозой 4 ч.
Китайский «Большой фонд» может возглавить финансирование DeepSeek при оценке $45 млрд 4 ч.
Galaxy S26 получит бету One UI 9 раньше, чем владельцы старых моделей увидят стабильную One UI 8.5 5 ч.
«Выглядит круто и ужасно одновременно»: авторы ремастеров GTA анонсировали онлайн-боевик о сражениях огромных монстров BeastLink 5 ч.
Спустя 10 лет в Steam вернулась амбициозная военная стратегия R.U.S.E. — с поддержкой Steam Deck и всеми DLC в комплекте 6 ч.
Выручка AMD от чипов выросла в полтора раза — акции компании на подъёме 12 мин.
Смартфоны Xiaomi 17T и 17T Pro на мощных чипах MediaTek показались на изображениях в преддверии анонса 19 мин.
ЦОД уходят в море: Samsung придумала плавучую платформу для ИИ 53 мин.
Dreame показала грядущий электрический фастбэк Nebula 01X, в том числе внутри 59 мин.
Apple урезает семейство Mac: мощные версии исчезают из-за нехватки памяти 2 ч.
Valve открыла путь к кастомизации Steam Controller и Steam Controller Puck, опубликовав точные чертежи их корпусов 2 ч.
SpaceX и Tesla вложат $55 млрд в строительство гигантской фабрики по выпуску чипов в Техасе 2 ч.
Прототип тихого сверхзвукового лайнера NASA X-59 в шаге от преодоления сверхзвукового барьера 2 ч.
В 2025 году AWS увеличила площадь своих ЦОД и офисов на 16 % 2 ч.
Как тебе такое, Илон Маск? Китайская BYD стала популярнее Tesla на многих рынках за пределами Китая 2 ч.