Сегодня 15 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → голосовой
Быстрый переход

Google представила Gemini 3.1 Flash Live и затруднила распознавание синтезированной речи на слух

Google начала внедрять Gemini 3.1 Flash Live — новую ИИ-модель для диалогов в реальном времени. По заявлению компании, система генерирует речь быстрее и с более естественной ритмикой, лучше справляется со сложными голосовыми сценариями и уже доступна как в сервисах Google, так и в инструментах для разработчиков. Это ещё сильнее затруднит распознавание синтезированной речи на слух.

 Источник изображений: Google

Источник изображений: Google

Новая модель предназначена для снижения задержки и повышения естественности синтезированной речи. Высокая задержка между входящим сигналом и ответом, а также неестественная интонация делают диалог медленным и трудным для восприятия человеком. Исследователи обычно считают пределом оптимального восприятия речи около 300 миллисекунд, однако конкретную задержку Gemini 3.1 Flash Live Google не раскрыла.

Вместо этого компания ссылается на результаты тестов. Улучшение в ComplexFuncBench Audio указывает на более уверенную работу со сложными многошаговыми задачами. В Big Bench Audio ИИ-модель также занимает лидирующие позиции. Этот тест оценивает способность к рассуждению на наборе из 1 000 аудиовопросов.

Отдельно отмечен результат в тесте Audio MultiChallenge компании Scale AI, где оценивается устойчивость ИИ к паузам, колебаниям и перебиваниям во входящем аудиопотоке. Несмотря на то что Gemini 3.1 Flash Live опережает другие ИИ-модели для обработки аудио в реальном времени, она набрала в этом тесте лишь 36,1 %. ИИ-модели, не предназначенные для работы в режиме диалога, могут набирать в тесте MultiChallenge более 50 %.

Gemini 3.1 Flash Live, по оценке Google, звучит ближе к человеческой речи, поэтому в выходной аудиосигнал встроены водяные знаки SynthID. Они не воспринимаются на слух, но позволяют технически определить, что речь сгенерирована ИИ, если её попытаются выдать за настоящую.

Новинка тестировалась совместно с Home Depot, Verizon и другими компаниями. В публикации Google партнёры положительно оценивают способность Gemini 3.1 Flash Live имитировать человеческую речь, поэтому следующий ИИ-помощник в телефонном звонке может звучать значительно реалистичнее, и собеседник вполне может принять его за человека. Gemini 3.1 Flash Live показывает, что по мере роста скорости, плавности и естественности синтезированной речи различать человека и ИИ в голосовом общении станет всё труднее.

«МТС VoiceTech» обеспечит голосовой связью абонентов с нарушениями слуха

Мобильный оператор МТС представил службу «Секретарь для глухих и слабослышащих», которая поможет людям с нарушениями слуха пользоваться голосовой связью. Сервис в реальном времени преобразует голосовые реплики в текст, а набираемые слабослышащим абонентом слова озвучивает с помощью синтезатора речи.

 Источник изображения: mts.ru

Источник изображения: mts.ru

В основу услуги «Секретарь для глухих и слабослышащих» легли технологии «МТС VoiceTech», и воспользоваться ей можно бесплатно в любом регионе, где работает оператор. Для этого потребуется открыть приложение «Мой МТС», подключить соответствующую услугу и в настройках активировать функцию «Звонок в чат».

При поступлении звонка на телефон слабослышащего абонента голосовой помощник предупреждает инициатора вызова, что тот пытается связаться со слабослышащим. Отклонив звонок, абонент получит уведомление в приложении «Мой МТС», где сможет перейти в формат диалога. Здесь искусственный интеллект преобразует речь в текст, а набираемые в чате реплики озвучиваются голосовым синтезатором — можно выбирать предустановленные ответы или вводить свои.

По состоянию на 2025 год в России зарегистрированы 13 млн людей с нарушениями слуха, и долгое время они не могли пользоваться телефонной связью. Новый сервис «Секретарь для глухих и слабослышащих» от МТС уникален тем, что работает на уровне мобильной сети и позволяет общаться при помощи технологий распознавания и синтеза речи на основе ИИ.

DuckDuckGo добавила голосовое общение с ИИ-ботом Duck.ai с защитой приватности

Компания DuckDuckGo объявила о добавлении функции голосового чата в Duck.ai — своего фирменного чат-бота на базе искусственного интеллекта с защитой приватности пользователей. Благодаря этому можно в режиме онлайн голосом общаться с чат-ботом, задействовав для этого защищённое соединение.

 Источник изображения: DuckDuckGo

Источник изображения: DuckDuckGo

ИИ-модели для обработки голосовых запросов в Duck.ai предоставляет OpenAI. Однако DuckDuckGo заявила, что ни она, ни OpenAI не будут хранить аудиозаписи после завершения беседы. «Голосовые чаты в Duck.ai приватны, мы делаем их анонимными, и они никогда не используются для обучения ИИ-моделей», — сказано в заявлении компании. Новые контрактные обязательства указывают на то, что возможности OpenAI в плане использования аудиозаписей пользователей голосовых чатов с ИИ-ботом также строго ограничены.

В описании новой функции сказано, что DuckDuckGo защищает аудиоданные несколькими способами, чтобы гарантировать, что доступ к ним имеет только OpenAI (как поставщик ИИ-моделей) и только с целью ответа на запросы пользователей. Прежде всего отмечается, что голосовые запросы передаются потоками только во время сеанса общения с ботом и не хранятся у DuckDuckGo или OpenAI после завершения диалога. Аудиозаписи пользователей и ответы чат-бота не используются для обучения ИИ-моделей. Аудиопотоки шифруются при передаче через WebRTC и прохождении через сервер компании, при этом ни DuckDuckGo, ни OpenAI не сохраняют каких-либо данных о разговорах — вся информация удаляется сразу после завершения беседы.

Новая функция работает во многих браузерах, кроме Firefox — поддержка этого интернет-обозревателя находится на стадии разработки. Голосовой чат с ИИ-ботом является бесплатной функцией в пределах суточного лимита и не требует создания аккаунта. В то же время платным подписчикам за $10 в месяц будут доступны расширенные лимиты, доступ к VPN DuckDuckGo, услуге удаления личных данных и прочее. Пользователи могут в любой момент отключить функцию голосового чата в настройках Duck.ai, а также продолжать взаимодействовать с текстовыми ботами на основе ИИ-моделей OpenAI, Meta✴, Anthropic и Mistral.

Голосовой помощник Gemini стал лучше понимать инструкции и не перебивает пользователей

Google объявила о внедрении серии улучшений в голосовом помощнике Gemini, которые сделают взаимодействие с искусственным интеллектом более естественным и эффективным. Целью доработок является повышение способности модели справляться со сложными задачами, точно следовать инструкциям пользователя и вести связные диалоги.

 Источник изображения: Google

Источник изображения: Google

В рамках обновления инженеры Google сфокусировались на трёх ключевых направлениях в Gemini 2.5 Flash Native Audio. Во-первых, была повышена надёжность вызова внешних функций и теперь Gemini точнее определяет момент, когда необходимо получить актуальную информацию в ходе диалога, интегрируя её в аудиоответ без нарушения естественного темпа беседы. Во-вторых, модель продемонстрировала рост уровня соблюдения инструкций разработчиков с 84 до 90 %, что позволяет ей лучше справляться со сложными командами и выдавать более последовательные результаты. Также улучшена способность извлекать контекст из предыдущих частей разговора, способствуя формированию более связных и логичных диалогов, сообщает Android Authority.

Кроме того, Джош Вудворд (Josh Woodward), вице-президент подразделения Google Labs, отвечающего за Gemini и AI Studio, сообщил о двух дополнительных усовершенствованиях. Теперь функция Gemini Live не будет прерывать пользователя, даже если тот делает длительную паузу в речи. Также появилась возможность отключать микрофон во время ответа ИИ, чтобы случайно не прервать его речь. Параллельно с этим Google объявила об изменениях в приложении Translate.

ByteDance выпустила голосового ИИ-помощника для китайских смартфонов

Китайская компания ByteDance, разработчик видеосервиса TikTok, сообщила о выпуске голосового помощника на базе большой языковой модели Doubao собственной разработки. Он входит в предустановленное программное обеспечение смартфона Nubia M153 компании ZTE и в дальнейшем станет доступен и на смартфонах других производителей, пишет Reuters.

 Источник изображения: Kelli McClintock/unsplash.com

Источник изображения: Kelli McClintock/unsplash.com

ИИ-помощник от ByteDance позволяет пользователям управлять смартфоном с помощью голосовых команд, например, находить контент и бронировать билеты. Он будет конкурировать с аналогичными умными ассистентами, представленными китайскими производителями смартфонов, такими как Huawei и Xiaomi.

Компания ByteDance заявила, что у неё нет планов разрабатывать собственные смартфоны, и сейчас она ведёт переговоры с несколькими производителями телефонов об использовании её ИИ-помощника на выпускаемых ими устройствах.

ByteDance стала лидером на рынке потребительских ИИ-приложений в Китае благодаря выпуску ИИ-чат-бота Doubao. Doubao — самый популярный чат-бот с искусственным интеллектом в Китае.

По данным платформы отслеживания ИИ-приложений Aicpb.com, в октябре у Doubao было 159 млн активных пользователей в месяц, что значительно больше, чем у Tencent Yuanbao с 73 млн пользователей и DeepSeek с 72 млн человек.

Установленный на телефоне, Doubao работает на уровне операционной системы, позволяя ИИ видеть, что происходит на экране, и использовать приложения, выполняя такие задачи, как извлечение и упорядочивание файлов, заполнение веб-форм, поиск предложений ресторанов, соответствующих бюджету и предпочтениям пользователя.

Голосовой режим ChatGPT встроили в чат — он стал естественнее и его можно перебивать

Разработчики из OpenAI значительно улучшили голосовой режим чат-бота ChatGPT. Теперь он ещё больше похож на естественное общение с человеком. В последнем обновлении ChatGPT голосовой режим по умолчанию объединён с основным текстовым режимом. Но при желании его можно отделить.

 Источник изображения: OpenAI

Источник изображения: OpenAI

OpenAI продемонстрировала некоторые преимущества нового голосового режима на своей странице в соцсети X. Например, ChatGPT теперь может показывать результаты поиска по карте в голосовом режиме. Он также отображает расшифровку голосового диалога в интерфейсе чата. В процессе ответа чат-бота на запрос его можно перебить, чтобы попросить, например, правильно произнести по буквам название нужного вам места или блюда в ресторане.

При желании можно вернуться к старому варианту взаимодействия с голосовым режимом. В настройках приложения появился новый переключатель для возврата в отдельный режим.

«Теперь вы можете использовать голосовой режим ChatGPT прямо в чате — отдельный режим не нужен. Вы можете разговаривать, наблюдать за появлением ответов, просматривать предыдущие сообщения и видеть визуальные элементы, такие как изображения или карты, в режиме реального времени. Доступно для всех пользователей мобильных устройств и веб-версии. Просто обновите приложение», — сообщили разработчики.

Клавиатура перестанет быть главным инструментом создания контента уже к 2028 году

Лондонская школа экономики при участии компании Jabra провела исследование, согласно результатам которого ввод информации при помощи голосового интерфейса ИИ станет общепринятым стандартом. Родившиеся после 2010 года офисные сотрудники в недалёком будущем в своей деятельности могут вообще не столкнуться с необходимостью набора текста руками.

 Источник изображения: Unsplash, Glenn Carstens-Peters

Источник изображения: Unsplash, Glenn Carstens-Peters

По мнению представителей Jabra, ввод информации голосом отодвинет на второй план работу с клавиатурой. Она будет нужна только для редактирования первично введённого голосом текста. Преобразование речи в текст позволяет быстрее вводить информацию и делает этот процесс более естественным. При этом руки пользователя остаются свободными, он буквально может генерировать текст, передвигаясь в машине или занимаясь домашними делами.

Впрочем, у такого подхода имеются и свои недостатки. Обратное восприятие информации делает текст более удобным. Чтение в целом занимает меньше времени, чем прослушивание речевого сообщения, а ещё с текстовыми данными гораздо проще работать с точки зрения анализа, обобщения и структурирования информации. Поиск по ключевым словам в тексте занимает секунды, а перематывание аудиозаписей превращается в пытку. По мнению учёных, ввод текста будет осуществляться голосом, но те же электронные сообщения останутся текстовыми.

Кроме того, авторы текстовых заметок обычно более ответственно подходят к их содержанию, тогда как голосовые сообщения буквально размывают суть информации и её структуру. При большом наборе голосовых сообщений сложно определить, что именно и кем было сказано, а также привязать эти данные к шкале времени. Спустя несколько месяцев проще анализировать текстовую переписку, чем рыться в голосовых сообщениях.

Не нужно также забывать, что живая речь по своей природе у большинства людей далека от совершенства. Интонации, дефекты речи и влияние акцента — всё это затрудняет голосовой ввод. Более того, лёгкость записи голосовых сообщений увеличивает количество передаваемой информации. Авторы высказываний порой не будут задумываться о ценности и сути своих комментариев, и собеседникам будет сложнее ориентироваться в этом потоке сознания, выделяя саму суть.

Во Франции запустили расследование возможной прослушки пользователей Apple через Siri

Во Франции начали уголовное расследование деятельности Apple, которую обвинили в использовании подрядчиков для прослушивания голосовых записей взаимодействия пользователей с Siri, несмотря на обещание соблюдать конфиденциальность, пишет агентство Bloomberg. Расследование началось после заявления правозащитной организации Ligue des droits de l’Homme.

 Источник изображения: Apple

Источник изображения: Apple

Жалоба правозащитной организации основана на показаниях Томаса ле Боньека (Thomas le Bonniec), бывшего субподрядчика Apple в Ирландии, который публично заявлял о проведении анализа конфиденциальных записей пользователей, в том числе онкологических больных.

О том, что сторонние подрядчики Apple прослушивали аудиозаписи взаимодействия с Siri для анализа с целью повышения качества сервиса, сообщил в 2019 году ресурс The Guardian. Источником ресурса был подрядчик, который занимался «оценкой» Siri. Информатор тогда сообщил, что «подрядчики Apple регулярно прослушивают конфиденциальную медицинскую информацию» в рамках своей работы «по контролю качества» голосового помощника Siri.

В ответ Apple приостановила программу, предоставив клиентам возможность отказаться от использования этой опции. Затем компания стала добавлять опцию только в случае явного согласия пользователя, а не его отказа. Тем не менее после этого был подан коллективный иск, и Apple согласилась выплатить компенсацию пользователям.

В январе Apple заявила в блоге, что «не сохраняет аудиозаписи взаимодействия с Siri, если только пользователи явно не соглашаются на это, чтобы помочь улучшить Siri, и даже в этом случае записи используются исключительно для этой цели».

Казалось бы, инцидент исчерпан, и остаётся неясным, почему спустя столько лет после происшествия во Франции решили вернуться к былому нарушению Apple.

Karri Messenger позволит детям безопасно общаться с родителями и друзьями при помощи голосовых сообщений

Устройство Messenger от лондонской компании Karri призвано помочь детям в возрасте от 5 до 13 лет стать более самостоятельными, обеспечивая при этом спокойствие их родителям. Главная функция новинки — запись, отправка и приём голосовых сообщений. Messenger использует SIM-карту, предназначенную только для передачи данных, и не имеет номера телефона. Устройство отличается минималистичным интерфейсом и интуитивно понятным управлением.

 Источник изображений: Karri

Источник изображений: Karri

Это уже второе поколение подобных устройств — первое было выпущено в 2023 году. Messenger оснащён матричным дисплеем, динамиком, а его основной элемент управления — крупный физический слайдер в центре. Чтобы прослушать голосовое сообщение нужно сдвинуть его вниз, для записи сообщения — сдвинуть вверх и удерживать, для отправки — просто сдвинуть вверх.

В октябре 2024 года компания Karri привлекла несколько миллионов фунтов стерлингов на разработку новой модели, в которой принимало участие известное дизайнерское агентство Pentagram. Нескольких итераций прототипов дорабатывались в процессе тестирования с участниками из разных возрастных групп.

Messenger работает только с сопряжённым мобильным приложением на телефоне родителей, а это значит, что посторонние не смогут связаться с ребёнком. Приложение для iOS и Android позволяет безопасно отправлять зашифрованные голосовые сообщения, проверять уровень заряда батареи Messenger и определять местоположение ребёнка на карте с помощью встроенного GPS-модуля. Родители также могут устанавливать геозоны и получать уведомления, если ребёнок выходит за их пределы. Доступно создание семейных групп для отправки сообщений.

  Другие кнопки на устройстве позволяют управлять громкостью и переключаться между различными чатами. Предусмотрена блокировка устройства для предотвращения случайных нажатий, кнопка отключения звука и вибросигнала, фонарик и отверстие для шнурка. Имеется возможность отправлять сообщения между мессенджерами и подавать сигналы SOS.

Дополнительные чехлы позволят осуществлять бесконтактные платежи через NFC, а в ближайшем будущем появится голосовое управление, навигация и другие функции. Устройство с защитой от воды IPX67 весит чуть более 120 г и может работать до четырёх дней без подзарядки.

Стоимость Messenger второго поколения составляет £90 (≈9700 ₽), поставки устройства запланированы на конец этого года. По предварительному заказу Messenger можно приобрести за £50 (≈5400 ₽), а цена месячной подписки начинается от £1,79 (≈200 ₽) при заключении двухлетнего контракта, но только в Великобритании. Более дорогие тарифы открывают доступ к сервису по всему миру, большему количеству каналов чата и обмену сообщениями между устройствами.

В электромобилях Tesla Model Y L появятся голосовые ассистенты на базе ИИ от DeepSeek и Doubao

Усилия Tesla по поддержанию спроса к своим электромобилям в Китае не ограничиваются выпуском шестиместного кроссовера Model Y L. Компания готова адаптировать возможности фирменного голосового ассистента к потребностям китайских клиентов, взяв на вооружение языковые модели местного происхождения.

 Источник изображения: Tesla

Источник изображения: Tesla

Как поясняет CnEVPost, бортовая информационно-развлекательная система Tesla Model Y L получит поддержку голосового ассистента на базе моделей DeepSeek и ByteDance Doubao, причём работать это решение будет на облачной платформе Volcano Engine той же ByteDance. Если Doubao будет отвечать за сервисные запросы, связанные с управлением бортовыми системами электромобиля, то DeepSeek реализует полноценный диалог с чат-ботом на самые разные темы.

В США, например, голосовой интерфейс Tesla полагается на разработки стартапа xAI, принадлежащего возглавляющему обе компании Илону Маску (Elon Musk). Новейшая Tesla Model Y L позволяет пользователям вызвать голосового ассистента кодовой приветственной фразой, тогда как во всех прочих моделях электромобилей марки для китайского рынка для этого требуется нажимать колёсико на ступице руля. В этой сфере Tesla отстаёт от китайских автопроизводителей, которые уже давно развивают интеллектуальные интерфейсы с учётом предпочтений местной публики. Помимо Tesla, голосовой ассистент на базе моделей DeepSeek на китайском рынке предлагают Zeekr, Dongfeng (Nissan, Voyah, M-Hero) и многие другие.

Тем временем, в США компания Tesla повысила стоимость старшей комплектации пикапа Cybertruck сразу на $15 000 до $114 990. Эта прибавка ограничилась нематериальными бонусами для покупателя — за эти деньги он получит комплекс систем активной помощи FSD, а также право бесплатно заряжаться на фирменных станциях Tesla Supercharger. Прочие комплектации пикапа Tesla не подорожали.

В WhatsApp появится аналог голосовой почты для пропущенных звонков

В прошлом месяце сообщалось, что в WhatsApp появится функция напоминания о пропущенных звонках. Теперь же стало известно, что разработчики планируют добавить в мессенджер аналог голосовой почты для пропущенных звонков.

 Источник изображения: lonely blue / Unsplash

Источник изображения: lonely blue / Unsplash

Упомянутое нововведение обнаружилось в бета-версии WhatsApp 2.25.23.21 для Android. Когда пользователь звонит кому-либо с помощью приложения WhatsApp и не получает ответа, на экране, рядом с кнопками «Перезвонить» и «Отмена», отображается сообщение «Записать голосовое сообщение». Выбрав эту опцию, пользователь может оставить голосовое сообщение, которое собеседник увидит, когда в следующий раз откроет приложение. Опция «Записать голосовое сообщение» также будет отображаться в чате с контактом, до которого не удалось дозвониться.

 Источник изображения: wabetainfo.com

Источник изображения: wabetainfo.com

Аналог голосовой почты позволит быстро записать голосовое сообщение человеку, до которого не удаётся дозвониться. Конечно, это же можно сделать и в чате с контактом, но появление отдельной опции непосредственно после неудачного звонка должно сделать процесс взаимодействия с мессенджером более комфортным. На данном этапе опция «Записать голосовое сообщение» доступна некоторым пользователям бета-версий WhatsApp для Android. Когда эта функция может стать общедоступной, пока неизвестно.

Xiaomi представила открытую голосовую ИИ-модель для автомобилей и бытовой техники

Компания Xiaomi сделала себе имя на рынке смартфонов и бытовой техники, но уже второй год выпускает электромобили, поэтому направление развития её фирменных языковых моделей было предсказать не так уж трудно. На этой неделе она представила голосовую модель MiDashengLM-7B, которая предусматривает интеграцию с Qwen2.5-Omni-7B китайской Alibaba Group и обладает открытым исходным кодом.

 Источник изображения: Xiaomi

Источник изображения: Xiaomi

Ориентация на работу с голосовой информацией объяснима тем, что пользователи электромобилей и бытовой техники чаще всего используют данный канал для передачи команд на устройства. Не желая оставаться в стороне от бума ИИ, компания Xiaomi сделала ставку на открытый исходный код и интеграцию с разработками известных игроков рынка, коим в Китае является конгломерат Alibaba Group.

Свои ИИ-модели, ориентированные на обработку изображений, видео и звука в последние месяцы активно предлагали Alibaba и Tencent Holdings, поскольку местным разработчикам хочется сохранять конкуренцию с решениями OpenAI и других зарубежных игроков рынка. Важность развития систем искусственного интеллекта подчёркивается властями США и Китая на самом высоком уровне. Для Xiaomi интеграция сервисов, доступных владельцам фирменных электромобилей, с уже существующей обширной экосистемой умных бытовых устройств, имеет особую важность.

Brilliant Labs представила умные очки Halo за $299, которые помогут вспомнить всё

Компания Brilliant Labs представила преемника своих умных очков Frame с открытым исходным кодом за $349. Новые умные очки Halo за $299 по цене приближаются к базовым моделям Ray-Ban от Meta✴ и оснащены улучшенными возможностями ИИ. Агентская система памяти Narrative использует данные с камеры и микрофонов для создания «личной и персонализированной базы знаний», а мультимодальный ИИ-агент Noa «понимает, что слышит и видит в окружающей среде».

 Источник изображений: Brilliant Labs

Умные очки Halo предлагают новую «запатентованную агентскую систему памяти» от Brilliant Labs под названием Narrative, которая использует данные, собранные с камеры и микрофонов, для создания «личной и персонализированной базы знаний». Стартап заявляет, что умные очки будут запоминать имя собеседников и содержание прошлых разговоров.

По утверждению Brilliant Labs, общение с встроенным мультимодальным ИИ-агентом Noa теперь будет «естественным и интуитивно понятным, как при общении с реальным человеком», благодаря контекстно-релевантной информации, основанной на окружающей обстановке. Noa предоставляет дополнительные возможности по управления очками Halo, позволяя отключать микрофон или переводить их в спящий режим с помощью расширенных голосовых команд.

В умение очки Halo также встроена новая экспериментальная функция кодирования под названием Vibe Mode, которая позволит «создавать пользовательские приложения с помощью простых голосовых команд на естественном языке». Вместо поиска нужного приложения в магазине, пользователь, по словам Brilliant Labs, сможет создать собственное приложение с необходимыми функциями.

Кроме голосовых подсказок через динамики с костной проводимостью в дужках, владельцу доступен 0,2-дюймовый цветной microOLED-дисплей, который «проецирует интерфейс в стиле ретро-аркад» на периферийное зрение. Время автономной работы устройства составляет внушительные 14 часов, отчасти благодаря энергосберегающей камере и ИИ-чипу со специальным нейронным процессором. Весят умные очки Halo чуть более 40 граммов.

Halo в строгом матово-чёрном корпусе уже доступны для ограниченного предзаказа на сайте Brilliant Labs за $299. Поставки ожидаются в конце ноября 2025 года. Возможен заказ очков с диоптрическими линзами.

«Яндекс» раскрыл алгоритм распознавания голосовых команд в шумных условиях

Инженеры «Яндекса» опубликовали научную статью, в которой раскрыли принципы работы нейросети, обеспечивающей распознавание голосовых команд в условиях внешнего шума. Компания уже применяет эту технологию, и теперь внедрить её смогут разработчики по всему миру.

 Источник изображения: yandex.ru/company

Источник изображения: yandex.ru/company

Работа будет представлена на международной конференции по речевым технологиям Interspeech, которая пройдёт с 17 по 21 августа в нидерландском Роттердаме; среди прочих участников мероприятия значатся Microsoft, Google DeepMind и Google AR.

Разработанная специалистами «Яндекса» технология используется в умных колонках и «ТВ Станциях». Она позволяет устройствам с «Алисой» правильно интерпретировать голосовые команды, если что-то пытается этому помешать: играет музыка, шумит вода, гудит вечеринка, или за окном грохочет стройка — система услышит пользователя, даже если он не будет пытаться перекричать песню или не станет выключать пылесос. Используя эту технологию, любая компания сможет повысить качество работы голосового помощника с искусственным интеллектом и уменьшить долю ложных срабатываний.

Если человеческий голос раздаётся на фоне музыки, эффективными считаются алгоритмы эхоподавления; в случае других посторонних источников лучше работает шумоподавление, которое, однако, ухудшает и разборчивость человеческой речи. Поэтому в «Яндексе» разработали attention-механизм на основе нейросетей — на вход ему подаются сразу оба сигнала, с эхо- и шумоподавлением, и система динамически выбирает наиболее чёткий, адаптируясь к звуковому фону от источников разной природы.

Скоро рынок наполнится наушниками со встроенным ИИ на базе GPT-4.1 — Bragi и OpenAI договорились о партнёрстве

В 2019 году немецкая компания Bragi переключилась с производства наушников на лицензирование собственных разработок. Фирменные технологии компании используют многие именитые производители аудиотехники. Сегодня Bragi анонсировала приложение ChatAI, разработанное в партнёрстве с OpenAI. Оно позволит производителям наушников интегрировать в свои продукты голосового помощника на базе GPT-4.1 — для создания заметок, постановки вопросов и доступа к информации.

 Источник изображений: Bragi

Источник изображений: Bragi

Когда владелец наушников активирует голосового помощника, мультимодальная локальная модель в приложении ChatAI обрабатывает запрос и отправляет его на серверы OpenAI. Модель GPT-4.1 формирует ответ, который озвучивается через наушники. Чтобы минимизировать риск случайной активации и обработки посторонних голосов, ChatAI обучен реагировать только на команды владельца устройства. В Bragi подчёркивают, что компания не получает персональные данные пользователей, а их запросы не сохраняются в приложении после отправки в OpenAI.

Bragi также заявляет, что новая система позволит партнёрам создавать собственный фирменный интерфейс и реализовывать агентские функции — например, изучение привычек пользователя и проактивную настройку эквалайзера в зависимости от контекста и личных предпочтений.

На первом этапе ChatAI будет поддерживать английский, немецкий, французский, испанский и китайский языки. В дальнейшем планируется расширение языковой поддержки. Согласно исследованиям Bragi, пользователи в разных регионах используют ИИ-функции по-разному: в Китае наиболее востребован перевод, тогда как в других странах сценарии применения более разнообразны.

По данным компании, 89 % потребителей готовы заплатить в среднем на $25 больше за наушники с ИИ-функциями, что увеличивает среднюю цену таких устройств до $135–160. Приложение ChatAI станет доступным для производителей наушников уже этим летом.


window-new
Soft
Hard
Тренды 🔥
«Группа Астра» представила неизменяемый режим Astra Linux Server для контейнерных сред 3 ч.
Звезда Marvel’s Spider-Man 2 взбудоражил фанатов тизером Marvel’s Spider-Man 3 4 ч.
Трилогия классических ролевых игр Gothic выйдет на консолях Xbox и PlayStation до конца ноября 5 ч.
Apple давит на блогера из-за утечки iOS 26 — требует раскрыть источники 5 ч.
Подразделение Microsoft в России признано банкротом 6 ч.
Приложение Google для настольных компьютеров теперь доступно пользователям Windows по всему миру 6 ч.
За месяц до погружения в пучины раннего доступа Subnautica 2 осталась без издателя 6 ч.
Киберпанковый боевик Replaced добрался до релиза и заслужил одобрение критиков — игра приятно удивила ценой в российском Steam 7 ч.
Starfield вышла на PS5 в неиграбельном виде, но Bethesda пообещала всё исправить 7 ч.
Microsoft объяснила, почему незаметно отказалась от возможности активации Windows 11 по телефону 8 ч.
Новая статья: Обзор игрового OLED 4K-монитора MSI MAG 322UP QD-OLED E16: достаточный уровень 57 мин.
Sophia Space обкатает софт на ИИ-спутниках Kepler перед запуском собственных космических ЦОД 3 ч.
Sony представила игровой OLED-монитор Inzone M10S II с частотой до 720 Гц и ценой $1100 4 ч.
Sony выпустила полноразмерную игровую открытую гарнитуру Inzone H6 Air с пространственным звуком за $200 4 ч.
Rolls-Royce разработает малые модульные ядерные реакторы для Великобритании 6 ч.
«Медведково-2», флагманский объект РТК-ЦОД, вошёл в реестр дата-центров Минцифры России 7 ч.
Представлена серия экшн-камер GoPro Mission 1 с поддержкой съёмной оптики Micro Four Thirds 8 ч.
Энтузиаст запустил ИИ-модель на древнем мини-ЭВМ PDP-11 с процессором на 6 МГц и 64 Кбайт ОЗУ 8 ч.
Amazon поглотила спутникового оператора Globalstar за $11,57 млрд и договорилась о сотрудничестве с Apple 8 ч.
Опубликованы изображения смартфона-раскладушки Motorola Razr 70 9 ч.