Сегодня 05 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → виртуальный помощник

ИИ-помощник Google Gemini Live научился видеть мир через камеру смартфона — точно и без задержек

Компания Google анонсировала несколько новых функций для виртуального ассистента Gemini Live, с которым пользователи могут взаимодействовать посредством голосовых команд. В ближайшее время Gemini Live сможет точнее распознавать и выделять объекты, которые пользователь «показывает» ему с помощью камеры своего смартфона.

 Источник изображения: Google

Источник изображения: Google

Это нововведение будет полезным в разных ситуациях. Например, когда пользователь не уверен, какой инструмент лучше подходит для выполнения определённой задачи, он может спросить об этом Gemini Live и задействовать камеру, чтобы ИИ-помощник помог с выбором оптимального варианта. Данная функция будет доступна на анонсированных на этой неделе смартфонах Google Pixel 10. В конце месяца визуальные подсказки станут доступны пользователям других устройств на базе Android, а в течение нескольких недель — в приложении ассистента для iOS.

Вместе с этим разработчики расширили возможности Gemini Live в плане взаимодействия с другими приложениями, включая «Телефон», «Сообщения» и «Часы». Например, если пользователь обсуждает с Gemini Live маршрут до определённого пункта, но понимает, что не успеет вовремя туда добраться. В этом случае пользователь может сказать ИИ-помощнику, что предложенный маршрут его устраивает, но нужно составить и отправить одному из контактов сообщение о том, что он задержится на несколько минут. После этого Gemini Live самостоятельно сгенерирует и отправит указанному контакту сообщение, тем самым предупредив его об опоздании заранее.

Google также анонсировала запуск обновлённой аудиомодели для Gemini Live. За счёт этого алгоритм будет лучше распознавать интонацию человека, ритм и высоту голоса. В скором времени ИИ-ассистент научится менять интонацию в зависимости от того, о чём идёт речь. В дополнение к этому пользователь сможет ускорять и замедлять Gemini Live в зависимости от того, как ему удобнее воспринимать ответы ИИ-помощника. Если же пользователь попросит Gemini Live драматично пересказать какую-то историю от имени конкретного персонажа или исторической фигуры, алгоритм сумеет выдать «насыщенное и увлекательное повествование».

Руководство Apple признало, что первая попытка создать ИИ-версию Siri провалилась

В марте текущего года Apple была вынуждена отложить запуск обновлённого виртуального помощника Siri, основой которого должны были стать алгоритмы на базе искусственного интеллекта. Теперь же в беседе с журналистами на мероприятии WWDC вице-президент Apple по программному обеспечению Крейг Федериги (Craig Federighi) и вице-президент по международному маркетингу Грег Джосвиак (Greg Joswiak) рассказали больше о том, почему было принято такое решение.

Во время анонса новых ИИ-функций Apple Intelligence на прошлогодней конференции WWDC представители Apple заявили, что обновлённый помощник Siri станет персонализированным и сможет выполнять действия в приложениях от имени пользователей. В рамках демонстрации Apple показывала реальное программное обеспечение, но на тот момент Siri в плане «качества не сходилась с тем, что нам было нужно», рассказал Федериги, добавив, что компания хотела сделать ИИ-помощника «очень, очень надёжным». «В итоге мы не смогли добиться надёжности в те сроки, на которые рассчитывали», — добавил Федериги.

«Послушайте, мы не хотим разочаровывать клиентов. Мы никогда не хотели этого. Но ещё большим разочарованием было бы выпустить что-то, что не соответствовало бы нашим стандартам качества, имело бы процент ошибок, который мы считали неприемлемым. Поэтому мы приняли лучшее, на наш взгляд, решение. Я бы принял его снова», — заявил Джосвиак.

В ходе беседы журналисты поинтересовались у собеседников, почему Apple, обладая внушительными ресурсами, не может добиться того, чтобы ИИ-версия Siri работала надёжно. «Что касается надёжной автоматизации функций устройств, то сейчас никто не делает этого по-настоящему хорошо. Мы хотели быть первыми. Мы хотели сделать это по-настоящему хорошо», — сказал Федериги. Он добавил, что компания добилась «очень многообещающих результатов» на ранних этапах, но в конечном итоге разработчики пришли к выводу, что «это не работает достаточно надёжно, чтобы стать продуктом Apple».

«Алиса» прошла дообучение и теперь лучше понимает запросы пользователей с особенностями речи

Пользователям с особенностями речи, например, с заиканием, ДЦП, последствиями инсульта или травмы, теперь будет проще общаться с голосовым помощником «Алиса», поскольку после дообучения нейросети он стал лучше распознавать их запросы, пишет «Яндекс».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В процессе дообучения использовались более 900 часов аудиоматериалов, содержащих свыше 855 тысяч скороговорок и голосовых фрагментов, которые записали люди с особенностями речи. В проекте приняли участие некоммерческие организации «Центр лечебной педагогики», «Живи сейчас», «Жизненный путь», «Весна», «Перспектива», «Лучшие друзья» и другие, а также специалисты-дефектологи из МГПУ, которые помогли классифицировать контент по типам нарушений. Всего в проекте участвовали более 300 человек.

Благодаря этому разрыв в точности распознавания «Алисой» обычной речи и с искажениями сократился в среднем на 20 %. Качество распознавания оценивали по метрике Word Error Rate (WER), которая позволяет определить долю неправильно понятых слов.

Компания сообщила, что это далеко не первый проект по адаптации виртуального ассистента для людей с особенностями здоровья. Недавно она представила в Москве инклюзивные навыки «Алисы», разработанные студентами. А мобильное приложение «Дом с Алисой» теперь поддерживает воспроизведение вслух текста с экрана, упрощая взаимодействие с интерфейсом пользователям с нарушениями зрения. Для таких пользователей адаптировано 15 сервисов и продуктов «Яндекса», включая «Поиск», «Браузер», «Яндекс Музыка», «Букмейт» и т.д. Также в приложении Go имеются специальные возможности для людей с особенностями здоровья, включая такие функции, как «Общаюсь только текстом», «Не говорю, но слышу», «Перевозка собаки-проводника», «Буду на инвалидном кресле» или «Помогите найти машину».


window-new
Soft
Hard
Тренды 🔥
Новая статья: ОСновной расклад: гид по российским Linux-дистрибутивам 4 ч.
OpenAI прокачала память ChatGPT — вскоре бот сможет помнить разное и для бесплатных пользователей 6 ч.
Отправление задерживается: безумный платформер про неподвластный гравитации поезд Denshattack! не выйдет 17 июня 9 ч.
AMD не планирует наделять поддержкой FSR 4.1 встроенную графику RDNA 3.5 10 ч.
Apple App Store обеспечил разработчикам приложений $1,4 трлн продаж — втрое больше, чем в 2019 году 12 ч.
«Всё, о чём я мечтал, и даже больше»: 10 минут геймплея Ace Combat 8: Wings of Theve привели фанатов в восторг 12 ч.
God of War Laufey не придётся ждать годами 13 ч.
Instagram оповестил пользователей, которых взломали с помощью ИИ-бота Meta 14 ч.
Авторитетный инсайдер считает, что большая июньская презентация Nintendo Direct пройдёт на следующей неделе 15 ч.
Глава Take-Two Interactive Штраус Зельник стал рестлером — руководителя добавили в WWE 2K26 16 ч.
Сбербанк представил универсальный оптический вычислитель для ИИ-задач 4 ч.
Новая статья: Обзор Infinix SMART 20: каким может быть бюджетный смартфон в эпоху оперативного кризиса? 6 ч.
HP и Ferrari выпустили ярко красный ноутбук HP Limited Edition Scuderia Ferrari AI PC за $5599 7 ч.
Waymo даст вторую жизнь аккумуляторам роботакси — их превратят в накопители энергии 8 ч.
Cooler Master представила процессорный кулер V8 Ace 3DHP с «экстремальной» эффективностью теплоотвода 10 ч.
Представлен доступный смартфон Huawei nova Y74 — камера 50 Мп и батарея на 6620 мА·ч 10 ч.
PowerColor показала видеокарты Radeon RX 9000, которые святятся под ультрафиолетом 11 ч.
3,84 Тбайт в формате M.2 — Swissbit представила SSD серии N7000 11 ч.
Silicon Motion нарастила продажи SSD-контроллеров на фоне дефицита NAND — нехватка памяти усугубится в 2027 году 12 ч.
7 из 10 американцев не хотят видеть дата-центры рядом с домом — ещё девять месяцев назад таких было лишь 42 % 12 ч.