Сегодня 29 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → виртуальный помощник

ИИ-помощник Google Gemini Live научился видеть мир через камеру смартфона — точно и без задержек

Компания Google анонсировала несколько новых функций для виртуального ассистента Gemini Live, с которым пользователи могут взаимодействовать посредством голосовых команд. В ближайшее время Gemini Live сможет точнее распознавать и выделять объекты, которые пользователь «показывает» ему с помощью камеры своего смартфона.

 Источник изображения: Google

Источник изображения: Google

Это нововведение будет полезным в разных ситуациях. Например, когда пользователь не уверен, какой инструмент лучше подходит для выполнения определённой задачи, он может спросить об этом Gemini Live и задействовать камеру, чтобы ИИ-помощник помог с выбором оптимального варианта. Данная функция будет доступна на анонсированных на этой неделе смартфонах Google Pixel 10. В конце месяца визуальные подсказки станут доступны пользователям других устройств на базе Android, а в течение нескольких недель — в приложении ассистента для iOS.

Вместе с этим разработчики расширили возможности Gemini Live в плане взаимодействия с другими приложениями, включая «Телефон», «Сообщения» и «Часы». Например, если пользователь обсуждает с Gemini Live маршрут до определённого пункта, но понимает, что не успеет вовремя туда добраться. В этом случае пользователь может сказать ИИ-помощнику, что предложенный маршрут его устраивает, но нужно составить и отправить одному из контактов сообщение о том, что он задержится на несколько минут. После этого Gemini Live самостоятельно сгенерирует и отправит указанному контакту сообщение, тем самым предупредив его об опоздании заранее.

Google также анонсировала запуск обновлённой аудиомодели для Gemini Live. За счёт этого алгоритм будет лучше распознавать интонацию человека, ритм и высоту голоса. В скором времени ИИ-ассистент научится менять интонацию в зависимости от того, о чём идёт речь. В дополнение к этому пользователь сможет ускорять и замедлять Gemini Live в зависимости от того, как ему удобнее воспринимать ответы ИИ-помощника. Если же пользователь попросит Gemini Live драматично пересказать какую-то историю от имени конкретного персонажа или исторической фигуры, алгоритм сумеет выдать «насыщенное и увлекательное повествование».

Руководство Apple признало, что первая попытка создать ИИ-версию Siri провалилась

В марте текущего года Apple была вынуждена отложить запуск обновлённого виртуального помощника Siri, основой которого должны были стать алгоритмы на базе искусственного интеллекта. Теперь же в беседе с журналистами на мероприятии WWDC вице-президент Apple по программному обеспечению Крейг Федериги (Craig Federighi) и вице-президент по международному маркетингу Грег Джосвиак (Greg Joswiak) рассказали больше о том, почему было принято такое решение.

Во время анонса новых ИИ-функций Apple Intelligence на прошлогодней конференции WWDC представители Apple заявили, что обновлённый помощник Siri станет персонализированным и сможет выполнять действия в приложениях от имени пользователей. В рамках демонстрации Apple показывала реальное программное обеспечение, но на тот момент Siri в плане «качества не сходилась с тем, что нам было нужно», рассказал Федериги, добавив, что компания хотела сделать ИИ-помощника «очень, очень надёжным». «В итоге мы не смогли добиться надёжности в те сроки, на которые рассчитывали», — добавил Федериги.

«Послушайте, мы не хотим разочаровывать клиентов. Мы никогда не хотели этого. Но ещё большим разочарованием было бы выпустить что-то, что не соответствовало бы нашим стандартам качества, имело бы процент ошибок, который мы считали неприемлемым. Поэтому мы приняли лучшее, на наш взгляд, решение. Я бы принял его снова», — заявил Джосвиак.

В ходе беседы журналисты поинтересовались у собеседников, почему Apple, обладая внушительными ресурсами, не может добиться того, чтобы ИИ-версия Siri работала надёжно. «Что касается надёжной автоматизации функций устройств, то сейчас никто не делает этого по-настоящему хорошо. Мы хотели быть первыми. Мы хотели сделать это по-настоящему хорошо», — сказал Федериги. Он добавил, что компания добилась «очень многообещающих результатов» на ранних этапах, но в конечном итоге разработчики пришли к выводу, что «это не работает достаточно надёжно, чтобы стать продуктом Apple».

«Алиса» прошла дообучение и теперь лучше понимает запросы пользователей с особенностями речи

Пользователям с особенностями речи, например, с заиканием, ДЦП, последствиями инсульта или травмы, теперь будет проще общаться с голосовым помощником «Алиса», поскольку после дообучения нейросети он стал лучше распознавать их запросы, пишет «Яндекс».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В процессе дообучения использовались более 900 часов аудиоматериалов, содержащих свыше 855 тысяч скороговорок и голосовых фрагментов, которые записали люди с особенностями речи. В проекте приняли участие некоммерческие организации «Центр лечебной педагогики», «Живи сейчас», «Жизненный путь», «Весна», «Перспектива», «Лучшие друзья» и другие, а также специалисты-дефектологи из МГПУ, которые помогли классифицировать контент по типам нарушений. Всего в проекте участвовали более 300 человек.

Благодаря этому разрыв в точности распознавания «Алисой» обычной речи и с искажениями сократился в среднем на 20 %. Качество распознавания оценивали по метрике Word Error Rate (WER), которая позволяет определить долю неправильно понятых слов.

Компания сообщила, что это далеко не первый проект по адаптации виртуального ассистента для людей с особенностями здоровья. Недавно она представила в Москве инклюзивные навыки «Алисы», разработанные студентами. А мобильное приложение «Дом с Алисой» теперь поддерживает воспроизведение вслух текста с экрана, упрощая взаимодействие с интерфейсом пользователям с нарушениями зрения. Для таких пользователей адаптировано 15 сервисов и продуктов «Яндекса», включая «Поиск», «Браузер», «Яндекс Музыка», «Букмейт» и т.д. Также в приложении Go имеются специальные возможности для людей с особенностями здоровья, включая такие функции, как «Общаюсь только текстом», «Не говорю, но слышу», «Перевозка собаки-проводника», «Буду на инвалидном кресле» или «Помогите найти машину».


window-new
Soft
Hard
Тренды 🔥
Платформа HPE Supercomputing Programming Software упростит работу с мультивендорными системами ИИ и HPC 12 ч.
Google ограничила доступ Meta к ИИ-моделям Gemini из-за высокой нагрузки на инфраструктуру 18 ч.
Дональд Трамп пригрозил 100-процентными пошлинами тем странам, которые будут облагать цифровые услуги американских компаний налогами 28-06 08:20
Ограничения на доступ к ИИ-модели Anthropic Fable 5 будут сняты на следующей неделе 28-06 07:03
Новая статья: The Adventures of Elliot: The Millenium Tales — возвращение старой школы. Рецензия 28-06 00:04
Gemini научился находить приложения в «Play Маркете» по команде в чате 27-06 16:52
Армия из 45 000 пользователей Reddit успешно убедила ИИ-поисковики, что Трамп и Вэнс скончались от бешенства 27-06 13:47
Еврокомиссия взяла на карандаш AWS и Microsoft Azure 27-06 13:17
Путин подписал закон о штрафах за авторизацию через зарубежные сервисы 27-06 10:05
Путин подписал закон о создании базы IMEI всех смартфонов россиян 27-06 09:07
ЦОД по всему миру всё чаще становятся мишенью для исков экоактивистов 11 мин.
CBRE: мировой спрос на ЦОД по-прежнему превышает предложение, влияя на стоимость аренды и строительства 2 ч.
Honda займётся выпуском батарей для серверных систем стационарного хранения электроэнергии в США 3 ч.
К 2028 году Apple обновит Mac Studio, оснастив систему процессором M7 Ultra 6 ч.
Новая статья: Обзор игрового QD-OLED WQHD-монитора Acer Predator X27U W1: смена вектора 9 ч.
Новая статья: Дарвин, Гёдель и ИИ 10 ч.
Intel Panther Lake и три порта 2.5GbE: AAEON выпустила индустриальный одноплатный компьютер EPIC-PTH9 19 ч.
Apple и SpaceX получат возможность протестировать технологию Intel 14A этой осенью 28-06 07:48
Акции компаний технологического сектора в минувшую пятницу снижались в цене по всему миру, но Apple шла против течения 28-06 06:14
Старая память на новый лад: ASIC Meta Vistara поможет установить DDR4 из б/у серверов в современные системы 27-06 23:27