Сегодня 15 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → виртуальный помощник

ИИ-помощник Google Gemini Live научился видеть мир через камеру смартфона — точно и без задержек

Компания Google анонсировала несколько новых функций для виртуального ассистента Gemini Live, с которым пользователи могут взаимодействовать посредством голосовых команд. В ближайшее время Gemini Live сможет точнее распознавать и выделять объекты, которые пользователь «показывает» ему с помощью камеры своего смартфона.

 Источник изображения: Google

Источник изображения: Google

Это нововведение будет полезным в разных ситуациях. Например, когда пользователь не уверен, какой инструмент лучше подходит для выполнения определённой задачи, он может спросить об этом Gemini Live и задействовать камеру, чтобы ИИ-помощник помог с выбором оптимального варианта. Данная функция будет доступна на анонсированных на этой неделе смартфонах Google Pixel 10. В конце месяца визуальные подсказки станут доступны пользователям других устройств на базе Android, а в течение нескольких недель — в приложении ассистента для iOS.

Вместе с этим разработчики расширили возможности Gemini Live в плане взаимодействия с другими приложениями, включая «Телефон», «Сообщения» и «Часы». Например, если пользователь обсуждает с Gemini Live маршрут до определённого пункта, но понимает, что не успеет вовремя туда добраться. В этом случае пользователь может сказать ИИ-помощнику, что предложенный маршрут его устраивает, но нужно составить и отправить одному из контактов сообщение о том, что он задержится на несколько минут. После этого Gemini Live самостоятельно сгенерирует и отправит указанному контакту сообщение, тем самым предупредив его об опоздании заранее.

Google также анонсировала запуск обновлённой аудиомодели для Gemini Live. За счёт этого алгоритм будет лучше распознавать интонацию человека, ритм и высоту голоса. В скором времени ИИ-ассистент научится менять интонацию в зависимости от того, о чём идёт речь. В дополнение к этому пользователь сможет ускорять и замедлять Gemini Live в зависимости от того, как ему удобнее воспринимать ответы ИИ-помощника. Если же пользователь попросит Gemini Live драматично пересказать какую-то историю от имени конкретного персонажа или исторической фигуры, алгоритм сумеет выдать «насыщенное и увлекательное повествование».

Руководство Apple признало, что первая попытка создать ИИ-версию Siri провалилась

В марте текущего года Apple была вынуждена отложить запуск обновлённого виртуального помощника Siri, основой которого должны были стать алгоритмы на базе искусственного интеллекта. Теперь же в беседе с журналистами на мероприятии WWDC вице-президент Apple по программному обеспечению Крейг Федериги (Craig Federighi) и вице-президент по международному маркетингу Грег Джосвиак (Greg Joswiak) рассказали больше о том, почему было принято такое решение.

Во время анонса новых ИИ-функций Apple Intelligence на прошлогодней конференции WWDC представители Apple заявили, что обновлённый помощник Siri станет персонализированным и сможет выполнять действия в приложениях от имени пользователей. В рамках демонстрации Apple показывала реальное программное обеспечение, но на тот момент Siri в плане «качества не сходилась с тем, что нам было нужно», рассказал Федериги, добавив, что компания хотела сделать ИИ-помощника «очень, очень надёжным». «В итоге мы не смогли добиться надёжности в те сроки, на которые рассчитывали», — добавил Федериги.

«Послушайте, мы не хотим разочаровывать клиентов. Мы никогда не хотели этого. Но ещё большим разочарованием было бы выпустить что-то, что не соответствовало бы нашим стандартам качества, имело бы процент ошибок, который мы считали неприемлемым. Поэтому мы приняли лучшее, на наш взгляд, решение. Я бы принял его снова», — заявил Джосвиак.

В ходе беседы журналисты поинтересовались у собеседников, почему Apple, обладая внушительными ресурсами, не может добиться того, чтобы ИИ-версия Siri работала надёжно. «Что касается надёжной автоматизации функций устройств, то сейчас никто не делает этого по-настоящему хорошо. Мы хотели быть первыми. Мы хотели сделать это по-настоящему хорошо», — сказал Федериги. Он добавил, что компания добилась «очень многообещающих результатов» на ранних этапах, но в конечном итоге разработчики пришли к выводу, что «это не работает достаточно надёжно, чтобы стать продуктом Apple».

«Алиса» прошла дообучение и теперь лучше понимает запросы пользователей с особенностями речи

Пользователям с особенностями речи, например, с заиканием, ДЦП, последствиями инсульта или травмы, теперь будет проще общаться с голосовым помощником «Алиса», поскольку после дообучения нейросети он стал лучше распознавать их запросы, пишет «Яндекс».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В процессе дообучения использовались более 900 часов аудиоматериалов, содержащих свыше 855 тысяч скороговорок и голосовых фрагментов, которые записали люди с особенностями речи. В проекте приняли участие некоммерческие организации «Центр лечебной педагогики», «Живи сейчас», «Жизненный путь», «Весна», «Перспектива», «Лучшие друзья» и другие, а также специалисты-дефектологи из МГПУ, которые помогли классифицировать контент по типам нарушений. Всего в проекте участвовали более 300 человек.

Благодаря этому разрыв в точности распознавания «Алисой» обычной речи и с искажениями сократился в среднем на 20 %. Качество распознавания оценивали по метрике Word Error Rate (WER), которая позволяет определить долю неправильно понятых слов.

Компания сообщила, что это далеко не первый проект по адаптации виртуального ассистента для людей с особенностями здоровья. Недавно она представила в Москве инклюзивные навыки «Алисы», разработанные студентами. А мобильное приложение «Дом с Алисой» теперь поддерживает воспроизведение вслух текста с экрана, упрощая взаимодействие с интерфейсом пользователям с нарушениями зрения. Для таких пользователей адаптировано 15 сервисов и продуктов «Яндекса», включая «Поиск», «Браузер», «Яндекс Музыка», «Букмейт» и т.д. Также в приложении Go имеются специальные возможности для людей с особенностями здоровья, включая такие функции, как «Общаюсь только текстом», «Не говорю, но слышу», «Перевозка собаки-проводника», «Буду на инвалидном кресле» или «Помогите найти машину».


window-new
Soft
Hard
Тренды 🔥
Новая статья: ARC Raiders — выживает общительнейший. Рецензия 6 ч.
Почитать и покататься: Минцифры расширило список веб-ресурсов, доступных при отключении мобильного интернета 7 ч.
Google обязали заплатить €572 млн немецким сайтам сравнения цен Idealo и Producto за то, что поисковик мешал их работе 7 ч.
Microsoft прикрыла лазейку для бесплатной активации Windows посредством KMS38 8 ч.
Вдохновлённый S.T.A.L.K.E.R. кооперативный шутер Misery вернулся в Steam — разработчики уладили конфликт с GSC Game World 8 ч.
Амбициозный симулятор жизни Paralives не выйдет 8 декабря в раннем доступе Steam — объявлена новая дата релиза 10 ч.
Биткоин упал ниже $95 000 на фоне снижения акций криптобирж и технологических компаний 11 ч.
Google предложила Еврокомиссии поменять подход к рекламе вместо продажи активов 11 ч.
Глава Microsoft раскритиковал идею единой доминирующей ИИ-модели на замену человека 11 ч.
Россияне продолжают смотреть замедленный YouTube — он остался в пятёрке самых популярных соцсетей в России 11 ч.
Авоська для Apple iPhone за $230 была распродана за считанные часы 22 мин.
Доля трафика ChatGPT начинает сокращаться на фоне роста популярности Gemini 6 ч.
Retro Games выпустила THEA1200 — полноразмерную реплику культового Amiga 1200 за €190 6 ч.
Европейский Очень большой телескоп в Чили увеличил чувствительность в десять раз — удивительные находки не заставят себя ждать 7 ч.
Распахните небо! У вас накурено: выбросы CO₂ от сжигания ископаемого топилва установили новый рекорд 8 ч.
Asus представила GeForce RTX 5060 и RTX 5060 Ti Dual Evo с короткими печатными платами и сдвинутым разъёмом питания 9 ч.
MSI представила плату PRO B840M-P EVO WIFI6E PZ начального уровня с разъёмами питания на обратной стороне 9 ч.
Adata и MSI рассказали о первой потребительской четырёхранговой памяти — 128 Гбайт в одной планке CUDIMM DDR5-5600 11 ч.
Samsung повысила цены на память на 60 % с сентября — строительство ЦОД для ИИ душит поставки для обычных потребителей 11 ч.
Пузырь не страшен: JPMorgan прогнозирует, что затраты на ЦОД и ИИ-инфраструктуру составят $5 трлн, а спрос будет «астрономический» 14 ч.