Сегодня 05 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → виртуальный помощник

ИИ-помощник Google Gemini Live научился видеть мир через камеру смартфона — точно и без задержек

Компания Google анонсировала несколько новых функций для виртуального ассистента Gemini Live, с которым пользователи могут взаимодействовать посредством голосовых команд. В ближайшее время Gemini Live сможет точнее распознавать и выделять объекты, которые пользователь «показывает» ему с помощью камеры своего смартфона.

 Источник изображения: Google

Источник изображения: Google

Это нововведение будет полезным в разных ситуациях. Например, когда пользователь не уверен, какой инструмент лучше подходит для выполнения определённой задачи, он может спросить об этом Gemini Live и задействовать камеру, чтобы ИИ-помощник помог с выбором оптимального варианта. Данная функция будет доступна на анонсированных на этой неделе смартфонах Google Pixel 10. В конце месяца визуальные подсказки станут доступны пользователям других устройств на базе Android, а в течение нескольких недель — в приложении ассистента для iOS.

Вместе с этим разработчики расширили возможности Gemini Live в плане взаимодействия с другими приложениями, включая «Телефон», «Сообщения» и «Часы». Например, если пользователь обсуждает с Gemini Live маршрут до определённого пункта, но понимает, что не успеет вовремя туда добраться. В этом случае пользователь может сказать ИИ-помощнику, что предложенный маршрут его устраивает, но нужно составить и отправить одному из контактов сообщение о том, что он задержится на несколько минут. После этого Gemini Live самостоятельно сгенерирует и отправит указанному контакту сообщение, тем самым предупредив его об опоздании заранее.

Google также анонсировала запуск обновлённой аудиомодели для Gemini Live. За счёт этого алгоритм будет лучше распознавать интонацию человека, ритм и высоту голоса. В скором времени ИИ-ассистент научится менять интонацию в зависимости от того, о чём идёт речь. В дополнение к этому пользователь сможет ускорять и замедлять Gemini Live в зависимости от того, как ему удобнее воспринимать ответы ИИ-помощника. Если же пользователь попросит Gemini Live драматично пересказать какую-то историю от имени конкретного персонажа или исторической фигуры, алгоритм сумеет выдать «насыщенное и увлекательное повествование».

Руководство Apple признало, что первая попытка создать ИИ-версию Siri провалилась

В марте текущего года Apple была вынуждена отложить запуск обновлённого виртуального помощника Siri, основой которого должны были стать алгоритмы на базе искусственного интеллекта. Теперь же в беседе с журналистами на мероприятии WWDC вице-президент Apple по программному обеспечению Крейг Федериги (Craig Federighi) и вице-президент по международному маркетингу Грег Джосвиак (Greg Joswiak) рассказали больше о том, почему было принято такое решение.

Во время анонса новых ИИ-функций Apple Intelligence на прошлогодней конференции WWDC представители Apple заявили, что обновлённый помощник Siri станет персонализированным и сможет выполнять действия в приложениях от имени пользователей. В рамках демонстрации Apple показывала реальное программное обеспечение, но на тот момент Siri в плане «качества не сходилась с тем, что нам было нужно», рассказал Федериги, добавив, что компания хотела сделать ИИ-помощника «очень, очень надёжным». «В итоге мы не смогли добиться надёжности в те сроки, на которые рассчитывали», — добавил Федериги.

«Послушайте, мы не хотим разочаровывать клиентов. Мы никогда не хотели этого. Но ещё большим разочарованием было бы выпустить что-то, что не соответствовало бы нашим стандартам качества, имело бы процент ошибок, который мы считали неприемлемым. Поэтому мы приняли лучшее, на наш взгляд, решение. Я бы принял его снова», — заявил Джосвиак.

В ходе беседы журналисты поинтересовались у собеседников, почему Apple, обладая внушительными ресурсами, не может добиться того, чтобы ИИ-версия Siri работала надёжно. «Что касается надёжной автоматизации функций устройств, то сейчас никто не делает этого по-настоящему хорошо. Мы хотели быть первыми. Мы хотели сделать это по-настоящему хорошо», — сказал Федериги. Он добавил, что компания добилась «очень многообещающих результатов» на ранних этапах, но в конечном итоге разработчики пришли к выводу, что «это не работает достаточно надёжно, чтобы стать продуктом Apple».

«Алиса» прошла дообучение и теперь лучше понимает запросы пользователей с особенностями речи

Пользователям с особенностями речи, например, с заиканием, ДЦП, последствиями инсульта или травмы, теперь будет проще общаться с голосовым помощником «Алиса», поскольку после дообучения нейросети он стал лучше распознавать их запросы, пишет «Яндекс».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В процессе дообучения использовались более 900 часов аудиоматериалов, содержащих свыше 855 тысяч скороговорок и голосовых фрагментов, которые записали люди с особенностями речи. В проекте приняли участие некоммерческие организации «Центр лечебной педагогики», «Живи сейчас», «Жизненный путь», «Весна», «Перспектива», «Лучшие друзья» и другие, а также специалисты-дефектологи из МГПУ, которые помогли классифицировать контент по типам нарушений. Всего в проекте участвовали более 300 человек.

Благодаря этому разрыв в точности распознавания «Алисой» обычной речи и с искажениями сократился в среднем на 20 %. Качество распознавания оценивали по метрике Word Error Rate (WER), которая позволяет определить долю неправильно понятых слов.

Компания сообщила, что это далеко не первый проект по адаптации виртуального ассистента для людей с особенностями здоровья. Недавно она представила в Москве инклюзивные навыки «Алисы», разработанные студентами. А мобильное приложение «Дом с Алисой» теперь поддерживает воспроизведение вслух текста с экрана, упрощая взаимодействие с интерфейсом пользователям с нарушениями зрения. Для таких пользователей адаптировано 15 сервисов и продуктов «Яндекса», включая «Поиск», «Браузер», «Яндекс Музыка», «Букмейт» и т.д. Также в приложении Go имеются специальные возможности для людей с особенностями здоровья, включая такие функции, как «Общаюсь только текстом», «Не говорю, но слышу», «Перевозка собаки-проводника», «Буду на инвалидном кресле» или «Помогите найти машину».


window-new
Soft
Hard
Тренды 🔥
«Жидкое стекло» Apple можно будет заматировать: представлена нова бета iOS 26.1 12 мин.
Сервисы AWS упали второй раз за день — тысячи сайтов по всему миру снова недоступны 8 ч.
Fujitsu влила £280 млн в британское подразделение в преддверии выплат компенсаций жертвам багов в её ПО Horizon 8 ч.
Календарь релизов 20 – 26 октября: Ninja Gaiden 4, Painkiller, Dispatch и VTM – Bloodlines 2 8 ч.
В Windows сломалась аутентификация по смарт-картам после октябрьских обновлений — у Microsoft есть временное решение 9 ч.
Вместо Majesty 3: российские разработчики выпустили в Steam амбициозную фэнтезийную стратегию Lessaria: Fantasy Kingdom Sim 9 ч.
Слухи: Лана Дель Рей исполнит заглавную песню для «Джеймса Бонда», но не в кино, а в игре от создателей Hitman 10 ч.
Зов сердца: разработчики Dead Cells объяснили, почему вместо Dead Cells 2 выпустили Windblown 11 ч.
Adobe запустила фабрику ИИ-моделей, заточенных под конкретный бизнес 11 ч.
Китай обвинил США в кибератаках на Национальный центр службы времени — это угроза сетям связи, финансовым системам и не только 12 ч.
Президент США подписал соглашение с Австралией на поставку критически важных минералов на сумму $8,5 млрд 18 мин.
Новая статья: Обзор смартфона realme 15 Pro: светит, но не греется 5 ч.
Ещё одна альтернатива платформам NVIDIA — IBM объединила усилия с Groq 5 ч.
Учёные создали кибер-глаз, частично возвращающий зрение слепым людям 6 ч.
Samsung выпустила недорогой 27-дюймовый геймерский монитор Odyssey OLED G50SF c QD-OLED, 1440p и 180 Гц 6 ч.
Акции Apple обновили исторический максимум на новостях об отличных продажах iPhone 17 8 ч.
Представлен флагман iQOO 15 с чипом Snapdragon 8 Elite Gen 5 и батареей на 7000 мА·ч по цене меньше $600 9 ч.
Нечто из космоса врезалось в лобовое стекло самолёта Boeing 737 MAX компании United Airlines 10 ч.
Умные кольца Oura научатся выявлять признаки гипертонии, как последние Apple Watch 11 ч.
Дешёвая корейская термопаста оказалась вредна для процессоров и здоровья пользователей 11 ч.