Сегодня 07 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → виртуальный помощник

ИИ-помощник Google Gemini Live научился видеть мир через камеру смартфона — точно и без задержек

Компания Google анонсировала несколько новых функций для виртуального ассистента Gemini Live, с которым пользователи могут взаимодействовать посредством голосовых команд. В ближайшее время Gemini Live сможет точнее распознавать и выделять объекты, которые пользователь «показывает» ему с помощью камеры своего смартфона.

 Источник изображения: Google

Источник изображения: Google

Это нововведение будет полезным в разных ситуациях. Например, когда пользователь не уверен, какой инструмент лучше подходит для выполнения определённой задачи, он может спросить об этом Gemini Live и задействовать камеру, чтобы ИИ-помощник помог с выбором оптимального варианта. Данная функция будет доступна на анонсированных на этой неделе смартфонах Google Pixel 10. В конце месяца визуальные подсказки станут доступны пользователям других устройств на базе Android, а в течение нескольких недель — в приложении ассистента для iOS.

Вместе с этим разработчики расширили возможности Gemini Live в плане взаимодействия с другими приложениями, включая «Телефон», «Сообщения» и «Часы». Например, если пользователь обсуждает с Gemini Live маршрут до определённого пункта, но понимает, что не успеет вовремя туда добраться. В этом случае пользователь может сказать ИИ-помощнику, что предложенный маршрут его устраивает, но нужно составить и отправить одному из контактов сообщение о том, что он задержится на несколько минут. После этого Gemini Live самостоятельно сгенерирует и отправит указанному контакту сообщение, тем самым предупредив его об опоздании заранее.

Google также анонсировала запуск обновлённой аудиомодели для Gemini Live. За счёт этого алгоритм будет лучше распознавать интонацию человека, ритм и высоту голоса. В скором времени ИИ-ассистент научится менять интонацию в зависимости от того, о чём идёт речь. В дополнение к этому пользователь сможет ускорять и замедлять Gemini Live в зависимости от того, как ему удобнее воспринимать ответы ИИ-помощника. Если же пользователь попросит Gemini Live драматично пересказать какую-то историю от имени конкретного персонажа или исторической фигуры, алгоритм сумеет выдать «насыщенное и увлекательное повествование».

Руководство Apple признало, что первая попытка создать ИИ-версию Siri провалилась

В марте текущего года Apple была вынуждена отложить запуск обновлённого виртуального помощника Siri, основой которого должны были стать алгоритмы на базе искусственного интеллекта. Теперь же в беседе с журналистами на мероприятии WWDC вице-президент Apple по программному обеспечению Крейг Федериги (Craig Federighi) и вице-президент по международному маркетингу Грег Джосвиак (Greg Joswiak) рассказали больше о том, почему было принято такое решение.

Во время анонса новых ИИ-функций Apple Intelligence на прошлогодней конференции WWDC представители Apple заявили, что обновлённый помощник Siri станет персонализированным и сможет выполнять действия в приложениях от имени пользователей. В рамках демонстрации Apple показывала реальное программное обеспечение, но на тот момент Siri в плане «качества не сходилась с тем, что нам было нужно», рассказал Федериги, добавив, что компания хотела сделать ИИ-помощника «очень, очень надёжным». «В итоге мы не смогли добиться надёжности в те сроки, на которые рассчитывали», — добавил Федериги.

«Послушайте, мы не хотим разочаровывать клиентов. Мы никогда не хотели этого. Но ещё большим разочарованием было бы выпустить что-то, что не соответствовало бы нашим стандартам качества, имело бы процент ошибок, который мы считали неприемлемым. Поэтому мы приняли лучшее, на наш взгляд, решение. Я бы принял его снова», — заявил Джосвиак.

В ходе беседы журналисты поинтересовались у собеседников, почему Apple, обладая внушительными ресурсами, не может добиться того, чтобы ИИ-версия Siri работала надёжно. «Что касается надёжной автоматизации функций устройств, то сейчас никто не делает этого по-настоящему хорошо. Мы хотели быть первыми. Мы хотели сделать это по-настоящему хорошо», — сказал Федериги. Он добавил, что компания добилась «очень многообещающих результатов» на ранних этапах, но в конечном итоге разработчики пришли к выводу, что «это не работает достаточно надёжно, чтобы стать продуктом Apple».

«Алиса» прошла дообучение и теперь лучше понимает запросы пользователей с особенностями речи

Пользователям с особенностями речи, например, с заиканием, ДЦП, последствиями инсульта или травмы, теперь будет проще общаться с голосовым помощником «Алиса», поскольку после дообучения нейросети он стал лучше распознавать их запросы, пишет «Яндекс».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

В процессе дообучения использовались более 900 часов аудиоматериалов, содержащих свыше 855 тысяч скороговорок и голосовых фрагментов, которые записали люди с особенностями речи. В проекте приняли участие некоммерческие организации «Центр лечебной педагогики», «Живи сейчас», «Жизненный путь», «Весна», «Перспектива», «Лучшие друзья» и другие, а также специалисты-дефектологи из МГПУ, которые помогли классифицировать контент по типам нарушений. Всего в проекте участвовали более 300 человек.

Благодаря этому разрыв в точности распознавания «Алисой» обычной речи и с искажениями сократился в среднем на 20 %. Качество распознавания оценивали по метрике Word Error Rate (WER), которая позволяет определить долю неправильно понятых слов.

Компания сообщила, что это далеко не первый проект по адаптации виртуального ассистента для людей с особенностями здоровья. Недавно она представила в Москве инклюзивные навыки «Алисы», разработанные студентами. А мобильное приложение «Дом с Алисой» теперь поддерживает воспроизведение вслух текста с экрана, упрощая взаимодействие с интерфейсом пользователям с нарушениями зрения. Для таких пользователей адаптировано 15 сервисов и продуктов «Яндекса», включая «Поиск», «Браузер», «Яндекс Музыка», «Букмейт» и т.д. Также в приложении Go имеются специальные возможности для людей с особенностями здоровья, включая такие функции, как «Общаюсь только текстом», «Не говорю, но слышу», «Перевозка собаки-проводника», «Буду на инвалидном кресле» или «Помогите найти машину».


window-new
Soft
Hard
Тренды 🔥
Из-за ошибки в коде программа-вымогатель Nitrogen шифрует файлы жертв безвозвратно 10 мин.
Новая статья: Highguard — хаос с потенциалом. Рецензия 3 ч.
Названы 26 ключевых технологий, которые в ближайшие 5 лет получат широкое применение в российском бизнесе 5 ч.
Аутентичность и детализация: разработчики ремейка «Готики» рассказали, как оживляли мир и персонажей в игре 7 ч.
Пользователи устроили массовые протесты против отключения GPT-4o — он стал их другом, партнёром и наставником 7 ч.
Windows 11 научится передавать музыку сразу на несколько Bluetooth-наушников, но большинство ПК не будет поддерживать эту функцию 8 ч.
Европа обвинила TikTok в том, что его бесконечная лента вызывает привыкание 10 ч.
Биткоин едва не провалился ниже $60 000, но отскочил 10 ч.
Apple заморозила создание ИИ-ассистента по укреплению здоровья 11 ч.
Google Meet получил голосовой перевод в реальном времени, но это не бесплатно и пока без русского 13 ч.
Спортивный электрокроссовер Xiaomi YU7 GT появился в базе MIIT 9 мин.
Threadripper Pro 9995WX разогнали до 5,3 ГГц без азота — крышку превратили в водоблок, добавили чиллер и 140 литров воды 5 ч.
SpaceX возобновила испытание мегаракеты Starship — новый полёт не за горами 7 ч.
Конец эпохи Intel: TSMC вот-вот может стать крупнейшим работодателем в полупроводниках 8 ч.
Получено прямое доказательство причин неоднородности магнитного поля Земли — виноваты загадочные структуры в мантии 8 ч.
Время — деньги: SiTime отчиталась о росте на рынке ЦОД и объявила о покупке смежных активов Renesas Electronics 9 ч.
ИИ-пирамида: M5Stack представила мини-компьютер AI Pyramid Computing Box в необычном корпусе 9 ч.
ИИ помог палеонтологам распознавать динозавров по окаменевшим следам 10 ч.
Флагманские беспроводные наушники Sony WF-1000XM6 выйдут на следующей неделе 10 ч.
Затраты четырёх американских гиперскейлеров на ИИ ЦОД и оборудование превысят в 2026 году $650 млрд 10 ч.