Сегодня 25 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → голосовой
Быстрый переход

ИИ в Gmail научат понимать голосовые команды и облагораживать письма, а в «Документах» появятся вкладки

Сегодня на конференции Cloud Next в Лас-Вегасе компания Google сообщила, что подписчики Google Workspace вскоре смогут при помощи голосовых запросов пользоваться ИИ-инструментом «Помоги мне написать», чтобы, к примеру, составить письмо в Gmail «на ходу». Google также анонсировала в Gmail для Workspace новую функцию на основе искусственного интеллекта, которая мгновенно умеет «облагораживать» черновики писем.

 Исчтоник изображения: Google

Источник изображений: Google

Представленные инструменты в первую очередь станут доступны платным подписчикам. По словам представителя Google, компания имеет «долгую историю создания действительно полезных и универсальных функций с искусственным интеллектом для всех наших пользователей, включая умный ответ и умное составление сообщения». После получения отзывов от платных подписчиков, которые, получается, выступят в качестве бета-тестеров, Google «рассмотрит возможность распространения их [функций ИИ] на всех пользователей».

В дополнение к новым функциям ИИ Google добавила в пакет Workspace несколько других возможностей, среди которых «Уведомления» для «Таблиц», присылающие настраиваемое оповещение, например, при изменении определённого поля. Кроме того, в «Таблицах» появятся новые шаблоны, которые должны упростить создание новой электронной таблицы.

«Документы» получат поддержку вкладок, так что пользователь «сможет организовывать информацию в одном документе вместо того, чтобы ссылаться на несколько документов». Эта функция может оказаться весьма полезной при работе с большими документами со сложным форматированием. В «Документах» появилась возможность создавать макеты обложек без полей.

Google Chat теперь может обслуживать до 500 000 участников, кроме того, добавлена поддержка обмена сообщениями со Slack и Teams.

По данным Google, Workspace используют около 3 миллиардов пользователей, из которых более 10 миллионов составляют платные подписчики.

Apple разработала ИИ, который понимает человека лучше GPT-4

Научные сотрудники Apple разработали систему искусственного интеллекта ReALM (Reference Resolution as Language Modeling), способную существенно улучшить понимание человека голосовыми помощниками и повысить эффективность их реакции на запросы.

В Apple описали систему как способ решить проблему разрешения ссылок большими языковыми моделями — она поможет ИИ интерпретировать описание пользователем объектов на экране и лучше понимать контекст разговора. В результате ReALM приведёт к более интуитивному и естественному взаимодействию с устройствами. Разрешение ссылок помогает системам лучше понимать естественную речь, позволяя пользователям в разговоре с ИИ пользоваться местоимениями и другими косвенными отсылками. Для голосовых помощников этот аспект взаимодействия с человеком традиционно представлял значительную проблему, и система ReALM сводит её к задаче, решаемой на уровне языковой модели. ИИ начинает адекватно воспринимать отсылки к визуальным элементам на экране и интегрирует эти понятия в поток разговора.

ReALM восстанавливает визуальный макет экрана при помощи текстовых представлений. Этот процесс включает в себя анализ экранных объектов и их местоположений с его переводом в текстовый формат, отражающий содержимое и структуру элементов на экране. Исследователи Apple обнаружили, что этот способ в сочетании с тонкой настройкой языковых моделей значительно превосходит традиционные методы, включая возможности нейросети OpenAI GPT-4. ReALM поможет пользователям предельно просто описывать элементы экрана, а ИИ-помощникам — понимать такие описания. Эти возможности окажутся полезными, например, при управлении информационно-развлекательными системами автомобилей с помощью голосовых команд и повысят эффективность голосового интерфейса для людей с ограниченными возможностями.

Samsung прокачает голосового помощника Bixby генеративным ИИ

Samsung планирует внедрить технологии генеративного искусственного интеллекта (ИИ) в голосовой помощник Bixby, что позволит повысить привлекательность устройств разработчика для пользователей, сообщил CNBC со ссылкой на топ-менеджера компании. Умный ассистент Bixby используется на всех устройствах Samsung — от смартфонов и умных часов до бытовой техники.

Ранее стало известно о планах компании оснастить нейронными процессорами (NPU) все новые продукты в категории бытовой техники, включая телевизоры, посудомоечные машины, духовки, холодильники и кондиционеры.

Вон Чжун Чой (Won-Joon Choi), исполнительный вице-президент мобильного бизнеса Samsung, ранее заявил ресурсу CNBC, что «Bixby стал ключевым голосовым помощником Samsung не только для мобильных устройств, но также для телевизоров и цифровых устройств, которые имеются в экосистеме компании».

Топ-менеджер отметил, что с появлением технологий генеративного ИИ и больших языковых моделей (LLM) компании необходимо пересмотреть роль Bixby, чтобы он мог быть оснащён генеративным ИИ и стал «более умным в будущем». «Это позволит вести более естественный диалог и разработать интерфейс, поддерживающий продукты Samsung в нашей экосистеме», — подчеркнул Вон Чжун Чой.

Чой сообщил, что в настоящее время Samsung усиленно работает над внедрением генеративного ИИ в Bixby, однако сроки анонса версии голосового помощника с расширенной функциональностью называть не стал.

Как и многие производители смартфонов, Samsung стремится оснастить выпускаемые устройства более продвинутыми функциями ИИ. Недавно компания добавила ранее эксклюзивные для серии Galaxy S24 функции ИИ Galaxy AI в некоторые старые модели, включая серии смартфонов Galaxy S23, S23 FE, Galaxy Z Flip 5, Z Fold 5 и планшет Tab S9.

ChatGPT появится во всех новых автомобилях Peugeot

Концерн Stellantis объявил о намерении использовать ИИ-чат-бота ChatGPT для улучшения голосового помощника в легковых автомобилях и фургонах бренда Peugeot. Таким образом, французский бренд присоединился к другим производителям, таким как Volkswagen и Mercedes, которые уже используют популярного чат-бота в своих авто.

 Источник изображений: stellantis.com

Источник изображений: stellantis.com

«Мы интегрируем ChatGPT во все автомобили, включая новую модель e-3008, и небольшие коммерческие автомобили», — приводит источник слова директора по продуктовому плану Peugeot Жерома Мишерона (Jerome Micheron).

Уже на этой неделе Peugeot запустит пилотную версию сервиса с ChatGPT, который сможет подключаться к элементам управления транспортным средством, а также будет отвечать на вопросы навигационного и общего характера. На данном этапе нововведение будет доступно владельцам авто бренда во Франции, Великобритании, Германии, Италии и Испании. Ожидается, что в течение года эта услуга станет стандартной функцией и будет доступна всем владельцам авто Peugeot.

В прошлом году владельцы автомобилей Mercedes-Benz в США получили возможность использования ChatGPT. В компании заявили, что интеграция ИИ-бота позволит голосовому помощнику давать более естественные и развёрнутые ответы. Не так давно Volkswagen объявила, что ChatGPT будет интегрирован с фирменным голосовым помощником компании к середине года.

Amazon планирует запустить платного голосового помощника Alexa Plus на продвинутом ИИ

Amazon намерена выпустить новую платную версию фирменного голосового помощника Alexa. Планируется, что уже в июне пользователи смогут оценить расширенные возможности Alexa Plus, основанные на инновационных разработках в области генеративного искусственного интеллекта.

 Источник изображений: Amazon

Источник изображений: Amazon

В рамках новой инициативы Amazon намерена предложить пользователям более продвинутую функциональность Alexa по сравнению с той, что доступна в её текущей бесплатной версии. Однако, как сообщается, на текущем этапе тестирования качество ответов голосового помощника не полностью соответствует ожиданиям команды разработчиков.

В частности, Alexa иногда даёт излишне длинные или неточные ответы и испытывает трудности с одновременным управлением несколькими сервисами, например, при команде выключить и свет, и музыку одновременно. По предварительным планам, выход платной версии помощника запланирован на 30 июня. Тем не менее, в случае продолжения текущих технических сложностей дата запуска может быть пересмотрена.

Впервые информацию о платной версии Alexa в интервью Bloomberg раскрыл бывший исполнительный директор Amazon Дэвид Лимп (David Limp) в сентябре прошлого года. Тогда он заявил, что до того, как начать взимать плату с клиентов, функциональность Alexa должна стать выдающейся, доказать свою полезность и эффективность.

Учитывая, что в последние годы Amazon несколько уступала своим конкурентам, таким как Google Assistant и Apple Siri, обновлённая и улучшенная версия Alexa может стать для компании значительным шагом вперёд. Это будет не просто доработка существующего продукта, но и стремление обеспечить пользователям более интуитивное и эффективное взаимодействие с технологиями искусственного интеллекта и голосового управления.

«Google Ассистент» лишится 17 непопулярных функций

Google сообщила, что убрала из набора возможностей «Google Ассистента» 17 функций, которыми, по её словам, пользовались недостаточно часто. По уверениям компании, это сделано, чтобы упростить взаимодействие с голосовым помощником. Изменится также порядок работы голосовых команд в приложении Google и на панели поиска устройств Pixel.

 Источник изображения: Kevin Bhagat / unsplash.com

Источник изображения: Kevin Bhagat / unsplash.com

Изменения вступят в силу с 26 февраля, а месяцем ранее система при попытке воспользоваться одной из этих функций начнёт предупреждать, что скоро она будет отключена. Для некоторых возможностей Google предложила альтернативу, а другие исчезнут безвозвратно. Ниже приводится полный список функций, которые перестанут работать у «Google Ассистента».

  1. Воспроизведение и голосовое управление аудиокнигами в службе «Google Play Книги». Возможность транслировать аудиокниги с мобильного устройства сохранится.
  2. Установка собственных сигналов будильника на устройствах с поддержкой «Google Ассистента». Можно создать собственный сценарий с аналогичным поведением или использовать стандартный сигнал.
  3. «Google Ассистент» лишится доступа к кулинарной книге пользователя, возможности управлять ей и передавать рецепты между устройствами. Останется возможность голосового поиска рецептов в интернете и на YouTube.
  4. Управление секундомером на умных дисплеях и колонках. Останутся только таймеры и будильники.
  5. Голосовой вызов устройств и передача сообщений в семейную группу Google. Сохранится возможность трансляций на устройства в доме.
  6. Голосовая отправка электронной почты, аудио- и видеосообщений. Сохранится возможность совершать звонки и отправлять текстовые сообщения.
  7. Перенос мероприятий в «Google Календаре». Возможность создавать новые мероприятия останется.
  8. Использование панели запуска приложений в режиме вождения «Google Ассистента» на «Google Картах» для чтения и отправки сообщений, совершения звонков и управления мультимедиа. Голосовое управление в «Google Картах» сохранится.
  9. Создание и прослушивание объявлений раздела Family Bell — функция останется только в сценариях.
  10. Запуск сеансов медитации с сервисом Calm. Потребуется доступ к другим платформам, например, YouTube.
  11. Перестанет работать голосовое управление на устройствах Fitbit Sense и Versa 3. Оно останется на Pixel Watch.
  12. Просмотр сводных данных о сне останется только на умных дисплеях Google. Голосовые запросы будут работать на умных часах других производителей.
  13. Идентификатор вызывающего абонента не будет отображаться при вызовах через умные колонки и смарт-дисплеи — его поддержка останется только на модели Duo.
  14. Просмотр оценки времени поездки на работу на умных дисплеях. Сохранится возможность проложить маршрут и запросить время поездки голосом.
  15. Проверка персональных маршрутов путешествий голосом. Возможность запросить статус рейса сохранится.
  16. Голосовой запрос информации о контактах. Возможность звонить контактам сохранится.
  17. Голосовые запросы на выполнение определённых действий: отправки платежей, бронировании или публикации сообщений в социальных сетях. Сохранится возможность голосового запуска приложений.

Кроме того, нажатие на виджет приложения Google с изображением микрофона и изображение микрофона на панели поиска Pixel теперь будут вызывать веб-поиск — например, включить свет таким образом уже не получится.

Умная электроника отправляет личные разговоры пользователей рекламщикам — признались сами маркетологи

На сайте маркетинговой компании Cox Media Group (CMG) некоторое время назад был размещён баннер с однозначным и тревожным заявлением: «Это правда. Ваши устройства Вас слушают». Этим заявлением CMG спровоцировала панику, намекнув, что у неё есть доступ к частным разговорам людей, собираемым их телефонами, телевизорами и другой личной электроникой. Маркетинговая компания заявила, что использует эти личные разговоры для таргетинга рекламы своих клиентов.

 Источник изображений: unsplash.com

Источник изображений: unsplash.com

Наверное, каждый пользователь интернета на себе испытал или хотя бы слышал от других: стоит только сказать вслух о желании приобрести кожаную куртку «как у Дженсена», как реклама таких кожаных курток начинает транслироваться из каждого утюга. Производители электроники с микрофонами порой признаются в продаже голосовых данных третьим лицам (рекламодателям), но обычно речь идёт о данных, накопленных после того, как пользователь разрешил устройству начать его прослушивать и согласился на сбор данных.

CMG ещё 28 ноября рассказала о технологии Active Listening («Активное прослушивание»), которая использует ИИ для «обнаружения соответствующих разговоров через смартфоны, смарт-телевизоры и другие устройства». По утверждению компании, она знает, «когда и на что настраиваться». CMG готова удовлетворить желание рекламодателей услышать каждый шёпот, который мог бы помочь им таргетировать рекламу: «Это мир, где ни один шум перед покупкой не останется без анализа, а слухи потребителей становятся для вас инструментом таргетинга, переориентации и завоевания местного рынка».

CMG не предоставила подробных и точных разъяснений своей технологии, сейчас информация об Active Listening пропала с сайта, а архивная версия даёт весьма расплывчатое представление о том, как эта функция якобы работает. CMG загружала на свою платформу данные, создавая «персонажи покупателей». Затем каждому персонажу ставились в соответствие ключевые слова, интересующие клиента CMG.

Процесс отслеживания описывался так: «Активное прослушивание начинается и анализируется с помощью искусственного интеллекта для обнаружения соответствующих разговоров через смартфоны, смарт-телевизоры и другие устройства». Далее обсуждался анализ данных при помощи ИИ и создание «зашифрованного вечнозелёного списка аудитории», используемого для таргетирования рекламы на различных платформах, включая потоковое телевидение и аудио, медийную рекламу, платные социальные сети, YouTube, Google и Bing.

 Источник изображения: CMG

Источник изображения: CMG

В ноябрьском сообщении в блоге CMG указывалось на неназванного технологического партнёра, который может «агрегировать и анализировать голосовые данные во время разговоров перед покупкой», а также на «растущие возможности доступа к данным микрофона на устройствах». Но компания никогда не объясняла, как получила вычислительные и сетевые ресурсы, необходимые для записи и отправки каждого разговора в радиусе действия устройства. Также неясно, как CMG могла получить доступ, требующий наличия ордера от правоохранительных органов.

Компания ссылалась на многостраничное соглашение об условиях использования устройств, которые обычно никто не читает, где мелким шрифтом якобы описывалась возможность использования технологий, подобных Active Listening. Ещё больше путаницы добавило утверждение CMG о сотрудничестве с Facebook, Microsoft, Google и Amazon, хотя в реальности CMG является просто участником рекламных партнёрских программ этих компаний.

Теперь CMG уверяет, что она «не прослушивает какие-либо разговоры и не имеет доступа к чему-либо, кроме стороннего агрегированного, анонимного и полностью зашифрованного набора данных, который может быть использован для размещения рекламы и сожалеет о любой путанице». Рекламные инструменты компании включают «продукты сторонних поставщиков, основанные на наборах данных, полученных от пользователей различными социальными сетями и другими приложениями, которые затем упаковываются и перепродаются поставщикам услуг данных».

Компания утверждает, что рекламные данные, основанные на голосовых и других данных, собираются этими платформами и устройствами в соответствии с условиями, предусмотренными этими приложениями и принятыми их пользователями, а затем могут быть проданы сторонним компаниям и преобразованы в анонимную информацию для рекламодателей. Эти обезличенные данные затем перепродаются многочисленными рекламными компаниями.

Как бы жутко ни звучали заявления CMG, некоторые из них не являются надуманными. Голосовые помощники дали электронике повод держать микрофоны включёнными круглосуточно. Крупные технологические компании оказываются перед выбором: максимально удовлетворить ожидания клиентов или в первую очередь обеспечивать конфиденциальность пользователей. За прошедшие годы это привело к множеству судебных разбирательств, в том числе громких процессов, которые продолжаются годами и во многом определяют будущее конфиденциальности потребителей.

Начиная с 2019 года против Google регулярно подаётся иск, обвиняющий Google Assistant в использовании данных после неверно воспринятой команды на активацию голосового управления (например, «Эй, пудель!» вместо «Эй, Google»). В июле 2021 года, добиваясь прекращения дела, Google заявила, что «никогда не обещала, что Google Assistant будет активироваться только тогда, когда истцы захотят этого». Google также отметила, что не сохраняет аудиозаписи. В 2022 году в очередном иске против Google утверждалось, что компания собирает данные распознавания голоса и лица без согласия пользователя. Google утверждает, что это «является неверной характеристикой её продуктов».

Другим примером является борьба Apple с обвинениями в записи разговоров пользователей без запроса с их стороны к Siri. Apple утверждает, что Siri не слушает пользователей, если она не активирована, а компания «активно работает над улучшением Siri, чтобы предотвратить непреднамеренные срабатывания и предоставлять визуальные и звуковые сигналы… чтобы пользователи знали, когда Siri срабатывает».

На фоне судебных разбирательств и заверений от компаний о защите конфиденциальности клиентов, маркетологи и рекламодатели продолжают попытки вторжения в личные устройства с целью монетизации полученных персональных данных. И, хотя возможности CMG оказались преувеличенными, сам факт её заявлений многое говорит о неясном состоянии конфиденциальности и доверия потребителей, когда дело касается персональных интеллектуальных устройств. Одного этого уже достаточно, чтобы пересмотреть использование интеллектуальных продуктов с микрофоном и освежить понимание пользовательских соглашений и настроек конфиденциальности.

Apple неожиданно решила улучшить русскую версию Siri и ищет инженера-лингвиста

Компания Apple опубликовала на своём сайте вакансию инженера-лингвиста для работы с голосовым помощником Siri. Сотрудник должен уметь «анализировать данные для улучшения пользовательского опыта на российском рынке». По мнению специалистов, Apple хочет улучшить ассистента из-за того, что в настоящее время он существенно уступает российским аналогам, а также для поддержания связи с пользователями из РФ.

«Мы несём ответственность за комплексное взаимодействие пользователей с голосовым помощником Siri. На должности инженера-лингвиста на русском языке сотрудник будет работать над улучшением всех продуктов компании», — говорится в описании вакансии на сайте Apple. В дополнение к этому требуется в совершенстве владеть несколькими языками программирования, включая наличие навыков разработки на Java, Python, Swift, Objective-C, C++ или Go. Также желателен опыт разработки программного обеспечения для устройств Apple. Сотрудник будет работать в испанском офисе Apple в Барселоне.

Директор по информационным технологиям «EdgeЦентр» Сергей Липов считает, что Apple работает над улучшением Siri для российских пользователей, поскольку компания стремится сделать ассистента максимально полезным для всех потребителей, независимо от их местоположения или языка. Он отметил, что для компании российский рынок остаётся большим и важным сегментом, который требует обслуживания на высоком уровне.

«Удалять русский язык глупо и бессмысленно, а принципиально не развивать распознавание на том же уровне, какой заложен для Siri в планах у Apple на ближайшие несколько лет, — невозможно. Потому что если продукт обновляется, то он должен обновляться целиком, а не частично», — уверен главный редактор iPhones.ru Никита Горяинов.

Основатель сервисного центра iSupport Кирилл Майзлер напомнил, что возможности Siri на русском языке сильно урезаны по сравнению с её английской версией. По его мнению, Apple хочет исправить это, сделав голосового помощника более полезным. Заместитель директора Центра компетенции НТИ «Технологии доверенного взаимодействия» Руслам Пермяков отметил, что сейчас на российском рынке лидирует голосовой помощник «Алиса», а смарт-динамики «Яндекса» продаются не только в РФ. При этом возможности «Алисы» гораздо шире, чем у Siri или Alexa от Amazon.

WhatsApp запустил голосовые чаты для больших групп пользователей — как в Discord, Slack и Telegram

Компания Meta в понедельник объявила, что WhatsApp готовит к запуску новую функцию голосового чата для больших групп пользователей, подобную Discord. Новая функция позволит в любой момент подключиться к чату в форме голосового общения, либо положить трубку, не покидая при этом сам чат, а также позволит писать текстовые сообщения для всех участников.

Новая функция призвана снизить отвлечение участников группового звонка от непосредственного общения: голосовые чаты запускаются тихо, без отвлекающих гудков, с появлением в чате пузырька. По нажатию пузырька новый участник может присоединиться к чату. В ближайшее время компания рассчитывает начать распространение голосовых чатов в больших группах, насчитывающих 33 человека и более. В компании отдельно отметили, что по умолчанию голосовые чаты защищены сквозным шифрованием.

Данная функциональность обеспечит возможность голосового общения с теми участниками группы, кто может присоединиться к звонку, тогда как с теми, кто в данный момент не готов поддерживать беседу голосом, можно продолжить переписываться. Пользователь может быстро отключить звук, повесить трубку или отправить сообщение всей группе, не покидая голосовой чат, нажав на элементы управления вызовом в верхней части чата. По сути, голосовые чаты в WhatsApp работают так же, как и аналогичные функции в Discord, Telegram и Slack: они позволяют группам людей общаться в режиме разговорного чата.

Свежий анонс продолжает тренд, согласно которому в течение последних нескольких месяцев добавляется множество функций в мессенджер WhatsApp. Недавно Meta представила возможность одновременного использования двух учётных записей. Кроме того, запущена поддержка пропусков на смартфонах под управлением Android и новая функция Flows, позволяющая расширить возможности покупок. А именно: пользователь, например, может выбирать авиабилеты или записываться на приём к доктору, не выходя из приложения.

Несколькими неделями ранее генеральный директор Meta Марк Цукерберг (Mark Zuckerberg) в ходе финансового отчёта компании за III квартал подчёркивал, что пользователи и организации используют платформы компании более 600 миллионов раз в день. Цукерберг отметил, что в третьем квартале выручка от семейства приложений Meta составила 293 миллиона долларов, увеличившись на 53 % по сравнению с аналогичным периодом прошлого года, причём львиную долю принесла платформа WhatsApp Business.

Google объявила интеграцию «Ассистента» и ИИ-бота Bard — голосовой помощник выйдет на новый уровень

В рамках сегодняшнего мероприятия Made by Google были объявлены планы по интеграции ИИ-чат-бота Bard в состав голосового помощника Google Ассистент». По словам компании, сочетание «генеративного мышления» чат-бота Bard с «персонализированной помощью» «Ассистента» позволит давать более контекстно-ориентированные ответы на запросы пользователей. Усовершенствованного цифрового помощника собираются выпустить в течение ближайших месяцев.

 Источник изображений: Google

Источник изображений: Google

«Хотя голосовой помощник "Google Ассистент" отлично справляется с быстрыми задачами, такими как установка таймеров, показ прогноза погоды, а также с быстрыми звонками, мы всегда считали, что личный цифровой помощник с продвинутыми возможностями должен уметь делать гораздо больше. Однако технологий, которые позволили бы это реализовать, до этого не существовало», — заявила в рамках своего доклада на мероприятии Made by Google вице-президент отдела разработки голосового помощника «Ассистент» и чат-бота Bard Сисси Сяо (Sissie Hsiao).

Аналогично недавно обновлённому голосовому помощнику Alexa от компании Amazon новый голосовой помощник Google с чат-ботом Bard сможет давать более персонализированные ответы на запросы пользователей. Например, он сможет помогать в планировании поездок, с поиском и сортировкой электронной почты, созданием списка покупок, а также с отправкой сообщений. Взаимодействовать с ним можно будет посредством текста, голосовых команд или изображений, при этом более непринуждённо и с учётом более контекстуально-насыщенных запросов по сравнению с актуальной версией «Google Ассистента».

В рамках анонса обновлённого Google Assistant с чат-ботом Bard представитель компании в качестве примера описала следующую ситуацию: «Представьте, что вы компанией отправились на прогулку с собакой и дошли до развилки на дороге. Сделайте фотографию указателя рядом с развилкой и спросите голосового помощника: какой путь ты порекомендуешь группе людей с маленькой собакой? Помощник, сможет предложить, например, северное направление на развилке, посчитав его наиболее оптимальным в такой ситуации».

Google отмечает, что новая функция находится на ранней стадии разработки и скоро будет предоставлена для закрытого тестирования. Первыми обновлённый ассистент получат владельцы смартфонов Pixel 8 и Pixel 8 Pro. В перспективе она появится на всех Android-устройствах, а также на iOS.

«Алису» теперь можно попросить заказать продукты в «Яндекс Лавке»

Компания «Яндекс» впервые за три года расширит возможности голосового помощника «Алиса» в плане покупок товаров и услуг. Пользователи сервиса «Яндекс Лавка» смогут заказывать продукты и повседневные товары посредством диалога со смарт-устройствами.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Новая функция позволяет перечислить список покупок, в том числе без конкретных наименований. Когда пользователь проговаривает общее название продукта, например, молоко, в корзину попадает товар из истории прежних покупок. Для оплаты покупок требуется завершить диалог и подтвердить его на смартфоне по поступившему от сервиса уведомлению. Возможность совершать голосовые покупки в сервисе «Яндекс Лавка» с сегодняшнего дня доступна для клиентов из Москвы и Санкт-Петербурга.

«Яндекс» расширил возможности «Алисы» в плане заказов в других своих сервисах впервые с 2020 года, когда пользователям стала доступна функция голосового заказа такси. Поддержка голосовых заказов появилась в «Алисе» в январе 2018 года. Тогда разработчики реализовали возможность покупки товаров на маркетплейсе «Беру», который принадлежал «Яндексу» и «Сбербанку». Любопытно, что и сейчас пользователи могут с помощью «Алисы» совершать покупки на «Яндекс Маркете», но фраза для активации этой функции всё ещё «Помоги купить на "Беру"».

Представители «Яндекса» не уточнили, насколько активно клиенты используют «Алису» для покупки товаров. По данным Ipsos, только 11 % участников опроса, проведённого в первом квартале, использовали голосового помощника дома. При этом лишь 1,5 % из них пользовались функцией голосового шопинга, а 13 % были готовы попробовать совершать покупки таким образом. Отмечается, что за год с момента проведения предыдущего опроса данные не изменились.

Представитель сервиса доставки «Самокат», принадлежащего «Сберу», сообщил, что голосовой помощник «Салют» позволяет собирать корзину и повторять предыдущий заказ. Во «Вкусвилле» развивают возможность оформления заказов по телефону, ежемесячно сеть обрабатывает 15-20 тыс. таких заказов. Эксперты отмечают, что существует несколько причин, повлиявших на то, что голосовой шопинг не стал популярным в России. Речь идёт о невозможности видеть изображения покупаемых товаров, недостаточной прямоте процесса оформления заказов и др.

ChatGPT научился понимать голосовые команды и работать с изображениями

OpenAI расширила варианты взаимодействия с ChatGPT. Новая версия чат-бота теперь принимает в качестве промтов (подсказок) не только текст, но также изображения и голосовые команды. Для коммерческих пользователей новые возможности станут доступны в ближайшие две недели, а остальным придётся какое-то время подождать.

 Источник изображения: The Verge

Источник изображения: The Verge

Общение голосом с ChatGPT в чём-то похоже на разговор с любым голосовым помощником, но, по утверждению OpenAI, качество ответов значительно выше благодаря улучшенной базовой технологии. Пользователь нажимает кнопку и произносит вопрос, ChatGPT преобразует его в текст и передаёт в большую языковую модель, получает ответ, преобразует его обратно в речь и произносит ответ вслух.

Новые возможности ChatGPT опираются на большую языковую модель Whisper, которая выполняет значительную часть работы по преобразованию речи в текст и обратно. По утверждению OpenAI, новая модель может генерировать «человеческий голос из текста и образца речи длиной в несколько секунд». Пока доступно пять вариантов голоса ChatGPT, но OpenAI видит в этой модели гораздо больший потенциал.

Возможность создать синтезированный голос любого человека, опираясь всего на несколько секунд его речи, даёт широкое поле деятельности для киберпреступников, признаёт OpenAI в анонсе новых функций: «Это новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество». По утверждению компании, модель недоступна для широкого использования именно по этой причине: OpenAI планирует ограничить модель конкретными вариантами использования и партнёрскими соглашениями.

Что касается запроса в ChatGPT при помощи изображения, пользователю достаточно сфотографировать или нарисовать предмет своего интереса и отправить боту. В процессе общения можно применять текстовые или голосовые подсказки, чтобы уточнить запрос или ограничить область поиска.

Очевидно, что использование изображений в качестве подсказки для чат-бота также имеет свои потенциальные проблемы. В первую очередь это касается запроса о личности человека на фотографии, хотя OpenAI заявляет, что ограничила «способность ChatGPT анализировать и делать прямые заявления о людях» как по соображениям точности, так и по соображениям конфиденциальности.

Спустя почти год после первого запуска ChatGPT OpenAI продолжает расширять границы применения и использования своего чат-бота, пытаясь избежать связанных с ним проблем и недоработок. В частности, компания намеренно ограничивает возможности своих новых ИИ-моделей. Но такой подход не будет работать вечно. По мере того, как все больше людей используют голосовое управление и поиск изображений, а ChatGPT становится мультимодальным и полезным виртуальным помощником, удерживать ИИ в рамках будет все труднее и труднее.

Amazon на этой неделе переосмыслит голосового ассистента Alexa, представив новые умные устройства

Ставка на интернет-торговлю в своё время позволила сделать основателя Amazon Джеффа Безоса (Jeff Bezos) одним из богатейших людей в мире, но не все принятые компанией решения обернулись долгосрочным успехом. Голосовой ассистент Alexa хоть и получил неплохое распространение, приносит Amazon серьёзные убытки, и направление умных устройств тоже развивается не так успешно, как хотелось бы. О реформах на этом направлении представители Amazon расскажут на этой неделе.

 Источник изображения: Chloe Collyer, Bloomberg

Источник изображения: Chloe Collyer, Bloomberg

Как напоминает Bloomberg, в эту среду в США состоится презентация с участием прессы и представителей Amazon, которые в это время года традиционно представляют новые фирменные устройства. Гигант интернет-торговли уже анонсировал некоторые сокращения и оптимизацию на направлении фирменных устройств, но главным кадровым событием в этом году станет уход из Amazon Дэйва Лимпа (Dave Limp), который 13 лет подряд курировал направление Alexa и умных устройств. По сути, для Лимпа это будет последняя профильная презентация, после чего до конца года он передаст дела преемнику и свяжет своё будущее с чем-то, не имеющим отношения к потребительской электронике.

Голосовому ассистенту в наши дни для сохранения актуальности необходимо интегрироваться с системами искусственного интеллекта, и если верить имеющейся информации, Amazon ведёт работу в этом направлении. Специалисты, которые работали над устройствами с поддержкой Alexa, отчасти будут переведены на другие направления деятельности, связанные, например, с созданием магазинов без касс и продавцов. По данным анонимных представителей Amazon и отраслевых аналитиков, на этой неделе компания представит более сфокусированный набор умных устройств и сопутствующих программных технологий, который учитывает взятый ещё в прошлом году курс на оптимизацию профильного бизнеса. Интеграции голосового интерфейса и систем искусственного интеллекта будет уделяться особое внимание на презентации.

Clubhouse переродился с групповыми чатами с голосовыми сообщениями

Социальная сеть Clubhouse, обеспечивающая пользователям возможность голосового общения в отдельных виртуальных комнатах, пытается вернуть былую популярность. Для этого разработчики меняют формат платформы, делая её более похожей на сервис обмена сообщениями. Пользователи получат возможность записи и обмена голосовыми сообщениями в отдельных пространствах, называемых «Чатами».

 Источник изображения: Clubhouse

Источник изображения: Clubhouse

К примеру, пользователь начинает чат с записи и отправки друзьям голосового послания. После этого друзья могут подключиться к чату и добавить в него собственные голосовые сообщения. В таком формате и будет протекать взаимодействие пользователей в новой версии Clubhouse.

Согласно имеющимся данным, приложение было полностью переработано с учётом новой функции. Теперь при запуске Clubhouse пользователь видит сообщение, предлагающее записать голосовое сообщение и начать тем самым новый чат. На главной вкладке приложения отображаются собственные чаты пользователя, а также те, что начали его друзья.

Пик популярности соцсети Clubhouse пришёлся на пандемию коронавируса, когда возможность голосового общения была наиболее востребована. С тех пор популярность платформы сильно снизилась, в том числе из-за того, что некоторые конкуренты запустили аналогичные продукты, такие как Spaces от Twitter. При этом возможность создавать виртуальные «комнаты» для живого общения в Clubhouse сохранится и в дальнейшем.

В настоящее время обновлённое приложение Clubhouse доступно для устройств на базе Android и iOS. Это означает, что в скором времени все пользователи платформы смогут испытать новые голосовые чаты.

«Яндекс» запустит голосового помощника, говорящего на казахском языке

Компания «Яндекс» планирует вывести своего голосового помощника на рынок Казахстана. Уже в этом году голосовой помощник компании на казахском языке станет доступен в «Яндекс Браузере» на ПК и смартфонах, а также в мобильном приложении. Об этом пишут «Ведомости» со ссылкой на руководителя бизнес-группы поиска и рекламных технологий «Яндекса» Дмитрия Масюка. В данный момент не уточняется, будет ли помощник в Казахстане тоже называться «Алиса» или получит местное имя.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Отметим, что у «Яндекса» уже работают сервисы поиска и навигации на казахском языке. По данным компании, с начала этого года локальная аудитория картографических служб увеличилась в 1,5 раза. Ежемесячная аудитория сервисов «Яндекса» в Казахстане составляет около 10 млн пользователей.

По данным сервиса StatCounter, на август 2023 года доля «Яндекс Браузера» в Казахстане на всех устройствах, включая смартфоны, ПК и планшеты, составила 5,91 %, Safari занимал 19,06 % рынка, а лидером являлся Chrome с долей 63,99 %. Доля поисковика «Яндекса» в стране составляет 10,38 %, при том, что лидер рынка в лице Google занимает 89,19 %.

Отмечается, что в мае доля поиска Google на компьютерах начала сокращаться с 73,86 % до 64,09 % в августе. Доля поисковика «Яндекса» выросла с 23,46 % в мае до 34,31 % в августе. Аналогичная динамика прослеживается в сегменте браузеров, где доля настольного «Яндекс Браузера» выросла с 9,46 % в мае до 13,42 % в августе.

Несмотря на то, что рынки СНГ и постсоветского пространства условно можно отнести к русскоязычным, локализация сервисов под национальные языки и диалекты является важным аспектом, считает основатель компании Content Review Сергей Половников. За счёт этого компания сможет увеличить аудиторию в сегменте пользователей в возрасте до 25 лет, которые родились уже после распада СССР.


window-new
Soft
Hard
Тренды 🔥
Скандал в EKWB разрастается: сотрудники пожаловались на нездоровый климат в компании 22 мин.
Одноплатный компьютер ASRock SBC-262M-WT получил чип Intel Amston Lake и три коннектора M.2 23 мин.
TSMC пообещала освоить 2-нм техпроцесс в 2025 году, а 1,6-нм техпроцесс — на год позднее 2 ч.
На фоне ИИ-бума выручка SK hynix взлетела в два с половиной раза 6 ч.
Космический мусор вызвал перебои с электричеством на китайской орбитальной станции 13 ч.
Advent Diamond разработала техпроцессы для выпуска алмазных чипов, которым не страшен перегрев 13 ч.
Представлен смартфон Oppo K12 — он практически полностью повторяет OnePlus Nord CE4 14 ч.
Китайские телеком-гиганты потратят миллиарды долларов на оптовые закупки ИИ-серверов 16 ч.
Акции Tesla резко выросли после заявления Маска о планах выпуска доступных электромобилей 16 ч.
Snapdragon X Plus и Elite снова победили конкурентов Apple, AMD и Intel в предварительных тестах 16 ч.