Сегодня 10 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → голосовой
Быстрый переход

Следующие ИИ-модели Llama от Meta✴ получат улучшенные голосовые функции

По информации Financial Times, Meta планирует представить улучшенные голосовые функции в своей следующей флагманской большой языковой модели Llama 4, запуск которой ожидается через несколько недель. Разработчики уделили особое внимание возможности прерывать и перебивать модель в процессе диалога, аналогично голосовому режиму OpenAI для ChatGPT и опыту Gemini Live от Google.

 Источник изображения: Pixabay

Источник изображения: Pixabay

На этой неделе главный директор по продуктам Meta Крис Кокс (Chris Cox) сообщил, что Llama 4 будет «всеобъемлющей» моделью, способной нативно интерпретировать и выводить речь, а также текст и другие типы данных.

 Источник изображения: ***

Источник изображения: Meta

Успех открытых моделей китайской ИИ-лаборатории DeepSeek, которые продемонстрировали впечатляющие результаты, заставил разработчиков Llama существенно ускориться. По слухам, Meta даже организовала оперативные центры, чтобы попытаться выяснить, как DeepSeek удалось радикально снизить стоимость обучения, запуска и развёртывания моделей ИИ.

xAI Grok 3 заговорил и тут-же стал ругаться и заигрывать с пользователями

Анонсированная в феврале компанией xAI мультимодальная ИИ-модель Grok 3 получила голосовой режим, позволяющий пользователям взаимодействовать с ИИ в реальном времени посредством голоса. Он доступен платным пользователям. Как сообщает ресурс Aibase, пользователь платформы X обнаружил, что приложение также получило поддержку двух режимов для взрослых: «Безбашенный» (Unhinged) и «Сексуальный» (Sexy).

 Источник изображения: xAI

Источник изображения: xAI

По словам пользователя, в режиме Unhinged приложение «постоянно вовлекает вас в жаркие дебаты», преуспевая в провокационных аргументах. В свою очередь, режим Sexy «начинается с флирта», наполненного романтическими высказываниями или сексуальными намеками.

Как полагает Aibase, добавление таких режимов не только обогащает методы взаимодействия ИИ-приложения с пользователями, но и расширяет развлекательный аспект. Режим «Безбашенный» может включать спорный контент, способный вызвать интерес, в то время как режим «Сексуальный» использует беззаботный заигрывающий стиль диалога.

На этом личности «Грока» не заканчиваются. Есть режим «Укурок» (Stoner), имитирующий разговор с человеком под действием запрещённых в России и многих других странах веществ. Для тех, кто предпочитает более спокойные беседы, есть режимы «Лучший друг» и «Гений» — последний подражает стилю общения астрофизика Карла Сагана (Carl Sagan). Все эти личности доступны с женским (Ara) и мужским (Rex) голосами, причем женская версия имеет более строгие ограничения.

Появление этих режимов вызвало дискуссии среди пользователей о необходимости модерации контента, особенно в отношении их потенциального воздействия на несовершеннолетних.

Являются ли эти режимы официальными или просто находятся на стадии тестирования, пока неясно. Компания пока никак не прокомментировала сообщение пользователя. По мнению аналитиков, этот шаг xAI направлен на привлечение более широкой пользовательской базы, одновременно расширяя границы взаимодействия с ИИ. Голосовое общение в реальном времени и разнообразные режимы приложения Grok могут стать его конкурентным преимуществом, но, вместе с тем, создать для xAI проблемы в достижении баланса между инновациями и безопасностью.

Большое обновление Siri откладывается — Apple споткнулась о множество проблем при внедрении ИИ

В прошлом году Apple заявила о намерении выпустить обновлённую версию голосового помощника Siri, улучшенную с помощью технологий на базе искусственного интеллекта. Теперь же стало известно, что в процессе разработки компания столкнулась с рядом проблем, которые ставят под угрозу запланированный на апрель запуск обновлённого голосового помощника. Об этом пишет Bloomberg со ссылкой на осведомлённые источники.

Впервые Apple анонсировала новую версию Siri на базе искусственного интеллекта на своей конференции для разработчиков в июне прошлого года. Тогда же компания представила некоторые новые функции, но их внедрение, похоже, затянется. По данным источника, ИИ-функции, запуск которых был намечен на апрель, появятся в мае или даже позже.

Переработанная Siri должна стать центральным элементом платформы Apple Intelligence, с помощью которой компания стремится подтолкнуть пользователей к покупке новых iPhone. Даже без учёта проблем с Siri запуск ИИ-функций Apple проходил не слишком гладко. Новые возможности выпускались поэтапно, и некоторые из них, такие как сгенерированные новостные сводки, вызвали критику со стороны потребителей.

Apple представила Siri ещё в 2011 году, и для компании особенно важно, чтобы обновлённый голосовой помощник работал качественно, поскольку сейчас он является символом отставания Apple от конкурентов в сфере ИИ. Отмечается, что разработка Siri отделена от усилий компании по запуску функций Apple Intelligence в Китае, где производитель iPhone сотрудничает с Alibaba и Baidu, чтобы создать систему, которая пройдёт проверку местных регуляторов и сможет выйти на потребительский рынок.

 Источник изображения: Apple

Источник изображения: Apple

Официальные представители Apple воздерживаются от комментариев относительно того, как продвигается процесс разработки ИИ-функций для обновлённой Siri. На момент анонса ИИ-функций для Siri в середине прошлого года Apple говорила о трёх основных нововведениях. Прежде всего речь шла о том, что алгоритм сможет задействовать данные о пользователе, чтобы более качественно отвечать на заданные вопросы. Кроме того, Siri получит больше возможностей для взаимодействия с приложениями. Голосовой помощник также сможет анализировать данные на экране устройства, используя этот контекст для повышения качества своей работы.

В то время Apple намекнула, что изменения появятся не раньше 2025 года. Предполагалось, что обновлённая Siri станет частью iOS 18.4, стабильная версия которой выйдет в апреле. Теперь же Apple может отложить запуск нововведений полностью или частично до выхода iOS 18.5 в мае.

Сотрудники Apple, занимающиеся тестированием Siri, обнаружили, что ИИ-функции работают нестабильно. Несмотря на то, что стабильная версия iOS 18.4 не выйдет до апреля, бета-версия ОС станет доступна разработчикам уже на следующей неделе. Также не исключается, что новые функции станут частью iOS 18.4, но будут отключены. При таком подходе Apple сможет активировать их вместе с iOS 18.5.

Запуск обновлённой Siri в этом году должен стать важным шагом на пути к созданию голосового помощника, который станет более разговорчивым и похожим на ChatGPT. Однако работа в этом направлении, вероятно, будет завершена лишь в следующем году.

Apple заявила, что никогда не продавала данные из диалогов с Siri рекламодателям

Компания Apple выступила с официальным заявлением, в котором подтвердила свою приверженность конфиденциальности взаимодействия пользователей с Siri, подчеркнув, что не предоставляла данные голосового помощника рекламодателям и не продавала их кому-либо.

«Apple никогда не использовала данные Siri для создания маркетинговых профилей, никогда не предоставляла их для рекламы и никогда не продавала их кому-либо в каких-либо целях. Мы постоянно разрабатываем технологии, чтобы сделать голосового ассистента ещё более конфиденциальным, и будем продолжать это делать», — сказано в заявлении компании.

Публикация Apple появилась после того, как она урегулировала коллективный иск, связанный с Siri, на сумму $95 млн. Истцы обвинили Apple в записи разговоров, полученных в результате случайных активаций виртуального помощника, и в последующем распространении информации из этих разговоров для сторонних рекламодателей.

Некоторые истцы утверждали, что после упоминания в разговоре таких брендов, как Air Jordan, Easton bats, Pit Viper и Olive Garden, им показывали на устройствах Apple рекламу соответствующих продуктов. Ещё один истец заявил, что ему направили рекламу хирургического лечения после обсуждения этого вопроса в частном порядке со своим врачом.

Ранее на этой неделе Apple пояснила ресурсу MacRumors, что иск был урегулирован, чтобы избежать дополнительных судебных разбирательств.

В своём заявлении Apple отметила, что «не сохраняет аудиозаписи взаимодействия с голосовым помощником, если пользователи явно не соглашаются помочь улучшить Siri, и даже в этом случае записи используются исключительно для этой цели. Пользователи могут легко отказаться в любое время». Также Apple акцентировала внимание на том, что поисковые запросы и обращения к Siri не связаны с учётной записью Apple и не могут быть использованы для идентификации конкретного пользователя.

Apple согласилась выплатить по $20 десяткам миллионов пользователей, чьи разговоры подслушивала Siri

Apple согласилась выплатить $95 млн для урегулирования коллективного иска, обвиняющего её голосового помощника Siri в несанкционированной записи и передаче личных разговоров пользователей рекламодателям. Владельцы мобильных устройств заявили, что Apple регулярно записывала их частные разговоры после случайной активации Siri, а затем передавала эти данные третьим сторонам, включая рекламодателей.

 Источник изображения: Daniel Romero / Unsplash

Источник изображения: Daniel Romero / Unsplash

По сообщению Reuters, компания Apple достигла предварительного соглашения по делу о нарушении конфиденциальности, в рамках которого пользователи могут получить до $20 за каждое устройство с Siri, которым они пользовались.

Голосовые помощники обычно активируются с помощью «горячих фраз» вроде «Привет, Siri». Однако истцы указали, что даже случайные упоминания определённых брендов или тем в дальнейшем вызывали показ таргетированной рекламы. Например, два заявителя сообщили, что после обсуждения кроссовок Air Jordan и ресторанов Olive Garden им стала предлагаться реклама этих продуктов. Другой истец заявил, что получил прицельную рекламу медицинского характера после разговора с врачом, который, как он считал, был полностью приватным. Иск охватывает период, который начинается с 17 сентября 2014 года и заканчивается 31 декабря 2024 года, когда в Siri была внедрена функция «Привет, Siri».

По предварительным оценкам, участниками коллективного иска являются десятки миллионов человек, которые могут получить до 20 долларов за каждое устройство с поддержкой Siri, например iPhone и Apple Watch. Apple, в свою очередь, отрицает какие-либо нарушения, но согласилась на урегулирование для избежания дальнейших судебных разбирательств. Представители Apple и их юристы пока не ответили на запросы о комментариях.

Юристы истцов также не предоставили комментариев, но, как ожидается, они запросят до $28,5 млн в качестве гонораров и $1,1 млн на покрытие расходов из фонда урегулирования. Примечательно, что $95 млн, выделенные на урегулирование, составляют всего девять часов прибыли Apple.

Стоит отметить, что аналогичный иск от имени пользователей голосового помощника Google находится на рассмотрении в суде, а истцов в обоих делах представляют одни и те же юридические фирмы. Дело против Apple, зарегистрированное под номером 19-04577, может стать важным прецедентом в вопросах конфиденциальности и использования персональных данных голосовыми помощниками.

В комментариях на YouTube появились голосовые сообщения — это должно сблизить блогеров и зрителей

Платформа YouTube экспериментирует с новой функцией голосовых ответов в комментариях. Небольшая группа блогеров получила возможность оставлять голосовые заметки или отвечать на комментарии пользователей к своим видео голосовыми сообщениями.

 Источник изображения:  Alexander Shatov / unsplash.com

Источник изображения: Alexander Shatov / unsplash.com

Возможность публиковать голосовые заметки в настоящий момент доступна только определённым авторам YouTube-каналов из США. При этом публикация голосовых комментариев возможна только через приложение YouTube для iOS и только на собственном канале.

 Источник изображения: Techcrunch

Источник изображения: Techcrunch

Авторы каналов, у которых включена эта функция, могут нажать на новый значок звуковой волны во время ответа на комментарий, записать свой ответ и опубликовать его как голосовой комментарий. Хотя возможность записать и оставить голосовой комментарий сейчас доступна только ограниченному количеству авторов каналов, послушать эти голосовые заметки могут все пользователи платформы. Для них также доступна кнопка расшифровки голосового сообщения под заметкой, чтобы прочитать оставленный автором канала комментарий, если не хочется воспроизводить голосовую заметку.

Платформа рассчитывает, что эксперимент приведёт к «более тесным отношениям» между блогерами и их фанатами в будущем. YouTube продолжает расширять набор функций для взаимодействия между авторами и их поклонниками. В марте этого года платформа добавила возможность делиться эксклюзивными короткими видео с подписчиками. В сентябре на платформе был запущен чат для подписчиков того или иного автора.

Поговорить с ChatGPT теперь можно в веб-версии сервиса — там появился голосовой интерфейс Advanced Voice Mode

Компания OpenAI запустила голосовой интерфейс Advanced Voice Mode в веб-версии сервиса ChatGPT. Об этом через свою страницу в соцсети X сообщил директор по продуктам компании Кевин Вейл (Kevin Weil). Продвинутый голосовой интерфейс по-прежнему доступен только платным пользователям ChatGPT.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Голосовой интерфейс Advanced Voice Mode стал доступен для владельцев подписок Plus, Enterprise, Teams или Edu теперь и в веб-версии сервиса ChatGPT. С момента своего дебюта в сентябре продвинутый интерфейс был доступен только в мобильной версии ChatGPT для iOS и Android.

Голосовой интерфейс Advanced Voice Mode использует аудиовозможности ИИ-модели GPT-4o, предлагая естественное общение в реальном времени между пользователем и ChatGPT. Чат-бот способен понимать и реагировать на невербальные сигналы пользователя, включая такие вещи, как скорость речи. Кроме того, он может реагировать с «эмоциями».

Для начала разговора в веб-версии чат-бота необходимо выбрать значок «Голос» в правом нижнем углу у поля ввода запросов к ChatGPT. Затем необходимо предоставить браузеру разрешение на доступ к микрофону вашего компьютера. После начала голосового чата пользователь попадёт на экран с синим шаром в центре.

Функция предлагает на выбор один из девяти голосов для ChatGPT, каждый из которых имеет свой собственный тон и характер. Например, можно выбрать «лёгкий и универсальный стиль Arbor» или «уверенный и оптимистичный Ember».

По словам Вайля, OpenAI планирует «в ближайшие недели» внедрить голосовой формат общения с ChatGPT и для бесплатных пользователей. Владельцы подписок Plus и Team могут использовать голосовой формат Advanced Voice Mode лишь определённое количество времени в сутки.

Система уведомит, когда у пользователя останется последние 15 минут ежедневного доступа к голосовому общению с ИИ-ботом. Бесплатным пользователям будет предлагаться доступ на непродолжительное время для знакомства с функцией.

Голосовой помощник VK «Маруся» заговорит другим голосом

Стало известно, что голосовой помощник VK «Маруся» изменит голос, а случится это уже в начале следующего года. Об этом пишет РИА «Новости» со ссылкой на осведомлённый источник, близкий к компании.

 Источник изображения: ilgmyzin / unsplash.com

Источник изображения: ilgmyzin / unsplash.com

«Новая актриса записала уже около половины необходимых часов, и в начале 2025 года пользователи услышат новый голос "Маруси"», — сообщил источник.

В сообщении сказано, что в течение последних месяцев эксперты VK проводили количественные и качественные исследования, анализировали восприятие голоса и соответствие основным ценностям персонажа «Маруся». В дополнение к этому они сравнили звучание «Маруси» с аналогами от конкурентов. Отмечается, что компания планирует сохранить «доброту, позитивный настрой и тёплый обволакивающий тембр», которые уже есть в нынешнем звучании голосового помощника.

Представитель VK подтвердил, что голос «Маруси» изменится в следующем году. В настоящее время голосовой помощник общается голосом Елены Соловьёвой, которая, помимо прочего, озвучивала Тринити из «Матрицы». Сам же голосовой помощник VK работает с 2019 года и к текущему времени интегрирован с многими сервисами Mail.ru Group, а также колонками «VK Капсула». В дополнение к этому «Маруся» встроена в колонки Xiaomi Mi Smart Speaker для российского рынка и Prestigio SmartVoice.

Сервис простой интеграции голосового ИИ для малого и среднего бизнеса появился в России

Группа компаний Fromtech (в которую входят ООО «ФРОМТЕК» и ООО «СМАРТДИАЛОГС») анонсировала запуск инструмента для быстрой и эффективной интеграции голосовых ассистентов для компаний малого и среднего бизнеса. Платформа SmartDialogs, построенная на базе технологий и экспертизы Fromtech, помогает автоматизировать взаимодействие с клиентами, упрощая коммуникации и снижая затраты. Оператором платформы выступает дочерняя компания SmartDialogs.

 Источник изображения: Fromtech

Источник изображения: Fromtech

SmartDialogs позволяет быстро интегрировать голосового ассистента в бизнес любой отрасли и масштаба — от индивидуальных предпринимателей до микропредприятий. Платформа предлагает готовые шаблоны голосовых роботов, уже проверенные крупнейшими компаниями России в различных отраслях (телеком, банки, ритейл, медицина) —действующими клиентами Fromtech.

«Основная миссия SmartDialogs — это быстрая и качественная доставка высоких технологий для небольших и средних предприятий. За более чем 5 лет во Fromtech мы накопили значительную экспертизу в интеграции ИИ в различные сферы отечественного Enterprise. Однако мы видим колоссальную потребность в этих технологиях и у представителей сегмента МСП и просто не можем не поделиться нашим опытом, предлагая доступные и эффективные решения для оптимизации клиентского сервиса и снижения операционных затрат. Именно поэтому мы создали SmartDialogs — платформу, ориентированную на конечных пользователей, которым нужно быстрое и удобное решение для интеграции голосового ИИ без дополнительных затрат на разработчиков. Интерфейс платформы понятен и не перегружен лишними деталями, что позволяет даже неподготовленным пользователям легко настроить бота и разобраться в структуре ценообразования», — рассказал технический директор Fromtech Александр Цепелев.

SmartDialogs предлагает максимально упрощённый процесс создания робота – несколько понятных шагов.

  1. Выбор шаблона. Пользователь выбирает подходящий шаблон для своего сценария взаимодействия.
  2. Настройка переменных. Вводится информация, которая индивидуализирует выбранного бота под конкретного пользователя и его потребности.
  3. Выбор голоса. Пользователь может выбрать синтезированный голос или заказать озвучку диктором.
  4. Проведение тестового звонка. Пользователь может протестировать робота, совершив тестовый звонок на свой номер.
  5. Запуск бота. После всех настроек робот готов к приему или совершению звонков.

Платформа предлагает несколько тарифных планов, включая базовую минимальную подписку, которая позволяет одновременно использовать один шаблон робота. Расширенные тарифные планы включают приоритетную техническую поддержку и неограниченное количество создаваемых роботов. Также доступна возможность озвучки робота голосом диктора.

«В ближайших планах — адаптировать больше проектов для использования на платформе и добавить новые сценарии. Этим займутся проектные команды компании, а пользователи смогут оставлять запросы на разработку новых шаблонов, которые будут добавляться в маркетплейс решений. В ближайших релизах также планируется внедрение ассистентов на базе технологий генеративного искусственного интеллекта, позволяющих создавать голосовых роботов без использования шаблонов. Достаточно будет описать задачу, и большие языковые модели (LLM) вместе с другими модулями самостоятельно создадут нужного бота. Этот функционал уже готов на 80% и скоро станет доступен первым пользователям», — поделился технический директор Fromtech Александр Цепелев.

Роскомнадзор собирается блокировать звонки в иностранных мессенджерах — для борьбы с мошенниками

Глава Роскомнадзора Андрей Липов сообщил в кулуарах конференции «Спектр-2024», что в России могут разработать комплекс требований к иностранным мессенджерам для защиты граждан от мошенников. В результате ведомство получит возможность блокировать в мессенджерах голосовой трафик, сохранив остальные возможности общения. «Это жёсткий вариант, который возможен как одна из мер», — отметил Липов.

 Источник изображений: Роскомнадзор

Источник изображений: Роскомнадзор

По мнению Липова «мессенджер должен будет дать возможность гражданину самостоятельно ограничить принятие тех или иных звонков: из-за границы или не из его записной книжки». Пока эти требования не будут выполнены, Роскомнадзор установит временный запрет на все звонки через платформу. «Условно говоря — пока не выполнил, звонить через тебя не смогут. Это отдельное регулирование, которое нужно продумывать. Оно на полях форума будет дополнительно обсуждаться», — пояснил глава РКН.

Первые предложения об ограничении голосового трафика в мессенджерах, не проверяющих достоверность номеров телефона, появились в начале лета. Начальник управления контроля и надзора в сфере связи Роскомнадзора Максим Прыткин счёл необходимым разработку механизма взаимодействия операторов связи с любыми платформами, использующими номер телефона в качестве идентификатора. Он полагает, что «для мессенджеров, которые откажутся от проверки достоверности номеров совместно с операторами связи, возможно применение мер по запрету совершения через них голосовых вызовов на территории России».

Роскомнадзор и операторы связи много лет с переменным успехом борются с мошенническими звонками. В частности, массовая миграция мошеннических звонков в мессенджеры произошла после внедрения летом 2024 года системы «Антифрод», созданной для противодействия телефонным злоумышленникам. К настоящему времени к этой системе подключено 1167 операторов, что составляет 99,5 % от всех провайдеров услуг телефонии, располагающих номерами в России.

По информации от замглавы Роскомнадзора Олега Терлякова, «Антифрод» не может проверять вызовы с зарубежных телефонных номеров, в связи с чем планируется дать абонентам возможность полной блокировки вызовов из-за рубежа, либо ограничение их номерами из специального списка.

По сообщению РКН, сохраняется актуальность дальнейшей идентификации владельцев сим-карт, также планируется усилить контроль за распространением «симок». С 2025 года будет ограничено количество сим-карт на одного владельца — для граждан России лимит составит 20 сим-карт, для иностранцев — 10.

Переосмысленная Amazon Alexa будет использовать ИИ-модели Anthropic Claude и станет платной

Готовящаяся к выходу новая версия голосового помощника Alexa, получившая в компании названия Remarkable Alexa и Project Banyan, будет использовать ИИ-модели Claude от Anthropic, а не собственные ИИ-технологии Amazon, пишет Reuters со ссылкой на информированные источники. Как ожидается, Alexa 2 выйдет в октябре, а превью сервиса представят в сентябре на ежегодном мероприятии Amazon.

 Источник изображений: aboutamazon.com

Источник изображений: aboutamazon.com

По словам одного из источников, первым версиям обновлённого помощника Alexa на базе собственных ИИ-технологий Amazon, иногда требовалось шесть или семь секунд, чтобы подтвердить получение запроса и ответить. Поэтому Amazon решила использовать Claude, чат-бот на основе ИИ стартапа Anthropic, который показал себя лучше, чем собственные ИИ-модели компании.

Нынешняя версия Alexa позволяет устанавливать таймеры, воспроизводить музыку, выступать в качестве центрального узла для управления умным домом и отвечать на вопросы. Вместе с тем попытки Amazon убедить пользователей совершать с помощью голосового помощника покупки, что позволило бы увеличить доход, не увенчались успехом, и подразделение по разработке Alexa остаётся убыточным.

В отличие от нынешней бесплатной версии голосового помощника, Remarkable Alexa будет доступен по подписке стоимостью от $5 до $10 в месяц. Платная версия Alexa будет предлагать более продвинутые функции, включая ведение разговоров, основанных на предыдущих вопросах и ответах. Она также будет давать советы по покупкам, собирать новости и выполнять более сложные запросы, такие как заказ еды или составление писем. Кроме того, новая Alexa будет служить центром домашней автоматизации, запоминая предпочтения клиентов и выполняя такие задачи, как установка будильника или запись любимых телешоу.

Сотрудники Amazon выражают сомнение по поводу готовности клиентов платить от $60 до $120 в год за услугу, которая сейчас бесплатна. Тем не менее Amazon стремится показать потенциал Alexa в получении доходов и делает ставку на обновлённую версию умного помощника как ключевую стратегию для достижения этой цели.

Amazon не раскрывает количество активных пользователей Alexa. По данным аналитика Bank of America Джастина Поста (Justin Post), аудитория Alexa составляет около 100 млн человек. Согласно прогнозу аналитика, около 10 % пользователей может выбрать платную версию Alexa, что означает для компании не менее $600 млн дополнительного годового дохода.

Amazon вот-вот выпустит платную Alexa с ИИ — она должна компенсировать убытки от устройств Echo

В апреле 2024 года генеральный директор Amazon Энди Джесси (Andy Jassy) пообещал акционерам «более умную и способную Alexa». План Amazon по запуску платной версии Alexa является попыткой компенсировать убытки в размере $25 млрд, которые её бизнес по производству устройств понёс в период с 2017 по 2021 год. Продажи Alexa с ИИ могут начаться в ближайшее время, месячная подписка будут стоить $10. По слухам, разработчики сомневаются в успехе обновлённой Alexa.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Согласно инсайдерской информации, подразделение приближается к крайнему сроку запуска подписки, хотя «технологии ещё нет». Впервые о планах Amazon взимать плату за улучшенную версию Alexa было объявлено в прошлом году. Но компания, как сообщается, сильно отстаёт — в прошлом месяце в отчёте Fortune говорилось, что Alexa даже близко не подошла к «выполнению миссии Amazon — стать лучшим личным помощником в мире», поскольку команда сталкивается с техническими и организационными проблемами.

Сервис Alexa — любимый проект основателя Amazon Джеффа Безоса (Jeff Bezos), который придумал эту технологию, имитируя вымышленный голосовой компьютер из телевизионного сериала «Звёздный путь». Доступ к Alexa осуществляется через телевизоры Amazon и умные колонки Echo. Alexa в основном используется в качестве будильника, прогноза погоды, для воспроизведения музыки и ответов на простые вопросы. Надежды Amazon на увеличение продаж в сфере электронной коммерции с помощью этого сервиса не оправдались.

Предполагается, что новая версия Alexa будет дополнена генеративными функциями ИИ, которые позволят ей выполнять несколько задач за одну подсказку и создавать последовательности действий. «Мы уже интегрировали генеративный ИИ в различные компоненты Alexa и усердно работаем над их развёртыванием более чем на полумиллиарде устройств с поддержкой Alexa, установленных в домах по всему миру, чтобы обеспечить ещё более проактивную, персональную и надёжную помощь для наших клиентов», — заявил представитель Amazon.

Сотрудники компании сомневаются, что клиенты захотят платить за подписку на Alexa с ИИ сверх оплаты членства Amazon Prime в размере $139 в год. Поскольку базовые версии ИИ-помощников, такие как ChatGPT, Google Gemini, а вскоре и Siri, не требуют никаких затрат в использовании, Amazon может столкнуться с трудностями взимания платы за Alexa.

Для Amazon крайне важно идти в ногу с конкурентами в области генеративного ИИ, поскольку Google, Microsoft и OpenAI вырвались далеко вперёд благодаря чат-ботам, мгновенно отвечающим на естественном языке на сложные вопросы. Осведомлённые источники утверждают, что Amazon страдает от «неоднократных фальстартов» в разработке, проблем с галлюцинациями ИИ и плохого морального состояния сотрудников в подразделении.

Бета WhatsApp для Android теперь может превращать голосовые сообщения в текст, в том числе на русском

В тестовой версии приложения WhatsApp для Android появилась функция расшифровки голосовых сообщений в текст, пишет портал WABetaInfo. Возможность была добавлена в последнюю бета-версию 2.24.15.5 и пока доступна только ограниченному числу пользователей. Но это означает, что в обозримом будущем эта полезная функция может появиться и в стабильной версии мессенджера.

 Источник изображений: WABetaInfo

Источник изображений: WABetaInfo

Первоначально транскрибирование голосовых сообщений появилось в WhatsApp в мае 2023 года, но только для пользователей устройств на базе операционной системы iOS.

В настоящий момент функция расшифровки голосовых сообщений в текст поддерживает английский, испанский, португальский (Бразилия), русский и хинди. В перспективе разработчики мессенджера добавят для неё поддержку и других языков. Транскрибирование будет выполняться непосредственно на гаджете, без необходимости отправки сообщения на сторонний сервер, что повышает безопасность процесса.

Сейчас функция доступна только ограниченному числу пользователей в некоторых странах, где широко распространены или поддерживаются перечисленные выше языки. Когда нововведение заработает у всех пользователей WhatsApp, не уточняется.

Audi интегрирует ChatGPT в свои автомобили — это расширит голосовое управление

Audi внедряет ChatGPT в свою информационно-развлекательную систему MIB3 для расширения возможностей голосового управления. С июля около двух миллионов автомобилей Audi, выпущенных с 2021 года, включая Audi A3, получат обновлённые функции. Новые модели, такие как Q6 e-tron, также будут оснащены ChatGPT.

 Источник изображения: Audi

Источник изображения: Audi

Интеграция ChatGPT в систему MIB3 открывает новые, ранее недоступные возможности, сообщает в своём блоге компания. Водители Audi смогут использовать расширенное голосовое управление для работы с информационно-развлекательной системой, навигацией и системой кондиционирования воздуха, а также задавать общие вопросы. Возможность запрашивать информацию в реальном режиме времени, не отвлекаясь от дороги, делает вождение безопаснее.

ChatGPT предоставляется через Azure OpenAI Service, а в основе новой функции лежит технология Chat Pro от компании Cerence, которая непосредственно занимается интеграцией чат-бота в Audi Assistant на новой архитектуре E 3 1.2.

Маркус Кит (Marcus Keith), вице-президент по развитию информационно-развлекательных систем в Audi, отмечает, что благодаря бесшовной интеграции ChatGPT в систему голосового управления были объединены сильные стороны технологий ChatGPT и Chat Pro. «Помимо широкого спектра голосовых функций, наши клиенты теперь получат простой и безопасный доступ к базе знаний на основе ИИ. Это ещё один шаг к созданию премиального пользовательского опыта в автомобилях Audi», — сказал он.

Чтобы активировать помощника, надо сказать «Hey Audi» или нажать кнопку push-to-talk на рулевом колесе. В зависимости от вопроса или команды, ИИ-помощник определит, что именно он должен сделать. Если система не может справится с заданием, она перенаправит его ChatGPT. В будущем также станет возможным задавать вопросы о техническом состоянии автомобиля, например, о давлении в шинах.

Компания Audi стремится шагать со временем в ногу и максимально использовать потенциал искусственного интеллекта, предлагая услуги и продукты для улучшения пользовательского взаимодействия с автомобилем, а также в бизнес-процессах. В частности, ИИ используется для решений, касающихся дизайна интерьера, поддержки контроля качества в производстве. Компания заявляет, что также привержена ответственному использованию ИИ в соответствии с принципами этики и регламента ЕС, касающегося искусственного интеллекта, а её сотрудники проходят обучение для использования ИИ в соответствии с современными стандартами и с учётом будущих потребностей.

OpenAI отложила запуск голосового помощника, чтобы он не наговорил лишнего

OpenAI отложила запуск долгожданной функции голосового помощника ChatGPT в стремлении гарантировать, что он сможет безопасно и эффективно обрабатывать запросы миллионов пользователей. Первоначально запуск функции намечался на конец июня — теперь его перенесли примерно на месяц.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Голосовой интерфейс чат-бота OpenAI анонсировала в мае на мероприятии, посвящённом обновлённой модели искусственного интеллекта GPT-4o, которая более эффективно обрабатывает текст, звук и изображения в реальном времени. Компания сообщила, что первоначально рассчитывала запустить голосового помощника для небольшого числа подписчиков ChatGPT Plus, но приняла решение потратить ещё месяц, чтобы «достичь нашей планки для запуска».

«Мы совершенствуем способность модели обнаруживать и отклонять определённый контент. Мы также работаем над повышением качества работы системы и готовим инфраструктуру к масштабированию для обеспечения выдачи ответов в реальном времени», — сообщила OpenAI. Это не самое приятное решение для компании, которая стремится сохранить лидерство в жёсткой конкурентной среде.

Всем платным подписчикам голосовой помощник, согласно плану, должен стать доступным осенью. OpenAI также рассказала, что готовится развернуть для чат-бота поддержку видео и трансляции экрана — более подробно об этих функциях она пообещала рассказать позже. В результате с выходом голосового помощника его возможности будут ограничены в сравнении с версией, которую компания демонстрировала на презентации в мае. К примеру, не будет работать функция компьютерного зрения, которая помогла ИИ консультировать пользователя по танцевальным движениям.


window-new
Soft
Hard
Тренды 🔥
Психогеографическая ролевая игра Hopetown в духе Disco Elysium и Planescape: Torment вышла из тени — опубликован первый скриншот 48 мин.
«Дико заинтригован»: новый грандиозный трейлер раскрыл дату выхода Death Stranding 2: On the Beach 2 ч.
Властям США подобрали для американского бизнеса TikTok четырёх покупателей 5 ч.
В фэнтезийной стратегии Age of Wonders 4 уже с 1 апреля можно будет буквально грабить караваны 18 ч.
Новая статья: Like a Dragon: Pirate Yakuza in Hawaii — якудза в треуголке. Рецензия 09-03 00:00
В двух регионах РФ заблокировали Telegram — в Госдуме заверили, что на всю страну меры пока что не распространятся 08-03 23:15
ИИ-боты выяснили, кто из них лучше всех играет в «Мафию» — не обошлось без странностей 08-03 12:48
Microsoft создаст суверенный «рассуждающий» ИИ, который сможет потягаться с OpenAI и DeepSeek 08-03 12:17
«Нам потребуется больше времени»: поумневшая Siri задержится до 2026 года, подтвердила Apple 08-03 11:14
Сотрудник производителя DVD с фильмами продавал диски пиратам до релиза — теперь ему грозит 20 лет тюрьмы 08-03 08:52
Одноплатный компьютер Orange Pi RV2 получил загадочный RISC-V процессор Ky X1 с ИИ-ускорителем 11 мин.
Liebherr придумала двухколёсный беспилотный электрический самосвал с грузоподъёмностью до 140 т 33 мин.
Представлен смартфон Vivo Y300i — экран 120 Гц и батарея на 6500 мА·ч за $207 34 мин.
Из-за слабого прогноза акции Marvell пережили самое большое падение за 24 года 4 ч.
К2 НейроТех: российский рынок HPC за два года вырос на 35 % 4 ч.
Apple отложила выпуск умного дисплея HomePad и разрешила сотрудникам тестировать прототипы дома 8 ч.
Новая статья: Топ-12 экстраординарных гаджетов на MWC 2025: солнечный ноутбук, ПК с человеческим мозгом и не только 11 ч.
Новая статья: Обзор материнской платы MSI Z890 GAMING PLUS WIFI: флагманский чипсет — низкая цена в классе 12 ч.
Излишки серверов, новые пошлины и неудавшаяся сделка с Juniper: HPE снизила финансовый прогноз на следующий квартал 13 ч.
Micron показала самый быстрый SSD в мире — с PCIe 6.0 и скоростью до 27 Гбайт/с 20 ч.