Сегодня 22 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии-агент

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

ИИ отправит на свалку истории поисковики и браузеры, считает глава Microsoft AI

Разработчики генеративных нейросетей, такие как Google и OpenAI, уверены, что в скором будущем пользователи будут делегировать обработку интернет-запросов и выполнение разных задач чат-ботам или ИИ-агентам. Глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman) считает, что ИИ-алгоритмы смогут заменить веб-браузеры, а некоторые эксперты предсказывают, что со временем подобные приложения станут похожими на операционные системы.

 Источник изображений: techspot.com

Источник изображений: techspot.com

В беседе с журналистами портала The Verge Сулейман рассказал о будущем, в котором диалоговые генеративные ИИ-интерфейсы могут сделать обычные веб-браузеры устаревшими. Однако, прежде чем эта концепция будет реализована на практике, технология должна преодолеть массу препятствий. Он выразил уверенность в дальнейшем развитии ИИ, но умерил ожидания в отношении искусственного интеллекта общего назначения (Artificial General Intelligence), который также называют сильным ИИ, способным решать задачи наравне с человеком.

Сулейман считает, что в нынешнем виде процесс взаимодействия с поисковыми системами является слишком громоздким. По его мнению, гораздо более удобно делать запросы в приложении Copilot на своём iPhone. По мнению Сулеймана, ИИ-помощники с интерфейсами, сгенерированными нейросетями, смогут заменить традиционные поисковые системы и браузеры в течение трёх-пяти лет.

Если разработчики перепроектируют веб-порталы таким образом, чтобы на них можно было размещать ИИ-агентов, то такие агенты смогут выполнять запросы, взаимодействуя с другими ИИ-системами. Однако при таком сценарии не совсем понятно, сможет ли ИИ корректно находить точные ответы на запросы, и что произойдёт с доходами от рекламы, когда люди перестанут переходить по веб-сайтам. Сулейман не стал заострять внимание на этих вопросах, сказав, что Microsoft добилась значительного прогресса в минимизации количества галлюцинаций ИИ, которые являются основной проблемой ИИ-агентов.

Отраслевой аналитик Ом Малик (Om Malik) считает, что приложения на основе генеративного ИИ могут пойти ещё дальше. В недавней публикации он высказался об ограничениях традиционных браузеров в мире, где всё больше доминируют технологии дополненной и виртуальной реальности, а также искусственный интеллект. Браузеры не сильно изменились с момента их появления, они построены вокруг «интернета, ориентированного на документы». Появление генеративных нейросетей и диалоговых систем бросает вызов этим устоям. Потенциально ИИ способен фрагментировать веб-страницы в интерактивные, персонализированные потоки информации, что не соответствует первоначальным целям браузеров.

Нечто похожее тестирует Google в рамках проекта Project Jarvis, участники которого создали ИИ-агента, способного ограниченно контролировать курсор мыши и браузер пользователя для автоматизации процесса выполнения ряда задач. Бывшие сотрудники Google также работают над созданием работающей онлайн операционной системы на базе ИИ.

Microsoft хочет, чтобы у каждого человека был ИИ-помощник, а у каждого бизнеса — ИИ-агент

На ежегодной конференции Microsoft Ignite компания представила своё видение рабочего процесса на ПК в будущем, связанное с использованием искусственного интеллекта Copilot. Microsoft намерена сделать Copilot не просто вспомогательной функцией, а центральным элементом работы пользователей, объединяющим множество агентов для выполнения различных задач.

 Источник изображения: Copilot

Источник изображения: Copilot

Copilot станет своеобразным суперприложением, через которое пользователи смогут выполнять большую часть задач, поясняет PCMag. Открыв Copilot, пользователь увидит два основных режима — Work и Web. В режиме Work Copilot получает доступ к данным Microsoft Graph, включая электронные письма, чаты в Teams и документы в SharePoint для выполнения задач на основе контекста. Например, для создания списка задач или формирования предложений для совместной работы через инструмент Bizchat.

Пользователь может поручать Copilot много различных задач, которые часто выполняются специальными ИИ-агентами, представляющими из себя либо стандартных агентов Microsoft, либо специфических, созданных компаниями. По сути это то, что имел в виду генеральный директор Microsoft Сатья Наделла (Satya Nadella), когда говорил: «Copilot — это пользовательский интерфейс для ИИ». Именно поэтому на конференции неоднократно звучала фраза: «У каждого человека должен быть Copilot, и у каждого бизнес-процесса свой ИИ-агент».

Стоит отметить, что Copilot и так уже демонстрирует на сегодня впечатляющие возможности. Например, пользователь может попросить его подготовить повестку для встречи, проанализировав переписку и документы, связанные с участниками. Полученный документ можно отредактировать и отправить коллегам через Bizchat для совместной работы. Также Microsoft представила агентов с узкой специализацией, таких как переводчик, HR-агент, фасилитатор и проектный менеджер.

Переводчик выполняет синхронный перевод с сохранением интонации и тембра голоса. HR-агент способен отвечать на вопросы сотрудников о корпоративных политиках или предоставлять информацию о зарплате и льготах. Проектный менеджер поможет в создании плана проекта. И наконец, фасилитатор будет вести заметки во время встреч в Teams и создавать список задач. Несмотря на то, что эти инструменты находятся на стадии предварительного тестирования, они уже вызывают интерес, благодаря своему потенциалу по снижению затрат и улучшению бизнес-процессов.

Стоит сказать, что внедрение Copilot одновременно связано с рядом вызовов. Как отметил Херайн Оберой (Herain Oberoi), генеральный менеджер по безопасности данных, переход к ИИ-инструментам открывает новые уязвимости. Для решения этой проблемы Microsoft предлагает обновлённый пакет инструментов безопасности, включая Purview Data Loss Prevention, который позволяет классифицировать данные и управлять доступом, также будет внедрена система защиты от предвзятости ИИ-моделей и запрещённого контента. При этом администраторы смогут контролировать, какие ИИ-модели должны использоваться, а какие нет, из более чем 1800 доступных на платформе Azure.

OpenAI планирует выпустить ИИ-агента Operator в январе — он сможет управлять ПК без пользователя

Компания OpenAI готовится к выпуску нового ИИ-агента под кодовым названием Operator, который позволит выполнять разнообразные задачи на компьютере пользователя. Релиз этого инструмента может состояться уже в январе 2025 года.

 Источник изображения: OpenAI

Источник изображения: OpenAI

На первом этапе упомянутое решение будет доступно в качестве предварительной исследовательской версии через API для разработчиков. Operator призван конкурировать с аналогичными ИИ-агентами, такими как недавно представленный Computer Use компании Anthropic и разрабатываемый ИИ-агент Google, ориентированный на потребительский рынок.

OpenAI стремится создать универсальный инструмент, способный выполнять различные операции в веб-браузере и подходящий для решения повседневных задач пользователей. Однако, как отмечает издание Bloomberg, пока неизвестно, предложит ли Operator пользователям значительные преимущества перед аналогичными решениями конкурентов. Исследовательская версия инструмента будет полезна для оценки его потенциальных преимуществ и выявления областей, требующих доработки на основе обратной связи.

Запуск Operator совпадает с публикацией документа OpenAI, содержащего рекомендации для правительства США по вопросам стратегии развития ИИ. В этом документе предлагается создание «экономических зон» для активного развития ИИ-инфраструктуры, а также формирование альянсов с союзниками США, что позволит усилить позиции страны в технологической гонке с Китаем.


window-new
Soft
Hard
Тренды 🔥
Саудовская Аравия привлечёт роботов для строительства футуристического мегаполиса в пустыне 11 мин.
Облако Vultr привлекло на развитие $333 млн при оценке $3,5 млрд 4 ч.
Разработчик керамических накопителей Cerabyte получил поддержку от Европейского совета по инновациям 4 ч.
Вышел первый настольный компьютер Copilot+PC — Asus NUC 14 Pro AI на чипе Intel Core Ultra 9 6 ч.
Foxconn немного охладела к покупке Nissan, но вернётся к этой теме, если слияние с Honda не состоится 11 ч.
В следующем году выйдет умная колонка Apple HomePod с 7-дюймовым дисплеем и поддержкой ИИ 11 ч.
Продажи AirPods превысили выручку Nintendo, они могут стать третьим по прибыльности продуктом Apple 12 ч.
Прорывы в науке, сделанные ИИ в 2024 году: археологические находки, разговоры с кашалотами и сворачивание белков 20 ч.
Arm будет добиваться повторного разбирательства нарушений лицензий компанией Qualcomm 24 ч.
Поставки гарнитур VR/MR достигнут почти 10 млн в 2024 году, но Apple Vision Pro занимает лишь 5 % рынка 21-12 16:44