Сегодня 22 февраля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии-агент
Быстрый переход

Microsoft представила ИИ-агента Magma для управления приложениями и реальными роботами

Разработчики из Microsoft Research представили мультимодальную языковую ИИ-модель Magma, которая способна обрабатывать визуальные и текстовые данные для управления программными интерфейсами и роботизированными системами. Если алгоритм после тестирования выйдет за пределы Microsoft, то это может стать важным шагом на пути к созданию универсального мультимодального ИИ, способного работать как в цифровом, так и в реальном пространстве.

 Деомнтсрация того, как Magma управляет роботизированной рукой / Источник изображения: Microsoft Research

Демонстрация того, как Magma управляет роботизированной рукой / Источник изображения: Microsoft Research

Microsoft утверждает, что Magma является первой ИИ-моделью, которая способна не только обрабатывать мультимодальные данные (например, текст, изображения, видео), но и умеет выполнять действия на их основе, будь то навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Разработка алгоритма Magma велась совместными усилиями разработчиков из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Ранее уже были реализованы проекты в сфере робототехники, основой которых становились большие языковые модели (LLM). К таким работам можно отнести проекты PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, где ИИ-системы были задействованы для управления программными интерфейсами.

 Комбинированный график, демонстрирующий возможности Magma / Источник изображения: Microsoft Research

Комбинированная схема, демонстрирующая возможности Magma / Источник изображения: Microsoft Research

В отличие от многих уже созданных мультимодальных алгоритмов, требующих использования отдельных моделей для восприятия и управления, в Magma эти способности объединены внутри единой базовой ИИ-модели. Microsoft позиционирует Magma, как существенный шаг на пути создания единого ИИ-агента, т.е. системы, способной автономно разрабатывать планы действий и выполнять многоэтапные задачи от имени человека, а не просто отвечать вопросы о том, что она видит.

«Учитывая описанную цель, Magma способна формулировать планы и выполнять действия для их достижения. Эффективно передавая знания, извлекаемые из свободно доступных визуальных и языковых данных, Magma объединяет вербальный, пространственный и временной алгоритмы для навигации по сложным задачам и обстановке», — говорится в сообщении исследователей из Microsoft.

 Источник изображения:  Microsoft Research

Источник изображения: Microsoft Research

ИИ-модель Magma включает в себя два технических компонента: Set-of-Mark (идентифицирует объекты, которыми можно манипулировать в среде, присваивая цифровые метки интерактивным элементам, таким как нажимаемые кнопки в пользовательском интерфейсе или захватываемые объекты в рабочем пространстве роботов) и Trace-of-Mark (позволяет алгоритму выполнять такие задачи, как навигация по пользовательским интерфейсам или управление роботизированными руками для захвата и перемещения объектов).

Один из участников проекта рассказал, что название алгоритма Magma расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch). В описании алгоритма Microsoft утверждает, что Magma-8B демонстрирует конкурентоспособные результаты в бенчмарках, показывая высокие результаты в задачах навигации по пользовательскому интерфейсу и манипулировании роботами.

Так в бенчмарке VQAv2 алгоритм Magma получил 80,0 баллов за визуальные ответы на вопросы, что выше результата GPT-4V (77,2 балла), но ниже показателя LLaVA-Next (81,8 балла). Показатель алгоритма POPE в 87,4 балла в настоящее время является абсолютно лучшим среди ИИ-моделей, участвовавших в сравнении. Отмечается, что в сфере манипулирования роботами Magma превосходит OpenVLA.

 Источник изображения: Microsoft Research

Источник изображения: Microsoft Research

По заявлениям разработчиков, Magma отличается от аналогов вроде GPT-4V тем, что выходит за рамки так называемого «вербального интеллекта» и включает в себя «пространственный интеллект», т.е. возможность планирования и выполнения действий. Обучаясь на смеси изображений, видео, робототехнических данных и взаимодействий с пользовательским интерфейсом, Magma, по сути, является полноценным мультимодальным ИИ-агентом, а не просто перцептивной моделью.

Как и все ИИ-модели, Magma не совершенна. Документация Microsoft указывает на то, что алгоритм по-прежнему сталкивается с техническими ограничениями при принятии сложных пошаговых решений, требующих многократного выполнения действий в течение определённого времени. Microsoft продолжает работать над улучшением алгоритма. Софтверный гигант намерен выложить исходный код Magma и другую документацию на GitHub, чтобы сторонние исследователи могли использовать эти наработки для реализации собственных проектов.

Rabbit показала в деле ИИ-агента, который так и не попал в ИИ-заменитель смартфона Rabbit R1

Компания Rabbit представила новую версию ИИ-агента, предназначенного для управления приложениями в среде Android. Опубликованный видеоролик демонстрирует, как агент взаимодействует с интерфейсами мобильных приложений, выполняя запросы. Однако эти функции изначально были обещаны для устройства Rabbit R1, которое так и не получило заявленных возможностей.

 Источник изображения: Rabbit

Источник изображения: Rabbit

Разработка основана на ранее представленной платформе LAM Playground — универсальном веб-агенте, выпущенном в 2023 году. В видеоролике инженеры демонстрируют, как система выполняет команды, аналогичные тем, что более года назад были анонсированы для Rabbit R1. Однако сам R1, несмотря на маркетинговые заявления основателя и генерального директора компании Rabbit Джесси Лю (Jesse Lyu) в январе 2024 года, не поддерживает этих возможностей.

В ходе демонстрации инженеры вводят текстовые команды в интерфейс на ноутбуке, после чего ИИ-агент интерпретирует их и выполняет соответствующие действия на планшете с Android. Система находит видео на YouTube, ищет рецепты коктейлей, извлекает список ингредиентов, добавляет их в Google Keep. В определённый момент инженеры просят ИИ-агента загрузить игру-головоломку 2048 и разобраться, как в неё играть. Агент успешно справляется с задачей, хотя процесс выполнения оказывается довольно медленным.

Несмотря на общую работоспособность системы, в ходе тестирования были выявлены ошибки. Например, при отправке стихотворения через WhatsApp ИИ-агент разбивал текст на отдельные сообщения вместо того, чтобы отправить его единым блоком. Один из инженеров предположил, что причиной может быть отсутствие разрывов строк в запросе, однако команда не стала это перепроверять. Подобные недочёты указывают на необходимость дальнейшей доработки алгоритмов взаимодействия ИИ-агента с интерфейсами мобильных приложений.

В своём блоге Rabbit подчеркнула, что показанная функциональность охватывает лишь базовый цикл операций, выполняемых ИИ-агентом в среде Android. Разработка находится на ранней стадии, и её возможности будут расширяться в рамках будущих обновлений. Кроме того, компания ведёт работу над созданием мультиагентной системы, которая обеспечит кроссплатформенную совместимость и поддержку более сложных сценариев автоматизации. Подробности о технической архитектуре и возможностях продукта Rabbit планирует раскрыть в ближайшие недели.

Hugging Face выпустила открытый аналог OpenAI Deep Research для анализа информации по сотням сайтов

Команда разработчиков Hugging Face объявила о создании открытой версии инструмента Deep Research, представленного компанией OpenAI. Этот инструмент, получивший похожее название Open Deep Research, является альтернативой разработке OpenAI, которая пока доступна лишь ограниченному кругу пользователей по платной подписке.

 Источник изображения: Hugging Face

Источник изображения: Hugging Face

OpenAI Deep Research, представленный буквально на днях, позволяет собирать исследовательские отчёты по любой теме, анализируя данные в интернете. Однако его использование доступно только подписчикам ChatGPT Pro за $200 в месяц. В ответ на это команда Hugging Face разработала своего ИИ-агента под названием Open Deep Research, который использует модель OpenAI o1 и открытую фреймворк-систему, помогающую ИИ планировать анализ данных и взаимодействовать с поисковыми системами. Как сообщает TechCrunch, ссылаясь на слова разработчиков, модель превосходит по результатам «рассуждающие» аналоги, в частности DeepSeek R1.

Новый инструмент способен автономно перемещаться по сети, используя простой текстовой браузер (отображает только текст веб-страницы, игнорируя графический контент) и набор инструментов для анализа текста. Исследователи утверждают, что Open Deep Research может прокручивать страницы, манипулировать файлами и даже выполнять вычисления с данными. В тестах бенчмарка GAIA, оценивающем ИИ-ассистентов общего назначения, проект получил 54 %, что немного уступает результату оригинального Deep Research от OpenAI — 67,36%.

В попытке протестировать Open Deep Research журналист TechCrunch столкнулся с техническими проблемами из-за высокой нагрузки на сервер. Однако разработчики заверили, что продолжают работать над улучшением производительности модели и уже выложили исходный код на GitHub, чтобы получать обратную связь от сообщества.

Интересно, что несмотря на появление множества попыток воспроизвести OpenAI Deep Research, ни одна из открытых моделей пока не может сравниться с оригиналом, так как не использует модель o3. Эта ИИ-модель остаётся лидером в задачах, связанных с ответами на сложные вопросы и сбором информации, а её API интерфейс, в отличие от модели OpenAI o3-mini, недоступен. По мнению экспертов, пока подобная модель не появится в открытом доступе, альтернативы вроде Open Deep Research вряд ли смогут полностью конкурировать с оригинальной разработкой.

Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ

Глава подразделения искусственного интеллекта в Microsoft Мустафа Сулейман (Mustafa Suleyman) в стремлении укрепить позиции компании в разработке интерактивных ИИ-агентов расширяет команду Microsoft, переманивает ключевых специалистов из Google, включая создателей технологии «Audio Overviews». Бывшие коллеги Сулеймана из DeepMind, откуда он ушёл в 2022 году, будут привлечены для работы над проектом по созданию мультимодальных моделей для обработки текста, звука и видео.

 Источник изображения: Copilot

Источник изображения: Copilot

Как сообщает Financial Times, в числе новых сотрудников Microsoft оказались Марко Тальясаччи (Marco Tagliasacchi) и Залан Боршош (Zalán Borsos), создатели функции «Audio Overviews», позволяющей преобразовывать текст в аудио в стиле увлекательного подкаста. Эти исследователи также участвовали в разработке Astra — перспективного ИИ-агента DeepMind, способного отвечать на вопросы в режиме реального времени с использованием видео, аудио и текста.

К команде также присоединился Маттиас Миндерер (Matthias Minderer). Он займётся развитием возможностей ИИ для анализа изображений. Все трое будут работать в новом исследовательском центре Microsoft в Цюрихе и, по словам источника, знакомого с ситуацией, сыграют ключевую роль в разработке следующего поколения Copilot, на основе которого будут создаваться интерактивные ИИ-агенты, способные к выполнению широкого спектра задач.

Относительно кадровых потерь такого уровня Google DeepMind комментарии не дал. Однако отмечается, что переход этих специалистов из Google DeepMind в Microsoft является частью ожесточённой борьбы за таланты в сфере ИИ. При этом, обе компании остаются ключевыми игроками в разработке мультимодальных ИИ-моделей, которые способны анализировать и понимать контент на основе аудио, видео или изображений.

На фоне этой конкурентной гонки другие компании также не отстают — OpenAI представила голосовой режим для ChatGPT, Amazon внедряет ИИ в свой голосовой помощник Alexa. Google также готовится к выпуску голосового агента Astra в 2025 году.

Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов

Сооснователь и бывший генеральный директор Twitter Джек Дорси (Jack Dorsey) вернулся в мир технологий с новым проектом, запустив платформу под названием Goose для создания ИИ-агентов. Этот инструмент, разработанный его компанией Block, представляет собой бесплатную и открытую среду, упрощающую работу с большими языковыми моделями (LLM) от OpenAI, Google, Anthropic и других компаний.

Платформа ориентирована на автоматизацию задач в сфере программной инженерии и, как пишет издание VentureBeat, Goose уже используется для таких целей, как миграция кода с одного языка на другой, например, с Ember на React, с Ruby на Kotlin, с Prefect-1 на Prefect-2 и т. д. Также платформа применяется для создания API, проведения тестов производительности, настройки мониторинга и оптимизации баз данных. Проще говоря, Goose помогает разработчикам справляться с рутинными задачами, высвобождая время для более значимой работы.

Ключевой особенностью сервиса является возможность работы сразу с несколькими системами и приложениями. Вице-президент компании Джеки Бросамер (Jackie Brosamer) подчеркнула, что система позволяет интегрировать различные инструменты, такие как Google Drive и Slack, для сбора данных, их обобщения и выполнения действий от имени пользователя. Это особенно полезно для тех, кто проводит много времени на встречах и нуждается в автоматизации рабочих процессов.

Goose распространяется по лицензии Apache 2.0, предоставляя разработчикам полную свободу для коммерческих и исследовательских целей. Главный технический директор Block Дханджи Прасанна (Dhanji Prasanna) отметил, что открытая архитектура платформы вдохновляет на инновации. «Наша open-source платформа позволит разработчикам из разных отраслей создавать новые решения, экономя время и повышая их креативность. Мы уже видим, как Goose избавляет наших инженеров от рутинных задач», — сказал он.

Кроме того, модульная структура Goose позволяет легко интегрировать платформу в существующие системы и адаптировать её под конкретные задачи. Разработчики могут выбирать любую языковую модель, которая лучше всего подходит для их нужд, начиная от моделей OpenAI и заканчивая решениями других компаний.

Goose также поддерживает стандарт Model Context Protocol (MCP), разработанный совместно с компанией Anthropic. Этот стандарт позволяет платформе подключаться к различным инструментам и средам разработки. В Block уверены, что совместные усилия с сообществом разработчиков приведут к созданию новых интеграций и функций, расширив возможности платформы.

Примечательно, что Goose делает особый акцент на конфиденциальности и безопасности данных. Пользователи могут размещать её на своих локальных серверах или в виртуальном облаке. Подчёркивается, что компания не передаёт данные через собственные серверы, что особенно важно для финансовых структур, заботящихся о защите информации своих клиентов. Более подробная информация о платформе доступна на её странице в GitHub.

OpenAI выпустила ИИ-агента Operator, который будет сидеть в интернете вместо пользователя

Компания OpenAI представила «исследовательскую версию» ИИ-агента, который может самостоятельно выполнять различные задачи в интернете по запросу пользователя. Например, его можно попросить найти авиабилеты или подобрать товар. Виртуальный помощник, получивший имя Operator, может посещать веб-страницы и взаимодействовать с ними, используя ввод текста, клики и прокрутку.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В основе этого ИИ-агента лежит модель Computer-Using Agent, объединяющая возможности визуального восприятия модели GPT-4o и «продвинутое рассуждение посредством обучения с подкреплением», что позволяет ИИ взаимодействовать с графическими интерфейсами. Как пишет The Verge, Operator анализирует код веб-страниц и взаимодействует с контентом посредством виртуальной мыши и клавиатуры, что позволяет ему работать без интеграции с программным интерфейсом API (Application programming interface).

Примечательно, что ИИ-агент обладает способностью к самокоррекции и, в случае возникновения каких-либо сложностей, передаёт управление пользователю. Также ему понадобится разрешение человека при необходимости ввода конфиденциальных данных, таких как логины и пароли, в том числе на отправку электронных писем. В OpenAI также подчёркивают, что Operator разработан таким образом, чтобы «отклонять вредоносные запросы и блокировать запрещённый контент».

Однако компания предупреждает, что инструмент пока работает не идеально. Например, возникают определённые трудности с более сложными интерфейсами, такими как создание слайд-шоу или управление календарём.

На данный момент новый ИИ-агент доступен только в США для подписчиков ChatGPT Pro стоимостью $200 в месяц, однако в будущем планируется расширить доступ к Operator для пользователей других тарифных планов, включая Plus, Team и Enterprise. Также компания намерена интегрировать возможности нового агента непосредственно в ChatGPT, чтобы сделать его ещё удобнее.

Microsoft запустила бесплатный Copilot Chat для бизнеса с платными ИИ-агентами

Microsoft объявила о запуске бесплатного ИИ-сервиса Copilot для бизнеса, который теперь называется Microsoft 365 Copilot Chat. Его дополняют платные ИИ-агенты для автоматизации рутинных задач, оплата за использование которых будет взиматься разными способами, включая оплату по факту использования.

 Источник изображения: Surface / Unsplash

Источник изображения: Surface / Unsplash

Microsoft 365 Copilot Chat является ребрендингом сервиса Bing Chat Enterprise, который ранее был переименован в Copilot. Ключевым моментом, как отмечает издание The Verge, стал доступ к ИИ-агентам непосредственно через интерфейс чата, что ранее было доступно только в полной версии Microsoft 365 Copilot и требовало подписки стоимостью $30 в месяц на одного пользователя.

ИИ-агенты разработаны в качестве виртуальных коллег, способных отслеживать электронную почту и автоматизировать ряд задач. Их можно создавать и использовать с помощью Copilot Studio, включая агентов, которые работают с веб-данными и данными облачной службы Microsoft Graph. «Это бесплатный и безопасный ИИ-чат, работающий на базе GPT», — заявил Джаред Спатаро (Jared Spataro), главный директор по ИИ-маркетингу в Microsoft, в интервью The Verge. По его словам, возможности чата сопоставимы с конкурентами и даже превосходят их.

Ценовая политика Microsoft достаточно гибкая. Использование агентов в Copilot Chat будет оплачиваться через систему Copilot Studio в Azure или по модели «плати по мере использования». Спатаро успокаивает тех, кто опасается неконтролируемых расходов: «Мы создали различные механизмы контроля за расходами на доступ к ИИ-агентам, а компании могут платить либо по мере использования агентов, либо выбрать подходящий комплексный пакет». При этом отмечается, что пробная подписка не предусмотрена.

Для расчёта затрат компания предлагает следующую модель: одно сообщение в чате стоит 1 цент, генеративный ответ — 2 цента, а запросы к Microsoft Graph обойдутся в 30 центов. «Таким образом, пользователи могут легко рассчитать свои расходы», — подчёркивает Спатаро. Microsoft также привела пример: если ИИ-агент в Copilot Chat отвечает на вопросы сотрудников, генерируя запросы через облачный шлюз Microsoft Graph, то, например, 6400 сообщений обойдутся в 64 доллара в день.

Стоит сказать, что сам интерфейс Copilot Chat практически не изменился, а для обработки запросов используется всё та же модель GPT-4o. Пользователи могут загружать файлы для анализа документов Word или данных в Excel. Эти же функции доступны непосредственно в Word и Excel при наличии полной подписки Microsoft 365 Copilot.

На фоне споров о ценности подписки Microsoft 365 Copilot за $30 в месяц Microsoft надеется, что Copilot Chat для бизнеса поможет привлечь больше компаний к использованию платной версии, интегрированной в офисные приложения.

Генеративный ИИ от Google прописался в автомобилях Mercedes-Benz

Google Cloud представила «новый способ для автопроизводителей использовать полезные генеративные возможности ИИ». Новый автомобильный агент ИИ от Google позволяет автопроизводителям создавать персонализированных и интуитивно понятных ИИ-помощников, которые умеют поддерживать беседу и отвечать на сложные вопросы, такие как «Есть ли поблизости итальянский ресторан?», «Какие о нём отзывы?» и «Какое там самое популярное блюдо?».

 Источник изображения: techspot.com

Источник изображения: techspot.com

Mercedes-Benz и Google Cloud сегодня объявили о расширении своего стратегического партнёрства с целью внедрения новых разговорных возможностей в виртуального помощника MBUX на основе ИИ-агента Google Cloud Automotive AI Agent. Созданный с использованием Gemini на основе Vertex AI, Google Cloud Automotive AI Agent специально настроен для автомобильной промышленности и напрямую взаимодействует с платформой Google Maps.

Mercedes-Benz является одним из первых автопроизводителей, внедривших автомобильного агента ИИ в свой виртуальный помощник MBUX, который появится в новом Mercedes-Benz CLA в конце этого года. По словам Google, «усовершенствованный виртуальный помощник MBUX предлагает свежую и достоверную информацию с платформы Google Maps и позволяет водителям и пассажирам использовать голосовые команды для получения персонализированной информации о точках интереса, условиях дорожного движения и многом другом за считанные секунды».

Агент Google Cloud Automotive AI Agent также позволит виртуальному помощнику MBUX обрабатывать сложные многоуровневые диалоги и запоминать разговоры, чтобы продолжить общение на ту же тему позже.

«В Mercedes-Benz мы стремимся предложить нашим клиентам исключительный цифровой опыт. Наше партнёрство с Google Cloud ещё больше улучшит навигацию в автомобиле, объединив сложные данные о местоположении с генеративным ИИ. Запущенная с новым CLA, наша навигация следующего поколения позволит водителям и пассажирам использовать голосовые команды для получения полной и персонализированной информации в течение нескольких секунд», — заявил генеральный директор Mercedes-Benz Group AG Ола Келлениус (Ola Källenius).

«Mercedes-Benz известен тем, что обеспечивает невероятный опыт вождения, и наше партнёрство принесёт передовые достижения в области искусственного интеллекта, чтобы сделать этот опыт ещё лучше. Наш новый агент Automotive AI Agent поможет водителям ориентироваться и осуществлять поиск с помощью помощников в автомобиле, поэтому эти взаимодействия будут более естественными и полезными. Это только начало того, как агентские возможности могут преобразовать автомобильную промышленность, и я рад видеть, как наше партнёрство продвигает прогресс вперёд», — полагает генеральный директор Google Сундар Пичаи (Sundar Pichai).

Новая функция поиска и навигации Point-of-Interest с улучшенным ИИ появится в новом Mercedes-Benz CLA в конце этого года. Это будет первый автомобиль, разработанный с новой операционной системой Mercedes-Benz MB.OS. В дальнейшем планируется внедрение новых ИИ-функций в другие модели.

ИИ заменит человека в качестве основного пользователя приложений к 2030 году

Согласно исследованию компании Accenture, в ближайшее десятилетие может произойти кардинальная трансформация в сфере использования цифровых технологий, которая вызвана стремительным развитием искусственного интеллекта. К 2030 году ИИ-агенты станут основными пользователями приложений на предприятиях, а к 2032 году обычные потребители будут взаимодействовать с ИИ-агентами чаще, чем с приложениями, сообщает ZDNet.

 Источник изображения: Kandinsky

Источник изображения: Kandinsky

Эту трансформацию авторы доклада называют «большим бинарным взрывом», который произошёл в тот момент, когда фундаментальные ИИ-модели преодолели барьер естественного языка. По словам главного технического директора Accenture Картик Нараина (Karthik Narain), это событие дало старт изменениям в технологических системах и в том, как люди их проектируют и используют.

Нараин подчёркивает, что новые разработки «расширяют границы программного обеспечения, многократно увеличивают цифровой потенциал компаний и создают основу для когнитивных цифровых систем, которые глубоко интегрируют искусственный интеллект в структуру предприятий».

В отчёте также выделены три ключевых направления, которые будут определять технологическое развитие в ближайшие годы — это агентные системы, цифровое ядро и генеративные пользовательские интерфейсы. Эти направления будут развёрнуты на основе гибких и модульных строительных блоков, что позволит компаниям создавать легко масштабируемые и интеллектуальные цифровые компоненты.

Таким образом, исследование Accenture указывает на то, что в ближайшие годы главную роль в использовании цифровых технологий будут играть не люди, а автономные агенты, управляемые ИИ.

Google формирует команду для «моделирования мира» на основе ИИ для игр и обучения роботов

Google DeepMind формирует новую исследовательскую группу по искусственному интеллекту (ИИ), которая займётся разработкой ИИ-моделей, способных имитировать физические среды для обучения роботов и создания реалистичных игровых вселенных. Сообщается, что возглавит инициативу Тим Брукс (Tim Brooks), бывший соруководитель проекта Sora в OpenAI, который присоединился к DeepMind ещё в октябре.

 Источник изображения: Google DeepMind / Unsplash

Источник изображения: Google DeepMind / Unsplash

«Моделирование мира» — это относительно новая область ИИ, которая может найти применение в различных сферах. Направление может быть использовано для создания интерактивных медиасред в реальном времени для видеоигр и кино, а также для разработки реалистичных сценариев обучения роботов и других систем ИИ.

В настоящее время DeepMind активно ищет инженеров-исследователей и учёных для работы в своей лаборатории, разместив вакансии на сайте Greenhouse. Основные задачи команды будут включать обучение моделей в больших масштабах, курирование данных обучения и изучение способов интеграции моделей с мультимодальными языковыми моделями. «Мы считаем, что масштабирование предварительного обучения на видео и мультимодальных данных является критически важным шагом на пути к искусственному общему интеллекту» — говорится в описании вакансий.

Несмотря на амбициозные планы, у DeepMind есть несколько конкурентов, которые уже имеют преимущество в разработке технологии по «моделированию мира». Среди них платформа Nvidia Cosmos для развития физического ИИ и стартап World Labs, созданный Фей-Фей Ли (Fei-Fei Li), которую называют «крёстной матерью ИИ». Новая команда DeepMind будет работать вместе с существующими проектами Google, включая флагманские ИИ-модели Gemini, генератор видео Veo и Genie — ранее разработанную модель мира для имитации игровых 3D-сред в реальном времени.

Стоит сказать, что Google стремится достичь AGI раньше своих конкурентов и гонка за первенство в достижении использования возможностей сверхинтеллекта набирает обороты. Так, генеральный директор OpenAI Сэм Альтман (Sam Altman) недавно заявил, что компания близка к достижению AGI, и что автономные ИИ-агенты могут начать активно включаться в рабочие процессы уже в наступившем году.

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

ИИ отправит на свалку истории поисковики и браузеры, считает глава Microsoft AI

Разработчики генеративных нейросетей, такие как Google и OpenAI, уверены, что в скором будущем пользователи будут делегировать обработку интернет-запросов и выполнение разных задач чат-ботам или ИИ-агентам. Глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman) считает, что ИИ-алгоритмы смогут заменить веб-браузеры, а некоторые эксперты предсказывают, что со временем подобные приложения станут похожими на операционные системы.

 Источник изображений: techspot.com

Источник изображений: techspot.com

В беседе с журналистами портала The Verge Сулейман рассказал о будущем, в котором диалоговые генеративные ИИ-интерфейсы могут сделать обычные веб-браузеры устаревшими. Однако, прежде чем эта концепция будет реализована на практике, технология должна преодолеть массу препятствий. Он выразил уверенность в дальнейшем развитии ИИ, но умерил ожидания в отношении искусственного интеллекта общего назначения (Artificial General Intelligence), который также называют сильным ИИ, способным решать задачи наравне с человеком.

Сулейман считает, что в нынешнем виде процесс взаимодействия с поисковыми системами является слишком громоздким. По его мнению, гораздо более удобно делать запросы в приложении Copilot на своём iPhone. По мнению Сулеймана, ИИ-помощники с интерфейсами, сгенерированными нейросетями, смогут заменить традиционные поисковые системы и браузеры в течение трёх-пяти лет.

Если разработчики перепроектируют веб-порталы таким образом, чтобы на них можно было размещать ИИ-агентов, то такие агенты смогут выполнять запросы, взаимодействуя с другими ИИ-системами. Однако при таком сценарии не совсем понятно, сможет ли ИИ корректно находить точные ответы на запросы, и что произойдёт с доходами от рекламы, когда люди перестанут переходить по веб-сайтам. Сулейман не стал заострять внимание на этих вопросах, сказав, что Microsoft добилась значительного прогресса в минимизации количества галлюцинаций ИИ, которые являются основной проблемой ИИ-агентов.

Отраслевой аналитик Ом Малик (Om Malik) считает, что приложения на основе генеративного ИИ могут пойти ещё дальше. В недавней публикации он высказался об ограничениях традиционных браузеров в мире, где всё больше доминируют технологии дополненной и виртуальной реальности, а также искусственный интеллект. Браузеры не сильно изменились с момента их появления, они построены вокруг «интернета, ориентированного на документы». Появление генеративных нейросетей и диалоговых систем бросает вызов этим устоям. Потенциально ИИ способен фрагментировать веб-страницы в интерактивные, персонализированные потоки информации, что не соответствует первоначальным целям браузеров.

Нечто похожее тестирует Google в рамках проекта Project Jarvis, участники которого создали ИИ-агента, способного ограниченно контролировать курсор мыши и браузер пользователя для автоматизации процесса выполнения ряда задач. Бывшие сотрудники Google также работают над созданием работающей онлайн операционной системы на базе ИИ.

Microsoft хочет, чтобы у каждого человека был ИИ-помощник, а у каждого бизнеса — ИИ-агент

На ежегодной конференции Microsoft Ignite компания представила своё видение рабочего процесса на ПК в будущем, связанное с использованием искусственного интеллекта Copilot. Microsoft намерена сделать Copilot не просто вспомогательной функцией, а центральным элементом работы пользователей, объединяющим множество агентов для выполнения различных задач.

 Источник изображения: Copilot

Источник изображения: Copilot

Copilot станет своеобразным суперприложением, через которое пользователи смогут выполнять большую часть задач, поясняет PCMag. Открыв Copilot, пользователь увидит два основных режима — Work и Web. В режиме Work Copilot получает доступ к данным Microsoft Graph, включая электронные письма, чаты в Teams и документы в SharePoint для выполнения задач на основе контекста. Например, для создания списка задач или формирования предложений для совместной работы через инструмент Bizchat.

Пользователь может поручать Copilot много различных задач, которые часто выполняются специальными ИИ-агентами, представляющими из себя либо стандартных агентов Microsoft, либо специфических, созданных компаниями. По сути это то, что имел в виду генеральный директор Microsoft Сатья Наделла (Satya Nadella), когда говорил: «Copilot — это пользовательский интерфейс для ИИ». Именно поэтому на конференции неоднократно звучала фраза: «У каждого человека должен быть Copilot, и у каждого бизнес-процесса свой ИИ-агент».

Стоит отметить, что Copilot и так уже демонстрирует на сегодня впечатляющие возможности. Например, пользователь может попросить его подготовить повестку для встречи, проанализировав переписку и документы, связанные с участниками. Полученный документ можно отредактировать и отправить коллегам через Bizchat для совместной работы. Также Microsoft представила агентов с узкой специализацией, таких как переводчик, HR-агент, фасилитатор и проектный менеджер.

Переводчик выполняет синхронный перевод с сохранением интонации и тембра голоса. HR-агент способен отвечать на вопросы сотрудников о корпоративных политиках или предоставлять информацию о зарплате и льготах. Проектный менеджер поможет в создании плана проекта. И наконец, фасилитатор будет вести заметки во время встреч в Teams и создавать список задач. Несмотря на то, что эти инструменты находятся на стадии предварительного тестирования, они уже вызывают интерес, благодаря своему потенциалу по снижению затрат и улучшению бизнес-процессов.

Стоит сказать, что внедрение Copilot одновременно связано с рядом вызовов. Как отметил Херайн Оберой (Herain Oberoi), генеральный менеджер по безопасности данных, переход к ИИ-инструментам открывает новые уязвимости. Для решения этой проблемы Microsoft предлагает обновлённый пакет инструментов безопасности, включая Purview Data Loss Prevention, который позволяет классифицировать данные и управлять доступом, также будет внедрена система защиты от предвзятости ИИ-моделей и запрещённого контента. При этом администраторы смогут контролировать, какие ИИ-модели должны использоваться, а какие нет, из более чем 1800 доступных на платформе Azure.

OpenAI планирует выпустить ИИ-агента Operator в январе — он сможет управлять ПК без пользователя

Компания OpenAI готовится к выпуску нового ИИ-агента под кодовым названием Operator, который позволит выполнять разнообразные задачи на компьютере пользователя. Релиз этого инструмента может состояться уже в январе 2025 года.

 Источник изображения: OpenAI

Источник изображения: OpenAI

На первом этапе упомянутое решение будет доступно в качестве предварительной исследовательской версии через API для разработчиков. Operator призван конкурировать с аналогичными ИИ-агентами, такими как недавно представленный Computer Use компании Anthropic и разрабатываемый ИИ-агент Google, ориентированный на потребительский рынок.

OpenAI стремится создать универсальный инструмент, способный выполнять различные операции в веб-браузере и подходящий для решения повседневных задач пользователей. Однако, как отмечает издание Bloomberg, пока неизвестно, предложит ли Operator пользователям значительные преимущества перед аналогичными решениями конкурентов. Исследовательская версия инструмента будет полезна для оценки его потенциальных преимуществ и выявления областей, требующих доработки на основе обратной связи.

Запуск Operator совпадает с публикацией документа OpenAI, содержащего рекомендации для правительства США по вопросам стратегии развития ИИ. В этом документе предлагается создание «экономических зон» для активного развития ИИ-инфраструктуры, а также формирование альянсов с союзниками США, что позволит усилить позиции страны в технологической гонке с Китаем.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Kingdom Come: Deliverance II — ролевое вознесение. Рецензия 6 ч.
Apple отключила сквозное шифрование в iCloud по требованию властей Великобритании 7 ч.
Взрывной платформер Shotgun Cop Man от создателя My Friend Pedro предложит спуститься в ад и арестовать Дьявола — трейлер и демоверсия в Steam 8 ч.
Valve заблокировала игру в российском Steam по требованию Роскомнадзора 10 ч.
Meta рассказала, как скачивать контент через торренты, но не стать пиратом 11 ч.
Corsair прояснила заявление о релизе ПК-версии GTA VI в начале 2026 года 11 ч.
Роскомнадзор принудительно записал Cloudflare в организаторы распространения информации 12 ч.
«Небольшой, но искренний прогресс»: DeepSeek откроет для всех пять ИИ-репозиториев 13 ч.
Видео: прохождение пролога ремейка первой Gothic и получасовая демонстрация русской озвучки 13 ч.
Политический триллер в 1613 году: сюжетное дополнение «Земский собор» к «Смуте» получило первый трейлер и новые подробности 14 ч.
На Балтике вновь повреждён подводный кабель C-Lion1 между Финляндией и Германией 6 ч.
Китайский подводный дата-центр HiCloud получил ИИ-апгрейд 7 ч.
На китайской орбитальной станции испытали робота-инспектора, вдохновлённого морскими звёздами 7 ч.
Ирландский регулятор предложил дата-центрам заняться самостоятельной постройкой электростанций и энергохранилищ 7 ч.
В России скоро наступит дефицит энергии для обучения ИИ — сильнее всего ударит по ЦОД в Москве и Санкт-Петербурге 9 ч.
В Индии создали надёжные прозрачные электроды для двухсторонних солнечных панелей 10 ч.
Умные часы Fitbit перестали обжигать владельцев, но теперь их нужно заряжать каждый день 10 ч.
Запуск Grok 3 подстегнёт рост спроса на ИИ-серверы 11 ч.
Leica перевыпустила представленный в 1959 году объектив Summilux 50 мм f/1.4 за $3895 12 ч.
Apple отвергла причастность модема C1 к отсутствию MagSafe в iPhone 16e 12 ч.