Сегодня 14 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → агенты
Быстрый переход

OpenAI позволит всем желающим создавать ИИ-агентов, которые будут управлять ПК и гулять по интернету

Компания OpenAI представила инструмент для разработчиков, который упростит создание ИИ-агентов. Ключевым элементом здесь является новый интерфейс Responses API, который представляет из себя блоки в виде готовых решений для автоматизации рутинных процессов, таких как поиск в интернете, анализ файлов и выполнение задач на компьютере от имени пользователя.

 Источник изображения: Zac Wolff / Unsplash

Источник изображения: Zac Wolff / Unsplash

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) заявил, что компания видит в ИИ-агентах большое будущее. По его словам, OpenAI готова разрабатывать собственных агентов, таких как Deep Research и Operator, но учитывая сложность современного мира и разнообразие технологий, хочет предоставить разработчикам базовые инструменты для создания агентов под их уникальные задачи.

Responses API оснащён поисковым инструментом, использующим ту же ИИ-модель, что и ChatGPT. Работая на основе GPT-4o и GPT-4o mini, инструмент позволяет получать актуальную информацию из интернета с указанием источников, а также выполнять задачи на компьютере через модель Operator. При этом функция поиска по файлам может быть полезна совершенно для любых целей, например, для автоматизации работы службы поддержки компаний или юридического анализа документов.

Дополнительно OpenAI представила Agents SDK. Это инструмент для управления работой ИИ-агентов. Продукт-менеджер OpenAI Никандж Ханда (Nikunj Handa) пояснил, что Responses API выполняет отдельные задачи, а Agents SDK позволяет координировать работу нескольких агентов для того, чтобы они могли решать более сложные задачи совместно. По мнению компании, это должно упростить процесс управления агентами, а заодно повысить их эффективность.

Отметим, что нововведение дополнит уже существующие решения OpenAI, включая Chat Completions API для ответов на запросы пользователей. Кроме того, компания планирует к середине 2026 года отказаться от текущего Assistants API в пользу новой системы Responses API.

Китайский ИИ-проект Manus назван претендентом на лавры второго DeepSeek

Уже не первый месяц ведущие американские разработчики систем искусственного интеллекта рассказывают о создании сложных агентов ИИ, способных выполнять от имени пользователя некоторые задачи. Малоизвестный китайский проект Manus AI утверждает, что сумел опередить заокеанских конкурентов, передаёт Bloomberg.

 Источник изображения: manus.im

Источник изображения: manus.im

На минувшей неделе Manus представил универсальный агент ИИ — сервис, который просматривает резюме, создаёт маршруты поездок и анализирует положение на рынке ценных бумаг по команде пользователя. По некоторым критериям эта служба выступает лучше, чем OpenAI Deep Research, уверяют в китайской компании. Современные ИИ-агенты пока требуют значительного присутствия пользователя, тогда как система Manus «по-настоящему автономна», считает главный научный сотрудник проекта Ичао Цзи (Yichao Ji). Яркая видеодемонстрация компании быстро стала вирусной и породила ажиотажный спрос на приглашения, дающие право на участие в тестировании сервиса. Manus сравнили с DeepSeek — другим китайским стартапом, который в январе выпустил модель ИИ, способную конкурировать с ведущими американскими решениями. Вот и Manus подняла вопросы о лидерстве США в области ИИ, причём в категории продуктов, которую американские компании считают ключевой.

Первые отзывы о работе ИИ-агента Manus оказались неоднозначными. Профессор Дерья Унутмаз (Derya Unutmaz), исследователь в области иммунотерапии в онкологии, похвалил систему за высокое качество результатов, но отметил, что она обрабатывает задачи медленнее, чем OpenAI Deep Research. Он не единственный пожаловался на скорость — многие отметили, что сервис работает медленно и часто зависает до завершения задачи. Возможно, виной тому ограниченные вычислительные ресурсы компании. В некоторых случаях отмечаются и фактические ошибки в ответах ИИ-агента. «В действительности Manus является лишь наполовину готовым продуктом», — считает опробовавший сервис американский профессор электротехники и вычислительной техники Йиран Чен (Yiran Chen). Архитектура системы пока неизвестна, нет ясности, в какой степени в ней задействованы модели других разработчиков ИИ, ведь создание собственной модели обошлось бы компании в десятки миллионов долларов.

Стоящая за проектом Manus компания Butterfly Effect привлекла инвестиции в размере более $10 млн, сообщили несколько китайских СМИ. В отличие от DeepSeek стартап Manus не опубликовал подробной документации и не рассказал, как был разработан агент. Не публиковался ни код сервиса, ни веса моделей ИИ. Пользователь службы может выбирать между стандартным режимом и режимом «большого усилия» — в последнем случае запросы обрабатываются медленнее. Manus «создаёт список задач, один за другим проходит шаги, устраняет возникающие проблемы, задаёт вопросы, если нужны новые команды», и выдаёт ответ, прокомментировал механизм работы системы основатель OmniEdge Юн Цянь (Yong Qian).

ИИ-агентами сейчас занимаются OpenAI, Anthropic и другие отраслевые компании — эти системы выходят в интернет, изучают источники онлайн и выполняют различные многошаговые задачи. Первые пользователи Manus считают, что китайская система вполне способна конкурировать с присутствующими на рынке.

Opera представила концепт ИИ-функции, которая поможет пользователю совершать покупки

Разработчик браузеров Opera продемонстрировал новую функцию на основе искусственного интеллекта под названием Browser Operator. Пользователи смогут доверять ИИ выполнение таких задач, как, например, поиск товаров, бронирование отелей и покупку билетов. В самой компании эту функцию расценивают как шаг вперёд и считают сменой парадигмы веб-серфинга.

 Источник изображения: Denny Müller / Unsplash

Источник изображения: Denny Müller / Unsplash

Browser Operator выполняет задачи, которые обычно требуют ручного поиска, анализируя данные и предлагая пользователям оптимальные варианты. При этом в компании утверждают, что обработка информации происходит исключительно локально, без передачи данных в облако. Для взаимодействия с системой нужно просто ввести запрос в небольшом окне в нижней части экрана, поясняет PCWorld.

В ходе презентации был продемонстрирован запрос: «Найди мне 12 пар белых носков Nike, которые я смогу купить прямо сейчас». Браузер тут же провёл поиск, разбил задачу на этапы и предложил подходящие варианты. Аналогичным образом были найдены билеты на футбольный матч, а затем подобраны авиабилеты и отель на нужные даты.

Важно отметить, что ИИ-оператор не совершает непосредственно за пользователя покупки, то есть не завершает транзакции, а останавливается на экране оформления. Как заявляют в Opera, это связано с вопросами безопасности и необходимого доверия к системе. Интересно, что пока не уточняется, будет ли эта функция платной, однако разработчики отмечают, что она точно потребует значительных вычислительных ресурсов, что может служить определённым намёком.

Browser Operator уже сейчас доступен в виде предварительной версии. Официальный же запуск ожидается в рамках программы AI Feature Drop, однако точные сроки выхода не названы.

Айфон по-немецки: Deutsche Telekom и Perplexity пообещали выпустить AI Phone c умелым ИИ-агентом

Крупнейшая в Европе немецкая телекоммуникационная компания Deutsche Telekom (DT) разрабатывает среднебюджетный смартфон AI Phone на базе искусственного интеллекта в тесном сотрудничестве с Perplexity, а также другими технологическими компаниями, включая Picsart. AI Phone сможет не только отвечать на вопросы, но и выполнять за пользователя различные действия.

Источник изображений: Deutsche Telekom

Член правления Deutsche Telekom Клаудия Немат (Claudia Nemat) заявила, что компания активно трансформируется в ИИ-компанию, при этом подчеркнув, что DT не занимается созданием собственных языковых моделей, а сосредоточена на разработке ИИ-агентов. Как сообщает TechCrunch, ИИ-ассистент смартфона получит название Magenta AI.

Ключевым партнёром проекта выступит стартап Perplexity, специализирующийся на генеративном поиске. Генеральный директор компании Аравинд Шринивас (Aravind Srinivas) заявил, что Perplexity, делая шаг вперёд «переходит от простой машины ответов к машине действий». По его заверениям, система сможет бронировать билеты, отправлять сообщения и даже совершать звонки от имени пользователя.

Отметим, что попытки сотовых операторов связи выйти на рынок смартфонов не так уж новы. Ранее создать альтернативу Apple и Google попыталась компания Amazon со своим первым смартфоном Fire Phone, но он не смог завоевать популярность. Однако текущая волна интереса к искусственному интеллекту определённо даёт операторам новый шанс привлечь пользователей с помощью инновационных функций.

Интересно, что сотрудничество DT и Perplexity началось ещё в апреле 2024 года, а первые упоминания об стройстве AI Phone появились на крупнейшей выставке мобильных технологий — MWC 2023. Детали AI Phone пока не раскрываются, включая технические характеристики, операционную систему и производителя. Однако рендеры указывают, что смартфон, скорее всего, будет работать на модифицированной версии Android.

Устройство будет представлено во второй половине 2025 года, а в продажу поступит в 2026 году по цене менее $1000. Первоначально смартфон будет ориентирован на европейский рынок, сообщили представители DT.

«Интернет погрузится во тьму»: новомодные ИИ-агенты имеют шансы заменить привычный интернет

Некоторые аналитики назвали 2025-й годом агентов ИИ — персонализированных цифровых помощников, которые могут взаимодействовать с пользователями, проводить исследования, собирать информацию, курировать контент и т.д. Как утверждают аналитики Bernstein, «если агенты ИИ действительно станут полезными, интернет погрузится во тьму».

 Источник изображения: Growtika/unsplash.com

Источник изображения: Growtika/unsplash.com

Веб-сайты и приложения не исчезнут, но потребители перестанут посещать их напрямую, поскольку будут получать доступ к информации, контенту и виджетам через помощника ИИ, который станет «агрегатором агрегаторов», говорят аналитики. Если агент ИИ сможет, например, вызвать такси, пользователям не понадобится открывать приложение для заказа поездки, утверждают они.

Агенты ИИ, представляющие пользователей, станут новым прямым каналом, который технологические компании будут использовать для связи с потребителями. Все остальные поставщики будут направляться через этот новый цифровой шлюз и, вероятно, должны будут платить какой-то сбор — так же, как Google зарабатывает на поисковой рекламе, а Apple — на комиссиях в App Store, пишет Business Insider.

Крупные технологические компании и стартапы уже сейчас сражаются за контроль над этим перспективным сегментом ИИ-рынка. В конце января OpenAI представила ИИ-агента Operator, который использует веб-браузер для выполнения действий от имени пользователей, например бронирования билетов или покупки продуктов.

Ключевой момент заключается в том, что теперь взаимодействие идёт напрямую между ИИ-агентом и пользователем, тогда как раньше приходилось прибегать к поиску Google. В будущем Google может стать всего лишь одним из многих сервисов, доступных в экосистеме агентов ИИ, которую разрабатывает OpenAI.

Разумеется, Google не намерен превращаться в ещё одно приложение на платформе конкурентов. В декабре прошлого года компания представила Project Mariner — ИИ-агента, способного выполнять действия в интернете от лица пользователя: просматривать веб-страницы, нажимать кнопки и заполнять формы. А ещё раньше, в октябре, Anthropic представила похожий инструмент в тестовом режиме, позволяющий её модели ИИ Claude 3.5 Sonnet взаимодействовать с любыми десктопными приложениями, имитируя нажатия клавиш, клики и жесты мыши — то есть управлять ПК так же, как это делают люди.

Также агентами ИИ можно будет управлять голосом, например с помощью умных очков от Meta, или даже мысленно — используя мозговые импланты, такие как Neuralink Илона Маска (Elon Musk).

Microsoft представила ИИ-агента Magma для управления приложениями и реальными роботами

Разработчики из Microsoft Research представили мультимодальную языковую ИИ-модель Magma, которая способна обрабатывать визуальные и текстовые данные для управления программными интерфейсами и роботизированными системами. Если алгоритм после тестирования выйдет за пределы Microsoft, то это может стать важным шагом на пути к созданию универсального мультимодального ИИ, способного работать как в цифровом, так и в реальном пространстве.

 Деомнтсрация того, как Magma управляет роботизированной рукой / Источник изображения: Microsoft Research

Демонстрация того, как Magma управляет роботизированной рукой / Источник изображения: Microsoft Research

Microsoft утверждает, что Magma является первой ИИ-моделью, которая способна не только обрабатывать мультимодальные данные (например, текст, изображения, видео), но и умеет выполнять действия на их основе, будь то навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Разработка алгоритма Magma велась совместными усилиями разработчиков из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Ранее уже были реализованы проекты в сфере робототехники, основой которых становились большие языковые модели (LLM). К таким работам можно отнести проекты PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, где ИИ-системы были задействованы для управления программными интерфейсами.

 Комбинированный график, демонстрирующий возможности Magma / Источник изображения: Microsoft Research

Комбинированная схема, демонстрирующая возможности Magma / Источник изображения: Microsoft Research

В отличие от многих уже созданных мультимодальных алгоритмов, требующих использования отдельных моделей для восприятия и управления, в Magma эти способности объединены внутри единой базовой ИИ-модели. Microsoft позиционирует Magma, как существенный шаг на пути создания единого ИИ-агента, т.е. системы, способной автономно разрабатывать планы действий и выполнять многоэтапные задачи от имени человека, а не просто отвечать вопросы о том, что она видит.

«Учитывая описанную цель, Magma способна формулировать планы и выполнять действия для их достижения. Эффективно передавая знания, извлекаемые из свободно доступных визуальных и языковых данных, Magma объединяет вербальный, пространственный и временной алгоритмы для навигации по сложным задачам и обстановке», — говорится в сообщении исследователей из Microsoft.

 Источник изображения:  Microsoft Research

Источник изображения: Microsoft Research

ИИ-модель Magma включает в себя два технических компонента: Set-of-Mark (идентифицирует объекты, которыми можно манипулировать в среде, присваивая цифровые метки интерактивным элементам, таким как нажимаемые кнопки в пользовательском интерфейсе или захватываемые объекты в рабочем пространстве роботов) и Trace-of-Mark (позволяет алгоритму выполнять такие задачи, как навигация по пользовательским интерфейсам или управление роботизированными руками для захвата и перемещения объектов).

Один из участников проекта рассказал, что название алгоритма Magma расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch). В описании алгоритма Microsoft утверждает, что Magma-8B демонстрирует конкурентоспособные результаты в бенчмарках, показывая высокие результаты в задачах навигации по пользовательскому интерфейсу и манипулировании роботами.

Так в бенчмарке VQAv2 алгоритм Magma получил 80,0 баллов за визуальные ответы на вопросы, что выше результата GPT-4V (77,2 балла), но ниже показателя LLaVA-Next (81,8 балла). Показатель алгоритма POPE в 87,4 балла в настоящее время является абсолютно лучшим среди ИИ-моделей, участвовавших в сравнении. Отмечается, что в сфере манипулирования роботами Magma превосходит OpenVLA.

 Источник изображения: Microsoft Research

Источник изображения: Microsoft Research

По заявлениям разработчиков, Magma отличается от аналогов вроде GPT-4V тем, что выходит за рамки так называемого «вербального интеллекта» и включает в себя «пространственный интеллект», т.е. возможность планирования и выполнения действий. Обучаясь на смеси изображений, видео, робототехнических данных и взаимодействий с пользовательским интерфейсом, Magma, по сути, является полноценным мультимодальным ИИ-агентом, а не просто перцептивной моделью.

Как и все ИИ-модели, Magma не совершенна. Документация Microsoft указывает на то, что алгоритм по-прежнему сталкивается с техническими ограничениями при принятии сложных пошаговых решений, требующих многократного выполнения действий в течение определённого времени. Microsoft продолжает работать над улучшением алгоритма. Софтверный гигант намерен выложить исходный код Magma и другую документацию на GitHub, чтобы сторонние исследователи могли использовать эти наработки для реализации собственных проектов.

Rabbit показала в деле ИИ-агента, который так и не попал в ИИ-заменитель смартфона Rabbit R1

Компания Rabbit представила новую версию ИИ-агента, предназначенного для управления приложениями в среде Android. Опубликованный видеоролик демонстрирует, как агент взаимодействует с интерфейсами мобильных приложений, выполняя запросы. Однако эти функции изначально были обещаны для устройства Rabbit R1, которое так и не получило заявленных возможностей.

 Источник изображения: Rabbit

Источник изображения: Rabbit

Разработка основана на ранее представленной платформе LAM Playground — универсальном веб-агенте, выпущенном в 2023 году. В видеоролике инженеры демонстрируют, как система выполняет команды, аналогичные тем, что более года назад были анонсированы для Rabbit R1. Однако сам R1, несмотря на маркетинговые заявления основателя и генерального директора компании Rabbit Джесси Лю (Jesse Lyu) в январе 2024 года, не поддерживает этих возможностей.

В ходе демонстрации инженеры вводят текстовые команды в интерфейс на ноутбуке, после чего ИИ-агент интерпретирует их и выполняет соответствующие действия на планшете с Android. Система находит видео на YouTube, ищет рецепты коктейлей, извлекает список ингредиентов, добавляет их в Google Keep. В определённый момент инженеры просят ИИ-агента загрузить игру-головоломку 2048 и разобраться, как в неё играть. Агент успешно справляется с задачей, хотя процесс выполнения оказывается довольно медленным.

Несмотря на общую работоспособность системы, в ходе тестирования были выявлены ошибки. Например, при отправке стихотворения через WhatsApp ИИ-агент разбивал текст на отдельные сообщения вместо того, чтобы отправить его единым блоком. Один из инженеров предположил, что причиной может быть отсутствие разрывов строк в запросе, однако команда не стала это перепроверять. Подобные недочёты указывают на необходимость дальнейшей доработки алгоритмов взаимодействия ИИ-агента с интерфейсами мобильных приложений.

В своём блоге Rabbit подчеркнула, что показанная функциональность охватывает лишь базовый цикл операций, выполняемых ИИ-агентом в среде Android. Разработка находится на ранней стадии, и её возможности будут расширяться в рамках будущих обновлений. Кроме того, компания ведёт работу над созданием мультиагентной системы, которая обеспечит кроссплатформенную совместимость и поддержку более сложных сценариев автоматизации. Подробности о технической архитектуре и возможностях продукта Rabbit планирует раскрыть в ближайшие недели.

Hugging Face выпустила открытый аналог OpenAI Deep Research для анализа информации по сотням сайтов

Команда разработчиков Hugging Face объявила о создании открытой версии инструмента Deep Research, представленного компанией OpenAI. Этот инструмент, получивший похожее название Open Deep Research, является альтернативой разработке OpenAI, которая пока доступна лишь ограниченному кругу пользователей по платной подписке.

 Источник изображения: Hugging Face

Источник изображения: Hugging Face

OpenAI Deep Research, представленный буквально на днях, позволяет собирать исследовательские отчёты по любой теме, анализируя данные в интернете. Однако его использование доступно только подписчикам ChatGPT Pro за $200 в месяц. В ответ на это команда Hugging Face разработала своего ИИ-агента под названием Open Deep Research, который использует модель OpenAI o1 и открытую фреймворк-систему, помогающую ИИ планировать анализ данных и взаимодействовать с поисковыми системами. Как сообщает TechCrunch, ссылаясь на слова разработчиков, модель превосходит по результатам «рассуждающие» аналоги, в частности DeepSeek R1.

Новый инструмент способен автономно перемещаться по сети, используя простой текстовой браузер (отображает только текст веб-страницы, игнорируя графический контент) и набор инструментов для анализа текста. Исследователи утверждают, что Open Deep Research может прокручивать страницы, манипулировать файлами и даже выполнять вычисления с данными. В тестах бенчмарка GAIA, оценивающем ИИ-ассистентов общего назначения, проект получил 54 %, что немного уступает результату оригинального Deep Research от OpenAI — 67,36%.

В попытке протестировать Open Deep Research журналист TechCrunch столкнулся с техническими проблемами из-за высокой нагрузки на сервер. Однако разработчики заверили, что продолжают работать над улучшением производительности модели и уже выложили исходный код на GitHub, чтобы получать обратную связь от сообщества.

Интересно, что несмотря на появление множества попыток воспроизвести OpenAI Deep Research, ни одна из открытых моделей пока не может сравниться с оригиналом, так как не использует модель o3. Эта ИИ-модель остаётся лидером в задачах, связанных с ответами на сложные вопросы и сбором информации, а её API интерфейс, в отличие от модели OpenAI o3-mini, недоступен. По мнению экспертов, пока подобная модель не появится в открытом доступе, альтернативы вроде Open Deep Research вряд ли смогут полностью конкурировать с оригинальной разработкой.

Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ

Глава подразделения искусственного интеллекта в Microsoft Мустафа Сулейман (Mustafa Suleyman) в стремлении укрепить позиции компании в разработке интерактивных ИИ-агентов расширяет команду Microsoft, переманивает ключевых специалистов из Google, включая создателей технологии «Audio Overviews». Бывшие коллеги Сулеймана из DeepMind, откуда он ушёл в 2022 году, будут привлечены для работы над проектом по созданию мультимодальных моделей для обработки текста, звука и видео.

 Источник изображения: Copilot

Источник изображения: Copilot

Как сообщает Financial Times, в числе новых сотрудников Microsoft оказались Марко Тальясаччи (Marco Tagliasacchi) и Залан Боршош (Zalán Borsos), создатели функции «Audio Overviews», позволяющей преобразовывать текст в аудио в стиле увлекательного подкаста. Эти исследователи также участвовали в разработке Astra — перспективного ИИ-агента DeepMind, способного отвечать на вопросы в режиме реального времени с использованием видео, аудио и текста.

К команде также присоединился Маттиас Миндерер (Matthias Minderer). Он займётся развитием возможностей ИИ для анализа изображений. Все трое будут работать в новом исследовательском центре Microsoft в Цюрихе и, по словам источника, знакомого с ситуацией, сыграют ключевую роль в разработке следующего поколения Copilot, на основе которого будут создаваться интерактивные ИИ-агенты, способные к выполнению широкого спектра задач.

Относительно кадровых потерь такого уровня Google DeepMind комментарии не дал. Однако отмечается, что переход этих специалистов из Google DeepMind в Microsoft является частью ожесточённой борьбы за таланты в сфере ИИ. При этом, обе компании остаются ключевыми игроками в разработке мультимодальных ИИ-моделей, которые способны анализировать и понимать контент на основе аудио, видео или изображений.

На фоне этой конкурентной гонки другие компании также не отстают — OpenAI представила голосовой режим для ChatGPT, Amazon внедряет ИИ в свой голосовой помощник Alexa. Google также готовится к выпуску голосового агента Astra в 2025 году.

Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов

Сооснователь и бывший генеральный директор Twitter Джек Дорси (Jack Dorsey) вернулся в мир технологий с новым проектом, запустив платформу под названием Goose для создания ИИ-агентов. Этот инструмент, разработанный его компанией Block, представляет собой бесплатную и открытую среду, упрощающую работу с большими языковыми моделями (LLM) от OpenAI, Google, Anthropic и других компаний.

Платформа ориентирована на автоматизацию задач в сфере программной инженерии и, как пишет издание VentureBeat, Goose уже используется для таких целей, как миграция кода с одного языка на другой, например, с Ember на React, с Ruby на Kotlin, с Prefect-1 на Prefect-2 и т. д. Также платформа применяется для создания API, проведения тестов производительности, настройки мониторинга и оптимизации баз данных. Проще говоря, Goose помогает разработчикам справляться с рутинными задачами, высвобождая время для более значимой работы.

Ключевой особенностью сервиса является возможность работы сразу с несколькими системами и приложениями. Вице-президент компании Джеки Бросамер (Jackie Brosamer) подчеркнула, что система позволяет интегрировать различные инструменты, такие как Google Drive и Slack, для сбора данных, их обобщения и выполнения действий от имени пользователя. Это особенно полезно для тех, кто проводит много времени на встречах и нуждается в автоматизации рабочих процессов.

Goose распространяется по лицензии Apache 2.0, предоставляя разработчикам полную свободу для коммерческих и исследовательских целей. Главный технический директор Block Дханджи Прасанна (Dhanji Prasanna) отметил, что открытая архитектура платформы вдохновляет на инновации. «Наша open-source платформа позволит разработчикам из разных отраслей создавать новые решения, экономя время и повышая их креативность. Мы уже видим, как Goose избавляет наших инженеров от рутинных задач», — сказал он.

Кроме того, модульная структура Goose позволяет легко интегрировать платформу в существующие системы и адаптировать её под конкретные задачи. Разработчики могут выбирать любую языковую модель, которая лучше всего подходит для их нужд, начиная от моделей OpenAI и заканчивая решениями других компаний.

Goose также поддерживает стандарт Model Context Protocol (MCP), разработанный совместно с компанией Anthropic. Этот стандарт позволяет платформе подключаться к различным инструментам и средам разработки. В Block уверены, что совместные усилия с сообществом разработчиков приведут к созданию новых интеграций и функций, расширив возможности платформы.

Примечательно, что Goose делает особый акцент на конфиденциальности и безопасности данных. Пользователи могут размещать её на своих локальных серверах или в виртуальном облаке. Подчёркивается, что компания не передаёт данные через собственные серверы, что особенно важно для финансовых структур, заботящихся о защите информации своих клиентов. Более подробная информация о платформе доступна на её странице в GitHub.

OpenAI выпустила ИИ-агента Operator, который будет сидеть в интернете вместо пользователя

Компания OpenAI представила «исследовательскую версию» ИИ-агента, который может самостоятельно выполнять различные задачи в интернете по запросу пользователя. Например, его можно попросить найти авиабилеты или подобрать товар. Виртуальный помощник, получивший имя Operator, может посещать веб-страницы и взаимодействовать с ними, используя ввод текста, клики и прокрутку.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В основе этого ИИ-агента лежит модель Computer-Using Agent, объединяющая возможности визуального восприятия модели GPT-4o и «продвинутое рассуждение посредством обучения с подкреплением», что позволяет ИИ взаимодействовать с графическими интерфейсами. Как пишет The Verge, Operator анализирует код веб-страниц и взаимодействует с контентом посредством виртуальной мыши и клавиатуры, что позволяет ему работать без интеграции с программным интерфейсом API (Application programming interface).

Примечательно, что ИИ-агент обладает способностью к самокоррекции и, в случае возникновения каких-либо сложностей, передаёт управление пользователю. Также ему понадобится разрешение человека при необходимости ввода конфиденциальных данных, таких как логины и пароли, в том числе на отправку электронных писем. В OpenAI также подчёркивают, что Operator разработан таким образом, чтобы «отклонять вредоносные запросы и блокировать запрещённый контент».

Однако компания предупреждает, что инструмент пока работает не идеально. Например, возникают определённые трудности с более сложными интерфейсами, такими как создание слайд-шоу или управление календарём.

На данный момент новый ИИ-агент доступен только в США для подписчиков ChatGPT Pro стоимостью $200 в месяц, однако в будущем планируется расширить доступ к Operator для пользователей других тарифных планов, включая Plus, Team и Enterprise. Также компания намерена интегрировать возможности нового агента непосредственно в ChatGPT, чтобы сделать его ещё удобнее.

Microsoft запустила бесплатный Copilot Chat для бизнеса с платными ИИ-агентами

Microsoft объявила о запуске бесплатного ИИ-сервиса Copilot для бизнеса, который теперь называется Microsoft 365 Copilot Chat. Его дополняют платные ИИ-агенты для автоматизации рутинных задач, оплата за использование которых будет взиматься разными способами, включая оплату по факту использования.

 Источник изображения: Surface / Unsplash

Источник изображения: Surface / Unsplash

Microsoft 365 Copilot Chat является ребрендингом сервиса Bing Chat Enterprise, который ранее был переименован в Copilot. Ключевым моментом, как отмечает издание The Verge, стал доступ к ИИ-агентам непосредственно через интерфейс чата, что ранее было доступно только в полной версии Microsoft 365 Copilot и требовало подписки стоимостью $30 в месяц на одного пользователя.

ИИ-агенты разработаны в качестве виртуальных коллег, способных отслеживать электронную почту и автоматизировать ряд задач. Их можно создавать и использовать с помощью Copilot Studio, включая агентов, которые работают с веб-данными и данными облачной службы Microsoft Graph. «Это бесплатный и безопасный ИИ-чат, работающий на базе GPT», — заявил Джаред Спатаро (Jared Spataro), главный директор по ИИ-маркетингу в Microsoft, в интервью The Verge. По его словам, возможности чата сопоставимы с конкурентами и даже превосходят их.

Ценовая политика Microsoft достаточно гибкая. Использование агентов в Copilot Chat будет оплачиваться через систему Copilot Studio в Azure или по модели «плати по мере использования». Спатаро успокаивает тех, кто опасается неконтролируемых расходов: «Мы создали различные механизмы контроля за расходами на доступ к ИИ-агентам, а компании могут платить либо по мере использования агентов, либо выбрать подходящий комплексный пакет». При этом отмечается, что пробная подписка не предусмотрена.

Для расчёта затрат компания предлагает следующую модель: одно сообщение в чате стоит 1 цент, генеративный ответ — 2 цента, а запросы к Microsoft Graph обойдутся в 30 центов. «Таким образом, пользователи могут легко рассчитать свои расходы», — подчёркивает Спатаро. Microsoft также привела пример: если ИИ-агент в Copilot Chat отвечает на вопросы сотрудников, генерируя запросы через облачный шлюз Microsoft Graph, то, например, 6400 сообщений обойдутся в 64 доллара в день.

Стоит сказать, что сам интерфейс Copilot Chat практически не изменился, а для обработки запросов используется всё та же модель GPT-4o. Пользователи могут загружать файлы для анализа документов Word или данных в Excel. Эти же функции доступны непосредственно в Word и Excel при наличии полной подписки Microsoft 365 Copilot.

На фоне споров о ценности подписки Microsoft 365 Copilot за $30 в месяц Microsoft надеется, что Copilot Chat для бизнеса поможет привлечь больше компаний к использованию платной версии, интегрированной в офисные приложения.

Генеративный ИИ от Google прописался в автомобилях Mercedes-Benz

Google Cloud представила «новый способ для автопроизводителей использовать полезные генеративные возможности ИИ». Новый автомобильный агент ИИ от Google позволяет автопроизводителям создавать персонализированных и интуитивно понятных ИИ-помощников, которые умеют поддерживать беседу и отвечать на сложные вопросы, такие как «Есть ли поблизости итальянский ресторан?», «Какие о нём отзывы?» и «Какое там самое популярное блюдо?».

 Источник изображения: techspot.com

Источник изображения: techspot.com

Mercedes-Benz и Google Cloud сегодня объявили о расширении своего стратегического партнёрства с целью внедрения новых разговорных возможностей в виртуального помощника MBUX на основе ИИ-агента Google Cloud Automotive AI Agent. Созданный с использованием Gemini на основе Vertex AI, Google Cloud Automotive AI Agent специально настроен для автомобильной промышленности и напрямую взаимодействует с платформой Google Maps.

Mercedes-Benz является одним из первых автопроизводителей, внедривших автомобильного агента ИИ в свой виртуальный помощник MBUX, который появится в новом Mercedes-Benz CLA в конце этого года. По словам Google, «усовершенствованный виртуальный помощник MBUX предлагает свежую и достоверную информацию с платформы Google Maps и позволяет водителям и пассажирам использовать голосовые команды для получения персонализированной информации о точках интереса, условиях дорожного движения и многом другом за считанные секунды».

Агент Google Cloud Automotive AI Agent также позволит виртуальному помощнику MBUX обрабатывать сложные многоуровневые диалоги и запоминать разговоры, чтобы продолжить общение на ту же тему позже.

«В Mercedes-Benz мы стремимся предложить нашим клиентам исключительный цифровой опыт. Наше партнёрство с Google Cloud ещё больше улучшит навигацию в автомобиле, объединив сложные данные о местоположении с генеративным ИИ. Запущенная с новым CLA, наша навигация следующего поколения позволит водителям и пассажирам использовать голосовые команды для получения полной и персонализированной информации в течение нескольких секунд», — заявил генеральный директор Mercedes-Benz Group AG Ола Келлениус (Ola Källenius).

«Mercedes-Benz известен тем, что обеспечивает невероятный опыт вождения, и наше партнёрство принесёт передовые достижения в области искусственного интеллекта, чтобы сделать этот опыт ещё лучше. Наш новый агент Automotive AI Agent поможет водителям ориентироваться и осуществлять поиск с помощью помощников в автомобиле, поэтому эти взаимодействия будут более естественными и полезными. Это только начало того, как агентские возможности могут преобразовать автомобильную промышленность, и я рад видеть, как наше партнёрство продвигает прогресс вперёд», — полагает генеральный директор Google Сундар Пичаи (Sundar Pichai).

Новая функция поиска и навигации Point-of-Interest с улучшенным ИИ появится в новом Mercedes-Benz CLA в конце этого года. Это будет первый автомобиль, разработанный с новой операционной системой Mercedes-Benz MB.OS. В дальнейшем планируется внедрение новых ИИ-функций в другие модели.

ИИ заменит человека в качестве основного пользователя приложений к 2030 году

Согласно исследованию компании Accenture, в ближайшее десятилетие может произойти кардинальная трансформация в сфере использования цифровых технологий, которая вызвана стремительным развитием искусственного интеллекта. К 2030 году ИИ-агенты станут основными пользователями приложений на предприятиях, а к 2032 году обычные потребители будут взаимодействовать с ИИ-агентами чаще, чем с приложениями, сообщает ZDNet.

 Источник изображения: Kandinsky

Источник изображения: Kandinsky

Эту трансформацию авторы доклада называют «большим бинарным взрывом», который произошёл в тот момент, когда фундаментальные ИИ-модели преодолели барьер естественного языка. По словам главного технического директора Accenture Картик Нараина (Karthik Narain), это событие дало старт изменениям в технологических системах и в том, как люди их проектируют и используют.

Нараин подчёркивает, что новые разработки «расширяют границы программного обеспечения, многократно увеличивают цифровой потенциал компаний и создают основу для когнитивных цифровых систем, которые глубоко интегрируют искусственный интеллект в структуру предприятий».

В отчёте также выделены три ключевых направления, которые будут определять технологическое развитие в ближайшие годы — это агентные системы, цифровое ядро и генеративные пользовательские интерфейсы. Эти направления будут развёрнуты на основе гибких и модульных строительных блоков, что позволит компаниям создавать легко масштабируемые и интеллектуальные цифровые компоненты.

Таким образом, исследование Accenture указывает на то, что в ближайшие годы главную роль в использовании цифровых технологий будут играть не люди, а автономные агенты, управляемые ИИ.

Google формирует команду для «моделирования мира» на основе ИИ для игр и обучения роботов

Google DeepMind формирует новую исследовательскую группу по искусственному интеллекту (ИИ), которая займётся разработкой ИИ-моделей, способных имитировать физические среды для обучения роботов и создания реалистичных игровых вселенных. Сообщается, что возглавит инициативу Тим Брукс (Tim Brooks), бывший соруководитель проекта Sora в OpenAI, который присоединился к DeepMind ещё в октябре.

 Источник изображения: Google DeepMind / Unsplash

Источник изображения: Google DeepMind / Unsplash

«Моделирование мира» — это относительно новая область ИИ, которая может найти применение в различных сферах. Направление может быть использовано для создания интерактивных медиасред в реальном времени для видеоигр и кино, а также для разработки реалистичных сценариев обучения роботов и других систем ИИ.

В настоящее время DeepMind активно ищет инженеров-исследователей и учёных для работы в своей лаборатории, разместив вакансии на сайте Greenhouse. Основные задачи команды будут включать обучение моделей в больших масштабах, курирование данных обучения и изучение способов интеграции моделей с мультимодальными языковыми моделями. «Мы считаем, что масштабирование предварительного обучения на видео и мультимодальных данных является критически важным шагом на пути к искусственному общему интеллекту» — говорится в описании вакансий.

Несмотря на амбициозные планы, у DeepMind есть несколько конкурентов, которые уже имеют преимущество в разработке технологии по «моделированию мира». Среди них платформа Nvidia Cosmos для развития физического ИИ и стартап World Labs, созданный Фей-Фей Ли (Fei-Fei Li), которую называют «крёстной матерью ИИ». Новая команда DeepMind будет работать вместе с существующими проектами Google, включая флагманские ИИ-модели Gemini, генератор видео Veo и Genie — ранее разработанную модель мира для имитации игровых 3D-сред в реальном времени.

Стоит сказать, что Google стремится достичь AGI раньше своих конкурентов и гонка за первенство в достижении использования возможностей сверхинтеллекта набирает обороты. Так, генеральный директор OpenAI Сэм Альтман (Sam Altman) недавно заявил, что компания близка к достижению AGI, и что автономные ИИ-агенты могут начать активно включаться в рабочие процессы уже в наступившем году.


window-new
Soft
Hard
Тренды 🔥
OpenAI потребовала наплевать на авторские права при обучении ИИ, иначе США проиграют Китаю технологическую гонку 9 ч.
Бывший глава Google предупредил об опасности стремления США к доминированию в области ИИ 10 ч.
Началась весенняя распродажа Steam со скидками на тысячи игр 11 ч.
ИИ Google Gemini получит доступ к истории поиска пользователя, а функция Deep Research станет бесплатной 11 ч.
Оператор советского домена .su опроверг его скорую ликвидацию 11 ч.
Все игры для Android станут доступны на ПК, если разработчики будут не против 13 ч.
ZA/UM выпустит мобильную версию Disco Elysium, чтобы «увлечь пользователя TikTok» — трейлер и подробности 13 ч.
Microsoft анонсировала Copilot for Gaming — личный киберспортивный тренер для каждого 15 ч.
В Steam скоро выйдет демоверсия Half-Life 2 RTX — более 30 минут геймплея графического переосмысления легендарного шутера Valve 15 ч.
Премьер-министр Великобритании предупредил, что госслужащих скоро заменит ИИ 15 ч.