Сегодня 05 февраля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → агенты
Быстрый переход

Hugging Face выпустила открытый аналог OpenAI Deep Research для анализа информации по сотням сайтов

Команда разработчиков Hugging Face объявила о создании открытой версии инструмента Deep Research, представленного компанией OpenAI. Этот инструмент, получивший похожее название Open Deep Research, является альтернативой разработке OpenAI, которая пока доступна лишь ограниченному кругу пользователей по платной подписке.

 Источник изображения: Hugging Face

Источник изображения: Hugging Face

OpenAI Deep Research, представленный буквально на днях, позволяет собирать исследовательские отчёты по любой теме, анализируя данные в интернете. Однако его использование доступно только подписчикам ChatGPT Pro за $200 в месяц. В ответ на это команда Hugging Face разработала своего ИИ-агента под названием Open Deep Research, который использует модель OpenAI o1 и открытую фреймворк-систему, помогающую ИИ планировать анализ данных и взаимодействовать с поисковыми системами. Как сообщает TechCrunch, ссылаясь на слова разработчиков, модель превосходит по результатам «рассуждающие» аналоги, в частности DeepSeek R1.

Новый инструмент способен автономно перемещаться по сети, используя простой текстовой браузер (отображает только текст веб-страницы, игнорируя графический контент) и набор инструментов для анализа текста. Исследователи утверждают, что Open Deep Research может прокручивать страницы, манипулировать файлами и даже выполнять вычисления с данными. В тестах бенчмарка GAIA, оценивающем ИИ-ассистентов общего назначения, проект получил 54 %, что немного уступает результату оригинального Deep Research от OpenAI — 67,36%.

В попытке протестировать Open Deep Research журналист TechCrunch столкнулся с техническими проблемами из-за высокой нагрузки на сервер. Однако разработчики заверили, что продолжают работать над улучшением производительности модели и уже выложили исходный код на GitHub, чтобы получать обратную связь от сообщества.

Интересно, что несмотря на появление множества попыток воспроизвести OpenAI Deep Research, ни одна из открытых моделей пока не может сравниться с оригиналом, так как не использует модель o3. Эта ИИ-модель остаётся лидером в задачах, связанных с ответами на сложные вопросы и сбором информации, а её API интерфейс, в отличие от модели OpenAI o3-mini, недоступен. По мнению экспертов, пока подобная модель не появится в открытом доступе, альтернативы вроде Open Deep Research вряд ли смогут полностью конкурировать с оригинальной разработкой.

Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ

Глава подразделения искусственного интеллекта в Microsoft Мустафа Сулейман (Mustafa Suleyman) в стремлении укрепить позиции компании в разработке интерактивных ИИ-агентов расширяет команду Microsoft, переманивает ключевых специалистов из Google, включая создателей технологии «Audio Overviews». Бывшие коллеги Сулеймана из DeepMind, откуда он ушёл в 2022 году, будут привлечены для работы над проектом по созданию мультимодальных моделей для обработки текста, звука и видео.

 Источник изображения: Copilot

Источник изображения: Copilot

Как сообщает Financial Times, в числе новых сотрудников Microsoft оказались Марко Тальясаччи (Marco Tagliasacchi) и Залан Боршош (Zalán Borsos), создатели функции «Audio Overviews», позволяющей преобразовывать текст в аудио в стиле увлекательного подкаста. Эти исследователи также участвовали в разработке Astra — перспективного ИИ-агента DeepMind, способного отвечать на вопросы в режиме реального времени с использованием видео, аудио и текста.

К команде также присоединился Маттиас Миндерер (Matthias Minderer). Он займётся развитием возможностей ИИ для анализа изображений. Все трое будут работать в новом исследовательском центре Microsoft в Цюрихе и, по словам источника, знакомого с ситуацией, сыграют ключевую роль в разработке следующего поколения Copilot, на основе которого будут создаваться интерактивные ИИ-агенты, способные к выполнению широкого спектра задач.

Относительно кадровых потерь такого уровня Google DeepMind комментарии не дал. Однако отмечается, что переход этих специалистов из Google DeepMind в Microsoft является частью ожесточённой борьбы за таланты в сфере ИИ. При этом, обе компании остаются ключевыми игроками в разработке мультимодальных ИИ-моделей, которые способны анализировать и понимать контент на основе аудио, видео или изображений.

На фоне этой конкурентной гонки другие компании также не отстают — OpenAI представила голосовой режим для ChatGPT, Amazon внедряет ИИ в свой голосовой помощник Alexa. Google также готовится к выпуску голосового агента Astra в 2025 году.

Основатель Twitter представил открытую платформу Goose для создания ИИ-агентов

Сооснователь и бывший генеральный директор Twitter Джек Дорси (Jack Dorsey) вернулся в мир технологий с новым проектом, запустив платформу под названием Goose для создания ИИ-агентов. Этот инструмент, разработанный его компанией Block, представляет собой бесплатную и открытую среду, упрощающую работу с большими языковыми моделями (LLM) от OpenAI, Google, Anthropic и других компаний.

Платформа ориентирована на автоматизацию задач в сфере программной инженерии и, как пишет издание VentureBeat, Goose уже используется для таких целей, как миграция кода с одного языка на другой, например, с Ember на React, с Ruby на Kotlin, с Prefect-1 на Prefect-2 и т. д. Также платформа применяется для создания API, проведения тестов производительности, настройки мониторинга и оптимизации баз данных. Проще говоря, Goose помогает разработчикам справляться с рутинными задачами, высвобождая время для более значимой работы.

Ключевой особенностью сервиса является возможность работы сразу с несколькими системами и приложениями. Вице-президент компании Джеки Бросамер (Jackie Brosamer) подчеркнула, что система позволяет интегрировать различные инструменты, такие как Google Drive и Slack, для сбора данных, их обобщения и выполнения действий от имени пользователя. Это особенно полезно для тех, кто проводит много времени на встречах и нуждается в автоматизации рабочих процессов.

Goose распространяется по лицензии Apache 2.0, предоставляя разработчикам полную свободу для коммерческих и исследовательских целей. Главный технический директор Block Дханджи Прасанна (Dhanji Prasanna) отметил, что открытая архитектура платформы вдохновляет на инновации. «Наша open-source платформа позволит разработчикам из разных отраслей создавать новые решения, экономя время и повышая их креативность. Мы уже видим, как Goose избавляет наших инженеров от рутинных задач», — сказал он.

Кроме того, модульная структура Goose позволяет легко интегрировать платформу в существующие системы и адаптировать её под конкретные задачи. Разработчики могут выбирать любую языковую модель, которая лучше всего подходит для их нужд, начиная от моделей OpenAI и заканчивая решениями других компаний.

Goose также поддерживает стандарт Model Context Protocol (MCP), разработанный совместно с компанией Anthropic. Этот стандарт позволяет платформе подключаться к различным инструментам и средам разработки. В Block уверены, что совместные усилия с сообществом разработчиков приведут к созданию новых интеграций и функций, расширив возможности платформы.

Примечательно, что Goose делает особый акцент на конфиденциальности и безопасности данных. Пользователи могут размещать её на своих локальных серверах или в виртуальном облаке. Подчёркивается, что компания не передаёт данные через собственные серверы, что особенно важно для финансовых структур, заботящихся о защите информации своих клиентов. Более подробная информация о платформе доступна на её странице в GitHub.

OpenAI выпустила ИИ-агента Operator, который будет сидеть в интернете вместо пользователя

Компания OpenAI представила «исследовательскую версию» ИИ-агента, который может самостоятельно выполнять различные задачи в интернете по запросу пользователя. Например, его можно попросить найти авиабилеты или подобрать товар. Виртуальный помощник, получивший имя Operator, может посещать веб-страницы и взаимодействовать с ними, используя ввод текста, клики и прокрутку.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В основе этого ИИ-агента лежит модель Computer-Using Agent, объединяющая возможности визуального восприятия модели GPT-4o и «продвинутое рассуждение посредством обучения с подкреплением», что позволяет ИИ взаимодействовать с графическими интерфейсами. Как пишет The Verge, Operator анализирует код веб-страниц и взаимодействует с контентом посредством виртуальной мыши и клавиатуры, что позволяет ему работать без интеграции с программным интерфейсом API (Application programming interface).

Примечательно, что ИИ-агент обладает способностью к самокоррекции и, в случае возникновения каких-либо сложностей, передаёт управление пользователю. Также ему понадобится разрешение человека при необходимости ввода конфиденциальных данных, таких как логины и пароли, в том числе на отправку электронных писем. В OpenAI также подчёркивают, что Operator разработан таким образом, чтобы «отклонять вредоносные запросы и блокировать запрещённый контент».

Однако компания предупреждает, что инструмент пока работает не идеально. Например, возникают определённые трудности с более сложными интерфейсами, такими как создание слайд-шоу или управление календарём.

На данный момент новый ИИ-агент доступен только в США для подписчиков ChatGPT Pro стоимостью $200 в месяц, однако в будущем планируется расширить доступ к Operator для пользователей других тарифных планов, включая Plus, Team и Enterprise. Также компания намерена интегрировать возможности нового агента непосредственно в ChatGPT, чтобы сделать его ещё удобнее.

Microsoft запустила бесплатный Copilot Chat для бизнеса с платными ИИ-агентами

Microsoft объявила о запуске бесплатного ИИ-сервиса Copilot для бизнеса, который теперь называется Microsoft 365 Copilot Chat. Его дополняют платные ИИ-агенты для автоматизации рутинных задач, оплата за использование которых будет взиматься разными способами, включая оплату по факту использования.

 Источник изображения: Surface / Unsplash

Источник изображения: Surface / Unsplash

Microsoft 365 Copilot Chat является ребрендингом сервиса Bing Chat Enterprise, который ранее был переименован в Copilot. Ключевым моментом, как отмечает издание The Verge, стал доступ к ИИ-агентам непосредственно через интерфейс чата, что ранее было доступно только в полной версии Microsoft 365 Copilot и требовало подписки стоимостью $30 в месяц на одного пользователя.

ИИ-агенты разработаны в качестве виртуальных коллег, способных отслеживать электронную почту и автоматизировать ряд задач. Их можно создавать и использовать с помощью Copilot Studio, включая агентов, которые работают с веб-данными и данными облачной службы Microsoft Graph. «Это бесплатный и безопасный ИИ-чат, работающий на базе GPT», — заявил Джаред Спатаро (Jared Spataro), главный директор по ИИ-маркетингу в Microsoft, в интервью The Verge. По его словам, возможности чата сопоставимы с конкурентами и даже превосходят их.

Ценовая политика Microsoft достаточно гибкая. Использование агентов в Copilot Chat будет оплачиваться через систему Copilot Studio в Azure или по модели «плати по мере использования». Спатаро успокаивает тех, кто опасается неконтролируемых расходов: «Мы создали различные механизмы контроля за расходами на доступ к ИИ-агентам, а компании могут платить либо по мере использования агентов, либо выбрать подходящий комплексный пакет». При этом отмечается, что пробная подписка не предусмотрена.

Для расчёта затрат компания предлагает следующую модель: одно сообщение в чате стоит 1 цент, генеративный ответ — 2 цента, а запросы к Microsoft Graph обойдутся в 30 центов. «Таким образом, пользователи могут легко рассчитать свои расходы», — подчёркивает Спатаро. Microsoft также привела пример: если ИИ-агент в Copilot Chat отвечает на вопросы сотрудников, генерируя запросы через облачный шлюз Microsoft Graph, то, например, 6400 сообщений обойдутся в 64 доллара в день.

Стоит сказать, что сам интерфейс Copilot Chat практически не изменился, а для обработки запросов используется всё та же модель GPT-4o. Пользователи могут загружать файлы для анализа документов Word или данных в Excel. Эти же функции доступны непосредственно в Word и Excel при наличии полной подписки Microsoft 365 Copilot.

На фоне споров о ценности подписки Microsoft 365 Copilot за $30 в месяц Microsoft надеется, что Copilot Chat для бизнеса поможет привлечь больше компаний к использованию платной версии, интегрированной в офисные приложения.

Генеративный ИИ от Google прописался в автомобилях Mercedes-Benz

Google Cloud представила «новый способ для автопроизводителей использовать полезные генеративные возможности ИИ». Новый автомобильный агент ИИ от Google позволяет автопроизводителям создавать персонализированных и интуитивно понятных ИИ-помощников, которые умеют поддерживать беседу и отвечать на сложные вопросы, такие как «Есть ли поблизости итальянский ресторан?», «Какие о нём отзывы?» и «Какое там самое популярное блюдо?».

 Источник изображения: techspot.com

Источник изображения: techspot.com

Mercedes-Benz и Google Cloud сегодня объявили о расширении своего стратегического партнёрства с целью внедрения новых разговорных возможностей в виртуального помощника MBUX на основе ИИ-агента Google Cloud Automotive AI Agent. Созданный с использованием Gemini на основе Vertex AI, Google Cloud Automotive AI Agent специально настроен для автомобильной промышленности и напрямую взаимодействует с платформой Google Maps.

Mercedes-Benz является одним из первых автопроизводителей, внедривших автомобильного агента ИИ в свой виртуальный помощник MBUX, который появится в новом Mercedes-Benz CLA в конце этого года. По словам Google, «усовершенствованный виртуальный помощник MBUX предлагает свежую и достоверную информацию с платформы Google Maps и позволяет водителям и пассажирам использовать голосовые команды для получения персонализированной информации о точках интереса, условиях дорожного движения и многом другом за считанные секунды».

Агент Google Cloud Automotive AI Agent также позволит виртуальному помощнику MBUX обрабатывать сложные многоуровневые диалоги и запоминать разговоры, чтобы продолжить общение на ту же тему позже.

«В Mercedes-Benz мы стремимся предложить нашим клиентам исключительный цифровой опыт. Наше партнёрство с Google Cloud ещё больше улучшит навигацию в автомобиле, объединив сложные данные о местоположении с генеративным ИИ. Запущенная с новым CLA, наша навигация следующего поколения позволит водителям и пассажирам использовать голосовые команды для получения полной и персонализированной информации в течение нескольких секунд», — заявил генеральный директор Mercedes-Benz Group AG Ола Келлениус (Ola Källenius).

«Mercedes-Benz известен тем, что обеспечивает невероятный опыт вождения, и наше партнёрство принесёт передовые достижения в области искусственного интеллекта, чтобы сделать этот опыт ещё лучше. Наш новый агент Automotive AI Agent поможет водителям ориентироваться и осуществлять поиск с помощью помощников в автомобиле, поэтому эти взаимодействия будут более естественными и полезными. Это только начало того, как агентские возможности могут преобразовать автомобильную промышленность, и я рад видеть, как наше партнёрство продвигает прогресс вперёд», — полагает генеральный директор Google Сундар Пичаи (Sundar Pichai).

Новая функция поиска и навигации Point-of-Interest с улучшенным ИИ появится в новом Mercedes-Benz CLA в конце этого года. Это будет первый автомобиль, разработанный с новой операционной системой Mercedes-Benz MB.OS. В дальнейшем планируется внедрение новых ИИ-функций в другие модели.

ИИ заменит человека в качестве основного пользователя приложений к 2030 году

Согласно исследованию компании Accenture, в ближайшее десятилетие может произойти кардинальная трансформация в сфере использования цифровых технологий, которая вызвана стремительным развитием искусственного интеллекта. К 2030 году ИИ-агенты станут основными пользователями приложений на предприятиях, а к 2032 году обычные потребители будут взаимодействовать с ИИ-агентами чаще, чем с приложениями, сообщает ZDNet.

 Источник изображения: Kandinsky

Источник изображения: Kandinsky

Эту трансформацию авторы доклада называют «большим бинарным взрывом», который произошёл в тот момент, когда фундаментальные ИИ-модели преодолели барьер естественного языка. По словам главного технического директора Accenture Картик Нараина (Karthik Narain), это событие дало старт изменениям в технологических системах и в том, как люди их проектируют и используют.

Нараин подчёркивает, что новые разработки «расширяют границы программного обеспечения, многократно увеличивают цифровой потенциал компаний и создают основу для когнитивных цифровых систем, которые глубоко интегрируют искусственный интеллект в структуру предприятий».

В отчёте также выделены три ключевых направления, которые будут определять технологическое развитие в ближайшие годы — это агентные системы, цифровое ядро и генеративные пользовательские интерфейсы. Эти направления будут развёрнуты на основе гибких и модульных строительных блоков, что позволит компаниям создавать легко масштабируемые и интеллектуальные цифровые компоненты.

Таким образом, исследование Accenture указывает на то, что в ближайшие годы главную роль в использовании цифровых технологий будут играть не люди, а автономные агенты, управляемые ИИ.

Google формирует команду для «моделирования мира» на основе ИИ для игр и обучения роботов

Google DeepMind формирует новую исследовательскую группу по искусственному интеллекту (ИИ), которая займётся разработкой ИИ-моделей, способных имитировать физические среды для обучения роботов и создания реалистичных игровых вселенных. Сообщается, что возглавит инициативу Тим Брукс (Tim Brooks), бывший соруководитель проекта Sora в OpenAI, который присоединился к DeepMind ещё в октябре.

 Источник изображения: Google DeepMind / Unsplash

Источник изображения: Google DeepMind / Unsplash

«Моделирование мира» — это относительно новая область ИИ, которая может найти применение в различных сферах. Направление может быть использовано для создания интерактивных медиасред в реальном времени для видеоигр и кино, а также для разработки реалистичных сценариев обучения роботов и других систем ИИ.

В настоящее время DeepMind активно ищет инженеров-исследователей и учёных для работы в своей лаборатории, разместив вакансии на сайте Greenhouse. Основные задачи команды будут включать обучение моделей в больших масштабах, курирование данных обучения и изучение способов интеграции моделей с мультимодальными языковыми моделями. «Мы считаем, что масштабирование предварительного обучения на видео и мультимодальных данных является критически важным шагом на пути к искусственному общему интеллекту» — говорится в описании вакансий.

Несмотря на амбициозные планы, у DeepMind есть несколько конкурентов, которые уже имеют преимущество в разработке технологии по «моделированию мира». Среди них платформа Nvidia Cosmos для развития физического ИИ и стартап World Labs, созданный Фей-Фей Ли (Fei-Fei Li), которую называют «крёстной матерью ИИ». Новая команда DeepMind будет работать вместе с существующими проектами Google, включая флагманские ИИ-модели Gemini, генератор видео Veo и Genie — ранее разработанную модель мира для имитации игровых 3D-сред в реальном времени.

Стоит сказать, что Google стремится достичь AGI раньше своих конкурентов и гонка за первенство в достижении использования возможностей сверхинтеллекта набирает обороты. Так, генеральный директор OpenAI Сэм Альтман (Sam Altman) недавно заявил, что компания близка к достижению AGI, и что автономные ИИ-агенты могут начать активно включаться в рабочие процессы уже в наступившем году.

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

Google запустила «всеобъемлющую» ИИ-модель Gemini 2.0, которая может заменить человека

Представлена новая модель ИИ Gemini 2.0 от Google, которая стала предельно универсальной — она генерирует текст, звук и изображения, а также предлагает новые мультимодальные возможности, которые закладывают основу для следующего большого этапа в развитии ИИ: агентов, которые в буквальном смысле могут заменить пользователя в рутинных операциях. Новая модель также стала заметно производительнее и энергоэффективнее.

 Источник изображения: techspot.com

Источник изображения: techspot.com

Как и любая другая компания, участвующая в гонке ИИ, Google лихорадочно встраивает ИИ во всё, до чего может дотянуться, пытаясь создать коммерчески успешные продукты. Одновременно требуется так настроить всю инфраструктуру, чтобы дорогостоящие ИИ-решения не разорили компанию. Тем временем Amazon, Microsoft, Anthropic и OpenAI вливают свои собственные миллиарды в практически тот же самый набор проблем.

Gemini 2.0 представлена примерно через 10 месяцев после выпуска версии 1.5. Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) очень высоко оценивает новую модель, называя её «всеобъемлющей», хотя Gemini 2.0 все ещё находится в стадии «экспериментального предварительного просмотра», по терминологии Google. Тем не менее Хассабис уверен, что новая модель предоставит совершенно другой уровень возможностей, в первую очередь в области агентского ИИ.

Агентским ИИ называют ИИ-ботов, которые могут полноценно выполнять действия от имени пользователя. Например, Project Astra от Google — это визуальная система, которая может распознавать объекты, помогает ориентироваться в мире и находить утерянные предметы. По словам Хассабиса, возможности Astra в версии Gemini 2.0 многократно возросли.

Другой пример — Google Project Mariner — экспериментальное расширение для браузера Chrome, которое может буквально подменять пользователя при веб-серфинге. Агент Jules, в свою очередь, помогает разработчикам в поиске и исправлении плохого программного кода. Выпущен даже агент, который помогает лучше играть в видеоигры. Хассабис приводит его в пример в качестве по-настоящему мультимодальной модели ИИ.

«Мы действительно считаем 2025 год настоящим началом эры на основе агентов, — заявил Хассабис, — Gemini 2.0 является её основой». Он также отметил возросшую производительность и энергоэффективность новой модели, особенно на фоне общего замедления прогресса в отрасли ИИ.

План Google относительно Gemini 2.0 заключается в том, чтобы использовать её абсолютно везде. Google ставила своей целью внедрить как можно больше функций в единую модель, а не запускать множество отдельных разрозненных продуктов. «Мультимодальность, различные виды выходных данных, функции — цель состоит в том, чтобы включить все это в основополагающую модель Gemini. Мы пытаемся построить максимально общую модель», — говорит Хассабис.

По словам Хассабиса, с началом агентской эры ИИ потребуется решать как новые, так и старые проблемы. Старые вечны, они касаются производительности, эффективности и стоимости вывода. Новые во многом связаны с рисками в сфере безопасности и конфиденциальности.

Gemini 2.0 на данный момент находится на экспериментальной стадии, причём только в облегчённой версии Gemini 2.0 Flash. Выход окончательной версии запланирован на начало следующего года.

ИИ отправит на свалку истории поисковики и браузеры, считает глава Microsoft AI

Разработчики генеративных нейросетей, такие как Google и OpenAI, уверены, что в скором будущем пользователи будут делегировать обработку интернет-запросов и выполнение разных задач чат-ботам или ИИ-агентам. Глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman) считает, что ИИ-алгоритмы смогут заменить веб-браузеры, а некоторые эксперты предсказывают, что со временем подобные приложения станут похожими на операционные системы.

 Источник изображений: techspot.com

Источник изображений: techspot.com

В беседе с журналистами портала The Verge Сулейман рассказал о будущем, в котором диалоговые генеративные ИИ-интерфейсы могут сделать обычные веб-браузеры устаревшими. Однако, прежде чем эта концепция будет реализована на практике, технология должна преодолеть массу препятствий. Он выразил уверенность в дальнейшем развитии ИИ, но умерил ожидания в отношении искусственного интеллекта общего назначения (Artificial General Intelligence), который также называют сильным ИИ, способным решать задачи наравне с человеком.

Сулейман считает, что в нынешнем виде процесс взаимодействия с поисковыми системами является слишком громоздким. По его мнению, гораздо более удобно делать запросы в приложении Copilot на своём iPhone. По мнению Сулеймана, ИИ-помощники с интерфейсами, сгенерированными нейросетями, смогут заменить традиционные поисковые системы и браузеры в течение трёх-пяти лет.

Если разработчики перепроектируют веб-порталы таким образом, чтобы на них можно было размещать ИИ-агентов, то такие агенты смогут выполнять запросы, взаимодействуя с другими ИИ-системами. Однако при таком сценарии не совсем понятно, сможет ли ИИ корректно находить точные ответы на запросы, и что произойдёт с доходами от рекламы, когда люди перестанут переходить по веб-сайтам. Сулейман не стал заострять внимание на этих вопросах, сказав, что Microsoft добилась значительного прогресса в минимизации количества галлюцинаций ИИ, которые являются основной проблемой ИИ-агентов.

Отраслевой аналитик Ом Малик (Om Malik) считает, что приложения на основе генеративного ИИ могут пойти ещё дальше. В недавней публикации он высказался об ограничениях традиционных браузеров в мире, где всё больше доминируют технологии дополненной и виртуальной реальности, а также искусственный интеллект. Браузеры не сильно изменились с момента их появления, они построены вокруг «интернета, ориентированного на документы». Появление генеративных нейросетей и диалоговых систем бросает вызов этим устоям. Потенциально ИИ способен фрагментировать веб-страницы в интерактивные, персонализированные потоки информации, что не соответствует первоначальным целям браузеров.

Нечто похожее тестирует Google в рамках проекта Project Jarvis, участники которого создали ИИ-агента, способного ограниченно контролировать курсор мыши и браузер пользователя для автоматизации процесса выполнения ряда задач. Бывшие сотрудники Google также работают над созданием работающей онлайн операционной системы на базе ИИ.

Microsoft хочет, чтобы у каждого человека был ИИ-помощник, а у каждого бизнеса — ИИ-агент

На ежегодной конференции Microsoft Ignite компания представила своё видение рабочего процесса на ПК в будущем, связанное с использованием искусственного интеллекта Copilot. Microsoft намерена сделать Copilot не просто вспомогательной функцией, а центральным элементом работы пользователей, объединяющим множество агентов для выполнения различных задач.

 Источник изображения: Copilot

Источник изображения: Copilot

Copilot станет своеобразным суперприложением, через которое пользователи смогут выполнять большую часть задач, поясняет PCMag. Открыв Copilot, пользователь увидит два основных режима — Work и Web. В режиме Work Copilot получает доступ к данным Microsoft Graph, включая электронные письма, чаты в Teams и документы в SharePoint для выполнения задач на основе контекста. Например, для создания списка задач или формирования предложений для совместной работы через инструмент Bizchat.

Пользователь может поручать Copilot много различных задач, которые часто выполняются специальными ИИ-агентами, представляющими из себя либо стандартных агентов Microsoft, либо специфических, созданных компаниями. По сути это то, что имел в виду генеральный директор Microsoft Сатья Наделла (Satya Nadella), когда говорил: «Copilot — это пользовательский интерфейс для ИИ». Именно поэтому на конференции неоднократно звучала фраза: «У каждого человека должен быть Copilot, и у каждого бизнес-процесса свой ИИ-агент».

Стоит отметить, что Copilot и так уже демонстрирует на сегодня впечатляющие возможности. Например, пользователь может попросить его подготовить повестку для встречи, проанализировав переписку и документы, связанные с участниками. Полученный документ можно отредактировать и отправить коллегам через Bizchat для совместной работы. Также Microsoft представила агентов с узкой специализацией, таких как переводчик, HR-агент, фасилитатор и проектный менеджер.

Переводчик выполняет синхронный перевод с сохранением интонации и тембра голоса. HR-агент способен отвечать на вопросы сотрудников о корпоративных политиках или предоставлять информацию о зарплате и льготах. Проектный менеджер поможет в создании плана проекта. И наконец, фасилитатор будет вести заметки во время встреч в Teams и создавать список задач. Несмотря на то, что эти инструменты находятся на стадии предварительного тестирования, они уже вызывают интерес, благодаря своему потенциалу по снижению затрат и улучшению бизнес-процессов.

Стоит сказать, что внедрение Copilot одновременно связано с рядом вызовов. Как отметил Херайн Оберой (Herain Oberoi), генеральный менеджер по безопасности данных, переход к ИИ-инструментам открывает новые уязвимости. Для решения этой проблемы Microsoft предлагает обновлённый пакет инструментов безопасности, включая Purview Data Loss Prevention, который позволяет классифицировать данные и управлять доступом, также будет внедрена система защиты от предвзятости ИИ-моделей и запрещённого контента. При этом администраторы смогут контролировать, какие ИИ-модели должны использоваться, а какие нет, из более чем 1800 доступных на платформе Azure.

OpenAI планирует выпустить ИИ-агента Operator в январе — он сможет управлять ПК без пользователя

Компания OpenAI готовится к выпуску нового ИИ-агента под кодовым названием Operator, который позволит выполнять разнообразные задачи на компьютере пользователя. Релиз этого инструмента может состояться уже в январе 2025 года.

 Источник изображения: OpenAI

Источник изображения: OpenAI

На первом этапе упомянутое решение будет доступно в качестве предварительной исследовательской версии через API для разработчиков. Operator призван конкурировать с аналогичными ИИ-агентами, такими как недавно представленный Computer Use компании Anthropic и разрабатываемый ИИ-агент Google, ориентированный на потребительский рынок.

OpenAI стремится создать универсальный инструмент, способный выполнять различные операции в веб-браузере и подходящий для решения повседневных задач пользователей. Однако, как отмечает издание Bloomberg, пока неизвестно, предложит ли Operator пользователям значительные преимущества перед аналогичными решениями конкурентов. Исследовательская версия инструмента будет полезна для оценки его потенциальных преимуществ и выявления областей, требующих доработки на основе обратной связи.

Запуск Operator совпадает с публикацией документа OpenAI, содержащего рекомендации для правительства США по вопросам стратегии развития ИИ. В этом документе предлагается создание «экономических зон» для активного развития ИИ-инфраструктуры, а также формирование альянсов с союзниками США, что позволит усилить позиции страны в технологической гонке с Китаем.

Мессенджер «Мail.ru Агент» завершил работу после 21 года существования

VK сообщила о завершении работы мессенджера «Мail.ru Агент». Коммуникационный сервис был востребован в 2000-х годах, однако в последнее время его пользовательская аудитория неуклонно сокращалась. В качестве альтернативы компания рекомендует использовать другие платформы: «VK Мессенджер» для личного общения и VK WorkSpace для решения рабочих вопросов.

 Источник изображения: mail.ru

Источник изображения: mail.ru

«Mail.ru Агент» был запущен в 2003 году в качестве платформы для доступа к новостям, прогнозу погоды и поисковой строке. Чуть позже в нём появились уведомления о новых письмах. Осенью 2003 года в «Mail.ru Агент» были добавлены функции полноценного мессенджера. За два следующих года количество зарегистрированных пользователей выросло до полумиллиона, не в последнюю очередь за счёт популярности в то время портала Mail.ru

На протяжении многих лет «Mail.ru Агент» наряду с ICQ являлся одним из основных инструментов для общения и обмена файлами в России. По мере развития сервис превратился в универсальное средство связи. Короткие сообщения были дополнены отправкой SMS, звонками на городские и мобильные телефоны, а позднее — возможностью организовать видеоконференцию.

В 2008 году «Mail.ru Агент» был объединён с социальной сетью «Мой Мир», а затем получил поддержку протокола сервиса коротких текстовых сообщений ICQ. В июле 2024 года на сайте мессенджера было опубликовано сообщение о скором прекращении работы сервиса. Пользователям было рекомендовано сохранить важные данные и историю переписки на своих устройствах.

Ранее, 26 июня, стало известно о закрытии мессенджера IСQ, который Mail.ru, позже переименованная в VK, без особого успеха пыталась перезапустить в 2020 году. Приложение ICQ исчезло из магазинов App Store и Google Play. Немногочисленным пользователям было предложено использовать «VK Мессенджер».

ИИ-агенты Билла Гейтса: как новый виток в эволюции компьютерных технологий изменит повседневную жизнь человека

Билл Гейтс (Bill Gates), сооснователь корпорации Microsoft, в своём блоге поделился прогнозами о будущем ИИ и его роли в нашей повседневной жизни. Гейтс уверен, что в ближайшие 5 лет ИИ радикально изменит способы, которыми мы используем компьютеры и мобильные устройства.

 Источник изображения: Mohamed_hassan / Pixabay

Источник изображения: Mohamed_hassan / Pixabay

По мнению Гейтса, скоро не потребуется использовать отдельные приложения для различных задач. Вместо этого мы сможем обращаться к нашим устройствам на обычном языке, и они смогут обрабатывать наши запросы. Это станет возможным благодаря развитию персональных помощников на основе ИИ, которые будут значительно превосходить сегодняшние технологии.

Гейтс называет такие программы «агентами». Он предсказывает, что эти агенты не только изменят способ взаимодействия людей с компьютерами, но и радикально трансформируют индустрию ПО. Это будет самая значительная революция в вычислительной технике с момента перехода от ввода команд в компьютерном терминале к использованию графических интерфейсов.

Ключевым аспектом работы агентов является их способность узнавать пользователя как личность. Чем больше они узнают о вас, тем лучше смогут предвидеть ваши потребности и помогать вам. «Они проактивны, способны предлагать решения до того, как вы их запросите. Они работают через приложения, улучшаясь со временем, запоминая ваши действия и распознавая намерения и модели вашего поведения. На основе этой информации они предлагают то, что, по их мнению, вам нужно, хотя конечное решение всегда за вами», — пишет Гейтс.

Гейтс также затрагивает тему влияния ИИ на здравоохранение, образование, производительность, развлечения и другие сферы нашей повседневной жизни. В здравоохранении, например, агенты смогут помогать в базовой триажной диагностике и советах по лечению, а также помогать медицинским работникам в принятии решений. В образовании агенты будут дополнять работу учителей, персонализируя обучение для студентов и освобождая учителей от рутинных задач. В сфере производительности агенты будут помогать в различных задачах, таких как составление бизнес-планов или организация встреч. В развлечениях и покупках агенты будут не только делать рекомендации, но и помогать действовать в соответствии с ними. Гейтс видит ИИ как неотъемлемую часть каждого аспекта нашего существования.

В своём блоге Гейтс также высказывает мнение, что агенты станут следующей важной платформой в индустрии вычислительной техники. «Агенты смогут помочь практически в любой деятельности и любой области жизни. В индустрии компьютерных технологий мы говорим о платформах — технологиях, на которых строятся приложения и сервисы. Android, iOS и Windows — это платформы. Агенты станут следующей платформой», — утверждает Гейтс.


window-new
Soft
Hard
Тренды 🔥
Electronic Arts готова отложить релиз «крупнейшей Battlefield в истории» под угрозой столкновения с GTA VI 10 мин.
В цифровых рублях начнут выплачивать социальные пособия, но пока в качестве эксперимента 49 мин.
ИИ-боту ChatGPT теперь можно отправлять голосовые сообщения и фото через WhatsApp 57 мин.
Telegram снова оштрафовали на 80 тыс. рублей за хранение данных россиян за границей 3 ч.
ByteDance стёрла грань между дипфейком и реальностью — представлена ИИ-модель OmniHuman-1 4 ч.
Дождались: спустя всего день после релиза продажи Kingdom Come: Deliverance 2 уже превысили миллион копий 4 ч.
OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества» 4 ч.
Роскомнадзор оштрафовал на ₽2 млн мессенджер Discord, который сам ранее заблокировал 4 ч.
У Google появились «очень хорошие идеи» по интеграции рекламы в ИИ-помощника Gemini 5 ч.
Пользователи одной из служб Microsoft уже шесть лет подвергаются фишинговой атаке 5 ч.
Многострадальный космический проект Starliner принёс Boeing убытки в $523 млн в прошлом году 41 мин.
Thermal Grizzly представила графеновые термопрокладки KryoSheet, которые заменят термопасту на CPU и GPU 3 ч.
Microsoft объявила даты конференции Build 2025, которая будет почти полностью посвящена ИИ 3 ч.
Представлен 23,8-дюймовый трансрефлективный монитор Hybri с режимом электронной бумаги за $899 3 ч.
Dimensity 9400 обогнал Snapdragon 8 Elite в январском рейтинге AnTuTu 3 ч.
Huawei рассказала, когда первый в мире трёхстворчатый смартфон Mate XT Ultimate выйдет на глобальный рынок 4 ч.
Флагманский флагман Xiaomi 15 Ultra будет представлен в конце февраля 4 ч.
Nvidia заявила, что Reflex Low Latency не совместима со сторонними технологиями генерации кадров 5 ч.
AOC представила недорогие игровые мониторы AGON G42 — IPS, до 27 дюймов, Full HD и 180 Гц 5 ч.
Asus представила смартфон ROG Phone 9 FE для геймеров со Snapdragon 8 Gen 3 и разъёмом для наушников 6 ч.