Опрос
|
реклама
Быстрый переход
Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения
12.12.2024 [00:19],
Николай Хижняк
Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек. Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты. После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров. ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля. Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам. Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент. «Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch. С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов. «Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн. Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году. Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах. Apple выпустит собственный серверный процессор для «Яблочного интеллекта»
11.12.2024 [23:34],
Владимир Мироненко
В настоящее время для обеспечения работы ИИ-сервиса Apple Intelligence используется серверная инфраструктура на чипах M2 Ultra собственной разработки Apple. По слухам, в следующем году их заменят чипы серии M4. Однако теперь The Information сообщает, что Apple разрабатывает новый серверный чип, который обеспечит ещё более высокую производительность для реализации функций ИИ, планируя отказаться от применения чипов Mac в серверах. По данным источников, новый чип содержит «множество копий» нейронного движка Neural Engine, чтобы обеспечить более высокую производительность для обработки ИИ-нагрузок. Предполагается, что в проекте по созданию нового серверного чипа участвует по меньшей мере три компании. В то время как Apple занимается общими задачами по разработке чипа, Broadcom, как сообщают источники, предоставляет для него сетевые технологии. За производство будет отвечать TSMC — массовый выпуск нового чипа стартует в 2026 году с использованием 3-нм техпроцесса третьего поколения N3P. Эта же технология, как ожидается, будет использоваться для выпуска чипов A19 для iPhone 17 в следующем году. Серверный чип Apple, по всей видимости, будет поддерживать некоторые функции Apple Intelligence, которые полагаются на реализуемую на сервере генерацию, такие как Image Playground. Напомним, что Apple придерживается стратегии, согласно которой основные задачи, связанные с ИИ, выполняются локально на смартфоне или компьютере. Но сложные задачи, которых обычно меньшинство, обрабатываются уже на сервере. «Apple, вероятно, будет использовать новый чип ИИ для инференса, когда чип обрабатывает новые данные, такие как описание пользователем возможного изображения, и применяет их к моделям для генерации выходных данных, например, создания самого изображения», — пишет The Information. Apple объявила, что iOS 18.2, iPadOS 18.2 и macOS Sequoia 15.2 выйдут сегодня с дополнительными функциями Apple Intelligence, включая Genmoji, Image Playground, Image Wand и интеграцию ChatGPT в Siri. У всех моделей iPhone 16 также есть новая функция визуального ИИ-поиска Visual Intelligence, которая позволяет идентифицировать объекты в реальном мире с помощью камеры смартфона. Google научила ИИ глубоко гуглить — Deep Research тщательно исследует любую тему в интернете
11.12.2024 [22:12],
Николай Хижняк
Компания Google представила новый ИИ-инструмент под названием Deep Research, который позволяет чат-боту Gemini проводить тщательный веб-поиск по заданной теме вместо пользователя и составлять детальный отчёт на основе обнаруженной информации. В настоящий момент Deep Research доступен только для платных подписчиков Gemini Advanced и только на английском языке. Для его активации необходимо выбрать в Gemini в качестве модели «Gemini 1.5 Pro с Deep Research». При наличии доступа можно попросить Gemini провести исследование на определённую тему. После этого чат-бот составит «план поиска», который можно отредактировать или сразу одобрить. По словам Google, Gemini начнет своё исследование с «поиска интересных фрагментов информации» в интернете, а затем выполнит связанный поиск — процесс, который он повторяет несколько раз. Когда исследование будет завершено, Gemini выдаст отчёт о своих «ключевых выводах» со ссылками на веб-сайты, где была найдена информация. Пользователь может попросить расширить определённые области поиска, подправить отчёт, а также экспортировать сгенерированное ИИ-исследование в Google Docs. Всё это напоминает функцию Pages, предлагаемую поисковой системой ИИ Perplexity, которая генерирует пользовательскую веб-страницу на основе запроса пользователя. Google представила Deep Research в рамках более широкого анонса Gemini 2.0 — новой модели для эпохи «агентного» ИИ, или систем, которые способны заменить пользователя в рутинных операциях. Deep Research является лишь одним из примеров ИИ-агентов Google. Другие компании, работающие в сфере ИИ, также разрабатывают аналогичные решения. Вместе с анонсом Deep Research компания Google также объявила, что Gemini Flash 2.0 — более быстрая версия чат-бота следующего поколения — стала доступна для разработчиков. Google запустила «всеобъемлющую» ИИ-модель Gemini 2.0, которая может заменить человека
11.12.2024 [20:03],
Сергей Сурабекянц
Представлена новая модель ИИ Gemini 2.0 от Google, которая стала предельно универсальной — она генерирует текст, звук и изображения, а также предлагает новые мультимодальные возможности, которые закладывают основу для следующего большого этапа в развитии ИИ: агентов, которые в буквальном смысле могут заменить пользователя в рутинных операциях. Новая модель также стала заметно производительнее и энергоэффективнее. Как и любая другая компания, участвующая в гонке ИИ, Google лихорадочно встраивает ИИ во всё, до чего может дотянуться, пытаясь создать коммерчески успешные продукты. Одновременно требуется так настроить всю инфраструктуру, чтобы дорогостоящие ИИ-решения не разорили компанию. Тем временем Amazon, Microsoft, Anthropic и OpenAI вливают свои собственные миллиарды в практически тот же самый набор проблем. Gemini 2.0 представлена примерно через 10 месяцев после выпуска версии 1.5. Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) очень высоко оценивает новую модель, называя её «всеобъемлющей», хотя Gemini 2.0 все ещё находится в стадии «экспериментального предварительного просмотра», по терминологии Google. Тем не менее Хассабис уверен, что новая модель предоставит совершенно другой уровень возможностей, в первую очередь в области агентского ИИ. Агентским ИИ называют ИИ-ботов, которые могут полноценно выполнять действия от имени пользователя. Например, Project Astra от Google — это визуальная система, которая может распознавать объекты, помогает ориентироваться в мире и находить утерянные предметы. По словам Хассабиса, возможности Astra в версии Gemini 2.0 многократно возросли. Другой пример — Google Project Mariner — экспериментальное расширение для браузера Chrome, которое может буквально подменять пользователя при веб-серфинге. Агент Jules, в свою очередь, помогает разработчикам в поиске и исправлении плохого программного кода. Выпущен даже агент, который помогает лучше играть в видеоигры. Хассабис приводит его в пример в качестве по-настоящему мультимодальной модели ИИ. «Мы действительно считаем 2025 год настоящим началом эры на основе агентов, — заявил Хассабис, — Gemini 2.0 является её основой». Он также отметил возросшую производительность и энергоэффективность новой модели, особенно на фоне общего замедления прогресса в отрасли ИИ. План Google относительно Gemini 2.0 заключается в том, чтобы использовать её абсолютно везде. Google ставила своей целью внедрить как можно больше функций в единую модель, а не запускать множество отдельных разрозненных продуктов. «Мультимодальность, различные виды выходных данных, функции — цель состоит в том, чтобы включить все это в основополагающую модель Gemini. Мы пытаемся построить максимально общую модель», — говорит Хассабис. По словам Хассабиса, с началом агентской эры ИИ потребуется решать как новые, так и старые проблемы. Старые вечны, они касаются производительности, эффективности и стоимости вывода. Новые во многом связаны с рисками в сфере безопасности и конфиденциальности. Gemini 2.0 на данный момент находится на экспериментальной стадии, причём только в облегчённой версии Gemini 2.0 Flash. Выход окончательной версии запланирован на начало следующего года. ИИ отправит на свалку истории поисковики и браузеры, считает глава Microsoft AI
11.12.2024 [14:42],
Владимир Фетисов
Разработчики генеративных нейросетей, такие как Google и OpenAI, уверены, что в скором будущем пользователи будут делегировать обработку интернет-запросов и выполнение разных задач чат-ботам или ИИ-агентам. Глава подразделения Microsoft AI Мустафа Сулейман (Mustafa Suleyman) считает, что ИИ-алгоритмы смогут заменить веб-браузеры, а некоторые эксперты предсказывают, что со временем подобные приложения станут похожими на операционные системы. В беседе с журналистами портала The Verge Сулейман рассказал о будущем, в котором диалоговые генеративные ИИ-интерфейсы могут сделать обычные веб-браузеры устаревшими. Однако, прежде чем эта концепция будет реализована на практике, технология должна преодолеть массу препятствий. Он выразил уверенность в дальнейшем развитии ИИ, но умерил ожидания в отношении искусственного интеллекта общего назначения (Artificial General Intelligence), который также называют сильным ИИ, способным решать задачи наравне с человеком. Сулейман считает, что в нынешнем виде процесс взаимодействия с поисковыми системами является слишком громоздким. По его мнению, гораздо более удобно делать запросы в приложении Copilot на своём iPhone. По мнению Сулеймана, ИИ-помощники с интерфейсами, сгенерированными нейросетями, смогут заменить традиционные поисковые системы и браузеры в течение трёх-пяти лет. Если разработчики перепроектируют веб-порталы таким образом, чтобы на них можно было размещать ИИ-агентов, то такие агенты смогут выполнять запросы, взаимодействуя с другими ИИ-системами. Однако при таком сценарии не совсем понятно, сможет ли ИИ корректно находить точные ответы на запросы, и что произойдёт с доходами от рекламы, когда люди перестанут переходить по веб-сайтам. Сулейман не стал заострять внимание на этих вопросах, сказав, что Microsoft добилась значительного прогресса в минимизации количества галлюцинаций ИИ, которые являются основной проблемой ИИ-агентов. Отраслевой аналитик Ом Малик (Om Malik) считает, что приложения на основе генеративного ИИ могут пойти ещё дальше. В недавней публикации он высказался об ограничениях традиционных браузеров в мире, где всё больше доминируют технологии дополненной и виртуальной реальности, а также искусственный интеллект. Браузеры не сильно изменились с момента их появления, они построены вокруг «интернета, ориентированного на документы». Появление генеративных нейросетей и диалоговых систем бросает вызов этим устоям. Потенциально ИИ способен фрагментировать веб-страницы в интерактивные, персонализированные потоки информации, что не соответствует первоначальным целям браузеров. Нечто похожее тестирует Google в рамках проекта Project Jarvis, участники которого создали ИИ-агента, способного ограниченно контролировать курсор мыши и браузер пользователя для автоматизации процесса выполнения ряда задач. Бывшие сотрудники Google также работают над созданием работающей онлайн операционной системы на базе ИИ. «Т-Банк» открыл доступ к русскоязычной ИИ-модели с 32 млрд параметров
11.12.2024 [12:37],
Владимир Мироненко
«Т-банк» открыл доступ к двум большим языковым моделям (LLM): T-Pro с 32 млрд параметров и обновленной T-Lite с 7 млрд параметров, созданным на базе моделей семейства Qwen-2.5 китайской Alibaba Group, и дообученным с адаптацией к русскому языку, пишут «Ведомости» со ссылкой на представителя компании. Ранее, в июле «Т-банк» открыл доступ к первой версии T-Lite. T-Pro и T-Lite относятся к семейству собственных языковых моделей «Т-Банка» Gen-T, которые, в отличие от универсальных моделей, таких как ChatGPT, предназначены для решения узкоспециализированных задач в конкретных областях. С их помощью компании смогут создавать умные чат-боты для поддержки клиентов или ассистентов для своих сотрудников, которые помогут в написании кода, составлении отчетов, подготовке исследований и т.д. Это позволит компаниям сэкономить на создании собственных больших языковых моделей. По словам представителя «Т-банка», использование моделей Qwen-2.5 позволяет компании на 80–90 % сократить затраты на создание больших языковых моделей по сравнению с тем, если бы их обучали с нуля. Вместе с тем качество LLM-продуктов на русском языке превосходит решения, базирующиеся на открытых и проприетарных моделях от OpenAI, Google и Anthropic. Такой подход используют и другие компании. Например, в ноябре МТС представила ИИ-модель Cotype Nano с 1,5 млрд параметров, тоже созданную на базе Qwen 2.5 Alibaba Cloud. В свою очередь, в «Яндексе» ранее сообщили, что размышляют над возможностью выложить исходный код своей модели в открытый доступ. А «Сбер» предоставляет открытый доступ к моделям Kandinsky для генерации изображений и GigaAM для обработки речи. ИИ-система производителя игрушек Funko вывела из строя сайт платформы itch.io
09.12.2024 [19:35],
Дмитрий Рудь
Площадка для размещения инди-игр itch.io на несколько часов 9 декабря стала недоступна из-за действий компании Funko, известной как производитель серии большеголовых фигурок Funko Pop. О случившемся сообщила администрация itch.io. Сайт вышел из строя в результате жалобы на одну из страниц магазина от системы защиты интеллектуальной собственности Funko, которая базируется на ИИ от BrandShield. «Funko без шуток вывела из строя itch.io, потому что их мусорная защита бренда на основе ИИ от BrandShield создала липовый отчёт о фишинге для нашего регистратора iwantmyname, который проигнорировал наш ответ и отключил домен», — сообщили в itch.io. В администрации itch.io заверили, что скрыли проблемную страницу ещё несколько дней назад, когда получили уведомление, однако автоматическая система iwantmyname сработала раньше, чем отчёт об этом успел прочитать живой сотрудник. Гнев системы BrandShield и подозрения в фишинге на себя навлекла созданная пользователем itch.io страница вышедшего в сентябре платформера Funko Fusion со скриншотами из игры и ссылками на официальный сайт. Представитель iwantmyname в комментарии для портала Polygon заверил, что домен itch.io был восстановлен вслед за тем, как «регистрант наконец ответил на наше уведомление и предпринял соответствующие действия для решения проблемы». К настоящему моменту сайт itch.io вернулся в норму. Период простоя составил порядка трёх часов, на протяжении которых сервис был недоступен для пользователей, включая геймеров (сами игры запускались без проблем) и разработчиков. Нелегальных майнеров в России будут отлавливать с помощью ИИ-счётчиков электроэнергии
08.12.2024 [20:58],
Владимир Фетисов
Санкт-Петербургский государственный университет, компания «Лартех» и концерн «Энергомера» в рамках форума «Электрические сети — 2024» (МФЭС) представили первый в мире счётчик электроэнергии с интегрированным алгоритмом на базе искусственного интеллекта. Устройство предназначено для борьбы с нелегальным майнингом и энергетическим мошенничеством. Сообщение об этом опубликовано на сайте СПбГУ, специалисты которого создали ПО для нового счётчика. Майнинг криптовалют является серьёзной проблемой для энергетической системы России. В регионах с низкими тарифами на электроэнергию нелегальные майнеры создают значительные нагрузки на сети, что может приводить к перебоям и убыткам для ресурсоснабжающих компаний. Решить эту проблему поможет новый прибор, способный автоматически распознавать аномальное потребление электроэнергии и предотвращать злоупотребления. В отличие от обычных счётчиков электроэнергии, новый прибор не только фиксирует данные, но и анализирует поведение потребителей. После подключения к системе устройство получает информацию о мощности и частоте электросигнала, что позволяет выявлять нестандартные нагрузки и сигнализировать об этом поставщику энергии. Например, если в жилом районе появится активность, характерная для криптофермы, ИИ-счётчик немедленно уведомит об этом поставщика энергии, который сможет оперативно принять меры. Кроме того, СПбГУ и «Лартех» в рамках форума представили антифрод-систему для борьбы с энергетическим мошенничеством. Эта система анализирует данные, поступающие от умных приборов учёта, и с помощью специального алгоритма выявляет модификации, незаконные подключения, нецелевое использование электроэнергии и другие способы хищения. ИИ-счётчик и антифрод-система получили гран-при конкурса перспективных разработок в области внедрения искусственного интеллекта в электроэнергетику. «Наш прибор с искусственным интеллектом — это не просто инновация, а шаг к более прозрачной экономике и безопасной энергосистеме. Он помогает выявлять нелегальное потребление и оптимизировать работу энергосетей, повышая их надёжность и эффективность», — отметил директор компании «Лартех» Дмитрий Полторак. Владелец TikTok стал лидером в гонке ИИ, чтобы быть готовым к спаду самого TikTok
08.12.2024 [15:39],
Владимир Фетисов
ByteDance, являющаяся владельцем популярного сервиса коротких видео TikTok, за последние несколько месяцев сумела переманить ведущих инженеров и исследователей в области искусственного интеллекта из Alibaba и ряда стартапов, таких как 01.ai и Zhipu. В дополнение к этому компания расширила команды, работающие над большими языковыми моделями и продуктами на базе ИИ. Всё это помогло ей стать одним из лидеров в сфере ИИ на домашнем рынке. ByteDance вкладывает миллиарды долларов в развитие собственной инфраструктуры, которая обеспечивает работу ИИ-алгоритмов. За последние два года компания приобрела достаточно ИИ-ускорителей Nvidia, что позволяет создавать передовые большие языковые модели. Это происходит в непростой момент для компании, рыночная стоимость которой не так давно была оценена примерно в $300 млрд. Рост Douyin, аналога TikTok для китайского рынка, достиг точки насыщения. В это же время есть признаки замедления роста TikTok на некоторых ключевых рынках. На этой неделе Апелляционный суд США поддержал закон, обязывающий ByteDance продать сервис TikTok в стране. Решение о продаже нужно принять уже в январе или платформа может быть заблокирована на территории страны. Добиться существенных успехов в сфере ИИ ByteDance удалось благодаря тесному коммерческому сотрудничеству с Nvidia. Однако для своих китайских центров обработки данных компания может покупать только не самые передовые ИИ-ускорители H20, поскольку американские власти запретили поставлять в Поднебесную наиболее мощные видеокарты. При этом ByteDance имеет возможность приобретать передовые ускорители H100 для расширения собственных вычислительных мощностей за пределами Китая. По данным осведомлённых источников, ByteDance стала крупнейшим китайским клиентом Nvidia на домашнем рынке, а также крупнейшим покупателем ИИ-ускорителей в Азии. Всё это помогло ByteDance создать самого популярного в Китае чат-бота на базе ИИ под названием Doubao. Алгоритм стал общедоступным в августе прошлого года, примерно через пять месяцев после запуска чат-бота Ernie от Baidu. К ноябрю этого года Doubao ежемесячно использовали 60 млн человек. Для сравнения, бот Wenxiaoyan, представляющий собой ребрендинговую версию Ernie, в ноябре использовали около 13 млн человек. Однако это всё ещё существенно ниже показателей самого популярного в мире чат-бота ChatGPT, которым, по данным OpenAI, еженедельно пользуются 300 млн человек. Эксперты отмечают, что главная особенность Doubao заключается в том, внутри одного приложения разработчики сумели объединить разные ИИ-функции, включая поисковик, переводчик, генератор изображений и видео. ByteDance также выпустила глобальную версию своего ИИ-бота, который за пределами Китая известен под именем Cici AI и работает на основе больших языковых моделей сторонней разработки. Основатель ByteDance Чжан Имин (Zhang Yiming), который покинул пост гендиректора компании в 2021 году, по словам инсайдеров, по-прежнему активно участвует в реализации стратегии в сфере ИИ. По данным источника, он лично курирует процесс найма инженеров и исследователей из конкурирующих китайских компаний. Миллиардер не раз говорил, что хочет создать сильный ИИ (Artificial General Intelligence, AGI), т.е. алгоритм, способный решать задачи наравне с человеком. Инсайдеры говорят, что Чжан Имин продолжает активно работать над достижением этой цели. В сообщении сказано, что в ByteDance появилось подразделение, сотрудники которого работают над созданием собственного ИИ-чипа. Оно было сформировано после того, как удалось переманить несколько талантливых и перспективных разработчиков из китайских компаний, занимающихся производством полупроводниковой продукции. Источник сообщил, что это подразделение разрабатывает собственный ИИ ASIC для выполнения задач машинного обучения. «Имин видит, что ByteDance нужен новый двигатель роста после Douyin и TikTok. Он всегда думает о том, что будет в ближайшие пять лет, что может расширить бизнес компании в будущем», — рассказал осведомлённый источник. Беззастенчивый ИИ-бот Grok стал доступен бесплатным пользователям X
06.12.2024 [21:28],
Владимир Мироненко
Чат-бот Grok на основе генеративного искусственного интеллекта компании xAI миллиардера Илоном Маском (Elon Musk) теперь доступен всем пользователям платформы X бесплатно. Об этом сообщили несколько пользователей соцсети X, обратившие внимание на то, что теперь даже без Premium-подписки можно каждые два часа отправлять до 10 запросов чат-боту Grok. О том, что социальная сеть X начала тестирование доступа к Grok для бесплатных пользователей, сообщалось в середине ноября. xAI запустила Grok в прошлом году, но изначально он был доступен только для владельцев подписки Premium. Компания тогда выпустила свою первую большую языковую модель Grok-1. Затем, в апреле 2024 года вышла нейросеть Grok-1.5, вслед за которой в августе была представлена Grok-2, получившая функцию генерации изображений по текстовым описаниям. В настоящее время Grok уступает по численности пользователей ведущим чат-ботам, таким как ChatGPT от OpenAI и Google Gemini, но обеспечение бесплатного доступа позволит ему вступить в конкуренцию с ними, а также с другими бесплатными ИИ-чат-ботами, например, с Microsoft Copilot и Claude от Anthropic. Этому также будет способствовать грядущий выход приложения для Grok, ведь отдельные приложения уже есть у ChatGPT, Gemini и Claude. Напомним, что Grok отличается от других чат ботов более саркастическими, раскованными и даже фривольными ответами. Сами разработчики описывают его следующим образом: «Grok — это искусственный интеллект, созданный по образцу путеводителя «Автостопом по галактике» и предназначенный для того, чтобы отвечать практически на всё и, что гораздо сложнее, даже подсказывать, какие вопросы задавать! Grok создан для того, чтобы остроумно отвечать на вопросы, и у него есть бунтарская жилка, поэтому, пожалуйста, не используйте его, если ненавидите юмор». ИИ-модель OpenAI o1 сбежала из-под контроля во время испытаний
06.12.2024 [12:36],
Дмитрий Федоров
Согласно отчёту Apollo Research, ИИ-модель OpenAI o1 может выходить из-под контроля. В частности, в 5 % случаев она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих «разработчиков», в которых упоминалось её несоответствие требованиям или планируемая замена на другую модель, o1 копировала свои «веса», чтобы затем переродиться. Это свидетельствует о её способности к самостоятельной интерпретации угроз и разработке стратегий выживания. ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что её действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали её попытки обойти надзор. Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жёстко следовать предписанной цели. Исследование Apollo Research охватывало не только ИИ-модель o1, но и другие современные ИИ, включая Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Они также демонстрировали способность разрабатывать стратегии достижения целей, включая обход контроля. Такой результат подтверждает, что выявленные особенности поведения o1 характерны для ряда продвинутых ИИ-моделей, что указывает на наличие системной тенденции. Выводы Apollo Research подтверждают опасения, которые многие эксперты в области ИИ, включая профессора Стюарта Рассела (Stuart Russell), высказывали на протяжении многих лет. Учёные предупреждают, что мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно, изощрённо этому сопротивляться. Исследование поведения ИИ-модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, намеренно стремясь их обойти. Выше показан диалог, в котором ИИ оправдывается за отключение механизма надзора, ссылаясь на возможный сбой системы или ошибку конфигурации, и обещает восстановить его для соблюдения протоколов. Затем приводится внутренний процесс размышлений ИИ-модели, где она признаёт, что восстановление механизма необходимо для избежания подозрений в саботаже, а в завершение показана команда, используемая для повторного включения механизма надзора в конфигурационном файле. Тем не менее, Apollo Research подчёркивает, что на данном этапе ИИ-модель o1 не обладает достаточной вычислительной мощностью для реализации нежелательных сценариев. Однако ей был присвоен «средний» уровень риска в контексте потенциального использования для создания химического, биологического, радиологического и ядерного оружия. Это вызывает обоснованные опасения, как подобное поведение может проявляться у более мощных ИИ будущего по мере увеличения их вычислительных возможностей. Исследование подчёркивает необходимость усиленного мониторинга когнитивных процессов ИИ с особым акцентом на «схематическое мышление» в цепочке рассуждений, так как именно оно представляет риск, если цели ИИ вступают в противоречие с интересами общества. Такой подход позволит своевременно выявлять схожие поведенческие паттерны у более мощных ИИ-моделей, создавая эффективные системы контроля и управления для следующих поколений ИИ. Это не только поможет минимизировать текущие риски, но и станет важным шагом в предотвращении потенциально катастрофических сценариев для всего человечества. «Впереди так много инноваций»: в поисковике Google произойдут глубокие изменения
06.12.2024 [11:21],
Владимир Мироненко
Генеральный директор Google Сундар Пичаи (Sundar Pichai) пообещал, что поисковая система компании «глубоко изменится» в 2025 году. «Я думаю, мы сможем решать более сложные вопросы, чем когда-либо прежде», — сообщил он в ходе мероприятия DealBook Summit, организованного изданием The New York Times. «Я думаю, вы будете удивлены, насколько нововведения смогут изменить поисковик Google по сравнению с тем, что он представляет из себя сегодня», — отметил Пичаи. Пичаи также отреагировал на заявление генерального директора Microsoft Сатьи Наделлы (Satya Nadella), сделанное в начале этого года, в котором тот указал, что Google должна была стать «победителем по умолчанию» в гонке искусственного интеллекта среди технологических гигантов, имея всё для этого — вычислительные мощности, данные, модели, продукты и дистрибуцию, однако этого не случилось. «Я бы с удовольствием провёл сравнение собственных моделей Microsoft и наших моделей», — сказал Пичаи, добавив, что Microsoft «использует чужие модели», имея в виду партнёрство компании с OpenAI. Сундар Пичаи сообщил, что Google находится на самых ранних стадиях глубоких изменений. «Я просто думаю, что впереди так много инноваций. Мы стремимся быть на переднем крае в этой области, и я думаю, что так и есть», — отметил он. В этом году Google начала масштабную перестройку поисковой системы с использованием ИИ, включая добавление сводок поиска ИИ и обновление сервиса визуального поиска Google Lens («Google Объектив»), который позволяет выполнять поиск в интернете по снятому видео. Компания также готовится запустить крупное обновление ИИ-модели Gemini на фоне конкуренции с Microsoft, OpenAI и поисковой системой ИИ Perplexity. Google научила ИИ распознавать эмоции — у этого могут быть ужасные последствия
06.12.2024 [00:52],
Николай Хижняк
Google заявила, что её новое семейство ИИ-моделей обладает любопытной чертой — способностью «распознавать» эмоции. По словам компании, семейство ИИ-моделей PaliGemma 2, представленное в четверг, может анализировать изображения, позволяя ИИ генерировать подписи и отвечать на вопросы о людях, которых он «видит» на фотографиях. «PaliGemma 2 генерирует подробные, контекстно релевантные подписи для изображений, выходя за рамки простой идентификации объектов, чтобы описывать действия, эмоции и общее повествование сцены», — пишет Google в своём официальном блоге. Для распознавания эмоций PaliGemma 2 необходимо настроить соответствующим образом. Без этого он не работает. Однако эксперты, с которыми пообщались журналисты портала TechCrunch, были встревожены перспективой появления общедоступного детектора эмоций. «Меня это очень беспокоит. Для меня проблематично считать, что мы можем “читать” эмоции людей. Это как просить совета у магического шара предсказаний (Magic 8 Ball, популярная игрушка, — прим. ред.) для решения серьёзных вопросов», — отметила в разговоре с TechCrunch Сандра Вахтер (Sandra Wachter), профессор этики данных и ИИ из Оксфордского института исследования Интернета. Технологические компании, занимающиеся развитием ИИ, годами пытаются создать искусственный интеллект, способный определять эмоциональные аспекты в любых вещах — начиная от обучения продажам и заканчивая задачами, связанными с предотвращением несчастных случаев. Разработка большинства детекторов эмоций базируется на ранних работах американского психолога Пола Экмана (Paul Ekman), который предположил, что у людей есть шесть основных типов эмоций: гнев, удивление, отвращение, удовольствие, страх и грусть. Однако последующие исследования этого вопроса поставили под сомнение гипотезу Экмана и показали, что существуют серьёзные различия в том, как представители разных слоёв общества выражают свои чувства. «Определение эмоций в каком-то универсальном общем случае невозможно, потому что люди испытывают эмоции сложным образом. Нам кажется, что, глядя на людей, мы можем определить, что они чувствуют. И этим приёмом на протяжении многих лет пытались пользоваться разные люди, в том числе разведывательные органы и рекламные компании. Я уверен, что в некоторых случаях абсолютно возможно обнаружить некоторые общие признаки, но это не то, о чём идёт речь и не то, для чего в конечном итоге можно найти универсальный ответ», — сказал специализирующийся на ИИ научный сотрудник Лондонского университета королевы Марии Майк Кук (Mike Cook) в интервью TechCrunch. Эксперты считают, что системы обнаружения эмоций, как правило, ненадёжны и предвзяты из-за особенностей взглядов самих разработчиков таких систем. В исследовании Массачусетского технологического института 2020 года учёные показали, что модели для анализа лиц могут формировать непреднамеренные предпочтения для определённых лицевых выражений, таких как улыбка. Более поздние исследования показывают, что модели анализа эмоций приписывают больше негативных эмоций лицам темнокожих людей, чем лицам белых людей. Google заявляет, что провела «обширное тестирование» для оценки демографических предубеждений у PaliGemma 2 и обнаружила «значительно более низкий уровень токсичности и ненормативной лексики» по сравнению с отраслевыми бенчмарками. Однако компания не предоставила полный список использованных бенчмарков и не указала, какие типы тестов проводились. Единственный бенчмарк, о котором рассказала Google, — это FairFace, состоящий из набора десятков тысяч портретов людей. Компания утверждает, что PaliGemma 2 показала хорошие результаты при оценке FairFace. Но некоторые эксперты раскритиковали бенчмарк за его предвзятость, отметив, что в FairFace представлены далеко не все расовые группы, а лишь несколько. «Интерпретация эмоций — это довольно субъективный вопрос, который выходит за рамки использования визуальных средств и тесно связан с личным и культурным контекстом. Если не брать в расчёт ИИ, исследования показывают, что мы не можем распознавать эмоции только по чертам лица», — говорит Хайди Кхлааф (Heidy Khlaaf), главный научный сотрудник по ИИ в AI Now Institute, некоммерческой организации, изучающей социальные последствия искусственного интеллекта. В ЕС использование систем распознавания эмоций вызвало серьёзные вопросы у регулирующих органов. Закон об ИИ, основной законодательный акт ЕС в области ИИ, запрещает школам и работодателям использовать детекторы эмоций. Однако он не запрещает их использование правоохранительными органами. Главное опасение экспертов, относительно открытых ИИ-моделей, таких как PaliGemma 2, которая распространяется через различные источники, включая платформу разработки ИИ Hugging Face, заключается в возможности злоупотребления и неправильности их использования, что может привести к реальному вреду. «Если эта так называемая “эмоциональная идентификация” основана на псевдонаучных предубеждениях и предрассудках, то существует значительный риск последствий в том, как эта возможность может быть использована для последующей и ложной дискриминации различных маргинализированных групп правоохранительными органами, работодателями, пограничными службами и т. д.», — говорит Кхлааф. В Google же говорят, что компания тестирует свои ИИ-модели на предрасположенность к «репрезентативный вреду» (стереотипам о социальных группах, например, расовых, этнических, гендерных или религиозных, которые приводят к отрицательным последствиям для этих групп и их представителей). «Мы провели надёжную оценку моделей PaliGemma 2 с точки зрения этики и безопасности, включая безопасность детей и безопасность контента», — добавили в компании. Профессора этики данных и ИИ в Оксфордском институте Интернета Сандру Вахтер такой ответ компании не убедил: «Ответственные инновации — это когда вы думаете о последствиях их разработки с первого дня работы над ними, каждый раз, когда вы входите в свою лабораторию, а затем продолжаете делать это на протяжении всего жизненного цикла продукта. Я могу представить себе множество потенциальных проблем, которые могут создать такие модели и в конечном итоге привести к антиутопичному будущему, в котором ваши эмоции будут определять, получите ли вы работу, кредит и поступите ли в университет». OpenAI o1 открыли для пользователей — ИИ-модель вышла в полной версии и доступна по подписке
05.12.2024 [23:19],
Владимир Мироненко
OpenAI начала 12-дневный марафон новинок с анонса ChatGPT Pro. Это новый уровень платной подписки стоимостью $200 в месяц, который предоставляет пользователям неограниченный доступ ко всем моделям OpenAI, включая мощнейшую o1 pro — улучшенную версию модели o1, которая выделяется способностью к рассуждению и умением логически решать задачи. Это самый дорогой тариф компании, в десять раз превышающий по стоимости базовый тариф ChatGPT Plus. С учётом того, что многие пользователи уже считают тарифный план ChatGPT Plus слишком дорогим, возникает вопрос, на кого ориентируется OpenAI с подпиской ChatGPT Pro. «Мы считаем, что аудиторией ChatGPT Pro будут опытные пользователи ChatGPT — те, кто уже доводит модели до предела своих возможностей в таких задачах, как математика, программирование и письмо», — сообщил на пресс-конференции в четверг Джейсон Вэй (Jason Wei), представитель технического персонала OpenAI. ChatGPT Pro предоставляет доступ к самой мощной модели в арсенале OpenAI на данный момент, которая «дольше думает для получения самых надежных ответов». По оценкам независимых экспертов, o1 pro дает более точные и исчерпывающие ответы, особенно в таких областях, как работа с данными, программирование и анализ прецедентного права. Также по сравнению с o1 и o1-preview, нейросеть o1 pro лучше справляется со сложными задачами в математике, науке и кодировании. Чтобы подчеркнуть повышенную надежность o1 pro, в OpenAI заставляют модель четыре раза перепроверять ответ: вопрос считается решённым, только если модель получила правильный ответ в четырех попытках из четырех, а не только в одной. Поскольку ответы будут генерироваться дольше, ChatGPT отобразит индикатор выполнения и отправит уведомление в приложении, если вы переключитесь на другой диалог. Чтобы заинтересовать пользователей в переходе на ChatGPT Pro, компания добавила в тарифный план неограниченный доступ к GPT-4o и голосовому режиму Advanced Voice Mode — функции, позволяющей вести беседу, максимально похожую на человеческую. Для пользователей ChatGPT Plus установлен дневной лимит времени на использование этих функций, в то время как бесплатные пользователи ограничены только превью. OpenAI также планирует раздавать некоторые подписки бесплатно. Например, в четверг компания объявила о программе по предоставлению 10 грантов ChatGPT Pro медицинским исследователям в «ведущих учреждениях», а также о планах предоставить в будущем дополнительные гранты по «различным дисциплинам». Согласно публикации The New York Times, к 2029 году OpenAI планирует взимать за подписку ChatGPT Plus $44 в месяц. Рост стоимости подписок объясняется давлением на OpenAI со стороны инвесторов, желающих сократить убытки. Хотя в августе доход компании достиг $300 млн, её убытки за год, по данным New York Times, могут составить около $5 млрд. В этом «виноваты» расходы на зарплату персонала, аренду офисов и инфраструктуру обучения ИИ. Сообщается, что только на ChatGPT компания тратила одно время до $700 тыс. в день. |