Сегодня 28 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии
Быстрый переход

ИИ-бот GigaChat от «Сбера» научился писать музыку по текстовым запросам

«Сбер» анонсировал на международной конференции AI Journey новую функцию модели искусственного интеллекта GigaChat — написание музыкальных композиций по текстовому запросу.

 Источник изображения: «Сбер»

Источник изображения: «Сбер»

Простые средства управления GigaChat позволяют создавать музыку всем желающим, «включая представителей далёких от музыкальной индустрии профессий, ценящих уникальность и креативный подход», рассказали в «Сбере». ИИ ориентируется в различных жанрах и стилях — при создании композиций он применяет широкий набор инструментов и генерирует голоса; пользователь же при подготовке запроса может пользоваться заготовками, которые предлагает разработчик. Есть также возможность в свободной форме в текстовом поле подготовить описание желаемой композиции: указать стиль, уточнить аранжировку и выбрать вокал — ограничений нет.

У GigaChat отсутствует какая-либо библиотека звуков или вокальных партий — всё генерируется в соответствии с запросом; вокал может быть мужским, женским или хоровым. По желанию пользователя ИИ может даже написать текст песни, которую исполнит созданный им голос. Пока воспользоваться новой функцией GigaChat можно только в мини-приложении во «ВКонтакте»; в будущем она появится в веб-версии GigaChat, а также в Telegram и «Одноклассниках».

Временная глава Intel не верит в успех ИИ-ускорителей Falcon Shores, но это «первый шаг в верном направлении»

Руководство компании Intel не верит, что компания сможет в скором времени составить достойную конкуренцию Nvidia и AMD в сфере ИИ-ускорителей. Во всяком случае, такое впечатление сложилось после недавних комментариев одной из временно исполняющей обязанности руководителя компании Мишель Джонстон Холтхаус (Michell Johnston Holthaus) на 22-й ежегодной глобальной технологической конференции Barclays.

 Источник изображений: Intel

Источник изображений: Intel

Напомним, Intel разрабатывает ускорители вычислений Falcon Shores, в основу которого будет положен графический процессор, заточенный под высокопроизводительные вычислений и задачи ЦОД, а дополнят GPU элементы актуальных ИИ-ускорителей Gaudi. Проект по разработке данного решения получил неожиданную оценку от Холтхаус: «Нам действительно нужно подумать о том, как перейти от Gaudi к нашему первому поколению GPU Falcon Shores. Будет ли новый продукт удивительным? Нет, не будет. Но он станет первым шагом в верном направлении».

Хольтхаус ещё раз подчеркнула новый прагматичный подход Intel к вопросам разработки аппаратных решений для ускорения ИИ, когда затронула тему стратегии развития продуктов: «Если всё бросить и начать создать новый продукт, то его разработка займёт очень много времени. Прежде чем что-то появится потребуется два–три года. Вместо этого я предпочла бы создать что-то в меньших объёмах, научиться чему-то новому, последовательно совершенствуясь, чтобы в конечном итоге добиться поставленных целей».

Врио главы Intel признала устойчивый характер возможностей рынка ИИ, акцентировав текущий интерес индустрии к обучению ИИ-моделей. Однако Хольтхаус также подчеркнула потенциал широких возможностей в других областях: «Очевидно, что ИИ никуда не денется. Очевидно, что обучение [ИИ] сегодня находится центре внимания, но есть возможности развития и на других направлениях, где также отмечаются потребности с точки зрения нового аппаратного обеспечения». По всей видимости она подразумевала инференс — запуск уже обученных нейросетей.

Из сказанного можно сделать вывод, что Falcon Shores не станет для Intel чудесным спасательным кругом, который позволит ей наверстать отставание от Nvidia на рынке GPU-ускорителей. Это в большей степени первая ступень к разработке первоклассного продукта в перспективе. Следующим проектом Intel после Falcon Shores должен стать Jaguar Shores. Его выход ожидается в конце 2025 или начале 2026 года в виде ускорителей ИИ и HPC для центров обработки данных. Однако до его появления компании предстоит проделать немало работы по усовершенствованию не только своего аппаратного, но и программного обеспечения.

Доминирующе положение Nvidia на рынке ИИ во многом обязано её программно-аппаратной архитектуре CUDA, поскольку конкуренты, например, AMD, предлагают сопоставимую аппаратную производительность. Перед Intel стоит очень непростая задача. Ей предстоит обеспечить разработку экосистемного программного обеспечения и «бесшовную» интеграцию своих ускорителей следующего поколения, чтобы Jaguar Shores имел шансы догнать остальную часть рынка.

Microsoft выпустила компактную, но высококачественную ИИ-модель Phi-4

Компания Microsoft представила Phi-4 — свою новейшую большую языковую модель генеративного искусственного интеллекта. Новинка отличается относительно компактными размерами и высокой производительностью. Она доступна в режиме предварительного просмотра для исследовательских целей.

 Источник изображения: BoliviaInteligente / unsplash.com

Источник изображения: BoliviaInteligente / unsplash.com

Microsoft Phi-4 работает более качественно по сравнению с предшественником по ряду критериев, в том числе в решении математических задач, уверяет разработчик — отчасти это результат более высокого качества данных для обучения. Phi-4 пока присутствует в очень ограниченном доступе на платформе для разработки Azure AI Foundry — в соответствии с лицензионным соглашением пользоваться ей можно только в исследовательских целях.

Малая языковая модель нового поколения имеет 14 млрд параметров — она позиционируется как конкурент таким проектам как GPT-4o mini, Gemini 2.0 Flash и Claude 3.5 Haiku. Эти небольшие модели ИИ работают быстрее, их обслуживание обходится дешевле, а качество их работы в последнее время резко подскочило.

Microsoft объясняет успехи Phi-4 тем, что при её обучении использовался созданный человеком высококачественный контент совместно с «синтетическими массивами данных высокого качества», а также тем, что после обучения производилась некоторая доработка модели.

Примечательно, что Phi-4 стала первой моделью этой серии, выпущенной после ухода Себастьена Бубека (Sebastien Bubeck). Он занимал пост вице-президента по исследованиям в области искусственного интеллекта в Microsoft и был ключевой фигурой в разработке моделей Phi, а в октябре он ушёл из компании в OpenAI.

Meta✴ показала ИИ для метавселенной и создала альтернативу традиционным большим языковым моделям

Meta доложила о результатах последних исследований в области искусственного интеллекта в рамках проектов FAIR (Fundamental AI Research). Специалисты компании разработали модель ИИ, которая отвечает за правдоподобные движения у виртуальных персонажей; модель, которая оперирует не токенами — языковыми единицами, — а понятиями; и многое другое.

 Источник изображения: Google DeepMind / unsplash.com

Источник изображения: Google DeepMind / unsplash.com

Модель Meta Motivo управляет движениями виртуальных человекоподобных персонажей при выполнении сложных задач. Она была обучена с подкреплением на неразмеченном массиве с данными о движениях человеческого тела — эта система сможет использоваться в качестве вспомогательной при проектировании движений и положений тела персонажей. «Meta Motivo способна решать широкий спектр задач управления всем телом, в том числе отслеживание движения, принятие целевой позы <..> без какой-либо дополнительной подготовки или планирования», — рассказали в компании.

Важным достижением стало создание большой понятийной модели (Large Concept Model или LCM) — альтернативы традиционным большим языковым моделям. Исследователи Meta обратили внимание, что современные передовые системы ИИ работают на уровне токенов — языковых единиц, обычно представляющих фрагмент слова, но не демонстрируют явных иерархических рассуждений. В LCM механизм рассуждения отделён от языкового представления — схожим образом человек сначала формирует последовательность понятий, после чего облекает её в словесную форму. Так, при проведении серии презентаций на одну тему у докладчика уже есть сформированная серия понятий, но формулировки в речи могут меняться от одного мероприятия к другому.

При формировании ответа за запрос LCM предсказывает последовательность не токенов, а представленных полными предложениями понятий в мультимодальном и многоязычном пространстве. По мере увеличения контекста на вводе архитектура LCM, по мнению разработчиков, представляется более эффективной на вычислительном уровне. На практике эта работа поможет повысить качество работы языковых моделей с любой модальностью, то есть форматом данных, или при выводе ответов на любом языке.

 Источник изображения: ***

Источник изображения: Meta

Механизм Meta Dynamic Byte Latent Transformer также предлагает альтернативу языковым токенам, но не посредством их расширения до понятий, а, напротив, путём формирования иерархической модели на уровне байтов. Это, по словам разработчиков, повышает эффективность при работе с длинными последовательностями при обучении и запуске моделей. Вспомогательный инструмент Meta Explore Theory-of-Mind предназначается для привития навыков социального интеллекта моделям ИИ при их обучении, для оценки эффективности моделей в этих задачах и для тонкой настройки уже обученных систем ИИ. Meta Explore Theory-of-Mind не ограничивается заданным диапазоном взаимодействий, а генерирует собственные сценарии.

Технология Meta Memory Layers at Scale направлена на оптимизацию механизмов фактической памяти у больших языковых моделей. По мере увеличения числа параметров у моделей работа с фактической памятью требует всё больших ресурсов, и новый механизм направлен на их экономию. Проект Meta Image Diversity Modeling, который реализуется с привлечением сторонних экспертов, направлен на повышение приоритета генерируемых ИИ изображений, которые более точно соответствуют объектам реального мира; он также способствует повышению безопасности и ответственности разработчиков при создании картинок с помощью ИИ.

Модель Meta CLIP 1.2 — новый вариант системы, предназначенной для установки связи между текстовыми и визуальными данными. Она используется в том числе и для обучения других моделей ИИ. Инструмент Meta Video Seal предназначен для создания водяных знаков на видеороликах, генерируемых при помощи ИИ — эта маркировка незаметна при просмотре видео невооружённым глазом, но может обнаруживаться, чтобы определить происхождение видео. Водяной знак сохраняется при редактировании, включая наложение эффекта размытия, и при кодировании с использованием различных алгоритмов сжатия. Наконец, в Meta напомнили о парадигме Flow Matching, которая может использоваться при генерации изображений, видео, звука и даже трёхмерных структуры, в том числе белковых молекул — это решение помогает использовать информацию о движении между различным частями изображения и выступает альтернативой механизму диффузии.

ChatGPT обрёл зрение — бот научился на лету понимать видеопоток с камеры смартфона и экрана

OpenAI объявила о появлении у чат-бота ChatGPT на базе генеративного интеллекта способности обрабатывать видеопоток и говорить с пользователями о том, что он «наблюдает» с помощью камеры смартфона или компьютера, либо что видит на экране устройства. Новая функция доступна в расширенном голосовом режиме (Advanced Voice Mode).

 Источник изображения: OpenAI

Источник изображения: OpenAI

О том, что ChatGPT получит функцию компьютерного зрения, позволяющую ему «видеть» при помощи камеры смартфона пользователя или через трансляцию экрана, компания объявила в мае этого года. Теперь доступ к функции расширенного голосового режима ChatGPT с распознаванием видео получили владельцы платных подписок ChatGPT Plus, Team и Pro. По словам компании, подписчики ChatGPT Enterprise и Edu не получат эту функцию до января, и что пока нет графика по её запуску в ЕС, Швейцарии, Исландии, Норвегии и Лихтенштейне.

В недавней демонстрации в программе CNN «60 минут» президент OpenAI Грег Брокман (Greg Brockman) провел тестирование расширенного голосового режима с визуальным распознаванием с участием телеведущего Андерсона Купера (Anderson Cooper) на предмет анатомических навыков чат-бота. Когда Купер рисовал части тела на доске, ChatGPT «понимал», что тот рисует. Вместе с тем ChatGPT в этом режиме допустил ошибку в задаче по геометрии, что говорит о его склонности к галлюцинациям.

После анонса в мае компания несколько раз откладывала запуск расширенного голосового режима с визуальным распознаванием. В апреле OpenAI пообещала, что этот режим будет доступен для пользователей «в течение нескольких недель», но спустя несколько месяцев признала, что на это потребуется больше времени, чем планировалось. И когда расширенный голосовой режим запустили для некоторых пользователей в сентябре, у него не было функции компьютерного зрения.

Компании Google и Meta тоже работают над аналогичными возможностями для своих чат-ботов. На этой неделе Google сделала функцию ИИ для анализа видео в реальном времени Project Astra доступной для группы «доверенных тестировщиков» на платформе Android.

Anthropic выпустила мощную текстовую нейросеть Claude 3.5 Haiku — она вчетверо дороже флагманской Claude 3 Opus

Anthropic обновила свой чат-бот Claude, добавив большую языковую модель 3.5 Haiku. Новая нейросеть превосходит по производительности предыдущие версии, но и использование её будет обходиться дороже. При этом модель предлагает улучшенную генерацию текста, но пока не поддерживает анализ изображений.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Издание TechCrunch подтверждает, что модель, начиная со вчерашнего дня доступна в веб-версии Claude и на мобильных устройствах. Впервые представленная в ноябре, Claude 3.5 Haiku по некоторым тестам показывает результаты, равные или даже превосходящие флагманскую модель Anthropic, Claude 3 Opus. По словам компании, новинка идеально подходит для рекомендаций по программированию, извлечению и классификации данных, а также модерации контента. В отличие от своего предшественника, эта версия способна генерировать более длинные текстовые фрагменты и в неё заложена более свежая информации.

Однако в Claude 3.5 Haiku отсутствует поддержка анализа изображений, что ставит версию в невыгодное положение по сравнению с другими моделями Anthropic, такими как Claude 3 Haiku и 3.5 Sonnet. Релиз также вызвал определённую реакцию из-за изменения ценовой политики. Первоначально Anthropic заявляла, что стоимость новой модели будет такой же, как у её предшественника. Однако позже компания пересмотрела свою позицию, объяснив высокую стоимость улучшенными интеллектуальными возможностями новинки. «Во время финального тестирования мы обнаружили, что Haiku превзошёл Claude 3 Opus по многим показателям. В результате мы увеличили цену модели 3.5 Haiku, чтобы отразить её возможности», — заявила компания в своём посте на платформе X.

Стоимость использования Claude 3.5 Haiku начинается с $1 за миллион входных токенов (примерно 750 000 слов) и $5 за миллион выходных токенов. Для сравнения, использование Claude 3 Haiku обходится в 25 центов за миллион входных токенов и $1,25 за миллион выходных, что делает новую модель в четыре раза дороже. Несмотря на это, Anthropic продолжает предлагать Claude 3 Haiku как более экономичное решение с поддержкой анализа изображений. «Claude 3 Haiku останется доступным для пользователей, которым важна максимальная экономичность и функциональность обработки изображений», — отметил глава отдела по работе с разработчиками Алекс Альберт (Alex Albert).

Несмотря на критику из-за роста цен, Anthropic подчёркивает, что Claude 3.5 Haiku обладает улучшенными возможностями генерации текста и может ссылаться на более актуальные события. Однако повышение стоимости для модели в рамках одной серии, как отмечает TechCrunch, редкая практика в индустрии, которая ставит вопрос в плане дальнейшей стратегии ценовой политики компании на её продукты.

Samsung показала ноутбук Galaxy Book5 Pro на Intel Lunar Lake c поддержкой ИИ от Microsoft и Samsung

Компания Samsung представила ноутбук Galaxy Book5 Pro на базе процессоров Intel Lunar Lake (Core Ultra 200V). Данные чипы оснащены NPU с производительностью в ИИ-операциях в 47 TOPS, благодаря чему устройство предлагает доступ сразу к двум наборам ИИ-инструментов — Galaxy AI от Samsung и Copilot+ компании Microsoft.

 Источник изображений: Samsung

Источник изображений: Samsung

Galaxy Book5 Pro — первое устройство в семействе Galaxy Book5, которое имеет функцию AI Select на базе Galaxy AI, похожую на инструмент Google Circle to Search, но с использованием технологий южнокорейского производителя. Чтобы запустить поиск с её помощью, достаточно обвести изображение или фрагмент текста на сенсорном экране ноутбука. Функцию AI Select можно также использовать для оптического распознавания текста (OCR) и копирования текста с изображений, а также для сканирования QR-кода.

Galaxy Book5 Pro предлагается в версиях с 14- и 16-дюймовыми сенсорными экранами Dynamic AMOLED 2X с поддержкой технологии Vision Booster, обеспечивающей улучшенную видимость в условиях яркого освещения, и антибликовым покрытием.

В веб-камере ноутбука впервые используется технология Staggered HDR, которая объединяет несколько различных экспозиций в одно изображение с широким динамическим диапазоном. Это обычная функция для смартфонов, но её редко используют в веб-камерах.

Четыре динамика с поддержкой технологии Dolby Atmos обеспечивают объёмный звук. Как сообщает компания, ёмкости батареи достаточно для работы устройства в течение до 25 часов. Коммуникационные возможности ноутбука включают два порта Thunderbolt 4, порт HDMI 2.1, порт USB-A, 3,5-мм разъём для наушников 3,5 мм и слот для карт памяти microSD. Цвет корпуса — серый или серебристый.

Ноутбук поддерживает приложение «Связь с телефоном» (Phone Link) от Microsoft для подключения к Android-смартфонам. Владельцы устройств Galaxy смогут использовать специальные функции, такие как Multi Control (использование клавиатуры и мыши для управления телефонами и планшетами), Second Screen (использование планшета в качестве второго монитора) и Quick Share (перемещение файлов, фотографий и документов между устройствами Galaxy).

Более подробные спецификации Samsung Galaxy Book5 Pro будут представлены, по всей видимости, в ближайшее время. Ноутбук поступит в продажу в Южной Корее 2 января. Цена устройства станет известна немного позже.

«Яндекс» научил беспилотные авто ездить «по-человечески» с помощью натасканного ИИ

«Яндекс» подключил нейросеть-трансформер к системе автопилота, поручив ей прокладывать траекторию движения машины. Модель была обучена на испытаниях с участием водителей высокого класса — она поможет автономному транспорту более гибко реагировать на дорожную обстановку, а манера вождения станет более «человечной».

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Чтобы сформировать массив обучающих данных, «Яндекс» привлёк водителей высокого класса, которые прошли курсы контраварийного вождения и подтвердили свои навыки. Они перемещались по городу, а система записывала полученную от датчиков информацию о дорожной обстановке и действиях водителя. Благодаря этому нейросеть научилась реагировать на известные и неизвестные ситуации, которые могут возникнуть гипотетически. Новый планировщик уже начали применять на практике: при поездках по городу и в симуляторе.

Как показали результаты тестирования, планировщик траектории на основе нейросетей оказался более эффективным, чем система на основе алгоритмов. В случаях, когда автопилот старого поколения не мог избежать столкновения, новый нередко находил траекторию, по которой машина объезжала препятствие, не попав в аварию. «Яндекс» занимается технологиями автопилота с 2017 года — такие машины проходят испытания в Москве, Иннополисе и Сириусе. А в октябре этого года беспилотный грузовик компании впервые доставил товары для «Яндекс Маркета» из Москвы в Тулу по трассе М-4 «Дон».

«Яндекс» научил телевизоры понимать незнакомые голосовые команды с помощью ИИ

Голосовой помощник «Алиса» получил возможность управлять «ТВ Станциями» при помощи команд в произвольной форме — для этого ассистент обрабатывает инструкции с помощью большой языковой модели YandexGPT 4. Ранее «Алиса» была ограничена только заранее заложенными командами.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

«Алиса» научилась «думать» — использовать языковую модель YandexGPT 4 не только для подготовки развёрнутых ответов в диалоговом интерфейсе, но и для выполнения команд пользователя: запрос анализируется, после чего принимается решение о порядке его исполнения. Технология называется «смарт-функции». Ранее голосовой помощник обрабатывал только те команды, которым был предварительно обучен — при любом отклонении от этого стандарта «Алиса» отвечала, что «этого пока не умеет».

Сейчас, если система сталкивается с нестандартным запросом, она разделяет его на составные части и выполняет шаг за шагом. Можно попросить «Алису» выключить телевизор, когда закончится текущий матч — она узнает, сколько осталось до его завершения и поставит таймер на это время. Аналогичным образом упростилась процедура добавления фильма или сериала в список «Буду смотреть»: раньше для этого нужно было произвести поиск по соответствующему наименованию и только после этого добавить — сейчас фильм или сериал добавляются в список «Буду смотреть» без поиска или развёртывания карточки на экране.

Наконец, поддерживаются составные команды, предусматривающие последовательность действий и задачи разного типа, например «Алиса, добавь „Барсукот“ в „Буду смотреть“, а сейчас включи „Три кота“» или «Алиса, включи первый фильм на громкости 20». В перспективе «Яндекс» пообещал дополнительно усложнить механизм работы голосового помощника с нейросетью: задачи будут включать несколько этапов, в том числе взаимодействие с устройствами умного дома и службами «Яндекса».

«Сбер» представил российское умное кольцо с ИИ и контролем сатурации, температуры, стресса, сна и пульса

В рамках проходящей на этой неделе международной конференции AI Journey «Сбер» представил умное кольцо Sber. Новинка умеет отслеживать частоту сердечных сокращений пользователя, измерять уровень насыщения крови кислородом и температуру тела, мониторить уровень стресса и качество сна. Разработчики также интегрировали в устройство нейросеть GigaChat MAX, благодаря чему кольцо может вести диалог с владельцем, отвечать на вопросы и давать персональные рекомендации.

 Источник изображения: SberDevices

Источник изображения: SberDevices

«Сбер» отмечает, что новинка отличается высокой точностью сбора данных, поскольку устройство, выполненное в формфакторе кольца, плотно прилегает к коже, в отличие, например, от смарт-часов или браслетов. Корпус кольца изготовлен из сверхпрочных, износостойких и гипоаллергенных материалов. Устройство весит 5 граммов и может работать без подзарядки до 7 дней. Покупателям будет предложено несколько вариантов цветового исполнения корпуса: матовый серый, матовый чёрный, серый и чёрный хром.

В конструкции кольца Sber предусмотрены несколько датчиков для измерения частоты сердечных сокращений, температуры, сатурации, движения. Специальные алгоритмы анализируют данные, поступающие с датчиков, и интерпретируют их в виде ключевых показателей ресурсов организма, качества сна, уровня стресса и активности. Пользователь получает подробную информацию о состоянии своего организма в удобном мобильном приложении, а интегрированная нейросеть GigaChat MAX может предоставлять персонализированные рекомендации по изменению образа жизни и улучшению самочувствия.

Умное кольцо Sber поступит в розничную продажу в начале следующего года. Стоимость новинки пока не озвучена.

Google показала ИИ-агента, который помогает проходить игры, наблюдая за действиями игрока

Google представила новую версию платформы искусственного интеллекта Gemini 2.0, с помощью которой можно создавать ИИ-агентов для советов и подсказок в видеоиграх. Агенты способны анализировать игровой процесс и предлагать оптимальные стратегии, а пользователи смогут получать рекомендации в режиме реального времени.

 Источник изображения: Supercell, theverge.com

Источник изображения: Supercell, theverge.com

Как сообщают в блоге компании генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) и технический директор Корай Кавукчуоглу (Koray Kavukcuoglu), агенты «делают выводы об игре, основываясь исключительно на действиях на экране, и предлагают решения в режиме реального времени». Кроме того, они могут использовать поиск Google по базам знаний для предоставления более полной информации. Агенты уже тестируются в популярных играх, таких как Clash of Clans и Hay Day от Supercell. Однако, как пишет The Verge, технология находится на ранней стадии разработки, и пока не ясно, насколько полезными такие наставники окажутся для игроков.

Помимо помощи в видеоиграх, Google развивает и другие направления применения Gemini 2.0. Например, ведётся работа над проектом Genie 2, который создаёт виртуальные игровые миры на основе лишь одного изображения. Пока эти миры остаются стабильными только около минуты, однако эксперты видят большой потенциал технологии.

Также компания представила мультимодальные возможности Gemini 2.0 Flash, которые уже доступны разработчикам через API в Google AI Studio и Vertex AI. Новая версия отличается высокой скоростью работы, улучшенной обработкой данных и способностью генерировать изображения и текст, а также преобразовывать текст в речь на нескольких языках. Эти функции уже тестируются ранними партнёрами, а в январе платформа станет доступна широкой аудитории.

Среди других проектов можно выделить Project Astra, Mariner и Jules. Project Astra, созданный для использования на Android-устройствах, был улучшен с помощью Gemini 2.0. Теперь ассистент на базе Astra может разговаривать на нескольких языках, использовать Google Search, Maps и Lens, а также запоминать больше данных, сохраняя при этом конфиденциальность. Project Mariner исследует, как ИИ может помогать в браузере, распознавая текст, изображения, код и другие элементы интерфейса, а Jules предназначен для помощи разработчикам в их рабочих процессах на GitHub.

ИИ-агенты также могут применяться в физическом мире. Исследования Google показывают, что Gemini 2.0 способен использовать пространственное мышление в робототехнике. Хотя эти разработки находятся на ранней стадии, сама компания видит большой потенциал в создании агентов, которые способны взаимодействовать с реальной средой.

Чтобы минимизировать риски и обеспечить безопасность своих ИИ-сервисов, компания проводит масштабные тестирования, сотрудничает с доверенными тестировщиками и внешними экспертами. В ближайшем будущем Google планирует интегрировать возможности Gemini 2.0 во все свои продукты, включая мобильное приложение Gemini.

Google представила Mariner — прототип ИИ-агента для Chrome, которому можно давать сложные поручения

Google представила исследовательский прототип ИИ-агента под названием Project Mariner, который способен выполнять действия в интернете за человека. За разработку отвечает подразделение Google — DeepMind. ИИ-агент на базе Gemini берет под контроль браузер Chrome, перемещает курсор на экране, нажимает кнопки и заполняет формы, что позволяет ему использовать веб-сайты и перемещаться по ним так же, как это делает человек.

 Источник изображений: Google

Источник изображений: Google

Компания сообщила, что в настоящий момент Project Mariner проходит стадию тестирования группой предварительно отобранных пользователей. В разговоре с порталом TechCrunch директор Google Labs Жаклин Конзельманн (Jaclyn Konzelmann) заявила, что Project Mariner представляет собой принципиально новый подход в пользовательском интерфейсе. Проект предлагает отказаться от прямого взаимодействия пользователей с веб-сайтами, возложив эти задачи на генеративную систему ИИ. По её словам, такие изменения могут затронуть миллионы предприятий — от веб-изданий до ритейла — которые традиционно полагались на Google как отправную точку для привлечения пользователей на свои веб-сайты.

После установки и настройки Project Mariner в качестве расширения для браузера Chrome у последнего появится специальное окно чата. В нём можно поручить ИИ-агенту выполнение различных задач. Например, его можно попросить создать корзину покупок в продуктовом магазине на основе заданного списка. После этого ИИ-агент самостоятельно перейдёт на страницу указанного магазина (в демонстрации использовался магазин Safeway), выполнит поиск нужных товаров и добавит их в корзину. Журналисты отмечают, что система работает не так быстро, как хотелось бы: между каждым движением курсора проходит примерно 5 секунд. Иногда ИИ-агент прерывает выполнение задачи и возвращается к окну чата, запрашивая уточнения, например, о весе или количестве товаров.

ИИ-агент от Google не может оформить заказ, так как в его алгоритм не включены функции заполнения номеров кредитных карт и другой платёжной информации. Project Mariner также не принимает файлы cookie и не подписывает соглашения об условиях использования от имени пользователей. Google подчёркивает, что это сделано намеренно, чтобы предоставить пользователям больше контроля.

Кроме того, ИИ-агент делает снимки экрана окна браузера, с чем пользователи должны согласиться перед его использованием. Эти изображения отправляются для обработки в облачный сервис Gemini, который затем передаёт инструкции обратно на устройство пользователя для навигации по веб-странице. Project Mariner можно использовать для поиска рейсов и отелей, покупок товаров для дома, поиска рецептов и других задач, которые сейчас требуют самостоятельной навигации по сайтам.

Одно из основных ограничений Project Mariner заключается в том, что он работает только на активной вкладке браузера Chrome. Иными словами, веб-страница, на которой действует ИИ-агент, должна быть постоянно открыта на экране монитора. Пользователям придётся наблюдать за каждым шагом бота. По словам главного технического директора Google DeepMind Корая Кавукчуоглу (Koray Kavukcuoglu), это сделано специально, чтобы пользователи знали, что именно делает ИИ-агент.

«Поскольку [Gemini] теперь выполняет действия от имени пользователя, важно делать это шаг за шагом. Это дополнительная функция. Вы, как человек, можете использовать веб-сайты, и теперь ваш агент может делать всё, что вы делаете на веб-сайте», — отметил Кавукчуоглу в интервью TechCrunch.

С одной стороны, пользователям всё равно придётся видеть страницу сайта, что выгодно для владельцев ресурсов. Однако использование Project Mariner снижает уровень непосредственного взаимодействия пользователей с функциями сайта и в перспективе может вообще исключить необходимость самостоятельного посещения веб-сайтов.

«Project Mariner — это принципиально новый сдвиг в парадигме UX, который мы наблюдаем прямо сейчас. Нам нужно понять, как правильно всё это настроить, чтобы изменить принципы взаимодействия пользователей с интернетом, а также найти способы, которыми издатели смогут создавать собственные решения для пользователей на базе ИИ-агентов в будущем», — добавила Конзельманн.

Помимо Project Mariner, Google представила несколько других ИИ-агентов для специализированных задач. Например, инструмент Deep Research для глубокого поиска и исследования в интернете. Также был представлен ИИ-агент Jules, предназначенный для помощи разработчикам в написании кода. Он интегрируется в рабочие процессы GitHub, анализирует текущий уровень разработки и может вносить изменения прямо в репозитории. Jules проходит тестирование и станет доступен в 2025 году.

Google DeepMind также разрабатывает ИИ-агента для помощи пользователям в видеоиграх. Для этого компания сотрудничает с разработчиком игр, студией Supercell, чтобы проверить способности Gemini интерпретировать игровые миры на примере Clash of Clans. Сроки запуска прототипа этого ИИ-агента пока неизвестны, но Google подчёркивает, что эта разработка помогает в создании ИИ-агентов для навигации как в реальном, так и в виртуальных мирах.

Apple выпустит собственный серверный процессор для «Яблочного интеллекта»

В настоящее время для обеспечения работы ИИ-сервиса Apple Intelligence используется серверная инфраструктура на чипах M2 Ultra собственной разработки Apple. По слухам, в следующем году их заменят чипы серии M4. Однако теперь The Information сообщает, что Apple разрабатывает новый серверный чип, который обеспечит ещё более высокую производительность для реализации функций ИИ, планируя отказаться от применения чипов Mac в серверах.

 Источник изображения: MacRumors

Источник изображения: MacRumors

По данным источников, новый чип содержит «множество копий» нейронного движка Neural Engine, чтобы обеспечить более высокую производительность для обработки ИИ-нагрузок. Предполагается, что в проекте по созданию нового серверного чипа участвует по меньшей мере три компании. В то время как Apple занимается общими задачами по разработке чипа, Broadcom, как сообщают источники, предоставляет для него сетевые технологии. За производство будет отвечать TSMC — массовый выпуск нового чипа стартует в 2026 году с использованием 3-нм техпроцесса третьего поколения N3P. Эта же технология, как ожидается, будет использоваться для выпуска чипов A19 для iPhone 17 в следующем году.

Серверный чип Apple, по всей видимости, будет поддерживать некоторые функции Apple Intelligence, которые полагаются на реализуемую на сервере генерацию, такие как Image Playground. Напомним, что Apple придерживается стратегии, согласно которой основные задачи, связанные с ИИ, выполняются локально на смартфоне или компьютере. Но сложные задачи, которых обычно меньшинство, обрабатываются уже на сервере.

«Apple, вероятно, будет использовать новый чип ИИ для инференса, когда чип обрабатывает новые данные, такие как описание пользователем возможного изображения, и применяет их к моделям для генерации выходных данных, например, создания самого изображения», — пишет The Information.

Apple объявила, что iOS 18.2, iPadOS 18.2 и macOS Sequoia 15.2 выйдут сегодня с дополнительными функциями Apple Intelligence, включая Genmoji, Image Playground, Image Wand и интеграцию ChatGPT в Siri. У всех моделей iPhone 16 также есть новая функция визуального ИИ-поиска Visual Intelligence, которая позволяет идентифицировать объекты в реальном мире с помощью камеры смартфона.

Google научила ИИ глубоко гуглить — Deep Research тщательно исследует любую тему в интернете

Компания Google представила новый ИИ-инструмент под названием Deep Research, который позволяет чат-боту Gemini проводить тщательный веб-поиск по заданной теме вместо пользователя и составлять детальный отчёт на основе обнаруженной информации.

 Источник изображений: Google

Источник изображений: Google

В настоящий момент Deep Research доступен только для платных подписчиков Gemini Advanced и только на английском языке. Для его активации необходимо выбрать в Gemini в качестве модели «Gemini 1.5 Pro с Deep Research».

При наличии доступа можно попросить Gemini провести исследование на определённую тему. После этого чат-бот составит «план поиска», который можно отредактировать или сразу одобрить. По словам Google, Gemini начнет своё исследование с «поиска интересных фрагментов информации» в интернете, а затем выполнит связанный поиск — процесс, который он повторяет несколько раз.

Когда исследование будет завершено, Gemini выдаст отчёт о своих «ключевых выводах» со ссылками на веб-сайты, где была найдена информация. Пользователь может попросить расширить определённые области поиска, подправить отчёт, а также экспортировать сгенерированное ИИ-исследование в Google Docs. Всё это напоминает функцию Pages, предлагаемую поисковой системой ИИ Perplexity, которая генерирует пользовательскую веб-страницу на основе запроса пользователя.

Google представила Deep Research в рамках более широкого анонса Gemini 2.0 — новой модели для эпохи «агентного» ИИ, или систем, которые способны заменить пользователя в рутинных операциях. Deep Research является лишь одним из примеров ИИ-агентов Google. Другие компании, работающие в сфере ИИ, также разрабатывают аналогичные решения.

Вместе с анонсом Deep Research компания Google также объявила, что Gemini Flash 2.0 — более быстрая версия чат-бота следующего поколения — стала доступна для разработчиков.

Google запустила «всеобъемлющую» ИИ-модель Gemini 2.0, которая может заменить человека

Представлена новая модель ИИ Gemini 2.0 от Google, которая стала предельно универсальной — она генерирует текст, звук и изображения, а также предлагает новые мультимодальные возможности, которые закладывают основу для следующего большого этапа в развитии ИИ: агентов, которые в буквальном смысле могут заменить пользователя в рутинных операциях. Новая модель также стала заметно производительнее и энергоэффективнее.

 Источник изображения: techspot.com

Источник изображения: techspot.com

Как и любая другая компания, участвующая в гонке ИИ, Google лихорадочно встраивает ИИ во всё, до чего может дотянуться, пытаясь создать коммерчески успешные продукты. Одновременно требуется так настроить всю инфраструктуру, чтобы дорогостоящие ИИ-решения не разорили компанию. Тем временем Amazon, Microsoft, Anthropic и OpenAI вливают свои собственные миллиарды в практически тот же самый набор проблем.

Gemini 2.0 представлена примерно через 10 месяцев после выпуска версии 1.5. Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) очень высоко оценивает новую модель, называя её «всеобъемлющей», хотя Gemini 2.0 все ещё находится в стадии «экспериментального предварительного просмотра», по терминологии Google. Тем не менее Хассабис уверен, что новая модель предоставит совершенно другой уровень возможностей, в первую очередь в области агентского ИИ.

Агентским ИИ называют ИИ-ботов, которые могут полноценно выполнять действия от имени пользователя. Например, Project Astra от Google — это визуальная система, которая может распознавать объекты, помогает ориентироваться в мире и находить утерянные предметы. По словам Хассабиса, возможности Astra в версии Gemini 2.0 многократно возросли.

Другой пример — Google Project Mariner — экспериментальное расширение для браузера Chrome, которое может буквально подменять пользователя при веб-серфинге. Агент Jules, в свою очередь, помогает разработчикам в поиске и исправлении плохого программного кода. Выпущен даже агент, который помогает лучше играть в видеоигры. Хассабис приводит его в пример в качестве по-настоящему мультимодальной модели ИИ.

«Мы действительно считаем 2025 год настоящим началом эры на основе агентов, — заявил Хассабис, — Gemini 2.0 является её основой». Он также отметил возросшую производительность и энергоэффективность новой модели, особенно на фоне общего замедления прогресса в отрасли ИИ.

План Google относительно Gemini 2.0 заключается в том, чтобы использовать её абсолютно везде. Google ставила своей целью внедрить как можно больше функций в единую модель, а не запускать множество отдельных разрозненных продуктов. «Мультимодальность, различные виды выходных данных, функции — цель состоит в том, чтобы включить все это в основополагающую модель Gemini. Мы пытаемся построить максимально общую модель», — говорит Хассабис.

По словам Хассабиса, с началом агентской эры ИИ потребуется решать как новые, так и старые проблемы. Старые вечны, они касаются производительности, эффективности и стоимости вывода. Новые во многом связаны с рисками в сфере безопасности и конфиденциальности.

Gemini 2.0 на данный момент находится на экспериментальной стадии, причём только в облегчённой версии Gemini 2.0 Flash. Выход окончательной версии запланирован на начало следующего года.


window-new
Soft
Hard
Тренды 🔥
«Группа Астра» увеличила на треть выручку в I полугодии 2025 года 2 мин.
Ghost of Yotei выйдет в срок — наследник Ghost of Tsushima ушёл на золото за месяц до релиза 26 мин.
Broadcom интегрировала в VCF ИИ-сервисы и поддержку новейших ускорителей AMD и NVIDIA — всё это будет доступно бесплатно 53 мин.
Epic Games Store устроил на PC, Android и iOS раздачу культового приключения Machinarium от создателей Botanicula и Samorost 2 ч.
Nvidia выпустила драйвер с поддержкой дополнения The Order of Giants к Indiana Jones and the Great Circle и DLSS 4 в Wuthering Waves 3 ч.
Автосохранение в Microsoft Word теперь включено по умолчанию — но копии сохраняются не на ПК 4 ч.
В Elden Ring Nightreign скоро появятся экспедиции повышенной сложности — анонсирован режим Deep of Night для самых смелых 5 ч.
Нелинейный шутер Judas от создателя BioShock вернулся из небытия с новыми подробностями и ключевой иллюстрацией 6 ч.
Xiaomi представила HyperOS 3 — углубленная совместимость с Apple, редизайн, Super Island и многое другое 6 ч.
«Яндекс» оштрафовали за отказ предоставить ФСБ доступ к «Умному дому с Алисой» 6 ч.