Сегодня 15 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gemini
Быстрый переход

ИИ-модели Gemini позволили анализировать снимки в «Google Фото», но пока не у всех пользователей

Компания Google начала интеграцию своей нейросети Gemini в сервис «Google Фото». Благодаря этому пользователи теперь имеют возможность объединения Gemini со своим аккаунтом в «Google Фото», благодаря чему можно искать нужные снимки на основе текстовых запросов об их содержимом. На данный момент нововведение доступно только на территории США для запросов на английском языке.

 Источник изображения: BoliviaInteligente / Unsplash

Источник изображения: BoliviaInteligente / Unsplash

Согласно имеющимся данным, упомянутое нововведение доступно для всех пользователей устройств на базе Android, у которых установлено приложение Gemini. Для активации интеграции необходимо запустить приложение Gemini и в настройках профиля активировать соответствующую опцию. После этого алгоритм сможет помочь отыскать снимки, например, по сделанным пользователем меткам, местоположению, дате съёмки или описанию того, что изображено на фотографии.

После того, как Gemini отобразит список найденных объектов, пользователь может нажать на миниатюру какого-то конкретного снимка или альбома, чтобы открыть его в «Google Фото». При необходимости снимки можно по одному перетаскивать из окна Gemini в другие приложения.

Google не объявляла, когда интеграция Gemini с сервисом «Google Фото» станет доступна за пределами рынка США и получит поддержку большего количества языков. Вероятно, это произойдёт после того, как разработчики убедятся в том, что алгоритм работает полностью корректно.

ИИ-помощник программиста Google Gemini Code Assist научился писать приложения по описанию и переводить код из одного языка в другой

На конференции Cloud Next представитель компании сообщил, что ИИ-помощник по кодированию Code Assist теперь умеет развёртывать новых ИИ-агентов. Они могут создавать приложения из спецификаций продуктов в Google Docs или выполнять преобразования кода с одного языка на другой. Code Assist теперь доступен в Android Studio в дополнение к другим средам программирования.

 Источник изображения: Google

Источник изображения: Google

Обновления Code Assist являются ответом на конкурентное давление со стороны таких компаний, как GitHub Copilot, Cursor и Cognition Labs, создателя вирусного инструмента программирования Devin. Рынок помощников по кодированию на основе искусственного интеллекта растёт с каждым месяцем, а его ёмкость оценивается в миллиарды долларов.

Агенты Code Assist, которыми можно управлять с новой доски Gemini Code Assist Kanban, могут создавать рабочие планы и отчитываться о пошаговом прогрессе по запросам на работу. Помимо создания программного обеспечения и миграции кода, агенты могут внедрять новые функции приложений, выполнять проверки кода и генерировать модульные тесты и документацию.

Пока трудно понять, насколько хорошо работают агенты Code Assist. Исследования показали, что даже лучшие генераторы кода на основе ИИ на сегодняшний день могут допускать ошибки и вносить уязвимости безопасности из-за неспособности понимать логику программирования. На одном из недавних тестов Devin успешно выполнил только три из двадцати задач.

Поэтому, при использовании любого ИИ-ассистента для программирования не помешает самостоятельно проверить получившийся код.

Мяч с мозгами: Samsung и Google объединились для выпуска домашнего робота Ballie с ИИ Gemini и проектором

Samsung и Google объединились для запуска Ballie, домашнего робота в форме футбольного мяча, который использует ИИ Gemini для управления умным домом и умеет проецировать видео на стены. Жёлтый шарообразный робот призван, по словам Samsung, «оживить ИИ как друга и настоящего компаньона». С этим устройством обе компании впервые выходят на перспективный рынок потребительской робототехники, который оценивается в миллиарды долларов.

 Источник изображений: Samsung

Источник изображений: Samsung

Samsung впервые представила Ballie в начале 2020 года на технологической конференции CES, где он произвёл фурор, но путь к выходу домашнего робота на потребительский рынок оказался тернистым. Исполнительный вице-президент Samsung Джей Ким (Jay Kim) сообщил, что актуальное устройство представляет собой «совершенно новый Ballie». Одним из самых больших изменений стало использование моделей ИИ от Google для понимания команд пользователя, подключения к поиску Google и обработки данных с бортовых камер во время навигации по дому.

 Источник изображений: Samsung

Ballie работает под управлением операционной системы Tizen от Samsung, которая также используется во многих устройствах компании, что обеспечивает ему доступ к таким поставщикам контента, как YouTube, Netflix и собственный сервис Samsung TV Plus. Робот использует платформу Samsung SmartThings для управления умными домашними устройствами, календарями и напоминаниями, ответа на вопросы, совершения и приёма телефонных звонков и воспроизведения видео через встроенный проектор. Он также использует модели ИИ от Samsung для таких функций, как доступ к персональным данным и погоде.

 Источник изображений: Samsung

«Сложно описать систему, которая может чувствовать, двигаться и взаимодействовать так естественно, как это делает она, — считает генеральный директор Google Cloud Томас Куриан (Thomas Kurian). — Когда вы говорите: “Иди сюда”, она действительно размышляет, как туда попасть. Системе требуется много магии за кулисами, чтобы она заработала».

 Источник изображений: Samsung

По словам Кима, Samsung выбрала Google Cloud из-за своей «веры» в возможности Gemini. Эта работа знаменует собой расширение существующих партнёрских отношений по устройствам Android, умным часам и будущей гарнитуре смешанной реальности, которая также появится в конце этого года. Он добавил, что компании уже разрабатывают дополнительные функции для Ballie, включая комплект разработки программного обеспечения для сторонних приложений и видеоконференций.

Куриан подчеркнул, что партнёрство с Samsung требует «много настроек и оптимизации […] и это единственное наше партнёрство с таким персонализированным опытом».

Устройство сначала поступит в продажу в США и Южной Корее и, по крайней мере, на первых порах будет поддерживать общение только на английском и корейском языках.

Google представила рассуждающую ИИ-модель Gemini 2.5 Flash с высокой производительностью и эффективностью

Google выпустила новую ИИ-модель, призванную обеспечить высокую производительность с упором на эффективность. Она называется Gemini 2.5 Flash и вскоре станет доступна в составе платформы Vertex AI облака Google Cloud для развёртывания и управления моделями искусственного интеллекта (ИИ).

 Источник изображения: Google

Источник изображения: Google

Компания отмечает, что Gemini 2.5 Flash предлагает «динамические и контролируемые» вычисления, позволяя разработчикам регулировать время обработки запроса в зависимости от их сложности.

«Вы можете настроить скорость, точность и баланс затрат для ваших конкретных нужд. Эта гибкость является ключом к оптимизации производительности Flash в высоконагруженных и чувствительных к затратам приложениях», — написала компания в своём официальном блоге.

На фоне растущей стоимости использования флагманских ИИ-моделей Gemini 2.5 Flash может оказаться крайней полезной. Более дешёвые и производительные модели, такие как 2.5 Flash, представляют собой привлекательную альтернативу дорогостоящим флагманским вариантам, но ценой потери некоторой точности.

Gemini 2.5 Flash — это «рассуждающая» модель по типу o3-mini от OpenAI и R1 от DeepSeek. Это означает, что для проверки фактов ей требуется немного больше времени, чтобы ответить на запросы. Google утверждает, что 2.5 Flash идеально подходит для работы с большими объёмами данных и использования в реальном времени, в частности, для таких задач, как обслуживание клиентов и анализ документов.

«Эта рабочая модель оптимизирована специально для низкой задержки и снижения затрат. Это идеальный движок для отзывчивых виртуальных помощников и инструментов резюмирования в реальном времени, где эффективность при масштабировании является ключевым фактором», — описывает новую ИИ-модель компания.

Google не опубликовала отчёт по безопасности или техническим характеристикам для Gemini 2.5 Flash, что усложнило задачу определения её преимуществ и недостатков. Ранее компания говорила, что не публикует отчёты для моделей, которые она считает экспериментальными.

Google также объявила, что с третьего квартала планирует интегрировать модели Gemini, такие как 2.5 Flash в локальные среды. Они будут доступны в Google Distributed Cloud (GDC), локальном решении Google для клиентов со строгими требованиями к управлению данными. В компании добавили, что работают с Nvidia над установкой Gemini на совместимые с GDC системы Nvidia Blackwell, которые клиенты смогут приобрести через Google или по своим каналам.

Google научит ИИ-чат-бота Gemini анализировать видео

Функция загрузки и анализа файлов в Google Gemini скоро получит поддержку видеофайлов. Анализ предварительной версии приложения помог установить, какие форматы видео будут поддерживаться, когда эта возможность станет общедоступной.

 Источник изображения: blog.google

Источник изображения: blog.google

Чат-бот Gemini уже позволяет загружать файлы и задавать о них вопросы. Сейчас это могут быть документы, файлы с программным кодом, простые текстовые файлы, презентации, электронные таблицы и прочие файлы с табличными данными. Сервис можно использовать для анализа веб-страниц и видео YouTube — о них также можно задавать дополнительные вопросы. Выгрузка видеофайлов пока не поддерживается.

В предварительной версии приложения Google 16.13.38 beta журналисты Android Authority обнаружили строки, указывающие, что сервис получит поддержку загрузки видео в форматах 3GP, AVI, FLV, MOV, MP4, MPEG, MPG и WebM. В других фрагментах кода также обнаружились строки, указывающие, что пользователи смогут загружать на анализ несколько видео одновременно — при этом общая продолжительность видео будет ограничиваться, и ограничения эти, вероятно, станут отличаться для пользователей платной и бесплатной версий сервиса.

Наряду с поддержкой видео функция загрузки и анализа данных Gemini также получит поддержку репозиториев GitHub. Это упростит пользователям задачи, связанные с анализом файлов программного кода при помощи чат-бота. В текущей бета-версии приложения эти функции отсутствуют, и Google пока не делала никаких объявлений, связанных с данными возможностями. Но они могут последовать в обозримом будущем.

Google выпустила тестовую версию нейросети Gemini 2.5 Pro для всех пользователей

Компания Google объявила о запуске экспериментальной версии нейросети Gemini 2.5 Pro для всех пользователей приложения Gemini, включая бесплатных. Это довольно неожиданный шаг, поскольку данный алгоритм был анонсирован всего несколько дней назад как «самая интеллектуальная модель искусственного интеллекта» от Google, которая способна рассуждать, а не только выдавать ответы на задаваемые пользователями вопросы.

 Источник изображения: 9to5google.com

Источник изображения: Google

В настоящее время нейросеть Gemini 2.5 Pro продолжает оставаться в статусе экспериментальной, но поддерживает ряд функций, включая приложения/расширения, загрузку файлов и Canvas. На момент запуска алгоритм был доступен только платным подписчикам Gemini Advanced. Однако на выходных Google объявила о намерении сделать алгоритм доступным для всех пользователей Gemini.

Уже сейчас взаимодействовать с Gemini 2.5 Pro можно на странице gemini.google.com, а в скором времени алгоритм станет доступен в приложениях Gemini для Android и iOS. Google заявила о желании как можно скорее передать свою самую интеллектуальную модель ИИ в руки большего количества людей.

 Источник изображения: 9to5google.com

Источник изображения: 9to5google.com

Отметим, что на сегодняшний день Gemini 2.5 Pro возглавляет рейтинг LMArena, оценивающего модели на основе пользовательских предпочтений. Алгоритм также лидирует в математических (AIME 2025) и научных (GPQA diamond) тестах. В дополнение к этому Google работает над улучшением возможностей нейросети в сфере написания программного кода.

Пока неясно, сделает ли Google стабильную версию Gemini 2.5 Pro бесплатной для всех пользователей или же расширение доступа является одним из шагов на пути тестирования ИИ-модели. Официальные представители компании пока не делали каких-либо заявлений по данному вопросу.

Google представила Gemini 2.5 Pro — свою самую умную ИИ-модель, которая превзошла OpenAI o3

Компания Google анонсировала ИИ-модель Gemini 2.5 Pro, назвав её «своей самой умной моделью» на сегодняшний день. Нейросеть является частью семейства Gemini 2.5 и превосходит предыдущие версии в анализе данных, программировании и решении сложных задач, поддерживая контекст до 1 млн токенов.

 Источник изображения: 9to5google.com

Источник изображений: Google

Ключевой особенностью Gemini 2.5 Pro, как и всех моделей семейства Gemini 2.5, является способность рассуждать, представляя ход своих мыслей перед тем, как выдать пользователю более точный и окончательный ответ. В отличие от предыдущего поколения моделей (Gemini 2.0 Flash Thinking), Google больше не использует маркировку Thinking и не демонстрирует ход рассуждений. Однако, как уточняет сайт 9to5Google, пользователи могут вручную активировать функцию «размышления вслух», чтобы увидеть ход мысли бота.

В целом Gemini 2.5 Pro продемонстрировала значительный скачок в производительности благодаря улучшенной базовой модели и доработкам после обучения. Google отмечает, что эта версия возглавила рейтинг LMArena, который оценивает модели на основе пользовательских предпочтений, а также показала лучшие результаты в математике (AIME 2025) и науке (GPQA diamond).

 Источник изображения: 9to5google.com

Одновременно в тесте Humanity’s Last Exam («Последний экзамен человечества»), который создан экспертами для проверки предела возможностей искусственного интеллекта в области знаний и логики, Gemini 2.5 Pro достигла рекордных 18,8 % без использования дополнительных инструментов. Также модель получила существенные улучшения в программировании, особенно в создании веб-приложений и редактировании кода.

 Источник изображения: 9to5google.com

В области разработки программного обеспечения Gemini 2.5 Pro продемонстрировала высокий результат на тесте SWE-Bench Verified, набрав 63,8 % при использовании специального агентского подхода. Кроме того, модель обладает встроенной мультимодальностью и способна работать с текстом, аудио, изображениями, видео, обрабатывать большие наборы данных и даже репозитории кода в полном объёме.

Контекстное окно модели предлагает размер в 1 миллион токенов, а в ближайшем будущем оно увеличится до 2 миллионов. В следующие несколько недель Gemini 2.5 Pro появится в Vertex AI, а позднее Google представит ценовую политику, позволяющую использовать ИИ-модель в масштабных проектах. Пока модель доступна для платных подписчиков и разработчиков в тестовом режиме.

ИИ Gemini научился консультировать людей о местах из «Google Карт»

Большая языковая модель искусственного интеллекта Gemini порой предлагает впечатляющие возможности, но люди смогут оценить их, только когда испытают сами. Google стремится интегрировать её в большинство своих сервисов, включая картографический, где ИИ становится источником справочной информации.

 Источник изображения: androidauthority.com

Источник изображения: androidauthority.com

В сервисе «Google Карты» началось широкомасштабное развёртывание новой функции — кнопки «Задать вопрос о месте» (Ask about place), обратил внимание ресурс Android Authority. Функция появляется постепенно — она отмечается не у всех, а набор её возможностей пока варьируется от одного пользователя к другому. Открывая отдельные местоположения в «Google Картах», можно задавать Gemini связанные с этими местами вопросы, например, как лучше добраться до пункта назначения. Механизм работы функции относительно прост — запрос к ИИ сопровождается URL-адресом из картографического сервиса.

Кнопка, когда она доступна, появляется для большинства локаций, но зависит от их масштаба. К примеру, она отсутствует при просмотре города или региона целиком. Иногда Gemini отвечает, что не может работать с картами, в отдельных случаях для обработки запросов требуется платная подписка Gemini Advanced. Вероятно, Google начала развёртывать функцию для широкого круга пользователей, не доработав её до конца и не сделав соответствующих заявлений, и в перспективе компания всё-таки наладит адекватный механизм её работы.

Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально

Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (François Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам.

Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций.

Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком.

Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат.

Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу.

Google начала разворачивать Project Astra — голосовой помощник Gemini Live обретает зрение

Как и было анонсировано на выставке MWC ранее в этом месяце, Google приступила к развёртыванию новых функций для пользователей голосового помощника Gemini Live. На данном этапе речь идёт о функциях совместного использования экрана устройства и камеры через алгоритм Project Astra.

 Источник изображения: Google

Источник изображения: Google

По данным источника, некоторым пользователям устройств на базе Android упомянутые функции стали доступны в конце этой недели. Один из пользователей активировал обновлённый интерфейс Gemini Live и обратил внимание на появление новой кнопки «Поделиться экраном с Live», которая расположена рядом с кнопкой «Спросить об экране». Отмечается, что на данный момент можно поделиться только всем содержимым экрана, без возможности выбора отдельных приложений.

Вместе с этим пользователи получили доступ к алгоритму Project Astra, который делает камеру устройства по-настоящему интерактивной и позволяет задействовать её для взаимодействия с окружающим миром. Для начала взаимодействия с этим инструментом нужно запустить интерфейс Gemini Live и активировать камеру. В правом нижнем углу экрана будет доступна кнопка для переключения на фронтальную камеру.

Вполне логично, что Google постепенно внедряет новые функции на базе ИИ, расширяя их доступность для пользователей Android-устройств. Вероятно, если планы компании не будут нарушены, то в ближайшие несколько недель обе функции станут доступны большему количеству пользователей совместимых устройств.

Исследователи нашли способ масштабирования ИИ без дополнительного обучения, но это не точно

Группа исследователей из Google и Калифорнийского университета в Беркли предложила новый метод масштабирования искусственного интеллекта (ИИ). Речь идёт о так называемом «поиске во время вывода», который позволяет модели генерировать множество ответов на запрос и выбирать лучший из них. Этот подход может повысить производительность моделей без дополнительного обучения. Однако сторонние эксперты усомнились в правильности идеи.

 Источник изображения: сгенерировано AI

Источник изображения: сгенерировано AI

Ранее основным способом улучшения ИИ было обучение больших языковых моделей (LLM) на всё большем объёме данных и увеличение вычислительных мощностей при запуске (тестировании) модели. Это стало нормой, а точнее сказать, законом для большинства ведущих ИИ-лабораторий. Новый метод, предложенный исследователями, заключается в том, что модель генерирует множество возможных ответов на запрос пользователя и затем выбирает лучший. Как отмечает TechCrunch, это позволит значительно повысить точность ответов даже у не очень крупных и устаревших моделей.

В качестве примера учёные привели модель Gemini 1.5 Pro, выпущенную компанией Google в начале 2024 года. Утверждается, что, используя технику «поиска во время вывода» (inference-time search), эта модель обошла мощную o1-preview от OpenAI по математическим и научным тестам. Один из авторов работы, Эрик Чжао (Eric Zhao), подчеркнул: «Просто случайно выбирая 200 ответов и проверяя их, Gemini 1.5 однозначно обходит o1-preview и даже приближается к o1».

Тем не менее, эксперты посчитали эти результаты предсказуемыми и не увидели в методе революционного прорыва. Мэтью Гуздиал (Matthew Guzdial), исследователь ИИ из Университета Альберты, отметил, что метод работает только в тех случаях, когда можно чётко определить правильный ответ, а в большинстве задач это невозможно.

С ним согласен и Майк Кук (Mike Cook), исследователь из Королевского колледжа Лондона. По его словам, новый метод не улучшает способность ИИ к рассуждениям, а лишь помогает обходить существующие ограничения. Он пояснил: «Если модель ошибается в 5 % случаев, то, проверяя 200 вариантов, эти ошибки просто станут более заметны». Основная проблема состоит в том, что метод не делает модели умнее, а просто увеличивает количество вычислений для поиска наилучшего ответа. В реальных условиях такой подход может оказаться слишком затратным и малоэффективным.

Несмотря на это, поиск новых способов масштабирования ИИ продолжается, поскольку современные модели требуют огромных вычислительных ресурсов, а исследователи стремятся найти методы, которые позволят повысить уровень рассуждений ИИ без чрезмерных затрат.

ИИ-модель Google Gemini 2.0 Flash оказалась на удивление хороша в удалении водяных знаков с изображений

Некоторые новейшие «экспериментальные» функции модели Gemini 2.0 Flash от Google вызывают нешуточные опасения у многих пользователей. В частности, модель показала «очень качественные» результаты при удалении водяных знаков с изображений.

 Источник изображений: Google

Источник изображений: Google

Gemini 2.0 Flash умеет не только генерировать изображения по текстовому запросу, но и редактировать их в соответствии с указаниями пользователя — примеры опубликованы на Reddit. На днях обнаружилось, что модель с высокой точностью может удалять водяные знаки. Это поведение радикально отличается от модели GPT-4o от OpenAI, которая запросы на удаление водяных знаков отклоняет.

Ранее уже существовали такие инструменты, как Watermark Remover.io, который умеет удалять водяные знаки со стоковых фотографий, а исследовательская группа Google создала в 2017 году подобный алгоритм, чтобы подчеркнуть необходимость более надёжной защиты авторских прав на изображения.

Gemini 2.0 Flash, похоже, лучше всех проявила себя при удалении сложных водяных знаков, такие как штампы Getty Images, и смогла качественно восстановить изображение. Конечно, после удаления водяного знака модель добавляет метку SynthID, фактически заменяя знак авторского права на «отредактировано с помощью ИИ». Но метки ИИ довольно легко удаляются при помощи другого ИИ, что ранее было продемонстрировано инструментом стирания объектов от Samsung.

По сообщениям пользователей, облегчённая Gemini 2.0 Flash также умеет добавлять узнаваемые изображения реальных людей на фотографии, чего не позволяет полная модель Gemini.

На данный момент описанные возможности доступны только разработчикам через AI Studio — общедоступный бот Gemini отказывается убирать защитные знаки, как показано на скриншоте выше. Google не ответила на запросы о наличии защиты от возможных злоупотреблений после выхода модели в открытый доступ.

Эпоха Google Assistant подошла к концу: скоро его заменит умный ИИ-помощник Gemini на всех Android-смартфонах

Компания Google сообщила, что в ближайшие месяцы начнёт заменять стандартный цифровой помощник Google Assistant на Android-смартфонах новым ИИ-помощником Gemini. Позже в этом году классический Google Assistant станет недоступен на большинстве Android-смартфонов и исчезнет из магазинов Android-приложений. Он будет полностью заменён Gemini.

 Источник изображения: Google

Источник изображения: Google

Google уже использует Gemini в качестве основного цифрового помощника на своих смартфонах серии Pixel 9. Его также можно установить на большинство современных Android-смартфонов, включая устройства Pixel и модели других производителей, но только в качестве опционального решения, а не стандартного приложения. Для этого необходимо запустить Google Assistant и согласиться на его замену на Gemini.

По словам Google, выпущенное в прошлом году приложение Gemini к настоящему моменту уже поддерживает более 40 языков (включая русский) и доступно более чем в 200 странах мира.

В дополнение к смартфонам Google также заменит Google Assistant на Gemini в планшетах, мультимедийных системах автомобилей, а также на других устройствах, подключаемых к смартфону. В дальнейшем поддержка ИИ-ассистента появится в умных колонках и смарт-телевизорах.

ИИ Google Gemini получит доступ к истории поиска пользователя, а функция Deep Research станет бесплатной

В рамках обновления Gemini 2.0 компания Google улучшила несколько ключевых функций своей системы искусственного интеллекта. В частности, расширены возможности инструмента Deep Research, а также добавлена опция анализа истории поисковых запросов пользователей для персонализации рекомендаций.

 Источник изображения: Solen Feyissa / Unsplash

Источник изображения: Solen Feyissa / Unsplash

Главное обновление, как рассказал ресурс Ars Technica, получила ИИ-модель Gemini 2.0 Flash Thinking Experimental, которая отвечает за многозадачное логическое рассуждение. Этот инструмент теперь сможет генерировать ответы в объёме до 1 миллиона токенов, а кроме того, пользователи смогут загружать файлы, получать более быстрые результаты и интегрировать Gemini с такими сервисами, как «Google Календарь», заметками, задачами и «Google Фото».

Для повышения персонализации пользователям предлагается разрешить Gemini анализировать их историю поиска. При этом подчёркивается, что функция работает только с согласия пользователя и может быть отключена в любой момент, а в интерфейсе будет отображаться небольшой тизер, уведомляющий об использовании этой опции. Такой подход, по мнению Google, позволит нейросети лучше понимать интересы человека и давать более релевантные рекомендации.

 Источник изображения: arstechnica.com

Источник изображения: arstechnica.com

Ещё одно важное обновление касается инструмента Deep Research, который помогает собирать подробную информацию по заданной теме и выполнять её анализ. Обновлённая версия работает на новой модели Gemini 2.0 Flash Thinking Experimental, которая использует цепочки размышлений и может разбивать проблемы на промежуточные шаги, демонстрируя процесс сбора данных. Google уверяет, что теперь качество итоговых результатов станет выше. При этом Deep Research сделают бесплатным, но с некоторыми ограничениями. И как уточняется, воспользоваться этим инструментом без оплаты можно лишь несколько раз в месяц. Но что касается количества запросов, тот этот момент ещё компанией не озвучен.

Стоит сказать и о том, что теперь без оплаты станут доступны Gems, представляющие из себя кастомных чат-ботов для выполнения конкретных задач. В Google предложили несколько шаблонов, таких как Learning Coach и Brainstormer, но пользователи могут создавать и собственные варианты Gems.

Google DeepMind дала роботам ИИ, с которым они могут выполнять сложные задания без предварительного обучения

Лаборатория Google DeepMind представила две новые модели ИИ, которые помогут роботам «выполнять более широкий спектр реальных задач, чем когда-либо прежде». Gemini Robotics — это модель «зрение-язык-действие», способная понимать новые ситуации без предварительного обучения. А Gemini Robotics-ER компания описывает как передовую модель, которая может «понимать наш сложный и динамичный мир» и управлять движениями робота.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

Модель Gemini Robotics построена на основе Gemini 2.0, последней версии флагманской модели ИИ от Google. ПО словам руководителя отдела робототехники Google DeepMind Каролины Парада (Carolina Parada), Gemini Robotics «использует мультимодальное понимание мира Gemini и переносит его в реальный мир, добавляя физические действия в качестве новой модальности».

Новая модель особенно сильна в трёх ключевых областях, которые, по словам Google DeepMind, необходимы для создания по-настоящему полезных роботов: универсальность, интерактивность и ловкость. Помимо способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Модель способна выполнять очень точные физические задачи, такие как складывание листа бумаги или открывание бутылки.

«Хотя в прошлом мы уже достигли прогресса в каждой из этих областей по отдельности, теперь мы приносим [резко] увеличивающуюся производительность во всех трёх областях с помощью одной модели, — заявила Парада. — Это позволяет нам создавать роботов, которые более способны, более отзывчивы и более устойчивы к изменениям в окружающей обстановке».

Модель Gemini Robotics-ER разработана специально для робототехников. С её помощью специалисты могут подключаться к существующим контроллерам низкого уровня, управляющим движениями робота. Как объяснила Парада на примере упаковки ланч-бокса — на столе лежат предметы, нужно определить, где что находится, как открыть ланч-бокс, как брать предметы и куда их класть. Именно такой цепочки рассуждений придерживается Gemini Robotics-ER.

Разработчики уделили серьёзное внимание безопасности. Исследователь Google DeepMind Викас Синдхвани (Vikas Sindhwani) рассказал, как лаборатория использует «многоуровневый подход», при котором модели Gemini Robotics-ER «обучаются оценивать, безопасно ли выполнять потенциальное действие в заданном сценарии».

Кроме того, Google DeepMind разработала ряд эталонных тестов и фреймворков, чтобы помочь дальнейшим исследованиям безопасности в отрасли ИИ. В частности, в прошлом году лаборатория представила «Конституцию робота» — набор правил, вдохновлённых «Тремя законами робототехники», сформулированными Айзеком Азимовым в рассказе «Хоровод» в 1942 году.

В настоящее время Google DeepMind совместно с компанией Apptronik разрабатывает «следующее поколение человекоподобных роботов». Также лаборатория предоставила доступ к своей модели Gemini Robotics-ER «доверенным тестировщикам», среди которых Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools.

«Мы полностью сосредоточены на создании интеллекта, который сможет понимать физический мир и действовать в этом физическом мире, — сказала Парада. — Мы очень рады использовать это в нескольких воплощениях и во многих приложениях для нас».

Напомним, что в сентябре 2024 года исследователи из Google DeepMind продемонстрировали метод обучения, позволяющий научить робота выполнять некоторые требующие определённой ловкости действия, такие как завязывание шнурков, подвешивание рубашек и даже починка других роботов.


window-new
Soft
Hard
Тренды 🔥
Япония предписала Google прекратить навязывание своих приложений производителям смартфонов 25 мин.
Obsidian рассказала о широте ролевых возможностей в The Outer Worlds 2 — игроки смогут отыгрывать серийного убийцу и не только 49 мин.
Датамайнер рассказала о самом большом неиспользованном боссе в играх FromSoftware — он мог появиться в Sekiro: Shadows Die Twice 2 ч.
В деле об отделении Instagram и WhatsApp от Meta появилась веская улика — компрометирующее письмо Цукерберга от 2012 года 2 ч.
ИИ-модели Gemini позволили анализировать снимки в «Google Фото», но пока не у всех пользователей 2 ч.
«Абсолютно завораживающий опыт»: эксперт Digital Foundry протестировал Cyberpunk 2077 на Nintendo Switch 2 3 ч.
К Apple подали ещё два иска за невыполненные обещания по ИИ-функциям Apple Intelligence 4 ч.
Apple будет анализировать переписки пользователей на iPhone, iPad и Mac для улучшения своего ИИ 4 ч.
Правительство РФ определилось, как будет изымать криптовалюту при уголовных делах 6 ч.
Контур.Толк представил новый ИИ-инструмент — резюме встречи 6 ч.
TSMC решила выпускать прямоугольные чипы на квадратных кремниевых пластинах вместо круглых 11 мин.
Caviar представила OVI 8 — спецверсию iPhone в часть Александра Овечкина за 650 тыс. рублей 21 мин.
МТС придумала, как сэкономить на развёртывании сетей 5G 26 мин.
Тайвань впервые обвинил капитана китайского судна в умышленном повреждении подводных кабелей 2 ч.
Крупнейший завод по сборке iPhone возобновил набор сотрудников, несмотря на неопределённость с пошлинами 2 ч.
Apple впервые стала крупнейшим в мире производителем смартфонов в первом квартале 2 ч.
Российским производителям электроники прекратят выдавать субсидии 4 ч.
Власти США начали расследование цепочек импорта чипов — это грозит новыми пошлинами 4 ч.
Ученые создали растягивающуюся литиевую батарею — её безопасно сгибать, резать и прокалывать 4 ч.
Google Maps со встроенным ИИ для электросетей: Google и PJM ускорят развитие энергетики в США 6 ч.