Опрос
|
реклама
Быстрый переход
Мяч с мозгами: Samsung и Google объединились для выпуска домашнего робота Ballie с ИИ Gemini и проектором
09.04.2025 [17:58],
Сергей Сурабекянц
Samsung и Google объединились для запуска Ballie, домашнего робота в форме футбольного мяча, который использует ИИ Gemini для управления умным домом и умеет проецировать видео на стены. Жёлтый шарообразный робот призван, по словам Samsung, «оживить ИИ как друга и настоящего компаньона». С этим устройством обе компании впервые выходят на перспективный рынок потребительской робототехники, который оценивается в миллиарды долларов. ![]() Источник изображений: Samsung Samsung впервые представила Ballie в начале 2020 года на технологической конференции CES, где он произвёл фурор, но путь к выходу домашнего робота на потребительский рынок оказался тернистым. Исполнительный вице-президент Samsung Джей Ким (Jay Kim) сообщил, что актуальное устройство представляет собой «совершенно новый Ballie». Одним из самых больших изменений стало использование моделей ИИ от Google для понимания команд пользователя, подключения к поиску Google и обработки данных с бортовых камер во время навигации по дому. ![]() Ballie работает под управлением операционной системы Tizen от Samsung, которая также используется во многих устройствах компании, что обеспечивает ему доступ к таким поставщикам контента, как YouTube, Netflix и собственный сервис Samsung TV Plus. Робот использует платформу Samsung SmartThings для управления умными домашними устройствами, календарями и напоминаниями, ответа на вопросы, совершения и приёма телефонных звонков и воспроизведения видео через встроенный проектор. Он также использует модели ИИ от Samsung для таких функций, как доступ к персональным данным и погоде. ![]() «Сложно описать систему, которая может чувствовать, двигаться и взаимодействовать так естественно, как это делает она, — считает генеральный директор Google Cloud Томас Куриан (Thomas Kurian). — Когда вы говорите: “Иди сюда”, она действительно размышляет, как туда попасть. Системе требуется много магии за кулисами, чтобы она заработала». ![]() По словам Кима, Samsung выбрала Google Cloud из-за своей «веры» в возможности Gemini. Эта работа знаменует собой расширение существующих партнёрских отношений по устройствам Android, умным часам и будущей гарнитуре смешанной реальности, которая также появится в конце этого года. Он добавил, что компании уже разрабатывают дополнительные функции для Ballie, включая комплект разработки программного обеспечения для сторонних приложений и видеоконференций. Куриан подчеркнул, что партнёрство с Samsung требует «много настроек и оптимизации […] и это единственное наше партнёрство с таким персонализированным опытом». Устройство сначала поступит в продажу в США и Южной Корее и, по крайней мере, на первых порах будет поддерживать общение только на английском и корейском языках. Google представила рассуждающую ИИ-модель Gemini 2.5 Flash с высокой производительностью и эффективностью
09.04.2025 [17:46],
Николай Хижняк
Google выпустила новую ИИ-модель, призванную обеспечить высокую производительность с упором на эффективность. Она называется Gemini 2.5 Flash и вскоре станет доступна в составе платформы Vertex AI облака Google Cloud для развёртывания и управления моделями искусственного интеллекта (ИИ). ![]() Источник изображения: Google Компания отмечает, что Gemini 2.5 Flash предлагает «динамические и контролируемые» вычисления, позволяя разработчикам регулировать время обработки запроса в зависимости от их сложности. «Вы можете настроить скорость, точность и баланс затрат для ваших конкретных нужд. Эта гибкость является ключом к оптимизации производительности Flash в высоконагруженных и чувствительных к затратам приложениях», — написала компания в своём официальном блоге. На фоне растущей стоимости использования флагманских ИИ-моделей Gemini 2.5 Flash может оказаться крайней полезной. Более дешёвые и производительные модели, такие как 2.5 Flash, представляют собой привлекательную альтернативу дорогостоящим флагманским вариантам, но ценой потери некоторой точности. Gemini 2.5 Flash — это «рассуждающая» модель по типу o3-mini от OpenAI и R1 от DeepSeek. Это означает, что для проверки фактов ей требуется немного больше времени, чтобы ответить на запросы. Google утверждает, что 2.5 Flash идеально подходит для работы с большими объёмами данных и использования в реальном времени, в частности, для таких задач, как обслуживание клиентов и анализ документов. «Эта рабочая модель оптимизирована специально для низкой задержки и снижения затрат. Это идеальный движок для отзывчивых виртуальных помощников и инструментов резюмирования в реальном времени, где эффективность при масштабировании является ключевым фактором», — описывает новую ИИ-модель компания. Google не опубликовала отчёт по безопасности или техническим характеристикам для Gemini 2.5 Flash, что усложнило задачу определения её преимуществ и недостатков. Ранее компания говорила, что не публикует отчёты для моделей, которые она считает экспериментальными. Google также объявила, что с третьего квартала планирует интегрировать модели Gemini, такие как 2.5 Flash в локальные среды. Они будут доступны в Google Distributed Cloud (GDC), локальном решении Google для клиентов со строгими требованиями к управлению данными. В компании добавили, что работают с Nvidia над установкой Gemini на совместимые с GDC системы Nvidia Blackwell, которые клиенты смогут приобрести через Google или по своим каналам. Google научит ИИ-чат-бота Gemini анализировать видео
08.04.2025 [16:42],
Павел Котов
Функция загрузки и анализа файлов в Google Gemini скоро получит поддержку видеофайлов. Анализ предварительной версии приложения помог установить, какие форматы видео будут поддерживаться, когда эта возможность станет общедоступной. ![]() Источник изображения: blog.google Чат-бот Gemini уже позволяет загружать файлы и задавать о них вопросы. Сейчас это могут быть документы, файлы с программным кодом, простые текстовые файлы, презентации, электронные таблицы и прочие файлы с табличными данными. Сервис можно использовать для анализа веб-страниц и видео YouTube — о них также можно задавать дополнительные вопросы. Выгрузка видеофайлов пока не поддерживается. В предварительной версии приложения Google 16.13.38 beta журналисты Android Authority обнаружили строки, указывающие, что сервис получит поддержку загрузки видео в форматах 3GP, AVI, FLV, MOV, MP4, MPEG, MPG и WebM. В других фрагментах кода также обнаружились строки, указывающие, что пользователи смогут загружать на анализ несколько видео одновременно — при этом общая продолжительность видео будет ограничиваться, и ограничения эти, вероятно, станут отличаться для пользователей платной и бесплатной версий сервиса. Наряду с поддержкой видео функция загрузки и анализа данных Gemini также получит поддержку репозиториев GitHub. Это упростит пользователям задачи, связанные с анализом файлов программного кода при помощи чат-бота. В текущей бета-версии приложения эти функции отсутствуют, и Google пока не делала никаких объявлений, связанных с данными возможностями. Но они могут последовать в обозримом будущем. Google выпустила тестовую версию нейросети Gemini 2.5 Pro для всех пользователей
30.03.2025 [13:52],
Владимир Фетисов
Компания Google объявила о запуске экспериментальной версии нейросети Gemini 2.5 Pro для всех пользователей приложения Gemini, включая бесплатных. Это довольно неожиданный шаг, поскольку данный алгоритм был анонсирован всего несколько дней назад как «самая интеллектуальная модель искусственного интеллекта» от Google, которая способна рассуждать, а не только выдавать ответы на задаваемые пользователями вопросы. ![]() Источник изображения: Google В настоящее время нейросеть Gemini 2.5 Pro продолжает оставаться в статусе экспериментальной, но поддерживает ряд функций, включая приложения/расширения, загрузку файлов и Canvas. На момент запуска алгоритм был доступен только платным подписчикам Gemini Advanced. Однако на выходных Google объявила о намерении сделать алгоритм доступным для всех пользователей Gemini. Уже сейчас взаимодействовать с Gemini 2.5 Pro можно на странице gemini.google.com, а в скором времени алгоритм станет доступен в приложениях Gemini для Android и iOS. Google заявила о желании как можно скорее передать свою самую интеллектуальную модель ИИ в руки большего количества людей. ![]() Источник изображения: 9to5google.com Отметим, что на сегодняшний день Gemini 2.5 Pro возглавляет рейтинг LMArena, оценивающего модели на основе пользовательских предпочтений. Алгоритм также лидирует в математических (AIME 2025) и научных (GPQA diamond) тестах. В дополнение к этому Google работает над улучшением возможностей нейросети в сфере написания программного кода. Пока неясно, сделает ли Google стабильную версию Gemini 2.5 Pro бесплатной для всех пользователей или же расширение доступа является одним из шагов на пути тестирования ИИ-модели. Официальные представители компании пока не делали каких-либо заявлений по данному вопросу. Google представила Gemini 2.5 Pro — свою самую умную ИИ-модель, которая превзошла OpenAI o3
25.03.2025 [23:09],
Анжелла Марина
Компания Google анонсировала ИИ-модель Gemini 2.5 Pro, назвав её «своей самой умной моделью» на сегодняшний день. Нейросеть является частью семейства Gemini 2.5 и превосходит предыдущие версии в анализе данных, программировании и решении сложных задач, поддерживая контекст до 1 млн токенов. ![]() Источник изображений: Google Ключевой особенностью Gemini 2.5 Pro, как и всех моделей семейства Gemini 2.5, является способность рассуждать, представляя ход своих мыслей перед тем, как выдать пользователю более точный и окончательный ответ. В отличие от предыдущего поколения моделей (Gemini 2.0 Flash Thinking), Google больше не использует маркировку Thinking и не демонстрирует ход рассуждений. Однако, как уточняет сайт 9to5Google, пользователи могут вручную активировать функцию «размышления вслух», чтобы увидеть ход мысли бота. В целом Gemini 2.5 Pro продемонстрировала значительный скачок в производительности благодаря улучшенной базовой модели и доработкам после обучения. Google отмечает, что эта версия возглавила рейтинг LMArena, который оценивает модели на основе пользовательских предпочтений, а также показала лучшие результаты в математике (AIME 2025) и науке (GPQA diamond). ![]() Одновременно в тесте Humanity’s Last Exam («Последний экзамен человечества»), который создан экспертами для проверки предела возможностей искусственного интеллекта в области знаний и логики, Gemini 2.5 Pro достигла рекордных 18,8 % без использования дополнительных инструментов. Также модель получила существенные улучшения в программировании, особенно в создании веб-приложений и редактировании кода. ![]() В области разработки программного обеспечения Gemini 2.5 Pro продемонстрировала высокий результат на тесте SWE-Bench Verified, набрав 63,8 % при использовании специального агентского подхода. Кроме того, модель обладает встроенной мультимодальностью и способна работать с текстом, аудио, изображениями, видео, обрабатывать большие наборы данных и даже репозитории кода в полном объёме. Контекстное окно модели предлагает размер в 1 миллион токенов, а в ближайшем будущем оно увеличится до 2 миллионов. В следующие несколько недель Gemini 2.5 Pro появится в Vertex AI, а позднее Google представит ценовую политику, позволяющую использовать ИИ-модель в масштабных проектах. Пока модель доступна для платных подписчиков и разработчиков в тестовом режиме. ИИ Gemini научился консультировать людей о местах из «Google Карт»
25.03.2025 [13:29],
Павел Котов
Большая языковая модель искусственного интеллекта Gemini порой предлагает впечатляющие возможности, но люди смогут оценить их, только когда испытают сами. Google стремится интегрировать её в большинство своих сервисов, включая картографический, где ИИ становится источником справочной информации. ![]() Источник изображения: androidauthority.com В сервисе «Google Карты» началось широкомасштабное развёртывание новой функции — кнопки «Задать вопрос о месте» (Ask about place), обратил внимание ресурс Android Authority. Функция появляется постепенно — она отмечается не у всех, а набор её возможностей пока варьируется от одного пользователя к другому. Открывая отдельные местоположения в «Google Картах», можно задавать Gemini связанные с этими местами вопросы, например, как лучше добраться до пункта назначения. Механизм работы функции относительно прост — запрос к ИИ сопровождается URL-адресом из картографического сервиса. Кнопка, когда она доступна, появляется для большинства локаций, но зависит от их масштаба. К примеру, она отсутствует при просмотре города или региона целиком. Иногда Gemini отвечает, что не может работать с картами, в отдельных случаях для обработки запросов требуется платная подписка Gemini Advanced. Вероятно, Google начала развёртывать функцию для широкого круга пользователей, не доработав её до конца и не сделав соответствующих заявлений, и в перспективе компания всё-таки наладит адекватный механизм её работы. Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально
25.03.2025 [11:22],
Анжелла Марина
Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %. ![]() Источник изображения: Pixabay Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (François Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта. Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам. Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций. Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком. Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности». ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат. Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу. Google начала разворачивать Project Astra — голосовой помощник Gemini Live обретает зрение
23.03.2025 [16:36],
Владимир Фетисов
Как и было анонсировано на выставке MWC ранее в этом месяце, Google приступила к развёртыванию новых функций для пользователей голосового помощника Gemini Live. На данном этапе речь идёт о функциях совместного использования экрана устройства и камеры через алгоритм Project Astra. ![]() Источник изображения: Google По данным источника, некоторым пользователям устройств на базе Android упомянутые функции стали доступны в конце этой недели. Один из пользователей активировал обновлённый интерфейс Gemini Live и обратил внимание на появление новой кнопки «Поделиться экраном с Live», которая расположена рядом с кнопкой «Спросить об экране». Отмечается, что на данный момент можно поделиться только всем содержимым экрана, без возможности выбора отдельных приложений. Вместе с этим пользователи получили доступ к алгоритму Project Astra, который делает камеру устройства по-настоящему интерактивной и позволяет задействовать её для взаимодействия с окружающим миром. Для начала взаимодействия с этим инструментом нужно запустить интерфейс Gemini Live и активировать камеру. В правом нижнем углу экрана будет доступна кнопка для переключения на фронтальную камеру. Вполне логично, что Google постепенно внедряет новые функции на базе ИИ, расширяя их доступность для пользователей Android-устройств. Вероятно, если планы компании не будут нарушены, то в ближайшие несколько недель обе функции станут доступны большему количеству пользователей совместимых устройств. Исследователи нашли способ масштабирования ИИ без дополнительного обучения, но это не точно
19.03.2025 [23:34],
Анжелла Марина
Группа исследователей из Google и Калифорнийского университета в Беркли предложила новый метод масштабирования искусственного интеллекта (ИИ). Речь идёт о так называемом «поиске во время вывода», который позволяет модели генерировать множество ответов на запрос и выбирать лучший из них. Этот подход может повысить производительность моделей без дополнительного обучения. Однако сторонние эксперты усомнились в правильности идеи. ![]() Источник изображения: сгенерировано AI Ранее основным способом улучшения ИИ было обучение больших языковых моделей (LLM) на всё большем объёме данных и увеличение вычислительных мощностей при запуске (тестировании) модели. Это стало нормой, а точнее сказать, законом для большинства ведущих ИИ-лабораторий. Новый метод, предложенный исследователями, заключается в том, что модель генерирует множество возможных ответов на запрос пользователя и затем выбирает лучший. Как отмечает TechCrunch, это позволит значительно повысить точность ответов даже у не очень крупных и устаревших моделей. В качестве примера учёные привели модель Gemini 1.5 Pro, выпущенную компанией Google в начале 2024 года. Утверждается, что, используя технику «поиска во время вывода» (inference-time search), эта модель обошла мощную o1-preview от OpenAI по математическим и научным тестам. Один из авторов работы, Эрик Чжао (Eric Zhao), подчеркнул: «Просто случайно выбирая 200 ответов и проверяя их, Gemini 1.5 однозначно обходит o1-preview и даже приближается к o1». Тем не менее, эксперты посчитали эти результаты предсказуемыми и не увидели в методе революционного прорыва. Мэтью Гуздиал (Matthew Guzdial), исследователь ИИ из Университета Альберты, отметил, что метод работает только в тех случаях, когда можно чётко определить правильный ответ, а в большинстве задач это невозможно. С ним согласен и Майк Кук (Mike Cook), исследователь из Королевского колледжа Лондона. По его словам, новый метод не улучшает способность ИИ к рассуждениям, а лишь помогает обходить существующие ограничения. Он пояснил: «Если модель ошибается в 5 % случаев, то, проверяя 200 вариантов, эти ошибки просто станут более заметны». Основная проблема состоит в том, что метод не делает модели умнее, а просто увеличивает количество вычислений для поиска наилучшего ответа. В реальных условиях такой подход может оказаться слишком затратным и малоэффективным. Несмотря на это, поиск новых способов масштабирования ИИ продолжается, поскольку современные модели требуют огромных вычислительных ресурсов, а исследователи стремятся найти методы, которые позволят повысить уровень рассуждений ИИ без чрезмерных затрат. ИИ-модель Google Gemini 2.0 Flash оказалась на удивление хороша в удалении водяных знаков с изображений
17.03.2025 [20:19],
Сергей Сурабекянц
Некоторые новейшие «экспериментальные» функции модели Gemini 2.0 Flash от Google вызывают нешуточные опасения у многих пользователей. В частности, модель показала «очень качественные» результаты при удалении водяных знаков с изображений. ![]() Источник изображений: Google Gemini 2.0 Flash умеет не только генерировать изображения по текстовому запросу, но и редактировать их в соответствии с указаниями пользователя — примеры опубликованы на Reddit. На днях обнаружилось, что модель с высокой точностью может удалять водяные знаки. Это поведение радикально отличается от модели GPT-4o от OpenAI, которая запросы на удаление водяных знаков отклоняет. Ранее уже существовали такие инструменты, как Watermark Remover.io, который умеет удалять водяные знаки со стоковых фотографий, а исследовательская группа Google создала в 2017 году подобный алгоритм, чтобы подчеркнуть необходимость более надёжной защиты авторских прав на изображения. Gemini 2.0 Flash, похоже, лучше всех проявила себя при удалении сложных водяных знаков, такие как штампы Getty Images, и смогла качественно восстановить изображение. Конечно, после удаления водяного знака модель добавляет метку SynthID, фактически заменяя знак авторского права на «отредактировано с помощью ИИ». Но метки ИИ довольно легко удаляются при помощи другого ИИ, что ранее было продемонстрировано инструментом стирания объектов от Samsung. По сообщениям пользователей, облегчённая Gemini 2.0 Flash также умеет добавлять узнаваемые изображения реальных людей на фотографии, чего не позволяет полная модель Gemini. ![]() На данный момент описанные возможности доступны только разработчикам через AI Studio — общедоступный бот Gemini отказывается убирать защитные знаки, как показано на скриншоте выше. Google не ответила на запросы о наличии защиты от возможных злоупотреблений после выхода модели в открытый доступ. Эпоха Google Assistant подошла к концу: скоро его заменит умный ИИ-помощник Gemini на всех Android-смартфонах
14.03.2025 [20:58],
Николай Хижняк
Компания Google сообщила, что в ближайшие месяцы начнёт заменять стандартный цифровой помощник Google Assistant на Android-смартфонах новым ИИ-помощником Gemini. Позже в этом году классический Google Assistant станет недоступен на большинстве Android-смартфонов и исчезнет из магазинов Android-приложений. Он будет полностью заменён Gemini. ![]() Источник изображения: Google Google уже использует Gemini в качестве основного цифрового помощника на своих смартфонах серии Pixel 9. Его также можно установить на большинство современных Android-смартфонов, включая устройства Pixel и модели других производителей, но только в качестве опционального решения, а не стандартного приложения. Для этого необходимо запустить Google Assistant и согласиться на его замену на Gemini. По словам Google, выпущенное в прошлом году приложение Gemini к настоящему моменту уже поддерживает более 40 языков (включая русский) и доступно более чем в 200 странах мира. В дополнение к смартфонам Google также заменит Google Assistant на Gemini в планшетах, мультимедийных системах автомобилей, а также на других устройствах, подключаемых к смартфону. В дальнейшем поддержка ИИ-ассистента появится в умных колонках и смарт-телевизорах. ИИ Google Gemini получит доступ к истории поиска пользователя, а функция Deep Research станет бесплатной
13.03.2025 [22:37],
Анжелла Марина
В рамках обновления Gemini 2.0 компания Google улучшила несколько ключевых функций своей системы искусственного интеллекта. В частности, расширены возможности инструмента Deep Research, а также добавлена опция анализа истории поисковых запросов пользователей для персонализации рекомендаций. ![]() Источник изображения: Solen Feyissa / Unsplash Главное обновление, как рассказал ресурс Ars Technica, получила ИИ-модель Gemini 2.0 Flash Thinking Experimental, которая отвечает за многозадачное логическое рассуждение. Этот инструмент теперь сможет генерировать ответы в объёме до 1 миллиона токенов, а кроме того, пользователи смогут загружать файлы, получать более быстрые результаты и интегрировать Gemini с такими сервисами, как «Google Календарь», заметками, задачами и «Google Фото». Для повышения персонализации пользователям предлагается разрешить Gemini анализировать их историю поиска. При этом подчёркивается, что функция работает только с согласия пользователя и может быть отключена в любой момент, а в интерфейсе будет отображаться небольшой тизер, уведомляющий об использовании этой опции. Такой подход, по мнению Google, позволит нейросети лучше понимать интересы человека и давать более релевантные рекомендации. ![]() Источник изображения: arstechnica.com Ещё одно важное обновление касается инструмента Deep Research, который помогает собирать подробную информацию по заданной теме и выполнять её анализ. Обновлённая версия работает на новой модели Gemini 2.0 Flash Thinking Experimental, которая использует цепочки размышлений и может разбивать проблемы на промежуточные шаги, демонстрируя процесс сбора данных. Google уверяет, что теперь качество итоговых результатов станет выше. При этом Deep Research сделают бесплатным, но с некоторыми ограничениями. И как уточняется, воспользоваться этим инструментом без оплаты можно лишь несколько раз в месяц. Но что касается количества запросов, тот этот момент ещё компанией не озвучен. Стоит сказать и о том, что теперь без оплаты станут доступны Gems, представляющие из себя кастомных чат-ботов для выполнения конкретных задач. В Google предложили несколько шаблонов, таких как Learning Coach и Brainstormer, но пользователи могут создавать и собственные варианты Gems. Google DeepMind дала роботам ИИ, с которым они могут выполнять сложные задания без предварительного обучения
12.03.2025 [20:41],
Сергей Сурабекянц
Лаборатория Google DeepMind представила две новые модели ИИ, которые помогут роботам «выполнять более широкий спектр реальных задач, чем когда-либо прежде». Gemini Robotics — это модель «зрение-язык-действие», способная понимать новые ситуации без предварительного обучения. А Gemini Robotics-ER компания описывает как передовую модель, которая может «понимать наш сложный и динамичный мир» и управлять движениями робота. ![]() Источник изображений: Google DeepMind Модель Gemini Robotics построена на основе Gemini 2.0, последней версии флагманской модели ИИ от Google. ПО словам руководителя отдела робототехники Google DeepMind Каролины Парада (Carolina Parada), Gemini Robotics «использует мультимодальное понимание мира Gemini и переносит его в реальный мир, добавляя физические действия в качестве новой модальности». Новая модель особенно сильна в трёх ключевых областях, которые, по словам Google DeepMind, необходимы для создания по-настоящему полезных роботов: универсальность, интерактивность и ловкость. Помимо способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Модель способна выполнять очень точные физические задачи, такие как складывание листа бумаги или открывание бутылки. ![]() «Хотя в прошлом мы уже достигли прогресса в каждой из этих областей по отдельности, теперь мы приносим [резко] увеличивающуюся производительность во всех трёх областях с помощью одной модели, — заявила Парада. — Это позволяет нам создавать роботов, которые более способны, более отзывчивы и более устойчивы к изменениям в окружающей обстановке». Модель Gemini Robotics-ER разработана специально для робототехников. С её помощью специалисты могут подключаться к существующим контроллерам низкого уровня, управляющим движениями робота. Как объяснила Парада на примере упаковки ланч-бокса — на столе лежат предметы, нужно определить, где что находится, как открыть ланч-бокс, как брать предметы и куда их класть. Именно такой цепочки рассуждений придерживается Gemini Robotics-ER. ![]() Разработчики уделили серьёзное внимание безопасности. Исследователь Google DeepMind Викас Синдхвани (Vikas Sindhwani) рассказал, как лаборатория использует «многоуровневый подход», при котором модели Gemini Robotics-ER «обучаются оценивать, безопасно ли выполнять потенциальное действие в заданном сценарии». Кроме того, Google DeepMind разработала ряд эталонных тестов и фреймворков, чтобы помочь дальнейшим исследованиям безопасности в отрасли ИИ. В частности, в прошлом году лаборатория представила «Конституцию робота» — набор правил, вдохновлённых «Тремя законами робототехники», сформулированными Айзеком Азимовым в рассказе «Хоровод» в 1942 году. В настоящее время Google DeepMind совместно с компанией Apptronik разрабатывает «следующее поколение человекоподобных роботов». Также лаборатория предоставила доступ к своей модели Gemini Robotics-ER «доверенным тестировщикам», среди которых Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools. «Мы полностью сосредоточены на создании интеллекта, который сможет понимать физический мир и действовать в этом физическом мире, — сказала Парада. — Мы очень рады использовать это в нескольких воплощениях и во многих приложениях для нас». ![]() Напомним, что в сентябре 2024 года исследователи из Google DeepMind продемонстрировали метод обучения, позволяющий научить робота выполнять некоторые требующие определённой ловкости действия, такие как завязывание шнурков, подвешивание рубашек и даже починка других роботов. Google анонсировала видеочат с Gemini: ИИ-помощник сможет понять, что происходит вокруг пользователя
03.03.2025 [17:41],
Павел Котов
Google представила на выставке MWC 2025 дуэт функций Project Astra: уже в марте пользователи помощника с искусственным интеллектом Gemini получат возможность демонстрировать ему экран смартфона или транслировать видео с камеры. ![]() Источник изображений: youtube.com/@Google В интерфейсе Gemini на Android, позволяющем выводить элементы управления поверх других приложений, появится новая кнопка «Поделиться экраном с Live» (Share screen with Live) над текстовым полем «Спросить Gemini» (Ask Gemini). Открыв ИИ-помощнику изображение экрана, пользователь попадает в интерфейс телефонного звонка и начинает диалог с Gemini. Можно задавать ИИ вопросы о том, что изображено на экране, и вести полноценный разговор. ![]() В полноэкранном формате Gemini Live можно выбрать также кнопку трансляции видео, расположенную рядом с кнопкой запуска демонстрации экрана, — видео транслируется почти на весь дисплей. Google немного уменьшила размеры кнопок Gemini Live — из круглых они стали вытянутыми по горизонтали и более компактными. Об этих функциях компания рассказала в мае минувшего года на конференции Google I/O 2024, более подробно остановилась на них в декабре на презентации Gemini 2.0, некоторые возможности также демонстрировались в январе на презентации смартфонов Samsung Galaxy S25. Первыми воспользоваться функциями Gemini Live уже в марте смогут владельцы Android-устройств и подписки Gemini Advanced. Google открыла ИИ-помощника программиста Gemini Code Assist для всех — бесплатно и почти без ограничений
25.02.2025 [17:30],
Владимир Фетисов
В прошлом году Google анонсировала Gemini Code Assist — систему на основе искусственного интеллекта, которая предназначена для помощи в написании программного кода. Теперь же IT-гигант объявил о выходе публичной предварительной версии ИИ-помощника, которая доступна бесплатно для частных программистов, включая студентов, индивидуальных разработчиков, фрилансеров и представителей стартапов. ![]() Источник изображения: Google «Теперь каждый может с удобством изучать, создавать фрагменты кода, отлаживать и модифицировать существующие приложения — и всё это без необходимости переключаться между разными окнами для получения справки или копировать и вставлять информацию из разных источников. В то время как другие популярные бесплатные помощники по кодированию имеют ограниченные возможности использования, обычно не более 2000 дополнений к коду в месяц, мы хотели предложить что-то более щедрое», — прокомментировал данный вопрос представитель Google. Вероятно, имелся ввиду прямой конкурент Gemini Code Assist в лице GitHub Copilot, который позволяет бесплатно выполнять до 2000 дополнений кода в месяц, а также отправлять в чат с ИИ-помощником до 50 запросов. В это же время Google предлагает до 180 тыс. завершений кода в месяц, что, по словам компании, является «настолько высоким потолком, что даже самые преданные профессиональные разработчики смогут с трудом его превысить». Как и корпоративный вариант, Gemini Code Assist для частных лиц построен на базе ИИ-модели Gemini 2.0. Алгоритм способен генерировать целые блоки программного кода, завершать строки кода по мере написания и оказывать общую помощь в кодировании через интерфейс чат-бота. Gemini Code Assist можно задействовать в средах разработки Visual Studio Code, GitHub и JetBrains, также он поддерживает все находящиеся в открытом доступе языки программирования. Разработчики могут давать указания Gemini Code Assist с помощью команд на естественном языке. Например, можно попросить ИИ-помощника сгенерировать «простую HTML-форму с полями для имени, электронной почты и сообщения, а также добавить кнопку «Отправить». В настоящее время система поддерживает 38 языков и может обрабатывать до 128 тыс. токенов в запросах через окно чата. Несмотря на то, что бесплатная версия Gemini Code Assist может оказаться весьма полезной, она лишена всех дополнительных функций расширенного алгоритма, ориентированного на бизнес. Например, если пользователю нужны показатели производительности, интеграция с облачными сервисами Google, такими как BigQuery, или настройка ответов с использованием частных источников данных о программном коде, то потребуется оформлять платную подписку. |