Сегодня 15 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gemini
Быстрый переход

Google Gemini научился выполнять задачи по расписанию

Google продолжает расширять возможности ИИ-ассистента Gemini, добавив функцию запланированных действий. Теперь подписчики Gemini Pro и Ultra могут настраивать автоматическое выполнение задач в заданное время. Например, ИИ будет отправлять сводку календаря в конце дня или предлагать идеи для блога еженедельно.

 Источник изображения: Solen Feyissa / Unsplash

Источник изображения: Solen Feyissa / Unsplash

Как сообщает The Verge, пользователи также смогут поручать Gemini разовые задания. Например, запрашивать итоги прошедшего мероприятия на следующий день. Для работы функции достаточно указать искусственному интеллекту, что и когда нужно сделать, а чат-бот выполнит задачу самостоятельно. Управлять запланированными действиями можно в настройках приложения Gemini на странице Scheduled Actions.

Ранее издание Android Authority сообщило, что предварительная версия этой функции была замечена ещё в апреле. Обновление является частью масштабных планов Google по превращению Gemini в цифрового помощника, обладающего более широкими автономными возможностями и способного выполнять команды без вмешательства пользователя. Интересно, что аналогичную функцию уже предлагает OpenAI в ChatGPT. В частности, подписчики могут настраивать «напоминалки» и повторяющиеся задачи.

Google навела порядок в Gemini 2.5 Pro — исправлены накопившиеся у ИИ-модели «регрессии»

Google выпустила крупное обновление своей самой мощной модели искусственного интеллекта Gemini 2.5 Pro. Свежий вариант призван исправить некоторые проблемы, возникшие в более ранних версиях, — компания намеревается установить для него статус стабильного, то есть он будет подключён к приложению Gemini как основной для широкой аудитории.

 Источник изображений: blog.google

Источник изображений: blog.google

Предыдущий выпуск Gemini 2.5 Pro с номером версии 05-06 и именем I/O Edition был направлен на повышение качества генерируемого ИИ программного кода. В последнем обновлении, утверждает Google, этот навык был дополнительно улучшен, и в тесте Aider Polyglot модель набрала 82,2 %, значительно оторвавшись от лучших моделей OpenAI, Anthropic и DeepSeek.

Модель Gemini 2.5 Flash уже вышла из стадии предварительной и стала стабильной, тогда как работа над Gemini 2.5 Pro продолжается — несколько последних её обновлений спровоцировали критику по качеству ответов на запросы, не связанные с написанием кода, — их качество снизилось по сравнению с крупным выпуском версии 03-25. Google приняла эти замечания всерьёз, заявили в компании, и в свежем обновлении «закрыты проблемы в регрессиях [относительно] 03-25». Пользователям обещаны улучшенные творческие способности модели и более качественное форматирование ответов.

 Источник изображений: blog.google

Последнее обновление Gemini 2.5 Pro 06-05 поддерживает гибкое управление ресурсами модели для разработчиков, и в Google рассчитывают, что эта сборка получит статус «долгосрочного стабильного выпуска». Таким образом, если в ближайшие недели данный вариант выйдет в приложении для широкой аудитории и в веб-интерфейсе, у Gemini 2.5 Pro уже не будет статуса предварительной версии (Preview).

Google традиционно собирает оценки качества ответов своих моделей и приводит рейтинги с платформ LMArena и WebDevArena, где сравниваются возможности различных систем ИИ. На платформе LMArena модель увеличила результат на 24 балла по системе Эло, и на 35 балов он вырос на WebDevArena. Модели ИИ от Google были на вершинах обоих рейтингов и до настоящего момента, поэтому с выходом очередного обновления разрыв только увеличился. Опробовать последнюю версию Gemini 2.5 Pro можно на облачных платформах Google Cloud Vertex AI и AI Studio, а также в приложении Gemini.

Google научила Gemini 2.5 понимать и передавать эмоции в диалогах

На конференции Google I/O 2025 компания анонсировала новую версию своей мультимодальной модели Gemini 2.5, которая теперь поддерживает генерацию аудио и диалогов в реальном времени. Эти возможности доступны в предварительной версии для разработчиков через платформы Google AI Studio и Vertex AI.

 Источник изображения: Google

Источник изображения: Google

Gemini 2.5 Flash Preview обеспечивает реалистичное голосовое взаимодействие с ИИ, включая распознавание эмоциональной окраски речи, адаптацию интонации и акцента, а также возможность переключения между более чем 24 языками. Модель может игнорировать фоновые шумы и использовать внешние инструменты, такие как «Поиск», для получения актуальной информации во время диалога.

Дополнительно, Gemini 2.5 предлагает расширенные функции синтеза речи (TTS), позволяя управлять стилем, темпом и эмоциональной выразительностью озвучивания. Поддерживается генерация диалогов с несколькими голосами, что делает модель подходящей для создания подкастов, аудиокниг и других мультимедийных продуктов.

Для обеспечения прозрачности, все сгенерированные моделью аудио маркируются с помощью технологии SynthID, что позволяет идентифицировать контент, как сгенерированный ИИ. Разработчики могут опробовать новые функции через вкладки Stream и Generate Media в Google AI Studio.

Gemini 2.5 демонстрирует значительный шаг вперёд в области мультимодальных ИИ-систем, объединяя модальности текстов, изображений, аудио и видео в единую платформу. Новые функции открывают широкие перспективы для создания интерактивных приложений, виртуальных ассистентов и инноваций в сфере образования.

Gemini покажет изменения, внесённые коллегами в файлы на «Google Диске»

Google внедрила функции генеративного ИИ во многие продукты и сервисы, и инструменты повышения производительности компании не стали исключением. Теперь компания предлагает использовать нейросеть Gemini, чтобы быстро узнать об изменениях файлов и добавленных другими пользователями комментариях на «Google Диске». Новая функция называется Catch me up и уже доступна для англоязычных пользователей «Диска».

 Источник изображения: techspot.com

Источник изображения: techspot.com

3 июня Google анонсировала функцию Catch me up в «Google Диске», которая показывает изменения и комментарии, внесённые в файлы пользователя с момента последнего просмотра. Функцию можно активировать на домашней странице Google Drive, нажав на значок звёздочки рядом с именем файла. Также можно нажать кнопку Catch me up в верхней части домашней страницы, чтобы получить сводку изменений всех файлов с момента последнего просмотра.

«Начиная с сегодняшнего дня Gemini может идентифицировать соответствующие файлы на "Google Диске" с изменениями с момента последнего просмотра и предоставлять обзор этих изменений, — пояснила компания. — Catch me up поддерживает редактирование файлов в "Google Документах", а также комментарии к файлам в "Документах", "Таблицах" и "Презентациях". Google подчеркнула, что эти сводки не являются исчерпывающими, их цель — раскрыть «полезные и важные» изменения.

 Источник изображения: Google

Источник изображения: Google

Новая возможность может прийтись по душе пользователям, часто совместно работающим с другими людьми над документами, электронными таблицами и презентациями. Конечно, инструменты повышения производительности Google позволяют отслеживать изменения через страницу истории версий, а также просматривать комментарии и другие аннотации от других людей в файле. Однако использование Catch me up может упростить отслеживание правок и отзывов от коллег.

ИИ начал автоматически конспектировать содержимое писем Gmail

Пользователи рабочей платформы Google Workspace вскоре заметят ещё более плотное присутствие помощника с искусственным интеллектом Gemini. В почте Gmail теперь автоматически генерируются сводки для сложных цепочек писем и отображаются над самой перепиской.

 Источник изображения: Google

Источник изображения: Google

Составляемые ИИ сводки писем появились в почтовых ящиках у владельцев учётных записей Google Workspace ещё в прошлом году, но до настоящего момента эту функцию приходилось запускать вручную. Теперь Gemini самостоятельно решает, когда такие сводки могут быть полезными, — они создаются без запроса для «длинных цепочек писем с несколькими ответами». По мере поступления новые ответы также попадают в сводки.

Пока функция работает в ограниченном режиме — сводки составляются только для англоязычной переписки и только при просмотре на мобильных устройствах. Google лишь начала её развёртывать — некоторым пользователям придётся ещё подождать её до двух недель. В компании не уточнили, появятся ли ИИ-сводки в десктопной версии Gmail или для пользователей почтовой службы без учётных записей Workspace.

Если сводка не генерируется автоматически, её можно запросить вручную, как и раньше. Можно и отказаться ото всех функций ИИ в Gmail, отключив опцию «Умные функции» в настройках приложения.

Google расширила доступ к ИИ-генератору Veo 3 через приложение Gemini

Всего несколько дней прошло с тех пор, как Google представила свой новый ИИ-генератор видео Veo 3, а он уже стал доступен пользователям из 71 страны. Опробовать новинку в деле смогут подписчики приложения Gemini из десятков стран, но на территории ЕС и в России сервис пока недоступен. Об этом в своём аккаунте в соцсети X сообщил глава Google Labs и Gemini Джош Вудворд (Josh Woodward).

 Источник изображения: Veo 3 / Google

Источник изображения: Veo 3 / Google

Согласно имеющимся данным, взаимодействовать с Veo 3 могут подписчики Gemini Pro, которые получат пробный пакет на 10 генераций видео через веб-интерфейс. На данном этапе пакет из десяти генераций является одноразовым, т.е. не будет обновлён после истечения какого-то периода времени. Обладатели подписки Ultra стоимостью $250 в месяц получат максимально разрешённое Google количество генераций, которые будут обновляться ежедневно. В режиме Flow, который ориентирован на создателей видеоконтента с помощью ИИ, подписчики Ultra смогу генерировать до 125 роликов в месяц, а подписчики Pro — до 10 роликов в месяц.

На данном этапе не обошлось без некоторых ограничений. ИИ-генератор Veo 3 работает только в веб-версии Gemini Pro и поддерживает генерацию звукового сопровождения только на английском языке, хотя в некоторых случаях может появляться речь на других языках. Несмотря на это и ограниченную доступность, у Veo 3 есть все шансы стать вирусной сенсацией Google в сфере ИИ. Интернет уже наводнили созданные с помощью этого сервиса ролики, показывающие, как сочетание видео и аудио устанавливает новый стандарт качества для контента, генерируемого с помощью ИИ.

Также отмечается, что Veo 3 с поразительной точностью следует подсказкам пользователей. Это повышает качество создаваемого контента, но в то же время позволяет генерировать фейковые видео, которые выглядят и звучат как настоящие. В одном из примеров пользователь сгенерировал видео с вымышленного автомобильного шоу, которое выглядит вполне реалистично.

Однако злоумышленники могут задействовать сервис для генерации видео с высказываниями политиков, массовыми протестами и какими-то другими ситуациями для манипулирования общественным мнением. Veo 3 подтверждает опасения по поводу значимой роли ИИ в распространении дезинформации и одновременно демонстрирует, насколько далеко продвинулись технологии. Ещё несколько лет назад создание качественного фейкового видео с заменой лица требовало многочасовой работы и наличия серьёзных технических навыков. Сегодня несколько строчек теста позволяют генерировать реалистичные сцены с естественным звуком. Всё это говорит о том, что людям следует тщательнее проверять подлинность просматриваемого контента, не принимая всё увиденное за действительность.

В Google разработали инструмент для выявления контента, сгенерированного ИИ

Компания Google анонсировала на конференции Google I/O новый инструмент SynthID Detector, который позволяет узнать, был ли контент создан с помощью инструментов искусственного интеллекта. Сервис анализирует изображения, текст, аудио и видео на наличие скрытых водяных меток, которые автоматически добавляются в материалы, сгенерированные с помощью ИИ, включая модели компании — Gemini, Imagen, Lyria и Veo.

 Источник изображения: Sascha Bosshard / Unsplash

Источник изображения: Sascha Bosshard / Unsplash

Как объяснил руководитель Google DeepMind Пушмит Коли (Pushmeet Kohli), система определяет, какие именно части контента содержат маркировку. Например, в аудио SynthID Detector находит и отмечает конкретные временные отрезки, а в изображениях — области с наибольшей вероятностью наличия водяного знака.

Сейчас система тестируется среди ограниченного круга пользователей. Но после первого этапа тестирования доступ постепенно получат те, кто подал заявку через «Лист ожидания» (SynthID Detector Waitlist). По словам Коли, компания планирует также использовать обратную связь с пользователями, чтобы улучшить систему идентификации ИИ-контента.

На данный момент SynthID Detector работает только с контентом, созданным с помощью продуктов Google. Однако в будущем компания рассматривает возможность расширения функциональности для работы с другими ИИ-системами. Когда именно инструмент станет доступен всем — пока неизвестно.

Google добавила в Gmail, «Документы» и Vids новые ИИ-функции

На конференции Google I/O 2025 компания представила множество новых функций на основе искусственного интеллекта для приложений из рабочего комплекта Workspace — изменения коснулись сервисов Gmail, «Google Документы» и видеоредактора Google Vids.

 Источник изображений: Google

Источник изображений: Google

Функция персонализированных интеллектуальных ответов Gmail помогает в составлении писем с учётом контекста и тона — система анализирует предыдущую переписку, файлы в облачном хранилище «Google Диск» и готовит ответы с актуальными данными. Манера письма подстраивается под тон пользователя — формальный или разговорный. С функцией очистки входящих сообщений ИИ-помощник Gemini принимает решения об удалении или перемещении в архив писем, которые больше не нужны — достаточно, например, в свободной форме дать ему команду удалить все непрочитанные письма от определённого адресата за минувший год.

Ещё одна новая возможность Gmail помогает оперативно планировать встречи и совещания с адресатами вне организации пользователя. Он назначает время встречи или совещания при участии Gemini — это, по словам Google, сокращает время и усилия, которые традиционно тратятся на сверку расписаний. Все эти новые функции почтовой службы станут общедоступными в ближайшие месяцы.

 Источник изображений: Google

В «Google Документах» появилась возможность устанавливать прямую связь приложения с данными презентаций, таблиц и отчётов — помогая в написании документов, Gemini берёт в качестве исходной информации только эти источники, то есть генерируемый системой текст основывается только на надёжном материале. Функция уже вышла в общий доступ.

Редактор Google Vids получил возможность превращать существующие документы «Google Презентаций» в видео. Gemini предлагает помощь в составлении сценариев, может сгенерировать закадровый голос, анимации и многое другое — функция станет общедоступной в ближайшие месяцы. В Google Vids появились ИИ-аватары, которые пригодятся компаниям, не располагающими средствами для съёмки видео или привлечения диктора. Можно подготовить сценарий и выбрать аватар, который зачитает сообщение в специально подготовленном видео — это пригодится для корпоративных объявлений, создании справки по продуктам и в других целях. ИИ-аватары выйдут в общий доступ в июне.

Ещё одна новая функция Google Vids — «Обрезка стенограммы» (Transcript trim), предполагающая автоматическое удаление из выступлений слов-паразитов и лишних междометий. Для регулирования уровня звука пригодится функция «Сбалансировать звук» (Balance sound) — она выйдет в общий доступ в июне; «Обрезка стенограммы» появится в экспериментальном разделе Labs в ближайшие месяцы. Наконец, более качественные иллюстрации в документах теперь помогает создавать новая версия генератора изображений Imagen 4, доступ к которой открылся в рабочих приложениях.

Google анонсировала запуск AI Mode — ИИ-поиск будущего с анализом данных, графиками и 3D-примеркой

Google объявила о масштабном запуске расширенного поиска с ИИ AI Mode, который позволяет задавать сложные, многоуровневые вопросы и получать развёрнутые ответы с анализом данных. Функция начнёт появляться у пользователей в США, а затем станет доступна во всём мире.

 Источник изображения: Google

Источник изображений: Google

AI Mode строится на основе существующего инструмента AI Overviews, который показывает краткие ИИ-сводки в начале поисковой выдачи. Несмотря на отдельные казусы прошлого, например, совет использовать клей вместо соуса для пиццы, этот формат быстро набрал популярность. По статистике им ежемесячно пользуются более 1,5 миллиарда человек. Как отмечает TechCrunch, теперь AI Overviews выйдет из тестового режима, расширится на 200 стран и получит поддержку более 40 языков.

Новый AI Mode предназначен для сложных запросов, включая сравнение товаров и анализ данных. Он использует технологию Deep Search, которая разбивает вопрос на подтемы и обрабатывает десятки, а то и сотни запросов, чтобы сформировать детальный отчёт со ссылками на источники. Google утверждает, что это реально экономит часы ручного поиска.

Также анонсирован автоматический помощник для покупок, который сможет отслеживать цену на товар и, в случае снижения, уведомить о возможности покупки. Ещё появится функция виртуальной примерки одежды. Пользователи смогут загружать свои фото, а ИИ будет «надевать» на них выбранные вещи в 3D-формате, учитывая комплекцию человека и тип ткани одежды. Функция начнёт тестироваться в Search Labs с сегодняшнего дня.

Для обработки информации в AI Mode и AI Overviews используется специальная версия модели Gemini 2.5. В будущем часть функций AI Mode постепенно перейдёт и в AI Overviews. Пользователи смогут задавать вопросы, например, из сферы спорта и финансов, и получать в ответ не просто цифры, а визуализированные графики и таблицы.

Ещё одно нововведение касается интеграции ИИ-агента Project Mariner, который может самостоятельно бронировать билеты, столики в ресторанах и находить в интернете различные мероприятия. А позднее выйдет Search Live — «Живой поиск» — с помощью которого пользователи смогут задавать вопросы посредством камеры смартфона, а ИИ будет отвечать в реальном режиме времени подобно системе мультимодального ИИ-помощника Project Astra.

Также будет усилена персонализация. Если подключить Gmail (или другой сервис Google), поисковик будет учитывать предпочтения пользователя и предлагать результаты на основе писем электронной почты. При этом пользователь сам решает, какие приложения подключать, а какие — нет.

Google мощно обновила приложение Gemini: изучение мира в реальном времени, улучшенный Deep Research и многое другое

Google рассказала на конференции Google I/O 2025 о новых возможностях чат-бота Gemini с искусственным интеллектом: расширились мультимодальные функции платформы, открылся доступ к новым моделям ИИ, готовится глубокая интеграция с сервисами Google.

 Источник изображений: blog.google

Источник изображений: blog.google

В очередном обновлении приложения расширились функции Gemini Live для всех её пользователей под Google Android и Apple iOS. Теперь можно беседовать с Gemini в режиме, близком к реальному времени, одновременно транслируя ИИ видео с камеры или экрана смартфона. Во время прогулки по незнакомому городу можно направить камеру телефона на одно из зданий и спросить у Gemini Live о его архитектуре или истории — ИИ-помощник даст ответ почти без задержки. В ближайшие недели начнётся процесс глубокой интеграции Gemini Live с другими приложениями: чат-бот сможет составлять маршруты в «Google Картах», создавать события в «Google Календаре» и списки дел в «Google Задачах».

Google активно расширяет возможности Gemini из-за конкурентов, в том числе OpenAI ChatGPT, Apple Siri и других помощников с ИИ. Число чат-ботов постоянно растёт, появляются новые способы взаимодействия с гаджетами и интернетом — под давлением оказываются и продукты крупных компаний, такие как «Google Поиск» и «Google Ассистент». Сегодня, сообщила Google, у Gemini уже 400 млн активных пользователей в месяц, и новые возможности платформы призваны расширить её аудиторию.

Компания представила два тарифных плана подписки на ИИ: Gemini Advanced теперь называется Google AI Pro при той же цене $20 в месяц; в дополнение к ней появилась Google AI Ultra за $250 в месяц — прямой конкурент ChatGPT Pro. Подписчикам Google AI Ultra доступны расширенные лимиты сервисов, они первыми смогут опробовать новые модели и эксклюзивно воспользоваться определёнными функциями. Американские подписчики Pro и Ultra, у которых в Chrome в качестве основного выбран английский язык, получат доступ к Gemini прямо в браузере — ИИ будет составлять сводки информации на страницах и отвечать на вопросы о том, что выведено на экран.

 Источник изображений: blog.google

Расширились возможности агента искусственного интеллекта Gemini Deep Research, который составляет подробные исследовательские отчёты для пользователей — теперь он поддерживает загрузку файлов PDF и изображений. Для составления более персонализированных отчётов он может, например, сверять эти личные файлы PDF с общедоступными данными; на подходе — прямая интеграция Deep Research с Gmail и «Google Диском».

Пользователям бесплатного варианта Gemini открыли доступ к обновлённой модели генерации изображений Imagen 4 — она, по словам Google, более качественно выводит текст. Подписчики Google AI Ultra за $250 в месяц смогут поработать с новейшим генератором видео Veo 3, который в дополнение к изображению теперь генерирует ещё и синхронизированный с картинкой звук. Моделью по умолчанию в Gemini стала Gemini 2.5 Flash — она по сравнению с предшественницей даёт более качественные ответы с меньшей задержкой. Для школьников и студентов Gemini теперь создаёт персонализированные тесты по дисциплинам, которые те хотят более плотно изучить — когда пользователь даёт неправильные ответы, ИИ составляет план действий и генерирует дополнительные тесты, чтобы укрепить знания пользователей в этих областях.

Google добавила ИИ-помощника Gemini в Chrome — он сделает сёрфинг в интернете удобнее

Компания Google объявила об интеграции своего ИИ-помощника Gemini в браузер Chrome. В сообщении разработчиков в блоге Google Labs сказано, что на начальном этапе он сможет «уточнять сложную информацию на любой просматриваемой пользователем веб-странице или обобщать её». В перспективе Gemini сможет одновременно «работать на нескольких вкладках и перемещаться по интернет-сайтам от имени пользователя».

 Источник изображения: Google

Источник изображения: Google

Для начала взаимодействия с Gemini необходимо нажать на значок с изображением искры, который располагается в верхнем правом углу браузера. После этого откроется окно для взаимодействия с ИИ-ботом, которое можно перемещать по экрану и менять его размер. В этом окне пользователь может задавать Gemini вопросы о просматриваемых веб-страницах.

Перед анонсом этого нововведения Google показала журналистам, как работает ИИ-помощник в Chrome. Представитель компании открыл на маркетплейсе страницу туристического спального мешка и попросил Gemini перечислить ключевые характеристики товара. После этого ИИ-помощник изучил веб-страницу и вывел список с основными характеристиками спального мешка. Затем у Gemini спросили, подходит ли этот спальный мешок для кемпинга в штате Мэн (США). Для ответа на этот вопрос алгоритм брал информацию не только на странице товара, но и на других веб-сайтах. Далее представитель Google перешёл на страницу другого спального мешка и попросил сравнить товары, на что Gemini сформировал и предоставил сравнительную таблицу.

На данном этапе пользователи могут взаимодействовать с Gemini, перемещаясь от вкладки к вкладке. Однако позднее в этом году алгоритм научится работать одновременно с несколькими вкладками, предоставляя пользователю информацию с любой из них. В демонстрации для журналистов представитель Google также показал функцию навигации по сайтам с помощью Gemini, которая станет доступной позднее.

Распространение обновления, которое принесёт в Chrome ИИ-помощника Gemini, начинается на этой неделе. В первую очередь его получат пользователи Chrome на Windows и macOS старше 18 лет, для которых английский язык является родным, и у которых есть подписка Google AI Pro или Google AI Ultra. В дополнение к этому ИИ-бот станет доступен пользователям бета-версий Chrome на каналах Dev и Canary. Что касается переноса Gemini в мобильный веб-обозреватель, то Google думает над этим.

Google научила Meet переводить речь «на лету» с сохранением интонаций и тона голоса

Google представила на мероприятии I/O новую функцию «живого» перевода для сервиса видеосвязи Google Meet. Технология, построенная на базе искусственного интеллекта Gemini, преобразует речь пользователя на язык, на котором говорит собеседник, при этом сохраняя интонацию и эмоции. Пока функция доступна в бета-режиме.

 Источник изображения: Google

Источник изображения: Google

В демонстрационном ролике один из участников говорил по-английски, другой — по-испански. После активации функции перевода Gemini каждый слышал речь партнёра на своём языке с невероятной интонационной точностью, пишет The Verge.

Пока система поддерживает только английский и испанский языки. Однако Google уже анонсировала скорое добавление итальянского, немецкого и португальского. По словам компании, новые языки появятся в ближайшие недели.

Аналогичная функция была запущена Microsoft в начале года в приложении для совместной работы Teams, но Google делает акцент на более естественное звучание перевода, подчёркивая, что ИИ не просто переводит текст, а адаптирует голос пользователя так, чтобы его речь звучала органично.

Функция тестируется в бета-режиме для подписчиков Google AI Pro и нового тарифа AI Ultra стоимостью $249 в месяц. Окончательная версия может появиться позднее.

Android-приложения получат доступ к ИИ-модели Gemini Nano, которая работает прямо на смартфоне

Быстрое развитие генеративного искусственного интеллекта радикально изменило продукты технологических гигантов. Большинство новых функций обрабатываются на удалённых серверах, поскольку мобильные устройства располагают весьма ограниченными вычислительными ресурсами. Однако Google готова предоставить разработчикам возможность обращаться и к локальному ИИ — то есть работающему прямо на устройстве.

Google без громких анонсов опубликовала документацию о новых расширенных возможностях ИИ, которыми могут воспользоваться разработчики: в обновлённом ML Kit SDK появилась поддержка API для функций генеративного ИИ на основе локальной языковой модели Gemini Nano. Она построена на платформе AI Core, как и экспериментальный комплект Edge AI SDK, но предполагает подключение к существующей модели с заданным набором функций, которые разработчики смогут легко реализовать.

 Здесь и далее источник изображений: Google

Здесь и далее источник изображений: Google

С ML Kit в приложениях появятся такие функции, как подготовка сводок текста, редактирование, переформулирование, а также описание изображений — всё это без отправки данных в облако. Однако по своим возможностям локальная модель Gemini Nano значительно уступает облачным, поэтому придётся мириться с некоторыми, порой существенными, ограничениями. Например, текстовые сводки могут содержать не более трёх пунктов, а описания изображений доступны только на английском языке. Качество результатов также может различаться в зависимости от версии Gemini Nano, установленной на телефоне. Стандартная Gemini Nano XS занимает около 100 Мбайт, а Gemini Nano XXS, установленная, например, на смартфоне Google Pixel 9a, в четыре раза меньше, работает только с текстом и имеет гораздо меньшее контекстное окно.

Модель Gemini Nano уже используется на устройствах Pixel, а также на смартфонах OnePlus 13, Samsung Galaxy S25 и Xiaomi 15 — их число, вероятно, будет расти, как и количество приложений с функциями локального генеративного ИИ.

Документация для разработчиков уже доступна, и, как ожидается, компания подробнее расскажет об этом проекте на конференции Google I/O. Одна из сессий носит название: «Gemini Nano на Android: разработка с использованием генеративного ИИ на устройстве». До недавнего времени работа с локальным генеративным ИИ на мобильных устройствах была непростой задачей: экспериментальный Edge AI SDK открывает доступ к аппаратному ускорению (NPU) для запуска моделей, но работает только с устройствами серии Pixel 9 и ограничен исключительно текстом. Собственные API для запуска ИИ-нагрузок предлагают также Qualcomm и MediaTek, однако их возможности варьируются от устройства к устройству, что делает их использование в долгосрочных проектах рискованным. К тому же запуск собственной модели ИИ требует серьёзной подготовки, поэтому новые API значительно упростят и ускорят реализацию локального ИИ.

Несмотря на ограниченные возможности локальных моделей на мобильных устройствах, это яркий пример практической пользы ИИ. Большинство пользователей, скорее всего, предпочтут не передавать свои персональные данные на удалённые серверы. Есть и наглядные примеры: функция Google Pixel Screenshots обрабатывает снимки экрана непосредственно на смартфоне, как и сводки по уведомлениям на Motorola Razr Ultra формируются без использования облака — хотя базовая версия Razr всё же обращается к удалённым серверам. Появление API для подключения к Gemini Nano обеспечит некоторую унификацию подходов к мобильному ИИ, но панацеей эта инициатива не станет — многие смартфоны пока не обладают достаточной вычислительной мощностью для таких задач.

YouTube начнёт показывать рекламу рядом с самыми интересными местами видео

На YouTube начнут показывать рекламу сразу после самых ярких и эмоциональных моментов видео. Новый формат таргетинга, получивший название Peak Points, использует искусственный интеллект Gemini для анализа видео и определения сцен с максимальным вовлечением, например, кульминационных или эмоциональных эпизодов. Как только такой момент заканчивается, пользователю покажут рекламное объявление.

 Источник изображения (скриншот): techcrunch.com

Источник изображения (скриншот): techcrunch.com

Peak Points был представлен на недавнем мероприятии Upfront в Нью-Йорке, сообщает TechCrunch. По замыслу YouTube, реклама после «пиковых точек» будет эффективнее запоминаться, так как зрители в этот момент наиболее вовлечены в контент. Этот подход можно сравнить со стратегией, называемой эмоциональным таргетингом, когда рекламодатели стараются представить свою рекламу, характер которой соответствует настроению видео.

Несмотря на то, что обычно любые нововведения являются шагом вперёд, неоднозначность нового формата очевидна: рекламная пауза в самый интересный момент может не всем пользователям понравиться. Многие предпочитают смотреть видео без помех, особенно если оно вызывает сильные эмоции. Пока достоверно неизвестно, можно ли будет отключать или пропускать Peak Points, как обычную рекламу.

Параллельно YouTube представил и более привлекательный для зрителей формат — шоппинг-ленту прямо в рекламе. Теперь во время просмотра ролика можно будет покупать товары, не переходя на другие сайты. По мнению компании, это должно понравиться как рекламодателям, так и пользователям.

Google анонсировала появление ИИ-ассистента Gemini в автомобилях и телевизорах

Компания Google планирует вывести свой ИИ-ассистент Gemini на устройства с Google TV, автомобили с Android Auto, смарт-часы на базе Wear OS, а также гарнитуры смешанной реальности с Android XR. Google не называет конкретных дат, но всё же даёт понять, когда Gemini станет доступен на устройствах разных типов.

 Источник изображения: Google

Источник изображения: Google

В блоге разработчиков Google сообщается, что на телевизорах с Google TV «вы можете запрашивать фильмы, подходящие по возрасту для ваших детей, и получать лучшие рекомендации». В качестве примера рассматривается ситуация, когда пользователь просит Gemini рассказать первокласснику о Солнечной системе. В ответ алгоритм генерирует краткое описание, а при нажатии на кнопку «Узнать больше» можно перейти к просмотру тематических роликов о Солнечной системе на YouTube. ИИ-ассистент Gemini будет интегрирован в Google TV «позднее в этом году».

В автомобилях Gemini сделает помощника Google Assistant более совершенным, благодаря чему тот будет «понимать, чего вы хотите во время движения, благодаря общению на естественном языке». Например, Gemini сможет найти зарядную станцию для электромобиля, расположенную ближе всего по маршруту следования пользователя. Также Gemini будет способен подключаться к приложениям для обмена сообщениями, чтобы обобщать поступающие послания. В Android Auto Gemini появится «в ближайшие месяцы».

В Wear OS ИИ-ассистент позволит пользователям общаться с голосовым помощником на естественном языке, без необходимости подбирать нужные слова или набирать сообщения на маленьком экране смарт-часов. Это может оказаться полезным во многих ситуациях — например, если нужно уточнить какую-либо информацию во время пробежки. Интеграция Gemini с Wear OS будет реализована «в ближайшие месяцы».

Также разработчики сообщили, что Gemini будет встроен в первую гарнитуру на базе Android XR, созданную компанией Samsung. Ожидается, что владельцы этого устройства смогут опробовать ИИ-помощника к концу года.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Gamesblender № 730: анонсы презентации Xbox и наследник Mass Effect от Owlcat (вместо Е3: часть 2) 28 мин.
YouTube тестирует новый формат длинной рекламы, которую нельзя пропустить 3 ч.
Google разорвёт отношения со Scale AI после её сближения с Meta 5 ч.
ChatGPT научился искать в интернете по картинкам и давать более точные ответы 6 ч.
Scale AI получила от Meta более $14 млрд, но потеряла гендиректора и рискует лишиться крупных контрактов с Gooogle, Microsoft, OpenAI и xAI 7 ч.
ChatGPT попросил сообщить журналистам, что он пытается «ломать» людей 8 ч.
Apple не намерена переводить iPad на macOS, несмотря на движение iPadOS к macOS 9 ч.
Используя методы из психиатрии, учёные обнаружили сходство мышления человека и искусственного интеллекта 10 ч.
Sony сдалась и вернула в продажу почти все свои игры в Steam для стран без поддержки PSN 13 ч.
Google начала тестировать ИИ-функцию, которая превращает результаты поиска в подкаст 14 ч.
Администрация Трампа решила разобраться в госконтрактах со SpaceX, чтобы узнать, как лишить Маска финансирования 3 ч.
AMD представила Pensando Pollara 400 — первую 400-Гбит/с сетевую карту стандарта Ultra Ethernet 4 ч.
Asus ROG Astral GeForce RTX 5090 Dhahab Edition с автографом Дженсена Хуанга продали на аукционе за $24 200 5 ч.
Китайские учёные изготовили уникальный радиотелескоп для исследования тёмной энергии 6 ч.
Тайвань отправил в тюрьму капитана китайского судна, обвинив его в умышленном повреждении подводного кабеля 6 ч.
Intel выпустит недорогой шестиядерник Core 5 120F для платформы LGA 1700 6 ч.
Samsung запускает производство телевизоров с подсветкой RGB MicroLED — дешёвой альтернативой microLED 6 ч.
Apple внесла iPhone XS в список винтажных гаджетов 7 ч.
AWS переведёт ещё 100 дата-центров на использование очищенных сточных вод для охлаждения 9 ч.
В Калифорнийском университете попробовали охлаждать процессоры мокрой тряпкой и добились теплоотвода 800 Вт 9 ч.