Сегодня 01 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → deepmind
Быстрый переход

Google представила ИИ для роботов, который сможет работать без интернета и завязывать шнурки

Google DeepMind выпустила новую версию ИИ-модели Gemini Robotics для роботов без подключения к интернету — Gemini Robotics On-Device. Это модель типа «зрение — язык — действие» (VLA), обладающая такими же возможностями, как и представленная в марте, но, как заявляет Google, «достаточно компактная и эффективная, чтобы работать непосредственно на роботе».

 Источник изображения: Google DeepMind

Источник изображения: Google DeepMind

Робототехника представляет собой уникальную проблему для ИИ, поскольку робот не только существует в физическом мире, но и изменяет свое окружение. Независимо от того, перемещает ли он блоки или завязывает вам шнурки, трудно предсказать все возможные ситуации, с которыми может столкнуться робот. Традиционный подход к обучению робота действиям с помощью подкрепления был очень медленным, но генеративный ИИ позволяет добиться гораздо большей обобщенности.

Флагманская ИИ-модель Gemini Robotics On-Device помогает роботам выполнять широкий спектр физических задач даже без предварительного специального обучения. В частности, она позволяет обобщать новые сценарии, понимать и выполнять голосовые команды, а также справляться с задачами, требующими мелкой моторики.

Руководитель отдела робототехники Google DeepMind Каролина Парада (Carolina Parada) сообщила изданию The Verge, что оригинальная модель Gemini Robotics использует гибридный подход, позволяющий ей работать как на устройстве, так и в облаке. Новая модель, доступная исключительно для работы на устройстве, обеспечивает почти тот же спектр функций без подключения к интернету.

Парада утверждает, что Gemini Robotics On-Device способна выполнять множество задач «из коробки», а также адаптироваться к новым сценариям всего за 50–100 демонстраций в физическом симуляторе MuJoCo.

Изначально модель обучалась только для роботов Google ALOHA, однако позже её адаптировали для других типов, включая гуманоидного робота Apollo от Apptronik и двурукого Franka FR3. По данным Google, Franka FR3 успешно справился с новыми задачами и объектами, с которыми ранее не сталкивался — например, при сборке на промышленном конвейере.

«Гибридная модель Gemini Robotics всё ещё мощнее, но мы были приятно удивлены тем, насколько сильна модель On-Device, — говорит Парада. — Я бы рассматривала её как базовую модель или решение для приложений, в которых отсутствует стабильное подключение к интернету». Также она может быть полезна компаниям с жёсткими требованиями к безопасности.

Google выпустила первый комплект средств разработки Gemini Robotics SDK для модели On-Device. Этот SDK позволяет разработчикам тестировать модель и производить её тонкую настройку. Это первый подобный инструмент, выпущенный для VLA-моделей Google DeepMind.

Конец немого ИИ-видео: Google представила Veo 3 — первый генератор видео со звуком

Google представила на конференции I/O 2025 новейшую ИИ-модель для генерации видео по текстовым описаниям Veo 3, которая создаёт не только картинку, но и звуковое сопровождение. В отличие от аналогов, алгоритм понимает содержание кадров и создаёт аудио без дополнительных подсказок. А для защиты от дипфейков все ролики будут помечаться невидимым водяным знаком.

 Источник изображения: Google

Источник изображения: Google

Алгоритм умеет создавать звуковые эффекты, фоновые шумы и даже диалоги, синхронизируя их с изображением. По словам главы подразделения Google DeepMind Демиса Хассабиса (Demis Hassabis), пользователи могут задать описание персонажей, окружения и даже указать, как должны звучать реплики. Компания не раскрывает, на каких данных обучали Veo 3, но, скорее всего, как пишет TechCrunch, использовались материалы YouTube, так как Google, владеющая этой платформой, ранее подтверждала, что её контент «может» применяться для тренировки моделей.

Рынок генеративного видео уже перенасыщен: Runway, OpenAI, Alibaba и десятки стартапов выпускают похожие модели. Однако Google пошла дальше, внедрив полноценное звуковое сопровождение. Ранее DeepMind разрабатывала технологию «видео-в-аудио» (video-to-audio), что, вероятно, и стало основой для новой системы, которая анализирует пиксели видео и автоматически подбирает соответствующее аудио. Чтобы противостоять распространению дезинформации и дипфейков, все ролики Veo 3 помечаются невидимым встроенным водяным знаком SynthID.

Одновременно с этим многие художники и мультипликаторы выражают обеспокоенность происходящим. По данным исследования, заказанного Гильдией аниматоров Голливуда (Animation Guild), к 2026 году около 100 тысяч рабочих мест в киноиндустрии, на телевидении и в анимации в США могут быть потеряны из-за ИИ.

Эксперты отмечают, что Veo 3 может стать серьёзным конкурентом на перегруженном рынке генеративного видео — при условии, что Google сдержит обещания по качеству звука. Модель уже доступна в приложении Gemini для подписчиков тарифа AI Ultra стоимостью $249 в месяц.

Google представила ИИ-систему AlphaEvolve, которая отлично создаёт и оптимизирует алгоритмы — она ускорит обучение других ИИ

Подразделение Google DeepMind, занимающееся разработками в сфере искусственного интеллекта, заявило о создании новой ИИ-системы под названием AlphaEvolve, ориентированной на разбор задач с поддающимися машинной обработке решениями. Разработчики уверены, что этот алгоритм поможет оптимизировать инфраструктуру, которую Google использует для обучения больших языковых моделей (LLM).

 Источник изображений: DeepMind

Источник изображений: DeepMind

В сообщении говорится, что в настоящее время DeepMind работает над созданием пользовательского интерфейса для AlphaEvolve. После завершения этого процесса доступ к ИИ-алгоритму получит ограниченное число исследователей, а позже — более широкая аудитория.

Большинство ИИ-моделей периодически галлюцинируют, что обусловлено их вероятностной архитектурой: они иногда выдумывают факты. Любопытно, что новые ИИ-алгоритмы, такие как o3 от OpenAI, галлюцинируют чаще, чем их предшественники. Это свидетельствует о сложности самой проблемы.

Для борьбы с галлюцинациями в AlphaEvolve реализован специальный механизм — автоматическая система оценок. Она задействует ИИ-модели для генерации, критики и формирования пула возможных ответов на поставленный вопрос, а также автоматически оценивает точность этих ответов.

AlphaEvolve — не первая система, использующая подобный подход. Разные исследователи, включая команду DeepMind, уже несколько лет применяют схожие методы в различных математических областях. Однако сейчас DeepMind утверждает, что использование в AlphaEvolve «самых современных» моделей, таких как Gemini, делает систему значительно более мощной по сравнению с предыдущими аналогами.

 Источник изображений: DeepMind

Процесс взаимодействия пользователя с AlphaEvolve начинается с постановки задачи. При желании пользователь может добавить больше деталей, включая инструкции, уравнения, фрагменты кода и соответствующую литературу. Также необходимо предоставить механизм для автоматической оценки ответов в виде формулы.

Поскольку AlphaEvolve может решать только те задачи, точность решений которых она способна самостоятельно оценить, система работает лишь с определёнными типами задач — в частности, в областях информатики и оптимизации систем. Ещё одно существенное ограничение заключается в том, что ИИ-система способна описывать решения только в виде алгоритмов, что делает её малопригодной для решения нечисловых задач.

В ходе тестирования AlphaEvolve решала около 50 математических задач, охватывающих различные области — от геометрии до комбинаторики. В итоге ИИ-система смогла «воспроизвести» уже известные решения в 75 % случаев и найти улучшенные варианты решений в 20 % случаев. DeepMind также протестировала систему на практических задачах, таких как повышение эффективности работы центров обработки данных Google и ускорение обучения ИИ-моделей. По данным разработчиков, AlphaEvolve создала алгоритм, который позволил вернуть в оборот 0,7 % вычислительных ресурсов Google по всему миру. Система также предложила вариант оптимизации, позволивший сократить общее время обучения моделей семейства Gemini на 1 %.

Следует отметить, что пока AlphaEvolve не совершила прорывных открытий. В одном из экспериментов система предложила вариант улучшения дизайна ИИ-ускорителя Google TPU, который ранее уже был найден с помощью других алгоритмов. Однако DeepMind приводит те же аргументы, что и многие другие разработчики в сфере ИИ: AlphaEvolve способна экономить время, позволяя специалистам сосредоточиться на решении других задач.

Исследовательскую лабораторию ИИ в Meta✴ возглавил выходец из Google DeepMind

На должность руководителя лаборатории фундаментальных исследований в области искусственного интеллекта (Fundamental AI Research — FAIR) в компании Meta назначен Роберт Фергюс (Robert Fergus), выходец из Google DeepMind, узнал Bloomberg.

 Источник изображения: Israel Andrade / unsplash.com

Источник изображения: Israel Andrade / unsplash.com

Около пяти лет Роберт Фергюс проработал директором по исследованиям в подразделении Google DeepMind, а до Google числился научным сотрудником в самой Meta (тогда Facebook). Лаборатория Meta FAIR была основана в 2013 году, в последние годы она столкнулось с некоторыми трудностями, стало известно ранее.

Это подразделение руководило исследованиями ранних моделей ИИ, выпущенных компанией, в том числе Llama 1 и Llama 2. Но впоследствии научные сотрудники стали массово его покидать: одни перешли в стартапы, другие перевелись в новое подразделение Meta, специализирующееся на генеративном искусственном интеллекте — разработкой Llama 4 руководило уже оно.

Предшественницей Фергюса значилась бывший вице-президент Meta по исследованиями в области ИИ Джоэль Пино (Joelle Pineau) — чуть более месяца назад она объявила об отставке и уходе из компании в связи с появлением некой новой возможности.

Гендир Google DeepMind рассказал о будущем ИИ и появлении у него самосознания

Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) в течение часа рассказывал журналистам о перспективах Gemini, темпах разработки сильного ИИ (Artificial General Intelligence, AGI) и общем росте самосознания нейросетей. Он уделил много внимания модели Project Astra, которая сейчас находится в стадии предварительного тестирования. Astra узнаёт пользователей и помнит историю общения с ними, — скоро эти возможности появятся в Gemini Live.

 Источник изображения: 9to5Google

Источник изображения: 9to5Google

Хассабис отметил, что перспективная модель Project Astra отличается, прежде всего, увеличенным количеством памяти. В частности, она запоминает ключевые детали из предыдущих разговоров для лучшего контекста и персонализации. Также имеется отдельная «10-минутная память» текущего диалога. Эти возможности, предположительно, скоро появятся в Gemini Live. Хассабис подчеркнул, что Google DeepMind «обучает свою модель ИИ под названием Gemini не просто показывать мир, но и совершать действия в нём, такие как бронирование билетов и покупки онлайн».

По мнению Хассабиса, реальный срок появления AGI — 5-10 лет, причём это будет «система, которая действительно понимает все вокруг вас очень тонким и глубоким образом и как бы встроена в вашу повседневную жизнь».

На вопрос, «работает ли Google DeepMind сегодня над системой, которая будет осознавать себя», Хассабис заявил, что теоретически это возможно, но он не воспринимает какую-либо из сегодняшних систем как осознающую себя. Он полагает, что «каждый должен принимать собственные решения, взаимодействуя с этими чат-ботами».

На вопрос, «является ли самосознание вашей целью» (при разработке ИИ), он ответил, что это может произойти неявно: «Эти системы могут обрести некоторое чувство самосознания. Это возможно. Я думаю, что для этих систем важно понимать вас, себя и других. И это, вероятно, начало чего-то вроде самосознания».

«Я думаю, есть две причины, по которым мы считаем друг друга сознательными. Одна из них заключается в том, что вы демонстрируете поведение сознательного существа, очень похожее на моё поведение. Но вторая причина в том, что вы работаете на одном и том же субстрате. Мы сделаны из одного и того же углеродного вещества с нашими мягкими мозгами. Очевидно, что машины работают на кремнии. Так что даже если они демонстрируют одинаковое поведение, и даже если они говорят одно и то же, это не обязательно означает, что это ощущение сознания, которое есть у нас, будет тем же самым, что будет у них», — пояснил Хассабис в заключение.

Google платит сотрудникам отделов ИИ за ничегонеделание — лишь бы они не ушли к конкурентам

В условиях жёсткой конкуренции Google вынуждена целый год выплачивать некоторым специалистам по искусственному интеллекту средства за то, чтобы они ничего не делали — лишь бы удержать их от перехода в другие компании, сообщил Business Insider.

 Источник изображения: Silicon Valley,  HBO

Источник изображения: Silicon Valley, HBO

Специализирующееся на ИИ подразделение Google DeepMind заключает с некоторыми своими сотрудниками в Великобритании «жёсткие» соглашения о неконкуренции, которые не позволяют им в течение года переходить на работу в компании того же профиля. Некоторым из них в течение указанного времени производят выплаты, что равнозначно длительному неоплачиваемому отпуску. Но в результате этих действий исследователи рискуют утратить актуальные знания, умения и навыки, поскольку прогресс в отрасли ИИ отличается быстрыми темпами.

В прошлом году Федеральная торговая комиссия (FTC) США запретила заключать большинство соглашений о неконкуренции, но к лондонской штаб-квартире DeepMind это не относится. В марте вице-президент Microsoft по ИИ Нандо де Фрейтас (Nando de Freitas) рассказал, что некоторые сотрудники DeepMind «в отчаянии» обращаются к нему, потому что не могут преодолеть силу соглашений о неконкуренции, и призвал не заключать их. Такая практика применяется «избирательно», уточнили в Google.

Nvidia показала настоящего робота из «Звёздных войн»

Nvidia при поддержке Google DeepMind и Disney Research ведёт разработку Newton — движка, просчитывающего физику для моделирования движений роботов в реальных условиях. Об этом на мероприятии GTC 2025 рассказал глава Nvidia Дженсен Хуанг (Jensen Huang).

 Источник изображения: nvidia.com

Источник изображения: nvidia.com

Одной из первых Newton развернёт компания Disney — платформа будет использоваться в создании, например, роботов BDX по мотивам «Звёздных войн», один из которых появился на сцене вместе с господином Хуангом во время его выступления. Предварительная версия Newton с открытым исходным кодом выйдет уже в этом году. Disney уже не первый год занимается проектом, посвящённым появлению роботов из киновселенной «Звёздных войн» в развлекательных парках компании. Newton станет одной из технологий, которые помогут таким машинам появиться в тематических парках Disney уже в следующем году — старший вице-президент Disney Imagineering Кайл Лафлин (Kyle Laughlin) отметил заслуги Nvidia и Google DeepMind в реализации проекта.

Newton поможет роботам стать более «выразительными» и «научиться справляться со сложными задачами с большей точностью», рассказали в Nvidia. Физический движок станет для разработчиков подспорьем в моделировании взаимодействия роботов с объектами внешнего мира — это одна из наиболее сложных задач в робототехнике. Newton легко настраивается, заверили в Nvidia. С его помощью можно запрограммировать сценарии взаимодействия машин с продуктами питания, тканью, песком и другими деформируемыми объектами. Newton также получит совместимость с экосистемой проектирования роботов Google DeepMind, в том числе с физическим движком MuJoCo, имитирующим многосуставные движения механизмов.

На GTC 2025 компания Nvidia также представила GR00T N1 — базовую модель искусственного интеллекта, которая поможет роботам эффективнее воспринимать среду и рассуждать о ней.

ИИ сравняется с людьми в любой задаче через десять лет, уверен глава Google DeepMind

Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) заявил, что сильный ИИ (Artificial General Intelligence, AGI), который ни в чём не уступает человеку или даже превосходит его, будет разработан в ближайшие пять–десять лет. Он абсолютно уверен в реалистичности создания AGI и полагает, что решение этой задачи — всего лишь вопрос времени. Хассабис определяет AGI как «систему, которая способна демонстрировать все сложные возможности, присущие человеку».

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Я думаю, что сегодняшние системы очень пассивны, есть ещё много вещей, которые они не могут делать. Но я думаю, что в течение следующих пяти–десяти лет многие из этих возможностей начнут выходить на первый план, и мы начнём двигаться к тому, что мы называем искусственным интеллектом общего назначения», — считает Хассабис. Он не одинок в своём мнении — в прошлом году генеральный директор китайского технологического гиганта Baidu Робин Ли (Robin Li) заявил, что AGI появится «более чем через 10 лет».

Другие коллеги Хассабиса более оптимистичны. Генеральный директор Anthropic Дарио Амодеи (Dario Amodei) уверен, что модель ИИ, которая «лучше, чем почти все люди, почти во всех задачах», появится в «ближайшие два–три года». Директор по продуктам Cisco Джиту Патель (Jeetu Patel) полагает, что AGI может быть создан уже в этом году. Генеральный директор Tesla Илон Маск (Elon Musk) предсказал, что AGI, скорее всего, станет реальностью к 2026 году, генеральный директор OpenAI Сэм Альтман (Sam Altman) считает, что такая система может быть разработана в «достаточно близком будущем».

Хассабис в своих прогнозах пошёл дальше и предположил, что вслед за появлением AGI на сцену выйдет искусственный суперинтеллект (Artificial Super Intelligence, ASI), который превзойдёт человека во всех сферах деятельности. Однако «никто на самом деле не знает», когда произойдёт такой прорыв, признался он.

По мнению Хассабиса, главная проблема в создании AGI — это доведение современных систем ИИ до уровня понимания контекста реального мира. «Вопрос в том, как быстро мы сможем обобщить идеи планирования и агентного поведения, планирования и рассуждений, а затем применить их к реальному миру, дополнив такими вещами, как модели мира, которые способны понимать окружающую нас реальность», — пояснил он.

По словам Хассабиса, в последнее время внимание разработчиков всё больше привлекают так называемые мультиагентные системы искусственного интеллекта. В качестве примера он привёл исследования DeepMind по обучению агентов ИИ игре в Starcraft: «Мы проделали большую работу над этим, например, в проекте Starcraft, где у нас было сообщество агентов или лига агентов, способных как конкурировать, так и сотрудничать».

Высокопоставленные менеджеры и ведущие разработчики ИИ сходятся в одном — они не видят ближайшее будущее человечества без всеведущих, всемогущих и всезнающих систем ИИ, которые, как они уверены, превзойдут человека в любой сфере деятельности. По всей видимости, они думают, что их самих и их близких такое нашествие ИИ-саранчи, «затмившей небо», не коснётся.

Google DeepMind дала роботам ИИ, с которым они могут выполнять сложные задания без предварительного обучения

Лаборатория Google DeepMind представила две новые модели ИИ, которые помогут роботам «выполнять более широкий спектр реальных задач, чем когда-либо прежде». Gemini Robotics — это модель «зрение-язык-действие», способная понимать новые ситуации без предварительного обучения. А Gemini Robotics-ER компания описывает как передовую модель, которая может «понимать наш сложный и динамичный мир» и управлять движениями робота.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

Модель Gemini Robotics построена на основе Gemini 2.0, последней версии флагманской модели ИИ от Google. ПО словам руководителя отдела робототехники Google DeepMind Каролины Парада (Carolina Parada), Gemini Robotics «использует мультимодальное понимание мира Gemini и переносит его в реальный мир, добавляя физические действия в качестве новой модальности».

Новая модель особенно сильна в трёх ключевых областях, которые, по словам Google DeepMind, необходимы для создания по-настоящему полезных роботов: универсальность, интерактивность и ловкость. Помимо способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Модель способна выполнять очень точные физические задачи, такие как складывание листа бумаги или открывание бутылки.

«Хотя в прошлом мы уже достигли прогресса в каждой из этих областей по отдельности, теперь мы приносим [резко] увеличивающуюся производительность во всех трёх областях с помощью одной модели, — заявила Парада. — Это позволяет нам создавать роботов, которые более способны, более отзывчивы и более устойчивы к изменениям в окружающей обстановке».

Модель Gemini Robotics-ER разработана специально для робототехников. С её помощью специалисты могут подключаться к существующим контроллерам низкого уровня, управляющим движениями робота. Как объяснила Парада на примере упаковки ланч-бокса — на столе лежат предметы, нужно определить, где что находится, как открыть ланч-бокс, как брать предметы и куда их класть. Именно такой цепочки рассуждений придерживается Gemini Robotics-ER.

Разработчики уделили серьёзное внимание безопасности. Исследователь Google DeepMind Викас Синдхвани (Vikas Sindhwani) рассказал, как лаборатория использует «многоуровневый подход», при котором модели Gemini Robotics-ER «обучаются оценивать, безопасно ли выполнять потенциальное действие в заданном сценарии».

Кроме того, Google DeepMind разработала ряд эталонных тестов и фреймворков, чтобы помочь дальнейшим исследованиям безопасности в отрасли ИИ. В частности, в прошлом году лаборатория представила «Конституцию робота» — набор правил, вдохновлённых «Тремя законами робототехники», сформулированными Айзеком Азимовым в рассказе «Хоровод» в 1942 году.

В настоящее время Google DeepMind совместно с компанией Apptronik разрабатывает «следующее поколение человекоподобных роботов». Также лаборатория предоставила доступ к своей модели Gemini Robotics-ER «доверенным тестировщикам», среди которых Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools.

«Мы полностью сосредоточены на создании интеллекта, который сможет понимать физический мир и действовать в этом физическом мире, — сказала Парада. — Мы очень рады использовать это в нескольких воплощениях и во многих приложениях для нас».

Напомним, что в сентябре 2024 года исследователи из Google DeepMind продемонстрировали метод обучения, позволяющий научить робота выполнять некоторые требующие определённой ловкости действия, такие как завязывание шнурков, подвешивание рубашек и даже починка других роботов.

Google создала ИИ-лаборанта, который умеет выдвигать гипотезы и ускорять исследования

Google создала лаборанта на основе искусственного интеллекта, который поможет учёным ускорить биомедицинские исследования и разработать специализированные приложения на основе передовых технологий. Новый ИИ-ассистент (AI Coscientist — «ИИ-соучёный») умеет выявлять пробелы в знаниях исследователей и предлагать новые идеи, способные ускорить процесс научного познания.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В настоящее время технологические компании тратят миллиарды долларов на модели и продукты ИИ, рассчитывая, что эти технологии смогут изменить различные отрасли — от здравоохранения до энергетики и образования. «С помощью нашего проекта мы пытаемся выяснить, могут ли технологии, подобные нашему ИИ-ассистенту, наделить исследователей сверхспособностями», — заявил старший клинический учёный Google Алан Картикесалингам (Alan Karthikesalingam).

AI Coscientist работает с использованием нескольких агентов ИИ, которые имитируют научный процесс: один специализируется на генерации идей, другие — на их рассмотрении, критическом анализе и рецензировании. ИИ-модель способна извлекать информацию из научных статей и специализированных баз данных, находящихся в свободном доступе. Затем она анализирует полученные данные и генерирует ранжированный список предложений с пояснениями и ссылками на источники.

Ранние испытания нового инструмента Google с экспертами из Стэнфордского университета, Имперского колледжа Лондона и Хьюстонской методистской больницы показали, что он способен генерировать многообещающие научные гипотезы. AI Coscientist смог подобрать препараты, которые можно повторно использовать для лечения фиброза печени — серьёзного заболевания, ведущего к образованию рубцовой ткани. ИИ-ассистент предложил два типа препаратов, которые, как подтвердили учёные, помогли в лечении этой болезни.

AI Coscientist также сумел прийти к тем же выводам о новом механизме переноса генов, что и исследователи из лаборатории Imperial в своих закрытых научных работах. Результаты, полученные учёными, не были общедоступными, так как находились на стадии рецензирования в ведущем научном журнале. Инструмент Google затратил на исследование всего несколько дней, в то время как университетская команда учёных работала над ним несколько лет.

«Мы думаем, что это инструмент, который может изменить наш подход к науке», — считает профессор кафедры инфекционных заболеваний Хосе Пенадес (José Penadés), один из исследователей механизма переноса генов. Такие инструменты, как новый Google AI Coscientist, могут помочь исследователям оставаться в курсе последних открытий в своих предметных областях, полагает доцент Оксфордского университета Якоб Ферстер (Jakob Foerster).

Ранее лаборатория Google DeepMind представила новую версию модели искусственного интеллекта AlphaFold, которая предсказывает форму и поведение белков. OpenAI, Perplexity, немецкий производитель лекарств BioNTech и его лондонское дочернее предприятие InstaDeep также недавно запустили собственные инструменты для ИИ-исследований.

Новая ИИ-модель от DeepMind смогла бы получить «золото» на Международной математической олимпиаде

DeepMind, дочернее предприятие Google, специализирующееся на исследованиях в сфере искусственного интеллекта (ИИ), сообщило о новых достижениях ИИ-модели AlphaGeometry2 в решении геометрических задач. В недавно опубликованном исследовании DeepMind сообщается, что AlphaGeometry2 успешно решила 84 % задач (42 из 50) Международной математической олимпиады (IMO) с 2000 по 2024 год, набрав средний балл золотого медалиста (40,9).

 Источник изображения: Google

Источник изображения: Google

AlphaGeometry2 является улучшенной версией ИИ-системы AlphaGeometry, вышедшей в январе прошлого года. В июле прошлого года DeepMind продемонстрировала возможности системы, объединившей ИИ-модели AlphaProof и AlphaGeometry2, которой удалось решить 4 из 6 задач IMO.

AlphaGeometry2, используя лингвистическую модель на основе архитектуры Gemini и усовершенствованный механизм символической дедукции способна определять стратегии решения задач с точностью, превосходящей возможности большинства экспертов-людей.

Принятый подход объединяет два основных компонента: лингвистическую модель, способную генерировать предложения на основе подробного геометрического описания, и символический механизм DDAR (Deductive Database Arithmetic Reasoning), который проверяет логическую связность предлагаемых решений, создавая дедуктивное замыкание на основе доступной информации.

Проще говоря, модель Gemini AlphaGeometry2 предлагает символическому механизму шаги и конструкции на формальном математическом языке, и механизм, следуя определённым правилам, проверяет эти шаги на логическую согласованность.

Ключевым элементом, который позволил AlphaGeometry2 превзойти по скорости предшественника AlphaGeometry, является алгоритм SKEST (Shared Knowledge Ensemble of Search Trees), который реализует итеративную стратегию поиска, основанную на обмене знаниями между несколькими параллельными деревьями поиска. Это позволяет одновременно исследовать несколько путей решения, увеличивая скорость обработки и улучшая качество сгенерированных доказательств.

Эффективность системы удалось значительно повысить с новой реализацией DDAR на C++, что в 300 раз увеличило её скорость по сравнению с версией, написанной на Python.

Вместе с тем из-за технических особенностей AlphaGeometry2 пока ограничена в возможности решать задачи с переменным числом точек, нелинейными уравнениями или неравенствами. Поэтому DeepMind изучает новые стратегии, такие как разбиение сложных задач на подзадачи и применение обучения с подкреплением для выхода ИИ на новый уровень в решении сложных математических задач.

Как сообщается, AlphaGeometry2 технически не является первой ИИ-системой, достигшей уровня золотого медалиста по геометрии, но она первая, достигшая этого с набором задач такого размера.

При этом AlphaGeometry2 использует гибридный подход, поскольку модель Gemini имеет архитектуру нейронной сети, в то время как её символический механизм основан на правилах.

Сторонники использования нейронных сетей утверждают, что интеллектуальных действий, от распознавания речи до генерации изображений, можно добиться только благодаря использованию огромных объёмов данных и вычислений. В отличие от символических систем ИИ, которые решают задачи, определяя наборы правил манипуляции символами, предназначенных для определённых задач, нейронные сети пытаются решать задачи посредством статистической аппроксимации (замены одних результатов другими, близкими к исходным) и обучения на примерах. В свою очередь, сторонники символического ИИ считают, что он более подходит для эффективного кодирования глобальных знаний.

В DeepMind считают, что поиск новых способов решения сложных геометрических задач, особенно в евклидовой геометрии, может стать ключом к расширению возможностей ИИ. Решение задач требует логического рассуждения и способности выбирать правильный шаг из нескольких возможных. По мнению DeepMind, эти способности будут иметь решающее значение для будущего универсальных моделей ИИ.

Google отказалась от обещания не использовать ИИ в военных и шпионских целях

Компания Google пересмотрела свою позицию в области безопасности искусственного интеллекта (ИИ), убрав обещание не применять ИИ для военных и разведывательных целей. Прежние правила, введённые в 2018 году, были обновлены и опубликованы в официальном блоге компании, сообщает The Washington Post.

 Источник изображения: Copilot

Источник изображения: Copilot

Ранее компания заявляла, что не будет заниматься четырьмя категориями применения ИИ: оружием, слежкой, технологиями, «способными нанести вред», и проектами, нарушающими международное право и права человека. Эти ограничения делали Google исключением среди лидеров рынка ИИ. Например, Microsoft и Amazon давно сотрудничают с Пентагоном. Их примеру последовали OpenAI и Anthropic, которые сотрудничают с оборонными подрядчиками США, такими как Anduril и Palantir.

По словам экспертов, решение Google отражает растущее значение ИИ для национальной обороны США. Профессор политологии Майкл Горовиц (Michael Horowitz) из Пенсильванского университета отметил, что это логичный шаг, поскольку технологии ИИ становятся всё более важными для американской армии. «Заявление Google является ещё одним доказательством того, что отношения между технологическим сектором США и Министерством обороны продолжают становиться всё теснее, включая ведущие компании в области ИИ», — сказал Горовиц.

Однако критики, такие как Лилли Ирани (Lilly Irani), бывший сотрудник Google и профессор Калифорнийского университета в Сан-Диего, считают, что «обещания компании соблюдать международные законы и права человека часто оказываются пустыми словами».

Напомним, Google впервые ввела этические принципы после протестов сотрудников против контракта с Пентагоном, известного как Project Maven. Этот проект предполагал использование алгоритмов компьютерного зрения для анализа данных с дронов. Тогда тысячи работников подписали петицию, требуя прекратить участие компании в военных проектах, что Google и сделала, отказавшись не только от контракта, но и пообещав не участвовать в разработке оружия. Однако новое изменение политики свидетельствует о том, что приоритеты компании изменились.

Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ

Глава подразделения искусственного интеллекта в Microsoft Мустафа Сулейман (Mustafa Suleyman) в стремлении укрепить позиции компании в разработке интерактивных ИИ-агентов расширяет команду Microsoft, переманивает ключевых специалистов из Google, включая создателей технологии «Audio Overviews». Бывшие коллеги Сулеймана из DeepMind, откуда он ушёл в 2022 году, будут привлечены для работы над проектом по созданию мультимодальных моделей для обработки текста, звука и видео.

 Источник изображения: Copilot

Источник изображения: Copilot

Как сообщает Financial Times, в числе новых сотрудников Microsoft оказались Марко Тальясаччи (Marco Tagliasacchi) и Залан Боршош (Zalán Borsos), создатели функции «Audio Overviews», позволяющей преобразовывать текст в аудио в стиле увлекательного подкаста. Эти исследователи также участвовали в разработке Astra — перспективного ИИ-агента DeepMind, способного отвечать на вопросы в режиме реального времени с использованием видео, аудио и текста.

К команде также присоединился Маттиас Миндерер (Matthias Minderer). Он займётся развитием возможностей ИИ для анализа изображений. Все трое будут работать в новом исследовательском центре Microsoft в Цюрихе и, по словам источника, знакомого с ситуацией, сыграют ключевую роль в разработке следующего поколения Copilot, на основе которого будут создаваться интерактивные ИИ-агенты, способные к выполнению широкого спектра задач.

Относительно кадровых потерь такого уровня Google DeepMind комментарии не дал. Однако отмечается, что переход этих специалистов из Google DeepMind в Microsoft является частью ожесточённой борьбы за таланты в сфере ИИ. При этом, обе компании остаются ключевыми игроками в разработке мультимодальных ИИ-моделей, которые способны анализировать и понимать контент на основе аудио, видео или изображений.

На фоне этой конкурентной гонки другие компании также не отстают — OpenAI представила голосовой режим для ChatGPT, Amazon внедряет ИИ в свой голосовой помощник Alexa. Google также готовится к выпуску голосового агента Astra в 2025 году.

Google формирует команду для «моделирования мира» на основе ИИ для игр и обучения роботов

Google DeepMind формирует новую исследовательскую группу по искусственному интеллекту (ИИ), которая займётся разработкой ИИ-моделей, способных имитировать физические среды для обучения роботов и создания реалистичных игровых вселенных. Сообщается, что возглавит инициативу Тим Брукс (Tim Brooks), бывший соруководитель проекта Sora в OpenAI, который присоединился к DeepMind ещё в октябре.

 Источник изображения: Google DeepMind / Unsplash

Источник изображения: Google DeepMind / Unsplash

«Моделирование мира» — это относительно новая область ИИ, которая может найти применение в различных сферах. Направление может быть использовано для создания интерактивных медиасред в реальном времени для видеоигр и кино, а также для разработки реалистичных сценариев обучения роботов и других систем ИИ.

В настоящее время DeepMind активно ищет инженеров-исследователей и учёных для работы в своей лаборатории, разместив вакансии на сайте Greenhouse. Основные задачи команды будут включать обучение моделей в больших масштабах, курирование данных обучения и изучение способов интеграции моделей с мультимодальными языковыми моделями. «Мы считаем, что масштабирование предварительного обучения на видео и мультимодальных данных является критически важным шагом на пути к искусственному общему интеллекту» — говорится в описании вакансий.

Несмотря на амбициозные планы, у DeepMind есть несколько конкурентов, которые уже имеют преимущество в разработке технологии по «моделированию мира». Среди них платформа Nvidia Cosmos для развития физического ИИ и стартап World Labs, созданный Фей-Фей Ли (Fei-Fei Li), которую называют «крёстной матерью ИИ». Новая команда DeepMind будет работать вместе с существующими проектами Google, включая флагманские ИИ-модели Gemini, генератор видео Veo и Genie — ранее разработанную модель мира для имитации игровых 3D-сред в реальном времени.

Стоит сказать, что Google стремится достичь AGI раньше своих конкурентов и гонка за первенство в достижении использования возможностей сверхинтеллекта набирает обороты. Так, генеральный директор OpenAI Сэм Альтман (Sam Altman) недавно заявил, что компания близка к достижению AGI, и что автономные ИИ-агенты могут начать активно включаться в рабочие процессы уже в наступившем году.

Google DeepMind представила ИИ-генератор видео Veo 2, который создаёт двухминутные ролики в 4K

Подразделение Google DeepMind представило Veo 2 — основанный на искусственном интеллекте генератор видео нового поколения. Он создаёт видеоролики в разрешении 4K (4096 × 2160 пикселей) продолжительностью до двух минут. Таким образом, он в 4 раза превосходит OpenAI Sora по разрешению и в 6 раз — по продолжительности видео.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

На данный момент это преимущество, однако, носит лишь теоретический характер: испробовать Veo 2 можно лишь на экспериментальной площадке VideoFX, где разрешение ограничено 720p, а длина видео — 8 секундами. Для сравнения, доступная для пользователей версия генератора OpenAI Sora предлагает 1080p и 20 секунд. Чтобы начать работу с VideoFX, придётся записаться в список ожидания, хотя Google пообещала на этой неделе расширить аудиторию. В перспективе Veo 2 появится на платформе для бизнес-пользователей Vertex AI, но точные сроки в Google не указали.

Veo 2, как и её предшественница, генерирует видео по текстовым подсказкам, которые можно сопровождать изображениями. По сравнению с Veo первого поколения, новая модель лучше «понимает» физику, изображение отличается повышенной чёткостью, усовершенствованы механизмы движения виртуальной камеры. Veo 2 более реалистично моделирует движение (например, изображает наливаемый в кружку кофе) и свойства света (тени и отражения); правдоподобно имитируются разные линзы на виртуальной камере и кинематографические эффекты.

Разработчик также уверяет, что у новой модели с меньшей вероятностью проявляются галлюцинации: дополнительные пальцы или «неожиданные объекты»; при этом, как показала практика, от эффекта «зловещей долины» избавиться не удалось. А на видео с движущимся автомобилем дорога при ближайшем рассмотрении оказывается чрезвычайно гладкой, пешеходы сливаются друг с другом, а некоторые фасады домов имеют вид, который противоречит законам физики.

Новый генератор видео был обучен на большом числе роликов; в DeepMind не уточнили, какие источники для этого использовались, но одним из них, вероятно, является принадлежащая Google платформа YouTube. Чтобы снизить риск возникновения дипфейков, в Veo 2 встроили систему SynthID — невидимую маркировку генерируемых моделью видео.

В DeepMind также сообщили, что улучшили работу генератора статических изображений Imagen 3 — созданные с его помощью картинки стали более яркими, детализированными, а сама модель теперь более точно следует запросам пользователя. В пользовательском интерфейсе ImageFX, где доступен генератор изображений, появились выпадающие списки, которые появляются прямо в поле запроса и помогают добиться более точного результата.


window-new
Soft
Hard
Тренды 🔥
Rockstar вспомнила о Red Dead Online — для мультиплеерного боевика вышло первое за долгое время крупное обновление 14 мин.
GSC убрала из главного меню ремастеров трилогии S.T.A.L.K.E.R. назойливую рекламу S.T.A.L.K.E.R. 2, но никому об этом не сказала 2 ч.
Психологический хоррор Dead Take сотрёт границу между кино и играми — в главных ролях оказались звёзды Baldur’s Gate 3 и Clair Obscur: Expedition 33 3 ч.
Nvidia выпустила драйвер с поддержкой GeForce RTX 5050 4 ч.
System Shock 2: 25th Anniversary Remaster получила новую дату выхода на PlayStation, Xbox и Nintendo Switch 4 ч.
Разработчик конфиденциальных сервисов Proton решил засудить Apple за недобросовестную конкуренцию 5 ч.
Новый план Huawei по «захвату мира»: компания открыла исходный код своих ИИ-моделей 6 ч.
«Базальт СПО» приглашает на XXI конференцию разработчиков свободных программ 6 ч.
Чрезмерное регулирование тормозит инновации в Европе, заключили в Google 6 ч.
Обнаружено самое любимое число ИИ — и это не 42 7 ч.
Отечественный квантовый процессор с наибольшим числом кубитов прошёл испытания и готов к масштабированию 7 мин.
Nothing представила накладные наушники Headphone (1) — аналоговое управление, звук KEF и автономность до 80 часов за €299 2 ч.
Marshall представила портативную колонку Middleton II с автономностью до 30 часов и LE Audio — она работает даже под водой 3 ч.
Смартфоны Realme P3 и P3 Ultra поступили в продажу в России по цене от 22 999 рублей 4 ч.
Поставки ПК в США подскочили в первом квартале на 15 %, но теперь рост замедлится 5 ч.
DDoS-пункция: StormWall предупредила о взрывном росте «зондирующих» атак 5 ч.
Palit представила видеокарты GeForce RTX 5050 Dual и более компактную RTX 5050 StormX 5 ч.
Inno3D рассказала о производительности GeForce RTX 5050 — где-то между RTX 4060 и RTX 3060 6 ч.
На складах Amazon теперь вкалывают более миллиона роботов 6 ч.
Даже акционеры Nintendo не могут достать Switch 2 — глава компании извинился за дефицит 6 ч.