Сегодня 05 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → google deepmind
Быстрый переход

Главный разработчик ИИ-видеогенератора Sora сбежал из OpenAI в Google DeepMind

Тим Брукс (Tim Brooks), возглавлявший вместе с Уильямом Пиблзом (William Peebles) в OpenAI разработку ИИ-генератора видео Sora, сообщил о своём переходе в ИИ-лабораторию Google DeepMind. Там он займётся исследованиями в области создания видео при помощи ИИ и «симуляторами мира». По слухам, уход Брукса вызван техническими проблемами Sora и отставанием в производительности от конкурирующих систем Luma, Runway и других.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Генеральный директор Google DeepMind Демис Хассабис (Demis Hassabis) уверен, что приход Брукса поможет «сделать реальностью давнюю мечту о симуляторе мира». Под этим термином подразумеваются такие модели ИИ, как недавно выпущенная Genie, которая может генерировать играбельные, управляемые виртуальные миры из синтезированных изображений, реальных фотографий и даже эскизов.

В OpenAI Брукс был одним из первых исследователей, работавших над моделью ИИ Sora, представленной в январе 2023 года. Осведомлённые источники связывают его уход с техническими проблемами, от которых, как утверждается, страдает система — ей требовалось более 10 минут для создания 1-минутного видеоклипа. Сообщается, что OpenAI находится в процессе обучения улучшенной модели Sora, которая сможет генерировать видео гораздо быстрее.

Весной 2024 года Google представила собственную модель генерации видео под названием Veo. Ожидается, что Veo скоро станет доступна создателям контента в сервисе коротких видео YouTube Shorts.

Похоже, что OpenAI пока уступает конкурентам в продвижении разработок по созданию видеоконтента. В начале прошлого месяца Runway подписала соглашение со студией Lionsgate на обучение пользовательской модели видео на основе каталога фильмов Lionsgate. В это же время Stability, которая разрабатывает собственный набор моделей генерации видео, ввела в совет директоров режиссёра «Аватара», «Терминатора» и «Титаника» Джеймса Кэмерона (James Cameron).

В начале этого года OpenAI демонстрировала Sora кинематографистам и представителям голливудских студий, но о заключении долгосрочных партнёрских соглашений объявлено не было.

Любопытно, что Брукс фактически возвращается в Google, ведь ранее он занимался разработкой телефонов Pixel. Нужно отметить, что он пополнил череду уволившихся из OpenAI высокопоставленных сотрудников и учредителей:

  • Известный исследователь Андрей Карпати (Andrej Karpathy) покинул OpenAI в феврале.
  • Несколько месяцев спустя соучредитель OpenAI и бывший главный научный сотрудник Илья Суцкевер (Ilya Sutskever) ушёл вместе с бывшим руководителем по безопасности Яном Лейке (Jan Leike).
  • В августе соучредитель Джон Шульман (John Schulman) заявил, что покинет OpenAI.
  • Технический директор Мира Мурати (Mira Murati), главный научный сотрудник Боб МакГрю (Bob McGrew) и вице-президент по исследованиям Баррет Зоф (Barret Zoph) объявили о своём уходе в конце сентября.
  • Президент компании Грег Брокман (Greg Brockman) находится в творческом отпуске.

В Google DeepMind научили робота завязывать шнурки и чинить других роботов

Дети обычно учатся завязывать шнурки к 5–6 годам. В это же время роботы пытаются освоить выполнение данной задачи уже несколько десятилетий. Похоже, что разработчикам из Google DeepMind удалось продвинуться в этом. А кроме того они преуспели в обучении робота выполнению некоторых других действий, требующих ловкости.

 Источник изображения: Google DeepMind

Источник изображения: Google DeepMind

Исследователи из Google DeepMind продемонстрировали метод обучения, позволяющий научить робота выполнять некоторые требующие определённой ловкости действия, такие как завязывание шнурков, подвешивание рубашек и даже починка других роботов.

Достигнуть определённых успехов в этом направлении удалось благодаря новой обучающей платформе ALOHA Unleashed и собственной программе моделирования DemoStart, которая позволяет роботам обучаться в процессе наблюдения за людьми.

Исследование команды DeepMind в первую очередь демонстрирует, как роботизированные системы могут научиться выполнять достаточно сложные задачи, обучаясь на визуальных демонстрациях. Однако эта работа имеет также важное практическое значение, поскольку такие роботы могут оказаться полезны, особенно для оказания помощи людям с ограниченными возможностями.

Google показала робота, играющего в настольный теннис не хуже человека

Спорт является отличным испытанием для роботов. Например, ежегодный футбольный турнир RoboCup проводится с середины 1990-х годов. А настольный теннис используется для сравнительного тестирования роботизированных манипуляторов с 1980-х. От робота требуются высокая подвижность, быстрая реакция и стратегическое мышление. Робот, представленный Google DeepMind, показал уровень среднего любителя, но с профессионалами справиться не смог.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

В недавно опубликованной статье под названием «Достижение уровня человеческого конкурентоспособного робота для настольного тенниса» команда Google DeepMind Robotics представила робота, «способного соревноваться в спорте с людьми на человеческом уровне, и он представляет собой веху в обучении и управлении роботами».

Во время тестирования робот смог победить всех игроков начального уровня, с которыми столкнулся. С игроками среднего уровня робот выиграл 55 % матчей. Однако профессионалам робот проиграл все поединки. В целом система выиграла 45 % из 29 сыгранных матчей. Самый большой недостаток системы — запоздалая реакция на быстрые мячи. Робот также испытывает трудности с игрой бэкхендом, приёмом высоких и низких мячей, и оценкой вращения мяча.

«Чтобы устранить ограничения задержки, которые мешают времени реакции робота на быстрые мячи, мы предлагаем исследовать расширенные алгоритмы управления и аппаратные оптимизации, — полагают разработчики. — Сюда может входить изучение прогностических моделей для прогнозирования траекторий мячей или реализация более быстрых протоколов связи между датчиками и исполнительными механизмами робота».

DeepMind уверена в перспективности своей разработки: «Это лишь небольшой шаг к давней цели в робототехнике — достижению производительности человеческого уровня по многим полезным навыкам реального мира. Ещё многое предстоит сделать, чтобы последовательно достигать производительности человеческого уровня по отдельным задачам, а затем и выше, создавая универсальных роботов, способных выполнять множество полезных задач, умело и безопасно взаимодействуя с людьми в реальном мире».

ИИ-модели Google DeepMind решили задачи математической олимпиады на уровне серебряного медалиста

Google DeepMind, базирующееся в Лондоне дочернее предприятие Google, специализирующееся на исследованиях в сфере искусственного интеллекта (ИИ), представило ИИ-модели AlphaProof и AlphaGeometry 2, способные решать сложные математические задачи, с которыми не справляются нынешние ИИ-модели.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

По ряду причин решение математических задач, требующих способности к продвинутым рассуждениям, пока не по силам большинству ИИ-систем. Дело в том, что такие типы задач требуют формирования и использования абстракций. Также требуется сложное иерархическое планирование, постановка подцелей, откат и поиски новых путей, что является сложным вопросом для ИИ.

Обе новые ИИ-модели обладают способностью к продвинутым математическим рассуждениям для решения сложных математических задач. AlphaProof была создана с использованием обучения с подкреплением, получив способность доказывать математические утверждения на формальном языке программирования Lean. Для её создания использовалась предварительно обученная языковая модель AlphaZero, алгоритм обучения с подкреплением, который ранее сам себя научил играть в шахматы, сёги и го. В свою очередь, AlphaGeometry 2 представляет собой усовершенствованную версию существующей ИИ-системы AlphaGeometry, представленной в январе и предназначенной для решения задач по геометрии.

В то время как AlphaProof была обучена решению задач по широкому кругу математических тем, AlphaGeometry 2 оптимизирована для решения задач, связанных с перемещениями объектов и уравнениями, включающими углы, соотношения и расстояния. Поскольку AlphaGeometry 2 была обучена на значительно большем количестве синтетических данных, чем предшественник, она может справиться с гораздо более сложными геометрическими задачами.

Чтобы проверить возможности новых ИИ-систем, исследователи Google DeepMind поручили им решить шесть задач Международной математической олимпиады (IMO) этого года и доказать правильность ответов. AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, одна из которых была самой сложной на олимпиаде, в то время как AlphaGeometry 2 решила задачу по геометрии. Две задачи по комбинаторике остались нерешёнными.

Два известных математика, Тим Гауэрс (Tim Gowers) и Джозеф Майерс (Joseph Myers), проверили представленные системами решения. Они присудили каждому из четырёх правильных ответов максимальное количество баллов (семь из семи), что дало системам в общей сложности 28 баллов из максимальных 42. Участник олимпиады, набравший столько же баллов, был бы награждён серебряной медалью и немного не дотянул бы до золота, которое присуждается набравшим 29 баллов и больше.

Впервые ИИ-система смогла достичь результатов в решении математических задач IMO на уровне медалиста. «Как математик, я нахожу это очень впечатляющим и значительным скачком по сравнению с тем, что было возможно ранее», — заявил Гауэрс во время пресс-конференции.

Создание систем ИИ, способных решать сложные математические задачи, может проложить путь для захватывающего сотрудничества человека и ИИ, считает Кэти Коллинз (Katie Collins), исследователь из Кембриджского университета. Это, в свою очередь, может помочь нам узнать больше о том, как мы, люди, справляемся с математикой. «Мы всё ещё многого не знаем о том, как люди решают сложные математические задачи», — говорит она.

Google научила робота выполнять команды и ездить по офису с помощью нейросети Gemini

Команда Google DeepMind Robotics продемонстрировала на этой неделе, как обученный с помощью нейросети Google Gemini 1.5 Pro робот RT-2 может выполнять команды, озвученные на естественном языке, и перемещаться по офисному помещению.

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

DeepMind Robotics опубликовала статью под названием «Mobility VLA: мультимодальная навигация по инструкциям с помощью VLM с длинным контекстом и топологическими графами», в которой в серии видеороликов робот выполняет различные задачи в офисном помещении площадью 9000 кв. футов (836 м2).

В одном из видеороликов сотрудник Google просит робота отвести его куда-нибудь, чтобы порисовать. «Хорошо, — отвечает тот, — дай мне минутку. Размышляем вместе с Gemini...». Затем робот подводит человека к лекционной доске размером со стену.

Во втором видео другой сотрудник предлагает роботу следовать указаниям на доске. Он рисует простую карту, на которой показано, как добраться до «Синей зоны». И снова робот на мгновение задумывается, прежде чем отправиться по указанному маршруту к месту, которое оказывается площадкой для испытаний робототехники. «Я успешно выполнил указания на доске», — докладывает робот.

Перед записью видеороликов роботов ознакомили с пространством с помощью решения «Мультимодальная навигация по инструкциям с демонстрационными турами (MINT)». Благодаря этому робот может перемещаться по офису в соответствии с указанными с помощью речи различными ориентирами. Затем DeepMind Robotics использовала иерархическую систему «Видение-Язык-Действие» (VLA), «которая сочетает в себе понимание окружающей среды и силу здравого смысла». После объединения процессов робот получил способность реагировать на написанные и нарисованные команды, а также на жесты и ориентироваться на местности.

Как утверждает Google, примерно в 90 % из 50 взаимодействий с сотрудниками роботы успешно выполняли данные им инструкции.

Google придумала, как в 13 раз ускорить обучение ИИ и снизить потребление энергии в 10 раз

Google DeepMind разработала новый метод обучения искусственного интеллекта, который обещает значительно повысить эффективность ИИ-систем и снизить энергопотребление в сфере ИИ. Технология может стать ответом на растущую озабоченность по поводу экологического воздействия центров обработки данных для ИИ.

 Источник изображения: Google DeepMind

Источник изображения: Google DeepMind

Исследовательская лаборатория Google DeepMind представила инновационный метод обучения моделей искусственного интеллекта под названием JEST (Joint Example Selection), который может привести к кардинальным изменениям в области ИИ. Согласно опубликованному исследованию, новая технология обеспечивает 13-кратное снижение числа итераций при обучении и 10-кратное снижение энергопотребления по сравнению с существующими методами, сообщает Tom's Hardware. Иными словами, ИИ можно обучать на порядок быстрее и эффективнее.

JEST отличается от традиционных подходов тем, что обучается на основе целых пакетов данных, а не на отдельных частях. JEST сначала создаёт меньшую модель ИИ, которая оценивает качество данных из источников и ранжирует пакеты по качеству. Затем он сравнивает свою оценку с набором более низкого качества. Далее JEST определяет пакеты, наиболее подходящие для обучения, а затем большая модель обучается на основе наиболее качественных данных, отобранных меньшей моделью.

Ключевым фактором успеха JEST является использование высококачественных, тщательно отобранных наборов данных. Это делает метод особенно требовательным к исходной информации и может ограничить его применение любителями и непрофессиональными разработчиками.

Интересно, что появление JEST совпало с растущей озабоченностью по поводу энергопотребления систем ИИ. По данным исследователей, в 2023 году рабочие нагрузки ИИ потребляли около 4,3 ГВт электроэнергии, что сопоставимо с годовым потреблением Кипра. Более того, один запрос ChatGPT потребляет в 10 раз больше энергии, чем поисковый запрос Google.

Эксперты отмечают, что новая технология может быть использована двояко: для снижения энергопотребления при сохранении текущей производительности или для достижения максимальной производительности при том же уровне энергозатрат. Выбор направления будет зависеть от приоритетов компаний и рыночных тенденций.

Внедрение JEST может оказать значительное влияние на индустрию ИИ, учитывая высокую стоимость обучения современных моделей. Например, затраты на обучение GPT-4 оцениваются в 100 миллионов долларов, а будущие модели могут потребовать еще больших инвестиций. Таким образом, представленный Google DeepMind метод JEST открывает принципиально новые возможности для повышения эффективности и снижения затрат в ИИ-технологии. Практическое применение метода ещё предстоит оценить.

Ведущие разработчики пытаются привить ИИ чувство юмора

Подразделение Google DeepMind разрабатывает системы искусственного интеллекта, способные решать важнейшие задачи от прогнозирования экстремальной непогоды до разработки новых методов лечения. Но недавно исследователи попытались ответить на вопрос, способен ли ИИ придумать смешную шутку.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Группа исследователей DeepMind, двое из которых в свободное время выступают в качестве комиков-импровизаторов, обратилась к 20 профессиональным комикам оценить работу передовых современных чат-ботов в аспекте написания шуток. Отзывы оказались негативными: ИИ в глазах профессионалов оказался пресным, неоригинальным и чрезмерно политкорректным. Они сделали вывод, что «юмор — сугубо человеческое ремесло; авторы и исполнители должны опираться на личный опыт, социальный контекст и понимание своей аудитории». Это знаменует наличие «фундаментальных проблем» у современных моделей ИИ, которые обучаются на данных моментального временного среза и слабо знакомы с контекстом ситуаций, в которых используются.

DeepMind — не единственный технологический игрок, который задумался о чувстве юмора ИИ или о его отсутствии. Так, стартап Илона Маска (Elon Musk) xAI позиционирует свою модель Grok как более смешную альтернативу считающимся традиционными чат-ботам. На этой неделе Anthropic выпустила свою обновлённую модель ИИ Claude 3.5 Sonnet, которая, как утверждает разработчик, тоньше воспринимает нюансы и юмор. А в одной из недавних демонстраций OpenAI рассказывает голосовой версии GPT «батину шутку», чтобы услышать реакцию — ИИ смеётся, но, возможно, недостаточно убедительно.

Для технологической компании создание смешного ИИ — важная задача. Сейчас основное внимание уделяется разработке чат-ботов, способных обрабатывать всё более сложные запросы и при этом оставаться достаточно приятными собеседниками, чтобы люди хотели продолжать общение с ними дома и на работе. Возможно, в этом их проблема: чтобы научиться смешно шутить, ИИ потребуется стать резче, и это может оскорбить некоторых пользователей. «Нам нужно найти равновесие. Юмор может разъединить людей: у разных аудиторий граница между смешным и обидным пролегает в разных местах. Важно минимизировать этот риск, возможно, за счёт юмора», — рассказала Bloomberg Джульетта Лав (Juliette Love), одна из авторов исследования DeepMind.

Google сменила приоритет в ИИ: коммерческие продукты взяли верх над научными исследованиями

Google реорганизует свои ИИ и меняет приоритеты, смещая фокус с исследований на коммерциализацию. Это станет своего рода ответом на достижения конкурента в лице OpenAI, ведь всё чаще высказываются мысли, что ChatGPT и ему подобные боты в итоге могут заменить традиционный поиск в интернете, сообщает Bloomberg.

 Источник изображения: Google

Источник изображения: Google

Технологический гигант в последнее время переживает не лучшие времена в гонке за лидерство в сфере искусственного интеллекта. Несмотря на то, что компания обладает огромными ресурсами и талантливыми учёными, конкуренты, такие как OpenAI, опережают Google в выпуске инновационных продуктов ИИ.

В мае Google запустила AI Overview — сервис, генерирующий ответы на поисковые запросы. Запуск прошёл не слишком удачно: система стала выдавать абсурдные и опасные рекомендации вроде «есть камни» или «намазывать пиццу клеем». Через неделю Google пришлось ввести ограничения на использование сервиса и фактически признать провал, обвинив пользователей в провокационных поисковых запросах.

А всего за день до анонса AI Overview конкурирующая компания OpenAI представила улучшенную версию своего чат-бота ChatGPT, который моментально завоевал популярность. И ChatGPT, и AI Overview основаны на одной и той же технологии, получившей название Transformer, разработанной Google ещё в 2017 году. Таким образом, компания фактически поделилась своими достижениями с конкурентом, который сегодня обогнал Google в практическом применении.

Google ещё в прошлом году решила объединить свои две элитные команды в области ИИ — Google Brain и DeepMind — в единое подразделение Google DeepMind для улучшения репутации в сфере коммерческих продуктов ИИ, не теряя при этом сильные позиции компании в фундаментальных исследованиях. Подразделение возглавил Демис Хассабис (Demis Hassabis), ранее руководивший DeepMind и известный своими достижениями в области ИИ.

Однако объединение двух разных по культуре подразделений не обошлось без проблем. Некоторые сотрудники жалуются, что чистая наука теперь получает меньше внимания и ресурсов, а приоритет отдаётся продуктам, способным принести доход. Первые попытки выпустить такие продукты оказались не слишком удачными. Те же AI Overview были, как было отмечено выше, омрачены скандалом из-за опасных и вредных советов.

Тем не менее, в компании заявляют, что продолжат работу по улучшению своих продуктов ИИ и их интеграции в сервисы Google. Основные усилия сосредоточены на разработке модели Gemini, которая должна конкурировать с GPT от OpenAI. Хассабис отмечает, что «новые технологии требуют внимательного изучения особенностей их поведения при взаимодействии с пользователями».

Интересно, что ранее Google Brain и DeepMind конкурировали друг с другом, иногда даже скрывая свои разработки друг от друга. Пока что процесс соединения идёт непросто. Учёные жалуются на ограниченный доступ к вычислительным мощностям и давление со стороны менеджмента. А некоторые сотрудники DeepMind вообще покинули компанию после слияния подразделений.

Google представила мощную нейросеть AlphaFold 3 для предсказания структуры белков — её может опробовать каждый

Подразделение Google DeepMind представило новую версию модели искусственного интеллекта AlphaFold, которая предсказывает форму и поведение белков. AlphaFold 3 отличается не только более высокой точностью — теперь система предсказывает взаимодействие белков с другими биологическими молекулами; кроме того, её ограниченная версия теперь бесплатно доступна в формате веб-приложения.

 Источник изображения: blog.google

Источник изображения: blog.google

С выхода первой нейросети AlphaFold в 2018 году она стала ведущим методом прогнозирования структуры белков на основе последовательностей аминокислот, из которых они состоят. Понимание структуры и основ взаимодействия белков лежит в основе почти всей биологии. Классические методы моделирования белков имеют значительные ограничения: даже зная форму, которую примет последовательность аминокислот, нельзя сказать наперёд, с какими другими молекулами она будет связываться и как. И если необходимо достичь какой-то практической цели, требуется кропотливая работа по моделированию и тестированию — ранее на это уходили несколько дней, а иногда даже недель и месяцев.

AlphaFold решает эту задачу, предсказывая вероятную форму молекулы белка по заданной последовательности аминокислот, указывая, с какими другими белками она сможет взаимодействовать. Особенность новой AlphaFold 3 состоит в её способности предсказывать взаимодействие белков с другими биологическими молекулами, в том числе с цепочками ДНК и РНК, а также необходимыми для этого ионами.

Большой проблемой AlphaFold, как и других инструментов на основе ИИ, является сложность в их развёртывании. Поэтому в Google DeepMind запустили бесплатное веб-приложение AlphaFold Server — оно доступно для некоммерческого использования. Платформа достаточно проста в работе: осуществив вход с учётной записью Google, можно ввести несколько последовательностей и категорий, после чего она выдаст результат в виде трёхмерной молекулы, окрашенной в цвет, который отражает уверенность модели в своей правоте. На вопрос о том, есть ли существенная разница между общедоступной версией модели и той, что используется внутри компании, глава подразделения Google DeepMind Демис Хассабис (Demis Hassabis) заверил, что «мы сделали доступными большинство функций новой модели», но подробностей не привёл.

Google потратит не менее $100 млрд на развитие искусственного интеллекта

Инициативами Google в сфере искусственного интеллекта руководит генеральный директор DeepMind Демис Хассабис (Demis Hassabis), который является одним из основателей данного стартапа, купленного Alphabet в 2014 году. В ближайшие годы, по его словам, Google потратит на развитие систем искусственного интеллекта более $100 млрд.

 Источник изображения: DeepMind

Источник изображения: DeepMind

Этот комментарий Хассабис сделал на конференции TED в Ванкувере, как поясняет Bloomberg, когда его спросили о потенциальном создании суперкомпьютера Stargate стоимостью $100 млрд, который якобы готовятся совместно построить Microsoft и OpenAI. Не желая вдаваться в подробности, представитель Google заявил, что корпорация потратит с течением времени более $100 млрд на развитие своих систем искусственного интеллекта. По его словам, Google превосходит Microsoft по своим вычислительным мощностям.

«Это одна из причин, по которым мы скооперировались с Google в 2014 году, поскольку уже тогда знали, что для создания сильного искусственного интеллекта (AGI) нам потребуется много вычислительных мощностей, — подчеркнул сооснователь DeepMind, добавив, — уже тогда это стало очевидным, а Google продолжает обладать самыми производительными компьютерами». По словам Хассабиса, вызванный ChatGPT компании OpenAI интерес публики доказывает, что общественность уже готова принимать системы искусственного интеллекта, даже если они далеки от совершенства и изобилуют ошибками.

Google создала ИИ для проверки фактов в ответах других ИИ

Компания Google разработала ИИ-систему «оценки фактов на основе поисковой выдачи» (Search-Augmented Factuality Evaluator, SAFE), задача которой находить ошибки в ответах сервисов на базе больших языковых моделей (LLM) вроде ChatGPT.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

LLM используются в разных целях, вплоть до написания научных работ, однако они нередко ошибаются, приводя недостоверные сведения, и даже настаивая на их истинности («галлюцинируя»). Новая разработка команды Google DeepMind вычленяет из вывода нейросети отдельные факты, формирует запрос к поисковой системе и пытается найти подтверждения изложенных сведений.

 Источник изображения: Google Deepmind

Источник изображения: Google DeepMind

Во время тестирования SAFE проверила 16 тысяч ответов нескольких сервисов на базе больших языковых моделей, среди которых Gemini, ChatGPT, Claude и PaLM-2, после чего исследователи сравнили результаты с выводами людей, занимавшихся этим вручную. Выводы SAFE на 72 % совпали с мнениями людей, причём при анализе расхождений в 76 % истина оказывалась на стороне ИИ.

Код SAFE опубликован на GitHub и доступен всем желающим проверить надёжность ответов LLM.

Google представила ИИ, который сможет пройти любую игру — он учится играть как человек

Google DeepMind представила ИИ-агента SIMA, обучающегося играть в видеоигры как человек. Название SIMA (Scalable, Instructable, Multiworld Agent) расшифровывается как «масштабируемый, обучаемый, мультимировой агент». Пока SIMA находится только в стадии исследования, но со временем он сможет научиться играть в любую нелинейную видеоигру с открытым миром. Создатели описывают SIMA как «ещё одного игрока, который хорошо вписывается в вашу группу».

 Источник изображений: Google DeepMind

Источник изображений: Google DeepMind

При обучении и тестировании SIMA лаборатория DeepMind сотрудничала с восемью разработчиками игр, включая Hello Games, Embracer, Tuxedo Labs, Coffee Stain. Исследователи подключили SIMA к таким играм, как No Man’s Sky, Teardown, Valheim и Goat Simulator 3. Разработчики утверждают, что SIMA не нуждается в специальном API для запуска игр или доступе к исходному коду.

SIMA сочетает обучение естественному языку с пониманием трёхмерных миров и распознаванием изображений. «SIMA не обучен побеждать в игре, он обучен запускать игру и делать то, что ему говорят», — говорит исследователь Google DeepMind Тим Харли (Tim Harley). Команда выбирала игры, которые больше ориентированы на открытый мир, чем на повествование, чтобы помочь SIMA освоить общие игровые навыки. К примеру, суть игры Goat Simulator — в совершении случайных, спонтанных поступков, и именно такой спонтанности разработчики хотели добиться от своего ИИ-агента.

Команда сгенерировала новую игровую среду при помощи «движка» Unity, в которой агентам было поручено создавать скульптуры, чтобы проверить их понимание манипулирования объектами. Перед этим были записаны совместные действия в этой среде пар игроков-людей, один из которых давал инструкции, а другой выполнял их. Затем записывался процесс самостоятельной игры, чтобы люди могли продемонстрировать получающийся результат. На базе этой информации SIMA обучался предсказывать дальнейшие действия участников игры.

В настоящее время SIMA изучил порядка 600 базовых игровых навыков, таких как движение вперёд-назад, повороты, подъём по лестнице и открытие меню для использования карты. Со временем разработчики планируют поручать SIMA выполнение более сложных функций в игре. На данный момент задачи типа «найти ресурсы и построить лагерь» не под силу ИИ-агенту.

По замыслу создателей, SIMA должен стать ещё одним полноправным участником игры, влияющим на результат. Разработчики считают, что пока преждевременно говорить о том, какое применение подобные агенты ИИ могут принести в игры за пределами исследовательской сферы. Они полагают, что благодаря более совершенным моделям ИИ SIMA в конечном итоге сможет выполнять сложные задачи и стать идеальным членом игровой партии, который приведёт её к победе.

В Google создали конституцию для роботов, которая сделает их безопаснее для людей

Группа, занимающаяся робототехникой в подразделении DeepMind компании Google представила три новых продукта, которые помогут роботам быстрее принимать решения, а также действовать эффективнее и безопаснее, выполняя задачи в окружении людей.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

Система сбора данных AutoRT работает на основе визуальной языковой модели (VLM) и большой языковой модели (LLM) — они помогают роботам оценивать окружающую среду, адаптироваться к незнакомой обстановке и принимать решение о выполнении поставленных задач. VLM применяется для анализа окружающей среды и распознавания объектов в пределах видимости; а LLM отвечает за творческое выполнение задач. Важнейшим нововведением AutoRT стало появление в блоке LLM «Конституции роботов» — направленных на безопасность команд, предписывающих машине избегать выбора задач, в которых участвуют люди, животные, острые предметы и даже электроприборы. В целях дополнительной безопасности роботы программируются на остановку, когда усилие на суставах превышает определённый порог; а в их конструкции теперь есть дополнительный физический выключатель, которым человек может воспользоваться в экстренном случае.

За последние семь месяцев Google развернула в четырёх своих офисных зданиях 53 робота с системой AutoRT и провела более 77 тыс. испытаний. Некоторые из машин управлялись удалённо операторами, другие же выполняли задачи автономно либо на основе заданного алгоритма, либо с использованием ИИ-модели Robotic Transformer (RT-2). Пока все эти роботы выглядят предельно просто: это конечности-манипуляторы на подвижной базе и камеры для оценки обстановки.

Вторым нововведением стала система SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers), направленная на оптимизацию работы модели RT-2. Исследователи установили, что при удвоении входящих данных, например, повышении разрешения на камерах, потребность робота в вычислительных ресурсах возрастает вчетверо. Эту проблему удалось решить за счёт нового метода тонкой настройки ИИ, получившего название up-training — этот метод обращает квадратичный рост потребности в вычислительных ресурсах почти в линейный. За этот счёт модель работает быстрее, сохраняя прежнее качество.

Наконец, инженеры Google DeepMind разработали ИИ-модель RT-Trajectory, которая упрощает обучение роботов выполнению конкретных задач. Поставив задачу, оператор сам демонстрирует образец её выполнения; RT-Trajectory анализирует заданную человеком траекторию движения и адаптирует её к действиям робота.

Tesla потеряла главу отдела ИИ — Тим Заман перешёл в Google DeepMind

Тим Заман (Tim Zaman) ушёл из автомобильной компании Tesla, где с 2019 года возглавлял отдел AI Infra и принимал активное участие в создании суперкомпьютеров Dojo на базе специальных чипов Tesla D1. Одновременно c этой деятельностью он почти год курировал отдел машинного обучения в X (ранее Twitter). После приобретения Илоном Маском (Elon Musk) компании Twitter, он привлёк многих сотрудников Tesla к работе «по совместительству» в этой социальной сети.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Тим Заман объявил о переходе из Tesla в компанию Google через несколько дней после того, как Google DeepMind представила нейросеть Gemini, свой ответ на серию больших языковых моделей OpenAI GPT. «В этот понедельник я присоединяюсь к Google DeepMind. Рад быть ребёнком среди легенд! — заявил Заман. — С 2016 года работал в NVIDIA, с 2019 — в Tesla. Теперь моя интуиция подводит меня к следующему предприятию, в котором есть ингредиенты, чтобы снова изменить мир».

 Тим Заман о себе на своём сайте www.timzaman.nl

Тим Заман о себе на своём сайте www.timzaman.nl

Осведомлённые аналитики утверждают, что на решение Замана о переходе в Google DeepMind повлиял уход из Tesla руководителя проекта Dojo Ганеша Венкатараманана (Ganesh Venkataramanan). Под названием Dojo были представлены несколько суперкомпьютеров Tesla, в которых используются специальные чипы Tesla D1, разработанные командой Венкатараманана и изготовленные TSMC.

Dojo были анонсированы в 2021 году, а первый суперкомпьютер был запущен в эксплуатацию в 2022 году. Он содержит около 3000 чипов D1, что обеспечивает общую производительность 1,1 эксафлопс для вычислений смешанной точности (BF16/CFP8). В настоящее время Tesla развернула несколько своих суперкомпьютеров Dojo в различных центрах обработки данных и создаёт собственный вычислительный центр в штаб-квартире в Остине, штат Техас.

Google разработала ИИ, который даёт самые точные в мире прогнозы погоды

Лондонская лаборатория искусственного интеллекта Google DeepMind разработала систему, которая, по словам авторов проекта, составляет самые точные в мире прогнозы погоды на десять дней. Модель получила название GraphCast — она работает быстрее и точнее погодного симулятора HRES (High-Resolution Forecast), который считается отраслевым стандартом.

 Источник изображения: deepmind.google

Источник изображения: deepmind.google

Данные GraphCast были проанализированы экспертами Европейского центра среднесрочных прогнозов погоды (ЕЦСПП) — межправительственной организацией, которая составляет HRES. Действующая версия GraphCast размещена на сайте ЕЦСПП. В сентябре она за девять дней предсказала, что на побережье Новой Шотландии (Канада) обрушится ураган «Ли», а традиционные средства прогнозирования установили это лишь за шесть дней. Кроме того, они оказались менее точными в аспекте времени и места выхода стихии на берег.

GraphCast способна идентифицировать опасные погодные явления, даже не будучи обученной их находить. С интеграцией простого средства отслеживания циклонов модель прогнозирует их движение более точно, чем метод HRES. Учитывая, что климат становится всё более непредсказуемым, своевременность и точность прогнозов окажется критической при планировании мероприятий перед лицом угрозы стихийных бедствий.

Традиционные методы составления прогнозов погоды основаны на сложных физических уравнениях — они переводятся в алгоритмы, которые обрабатываются суперкомпьютерами. Это кропотливый процесс, который требует специальных знаний и огромных вычислительных ресурсов. Модель GraphCast сочетает алгоритмы машинного обучения и графовые нейросети — архитектуру для обработки пространственно структурированных данных. Для изучения причинно-следственных связей систему обучили на массиве метеорологической информации за 40 лет: ЕЦСПП предоставил данные мониторинга со спутников, радаров и метеостанций. Алгоритм, впрочем, не пренебрегает и традиционными подходами: когда в наблюдениях обнаруживаются пробелы, они восполняются за счёт физических методов прогнозирования.

 Источник изображения: charts.ecmwf.int

Источник изображения: charts.ecmwf.int

GraphCast составляет прогнозы в разрешении 0,25° широты и долготы. Иными словами, Земля разбита на миллион участков, по каждому из которых готовится прогноз с пятью переменными на земной поверхности и шести атмосферными показателями, которые охватывают атмосферу планеты в трёх измерениях на 37 уровнях. Переменные включают в себя показатели температуры, ветра, влажности, осадков и давления на уровне моря. Учитывается также геопотенциал — гравитационная потенциальная энергия на единицу массы в указанной точке относительно уровня моря. В ходе испытаний модель GraphCast на 90 % превзошла самые точные детерминированные системы для 1380 тестовых объектов. В тропосфере — нижнем слое атмосферы — прогнозы GraphCast оказалась точнее HRES по 99,7 % тестовых переменных. При этом модель демонстрирует высокую эффективность: прогноз на десять дней выполняется менее чем за минуту на одной машине Google TPU v4, тогда как традиционный подход требует нескольких часов работы суперкомпьютера с сотнями машин.

Несмотря на внушительные результаты, разработка GraphCast ещё не завершена: модель достаточно точно оценивает движение циклонов, но пока уступает традиционным методам в составлении их характеристик. Не исключено, что модель будет совершенствоваться и по другим аспектам, что только повысит её точность. Google DeepMind предлагает всем желающим присоединяться к проекту — разработчик опубликовал исходный код модели.


window-new
Soft
Hard
Тренды 🔥
Подарок к юбилею: спустя пять лет после запуска Call of Duty: Mobile достигла миллиарда загрузок 2 ч.
В «Google Сообщениях» можно будет выбирать качество отправляемых изображений 2 ч.
Арестован хакер, подозреваемый во взломе Ticketmaster и десятков других клиентов Snowflake 3 ч.
Вышла вторая бета iOS 18.2 — Siri с ChatGPT Plus, улучшенный «Локатор» и другие изменения 3 ч.
«Яндекс», подвинься: VK начнёт предустанавливать свои сервисы на автомобили в России 3 ч.
Система управления уязвимостями Security Vision Vulnerability Management получила крупное обновление 3 ч.
Meta оштрафовали в Южной Корее на $15 млн за незаконный сбор пользовательских данных 3 ч.
Ubisoft поделилась деталями самого крупного обновления для Star Wars Outlaws и сменила творческого руководителя игры 4 ч.
Хакер заявил о краже исходного кода Nokia — компания расследует инцидент 7 ч.
Dragon Age: The Veilguard испортит фанатам Mass Effect день N7 8 ч.