Сегодня 03 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → суперкомпьютер
Быстрый переход

36 000 графических процессоров AMD создали крупнейшую модель Вселенной

Вселенная слишком большая и старая, чтобы в реальном времени наблюдать за происходящими в ней процессами. Между тем, только наблюдения дают истинные представления о мире, в котором мы живём. Выход находится в моделировании. Суперкомпьютеры могут воссоздавать модель Вселенной в определённых рамках, но требуют взамен использования немалых ресурсов, которые, к счастью, сегодня доступны учёным.

 Источник изображения: Argonne National Laboratory

Источник изображения: Argonne National Laboratory

Несколько лет подготовки и настраивания алгоритмов позволили создать крупнейшую за всю историю цифровую модель части Вселенной. Работа завершена в ноябре 2024 года. Суперкомпьютер Frontier в Ок-Риджской национальной лаборатории (ORNL) силами своих 9000 узлов, где каждый узел представлен процессором AMD EPYC 3-го поколения и четырьмя GPU-ускорителями AMD Instinct 250X, создал модель расширяющейся Вселенной объёмом свыше 31 млрд Мпс3 (мегапарсек кубических).

«Во Вселенной есть два компонента: тёмная материя, которая, насколько нам известно, взаимодействует только гравитационно, и обычная материя, или атомное вещество, — объясняет физик Салман Хабиб (Salman Habib) из Аргоннской национальной лаборатории в США, который руководил работой. — Итак, если мы хотим знать, что представляет собой Вселенная, нам нужно смоделировать обе эти вещи: гравитацию, а также всю остальную физику, включая горячий газ, и образование звёзд, чёрных дыр и галактик; астрофизическую "кухню", так сказать. Эти симуляции — это то, что мы называем симуляциями космологической гидродинамики».

Тем самым нетрудно понять, что проект под названием ExaSky — крупнейшая за всю истории симуляция Вселенной — поможет учёным лучше разобраться в физике и эволюции Вселенной, включая исследование природы тёмной материи. Модель позволяет ускоренно просматривать эволюционные трансформации вещества под разными углами и с разных сторон. Соотнесение наблюдаемого в реальной Вселенной с эволюцией в модели поможет уточнить теорию и практику, а также обратит внимание на нюансы, которые могли ускользнуть от понимания.

Прежде чем мы увидим какие-либо публикации на основе работы с новой моделью Вселенной, пройдёт год или больше, но учёные уже сегодня предлагают ознакомиться с фрагментом модели. В подготовленном для этого видеоролике представлена всего одна тысячная от всей модели — объём пространства 311 296 Мпс3 или куб со сторонами 64 × 64 × 76 Мпс. Это стало настоящим вызовом для мощностей Frontier, добавляют учёные, но оно того стоило.

El Capitan на базе чипов AMD стал самым быстрым суперкомпьютером в мире

El Capitan, оснащённый процессорами AMD, занял первое место в рейтинге самых мощных суперкомпьютеров мира с производительностью 1,7 эксафлопс, превзойдя предыдущего лидера Frontier с показателем 1,3 эксафлопс. Aurora компании Intel опустилась на третье место.

 Источник изображения: AMD

Источник изображения: AMD

El Capitan представляет из себя массивную систему, состоящую из 44 544 гибридных процессоров AMD Instinct MI300A и 11 136 узлов. Объём основной памяти составляет 5,4 петабайта, а за обработку больших объёмов данных отвечает локальная система хранения «Rabbit». Как сообщает Tom's Hardware, в рамках теста High-Performance Linpack (HPL) была показана реальная производительность в 1,742 эксафлопс, что на 45 % быстрее, чем у ближайшего конкурента. Теоретический пик производительности достигает 2,746 эксафлопс, однако такие показатели в реальном мире практически недостижимы.

Суперкомпьютер будет использоваться в США для моделирования ядерных взрывов и оценки состояния ядерного арсенала страны. Помимо этого, система позволит разрабатывать новые межконтинентальные баллистические ракеты (ICBM) и решать задачи, связанные с высокопроизводительными вычислениями и искусственным интеллектом. El Capitan способен обрабатывать данные с высокой точностью (FP64), что необходимо для научных и инженерных задач, в отличие от систем, ориентированных только на задачи ИИ.

 Источник изображения: AMD

Источник изображения: AMD

El Capitan был построен компанией HPE на базе архитектуры Shasta, которая также используется в других экcафлопсных системах, таких как Frontier и Aurora. Все три суперкомпьютера занимают ведущие позиции в рейтинге Top500, что подтверждает лидерство HPE в создании высокопроизводительных вычислительных систем. Frontier, который теперь находится на втором месте, также продемонстрировал улучшенные результаты по сравнению с предыдущими тестами, увеличив свою производительность до 1,353 эксафлопс.

Известно также, что система потребляет более 35 МВт энергии при полной нагрузке и занимает 18-е место в рейтинге самых энергоэффективных суперкомпьютеров Green500, демонстрируя 58,89 GFLOPS на Вт. Суперкомпьютер El Capitan насчитывает более 11 миллионов вычислительных ядер, интегрированных в процессоры Instinct MI300A, которые объединяют в одном корпусе как CPU, так и GPU. Каждый процессор MI300A включает в себя 146 миллиардов транзисторов и использует передовые технологии 3D-упаковки чипов, что позволяет значительно улучшить энергоэффективность и производительность.

Отдельное внимание привлекает ситуация с суперкомпьютером Aurora, построенным на базе технологий Intel. Несмотря на заявленные ранее результаты, система не смогла предоставить новые данные для рейтинга, что указывает на продолжающиеся проблемы с оборудованием и охлаждением. При этом Aurora всё ещё остаётся самым мощным ИИ-суперкомпьютером в мире с производительностью 10,6 эксафлопс в задачах смешанной точности.

Nvidia поможет Google в разработке эффективных квантовых процессоров

Компания Nvidia поможет Alphabet, материнской компании Google, в разработке квантовых процессоров. Согласно заявлению обеих компаний, подразделение Google Quantum AI будет использовать суперкомпьютер Nvidia Eos для ускорения проектирования квантовых компонентов.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Идея состоит в том, чтобы на базе суперкомпьютера Nvidia Eos моделировать физические процессоры, необходимые для работы квантовых процессоров, что поможет преодолеть текущие ограничения в разработке по-настоящему эффективных квантовых систем.

Квантовые вычисления основаны на принципах использования квантовой механики для создания машин, которые будут намного быстрее, чем современные технологии на основе полупроводников. Однако для массового характера использования таких технологий время пока не пришло. Как сообщает Bloomberg, несмотря на то, что различные компании заявляли о прорывах в области квантовых вычислений, могут потребоваться десятилетия, чтобы на рынке появились действительно крупномасштабные коммерческие проекты, связанные с квантовыми вычислениями.

Nvidia, самая дорогая компания в мире, считает, что её аппаратные технологии помогут Google решить одну сложную проблему, связанную с квантовыми вычислениями. По мере того, как квантовые процессоры становятся всё более сложными и мощными, в квантовых вычислениях становится всё сложнее различать фактическую информацию и помехи, известные как шум.

«Разработка коммерчески полезных квантовых компьютеров возможна только в том случае, если мы сможем масштабировать квантовое оборудование, контролируя шум. Используя ускоренные вычисления Nvidia, мы изучаем влияние шума на растущую сложность схем квантовых чипов», — прокомментировал Гифре Видал (Guifre Vidal), научный сотрудник Google Quantum AI.

Для поиска решений Nvidia предлагает использовать гигантский суперкомпьютер, в котором используются её ИИ-ускорители. С помощью суперкомпьютера будут моделироваться процессы взаимодействия квантовых систем с окружающей средой. Например, многие квантовые чипы необходимо охлаждать до очень низких температур, чтобы они вообще работали.

Раньше такие вычисления были чрезвычайно дорогими и отнимали много времени. Nvidia заявляет, что её система будет выдавать результаты расчётов, на которых ранее ушла бы неделя, за считанные минуты, и это обойдётся значительно дешевле.

«Больше, чем у кого-либо»: Цукерберг похвастался системой с более чем 100 тыс. Nvidia H100 — на ней обучается Llama 4

Среди американских IT-гигантов зародилась новая забава — соревнование, у кого больше кластеры и твёрже уверенность в превосходстве своих мощностей для обучения больших языковых моделей ИИ. Лишь недавно глава компании Tesla Илон Маск (Elon Musk) хвастался завершением сборки суперкомпьютера xAI Colossus со 100 тыс. ускорителей Nvidia H100 для обучения ИИ, как об использовании более 100 тыс. таких же ИИ-ускорителей сообщил глава Meta Марк Цукерберг (Mark Zuckerberg).

 Источник изображения: CNET/YouTube

Источник изображения: CNET/YouTube

Глава Meta отметил, что упомянутая система используется для обучения большой языковой модели нового поколения Llama 4. Эта LLM обучается «на кластере, в котором используется больше 100 000 графических ИИ-процессоров H100, и это больше, чем что-либо, что я видел в отчётах о том, что делают другие», — заявил Цукерберг. Он не поделился деталями о том, что именно уже умеет делать Llama 4. Однако, как пишет издание Wired со ссылкой на заявление главы Meta, их ИИ-модель обрела «новые модальности», «стала сильнее в рассуждениях» и «значительно быстрее».

Этим комментарием Цукерберг явно хотел уколоть Маска, который ранее заявлял, что в составе его суперкластера xAI Colossus для обучения ИИ-модели Grok используются 100 тыс. ускорителей Nvidia H100. Позже Маск заявил, что количество ускорителей в xAI Colossus в перспективе будет увеличено втрое. Meta также ранее заявила, что планирует получить до конца текущего года ИИ-ускорители, эквивалентные более чем полумиллиону H100. Таким образом, у компании Цукерберга уже имеется значительное количество оборудования для обучения своих ИИ-моделей, и будет ещё больше.

Meta использует уникальный подход к распространению своих моделей Llama — она предоставляет их полностью бесплатно, позволяя другим исследователям, компаниям и организациям создавать на их базе новые продукты. Это отличает её от тех же GPT-4o от OpenAI и Gemini от Google, доступных только через API. Однако Meta всё же накладывает некоторые ограничения на лицензию Llama, например, на коммерческое использование. Кроме того, компания не сообщает, как именно обучаются её модели. В остальном модели Llama имеют природу «открытого исходного кода».

С учётом заявленного количества используемых ускорителей для обучения ИИ-моделей возникает вопрос — сколько электричества всё это требует? Один специализированный ускоритель может съедать до 3,7 МВт·ч энергии в год. Это означает, что 100 тыс. таких ускорителей будут потреблять как минимум 370 ГВт·ч электроэнергии — как отмечается, достаточно для того, чтобы обеспечить энергией свыше 34 млн среднестатистических американских домохозяйств. Каким образом компании добывают всю эту энергию? По признанию самого Цукерберга, со временем сфера ИИ столкнётся с ограничением доступных энергетических мощностей.

Компания Илона Маска, например, использует несколько огромных мобильных генераторов для питания суперкластера из 100 тыс. ускорителей, расположенных в здании площадью более 7000 м2 в Мемфисе, штат Теннесси. Та же Google может не достичь своих целевых показателей по выбросам углерода, поскольку с 2019 года увеличила выбросы парниковых газов своими дата-центрами на 48 %. На этом фоне бывший генеральный директор Google даже предложил США отказаться от поставленных климатических целей, позволив компаниям, занимающимся ИИ, работать на полную мощность, а затем использовать разработанные технологии ИИ для решения климатического кризиса.

Meta увильнула от ответа на вопрос о том, как компании удалось запитать такой гигантский вычислительный кластер. Необходимость в обеспечении растущего объёма используемой энергии для ИИ вынудила те же технологические гиганты Amazon, Oracle, Microsoft и Google обратиться к атомной энергетике. Одни инвестируют в разработку малых ядерных реакторов, другие подписали контракты на перезапуск старых атомных электростанций для обеспечения растущих энергетических потребностей.

Илон Маск удвоит, а после утроит мощность ИИ-суперкомпьютера xAI Colossus — там будет 300 тыс. Nvidia H100 и H200

Илон Маск (Elon Musk) стремится стать лидером в гонке по созданию нейросетей следующего поколения. Для этого он планирует вдвое расширить ИИ-кластер xAI Colossus, который в настоящее время включает в себя 100 тыс. графических ускорителей Nvidia H100.

 Источник изображения: servethehome.com

Источник изображения: servethehome.com

Эта новость пришла от Nvidia, а позднее сам Маск подтвердил её в своём аккаунте в соцсети X, написав, что ИИ-суперкомпьютер Colossus близок к тому, чтобы вместить 200 тыс. ускорителей Nvidia H100 и H200, которые разместятся в здании площадью более 7000 м² в Мемфисе, штат Теннесси. Суперкомпьютер Colossus примечателен тем, что сотрудники xAI сумели собрать его и ввести в эксплуатацию в крайне сжатые сроки. Обычно на создание суперкомпьютеров уходят годы, но в данном случае, по словам Маска, весь процесс от начала до конца занял 122 дня.

При этом принадлежащая миллиардеру xAI потратила на создание Colossus не менее $3 млрд, поскольку сейчас он состоит из 100 тыс. ускорителей Nvidia H100, которые обычно стоят в районе $30 тыс. за штуку. Теперь же бизнесмен намерен модернизировать кластер за счёт использования более производительных ускорителей H200, каждый из которых стоит около $40 тыс. В конечном счёте Маску придётся потратить ещё несколько миллиардов долларов, не говоря уже о затратах на электроэнергию для поддержания работоспособности кластера. Конечная цель бизнесмена состоит в том, чтобы к лету следующего года нарастить количество используемых ускорителей до 300 тыс. единиц, причём для дальнейшей модернизации планируется задействовать новейшие Nvidia Blackwell B200.

Маск делает большую ставку на ИИ-ускорители Nvidia с целью дальнейшего развития чат-бота Grok от xAI и других технологий на базе нейросетей. Ранее на этой неделе в интернете появилось видео, демонстрирующее ИИ-кластер xAI изнутри, в котором можно увидеть множество серверных стоек с ускорителями Nvidia.

Google снова показала квантовое превосходство — квантовые компьютеры стали ближе к практическому применению

Группа учёных под руководством Google сообщила о прорыве в области квантовых вычислений. Они снова продемонстрировали квантовое превосходство — способность квантового компьютера выполнять вычисления, на которые не способен классический, — но на этот раз сосредоточились на точности вычислений. Также учёные показали, что существуют фазовые переходы в вычислительных процессах, что открывает путь к дальнейшему развитию квантовых технологий.

 Источник изображений: Google, Nature

Источник изображений: Google, Nature

Ещё в 2019 году Google заявляла о достижении квантового превосходства, вызвав бурные споры в научном сообществе. Тогда IBM подвергла сомнению этот результат, утверждая, что классические алгоритмы могут быть оптимизированы для решения аналогичных задач. В новой работе, опубликованной в журнале Nature, учёные описали эксперимент с использованием метода случайной выборки цепей (Random Circuit Sampling, RCS), в ходе которого 67-кубитная система выполнила 32 цикла вычислений. Акцент сделан не на квантовом превосходстве, а на том, что даже при наличии шумов — основного ограничения для квантовых процессоров и главной причины ошибок вычислений — можно добиться вычислительных успехов, которые превосходят возможности классических систем. Это доказывает, что квантовые вычисления приближаются к фазе практического применения.

Термин «квантовое превосходство» вызывает определённые споры в научном сообществе. Некоторые исследователи предпочитают использовать термины «квантовая полезность» (Quantum Utility) или «квантовое преимущество» (Quantum Advantage). Последний термин подразумевает не только теоретическое превосходство квантовых устройств, но и их практическую пользу. В отличие от квантового превосходства, которое не связано с реальной полезностью для задач, квантовое преимущество предполагает выполнение задач быстрее и эффективнее, чем на классических компьютерах.

Квантовые процессоры, несмотря на их потенциал, остаются чрезвычайно чувствительными к внешним шумам, таким как температурные колебания, магнитные поля или даже космическая радиация. Эти помехи могут существенно снижать точность вычислений. В исследовании Google учёные изучили влияние шума на работу квантовых устройств и провели эксперимент, который позволил исследовать два ключевых фазовых перехода: динамический переход, зависящий от числа циклов, и квантовый фазовый переход, влияющий на уровень ошибок. Результаты показали, что даже в условиях шума квантовые системы эпохи NISQ могут достичь вычислительной сложности, недоступной для классических систем.

 Фазовые переходы в случайной выборке цепей (RCS). График иллюстрирует два фазовых перехода. Первый — от сосредоточенного распределения битовых строк на малом числе циклов к широкому или антиконцентрированному распределению. Второй — переход в условиях шума, при котором высокая ошибка на цикл приводит к переходу от системы с полной корреляцией к представлению в виде нескольких несвязанных подсистем

Фазовые переходы в случайной выборке цепей (RCS). График иллюстрирует два фазовых перехода. Первый — от сосредоточенного распределения битовых строк на малом числе циклов к широкому или антиконцентрированному распределению. Второй — переход в условиях шума, при котором высокая ошибка на цикл приводит к переходу от системы с полной корреляцией к представлению в виде нескольких несвязанных подсистем

Метод случайной выборки цепей (RCS), использованный в эксперименте, ранее подвергался критике за свою простоту и кажущуюся бесполезность. Однако Google подчёркивает, что RCS является ключевым методом для перехода к задачам, которые невозможно решить на классических компьютерах. Этот метод оптимизирует квантовые корреляции с использованием операций типа iSWAP, что предотвращает упрощение классических эмуляций. Благодаря этому подходу Google смогла чётко обозначить границы возможностей квантовых систем, стимулируя конкуренцию между квантовыми и классическими вычислительными платформами.

В исследовании также рассматриваются перспективы практического использования квантовых процессоров. Одним из первых примеров может стать сертифицированное генерирование по-настоящему случайных чисел, требующее высокой вычислительной сложности и устойчивости к шумам. Серджио Бойксо (Sergio Boixo), руководитель квантовых исследований Google, в своём интервью для Nature отметил: «Если квантовые устройства не смогут продемонстрировать преимущество с помощью RCS, самого простого из примеров использования, то вряд ли они смогут это сделать в других задачах».

 Дорожная карта развития квантовых вычислений Google

Дорожная карта развития квантовых вычислений Google

Работа Google представляет собой значительный вклад в развитие квантовых технологий. Хотя практическое применение квантовых устройств остаётся сложной задачей, такие направления, как сертифицированное генерирование случайных чисел, могут стать первым шагом к их коммерческому использованию. Несмотря на сложности, связанные с шумами, эксперименты Google показывают, что переход от теоретических исследований к практическому применению квантовых устройств становится всё более реальным.

Япония построит зеттафлопсный суперкомпьютер — самый мощный в мире

Министерство образования, культуры, спорта, науки и технологий Японии (MEXT) объявило о планах построить преемник суперкомпьютера «Фугаку» (Fugaku), который ранее был самым быстрым в мире. Институт физико-химических исследований (RIKEN) и компания Fujitsu начнут его разработку в следующем году, сообщает Nikkei.

 Источник изображений: riken.jp

Источник изображений: riken.jp

Новый суперкомпьютер продемонстрирует производительность для алгоритмов искусственного интеллекта в 50 экзафлопс с пиковой производительностью зеттафлопсного масштаба в отдельных задачах — машина будет использоваться для работы с ИИ в научных целях. Другими словами, система сможет выполнять один секстиллион операций с плавающей запятой; зеттафлопс в тысячу раз быстрее экзафлопса, и если к 2030 году Япония построит такую систему, у неё действительно будет самый производительный суперкомпьютер в мире.

Каждый вычислительный узел суперкомпьютера Fugaku Next будет иметь пиковую производительность в несколько сотен терафлопс для вычислений с двойной точностью (FP64), около 50 петафлопс для вычислений с точностью FP16 и около 100 петафлопс для вычислений с 8-битной точностью; память HBM обеспечит пропускную способность в несколько сотен Тбайт/с. Для сравнения, вычислительный узел «Фугаку» демонстрирует 3,4 Тфлопс для вычислений с двойной точностью, 13,5 Тфлопс для вычислений с половинной точностью (FP16), а пропускная способность памяти составляет 1,0 Тбайт/с.

На первый год разработки системы министерство выделит 4,2 млрд иен ($29,05 млн), а общее государственное финансирование превысит 110 млрд иен ($761 млн). Возглавит разработку RIKEN, один из самых известных исследовательских институтов Японии; а с учётом того, что MEXT требует максимального присутствия японских технологий в системе, разработкой оборудования будет заниматься преимущественно Fujitsu. Какие-то конкретные требования к архитектуре Fugaku Next в документах MEXT не указываются — вероятно, это будут центральные процессоры со специализированными ускорителями или комбинация центральных и графических процессоров.

Если преемник «Фугаку» будет работать на процессорах Fujitsu, он получит чипы, которые выйдут после MONAKA, у которых на борту до 150 ядер Armv9. Речь идёт о компоненте в мультичиплетной конфигурации, распределенной по многоядерным кристаллам и кристаллами SRAM и ввода-вывода. Последние обеспечивают работу с памятью DDR5, а также интерфейсами PCIe 6.0 и CXL 3.0 для различных ускорителей и периферии. Кристаллы ядер будут производиться с использованием 2-нм техпроцесса TSMC. Преемник Fujitsu MONAKA получит большее число ядер и более мощные интерфейсы — он, возможно, станет изготавливаться по техпроцессу класса 1 нм или ещё более передовому.

Илон Маск показал ИИ-суперкомпьютер Cortex — 50 тыс. Nvidia H100 будут обучать ИИ для автопилота Tesla

Илон Маск (Elon Musk) опубликовал в соцсети X видео, снятое на своём новом объекте — суперкластере для обучения искусственного интеллекта Cortex, который расположился близ завода Giga Texas компании Tesla. На объекте будут работать 70 000 ИИ-серверов, которые в общей сложности будут потреблять 130 МВт. А к 2026 году суперкомпьютер будет расширен до 500 МВт.

 Источник изображений: x.com/elonmusk

Источник изображений: x.com/elonmusk

На видео продемонстрирован процесс сборки серверных стоек — ряды по 16 единиц перемежаются примерно четырьмя стойками без ИИ-ускорителей. Каждая стойка включает восемь серверов. На 20-секундный ролик попали где-то 16–20 рядов серверных стоек, что при грубой оценке даёт около 2000 серверов с ускорителями или 3 % от общей предполагаемой мощности объекта.

Cortex должен стать крупнейшим у Tesla суперкластером для обучения систем ИИ — здесь будут работать 50 тыс. ускорителей Nvidia H100 и 20 тыс. ускорителей собственной разработки компании, хотя ранее предполагалось, что их тоже будет 50 тыс. Ускорители Tesla установят несколько позже, а при запуске объекта здесь будет работать только оборудование Nvidia. Система создаётся для «решения задач ИИ в реальном мире». Речь идёт об обучении системы автопилота Tesla Full Self Driving (FSD) для потребительских автомобилей и Cybertaxi, а также обучении ИИ для робота Optimus, чьё мелкосерийное производство, как ожидается, будет запущено в 2025 году.

Ранее Маск опубликовал снимок гигантских вентиляторов объекта Cortex, подключённых к системе жидкостного охлаждения Supermicro, которая справится со всем 500-МВт объектом. Первым центром обработки данных Маска, который будет введён в эксплуатацию, станет принадлежащий его стартапу xAI Memphis Supercluster со 100 тыс. Nvidia H100 в единой структуре RDMA и с охлаждением Supermicro — в перспективе к ним будут подключены ещё 300 тыс. B200, но из-за недостатков конструкции их ввод в эксплуатацию задерживается на несколько месяцев. Кроме того, в городе Буффало (шт. Нью-Йорк) готовится к запуску принадлежащий Tesla суперкомпьютер Dojo стоимостью $500 млн.

Илон Маск показал суперкомпьютер Dojo для обучения автопилота Tesla — он эквивалентен 8000 ИИ-ускорителей Nvidia H100

Запустив Memphis Supercluster«самый мощный в мире кластер для обучения искусственного интеллекта», Илон Маск (Elon Musk) также поделился снимком ещё одного суперкомпьютера одной из своих компаний. Это система Dojo, построенная на разработанных Tesla ускорителях Dojo D1, которая будет обучать автопилот для электромобилей. В ходе квартального отчёта Маск также сообщил, что удвоит усилия по разработке и развёртыванию Dojo из-за высоких цен на продукцию Nvidia.

 Источник изображений: x.com/elonmusk

Источник изображений: x.com/elonmusk

Маск пообещал до конца года запустить Dojo D1. Производительность этого кластера эквивалентна 8000 ускорителей Nvidia H100, что, по мнению бизнесмена, «не очень много, но и не мелочь». Для сравнения, открытый в Теннеси суперкомпьютер xAI для обучения ИИ в итоге будет оперировать 100 тыс. ускорителями Nvidia H100.

Маск впервые представил гигантские чипы Dojo D1 в 2021 году — их целевая производительность составляет 322 Тфлопс. В августе прошлого года Tesla занялась поиском старшего инженера по программе технических работ в центре обработки данных — это один из первых шагов, которые обычно предпринимаются организацией при планировании запуска собственного ЦОД. В сентябре Tesla также увеличила объёмы заказов на Dojo D1, что свидетельствует об уверенности компании в продукте. В мае стало известно, что их массовое производство уже идёт.

Похоже, теперь эти ускорители прибыли в США, и Маск уже поделился снимками суперкомпьютера Dojo. Чип Dojo D1 представляет собой процессор типа «система на пластине» в массиве 5 × 5. То есть 25 сверхпроизводительных кристаллов выполнены на одной пластине и соединены между собой с использованием технологии TSMC InFO (Integrated Fan-Out) — они работают как единый процессор и оказываются эффективнее аналогичных многопроцессорных машин. Предприятие в Теннесси принадлежит xAI и используется преимущественно для обучения большой языковой модели Grok, а чипы Dojo ориентированы на видеообучение и будут применяться для работы над технологией автопилота.

Илон Маск собрался обучить мощнейший ИИ в истории к декабрю, для чего запустил самый мощный в мире ИИ-кластер со 100 тыс. Nvidia H100

Американский бизнесмен Илон Маск (Elon Musk) в своём аккаунте в социальной сети X заявил о запуске его ИИ-стартапом xAI «самого мощного в мире кластера для обучения ИИ». Данная система, по словам Маска, обеспечит «значительное преимущество в обучении самого мощного в мире ИИ по всем показателям к декабрю этого года».

 Источник изображения: xAI / X

Источник изображения: xAI / X

«Система со 100 тыс. H100 с жидкостным охлаждением на единой RDMA-шине стала самым мощным кластером для обучения ИИ в мире», — отметил Маск в своём сообщении. Участвовал ли бизнесмен лично в запуске ИИ-суперкомпьютера, неизвестно, но на опубликованном снимке видно, что как минимум он общался с инженерами xAI во время подключения оборудования.

Ранее в этом году СМИ писали о стремлении Маска запустить так называемую «гигафабрику для вычислений», которая представляет собой гигантский дата-центр с самым производительным в мире ИИ-суперкомпьютером, к осени 2025 года. Начало формирования кластера для обучения ИИ потребовало закупки огромного количества ускорителей Nvidia H100. Похоже, что у бизнесмена не хватило терпения, чтобы дождаться выхода ускорителей H200, не говоря уже о будущих моделях B100 и B200 поколения Blackwell, которые, как ожидается, будут выпущены до конца этого года.

Позднее Маск написал, что ИИ-суперкомпьютер будет задействован для обучения самого мощного по всем показателям ИИ. Вероятно, речь идёт об алгоритме Grok 3, этап обучения которого должен закончиться к концу этого года. Любопытно, что расположенный в дата-центре в Мемфисе ИИ-суперкомпьютер, по всей видимости, значительно превосходит аналоги. К примеру, суперкомпьютер Frontier построен на базе 27 888 ускорителей AMD, в Aurora используется 60 тыс. ускорителей Intel, а в Microsoft Eagle — 14 400 ускорителей H100 от Nvidia.

Илон Маск заявил, что суперкомпьютер Tesla увеличит мощность до 500 МВт через полтора года

Опубликованное одним из техасских блогеров пару дней назад видео облёта территории местного предприятия Tesla продемонстрировало процесс строительства новых корпусов для корпоративного центра обработки данных, некоторые зрители даже сравнили элементы системы охлаждения с вентиляторами видеокарты. Илон Маск (Elon Musk) добавил, что этот ЦОД через полтора года будет потреблять до 500 МВт энергии.

 Источник изображения: YouTube, Brad Sloan

Источник изображения: YouTube, Brad Sloan

На своей странице в социальной сети X миллиардер добавил, что в этом году суперкомпьютерный кластер Tesla в Техасе, ранее известный под условным обозначением Dojo, будет потреблять до 130 МВт электроэнергии на своё питание и охлаждение, а дальнейшее его расширение в последующие 18 месяцев приведёт к тому, что уровень энергопотребления превысит 500 МВт.

Не менее важным оказалось замечание Маска по поводу состава серверного оборудования, которое будет эксплуатироваться в кластере. Он подчеркнул, что процессорами собственной разработки Tesla ограничиваться не будет, и они сформируют лишь половину аппаратной базы этого кластера. Вторую половину сформирует оборудование Nvidia и других поставщиков. «Играть ради победы или вообще не играть», — пояснил свой принцип Илон Маск со страниц социальной сети X.

Говоря о перспективе появления бортовых компьютеров Tesla для автопилота, следующего поколения, Илон Маск пояснил, что пятое поколение бортовых ПК будет носить обозначение AI5, и выйдет оно во второй половине следующего года. По всей видимости, от банального сокращения «HW» (от английского hardware — аппаратное обеспечение) компания решила перейти на более актуальное «AI» (artificial intelligence — искусственный интеллект), чтобы подчеркнуть спектр решаемых новой платформой задач. По словам Маска, AI5 будет примерно в десять раз быстрее HW4. Компания также будет самостоятельно разрабатывать всё программное обеспечение для своего суперкомпьютерного кластера, как добавил её генеральный директор.

Intel ставит крест на Xeon Phi — поддержка Knights Mill и Knights Landing удалена из LLVM

После многих лет ожиданий и разочарований компания Intel удалила поддержку своих ускорителей Xeon Phi Knights Mill и Knights Landing из последней версии компилятора LLVM/Clang 19. Это фактически означает прекращение поддержки архитектуры MIC (Many Integrated Core), которая изначально разрабатывалась для суперкомпьютера Aurora экзафлопсного класса.

 Источник изображения: Intel

Источник изображения: Intel

Процессоры Knights Mill должны были значительно увеличить производительность Aurora, но проект столкнулся с многочисленными задержками и не достиг ожидаемых показателей. Это в конечном итоге привело к отмене первой версии Aurora. Позже Министерство энергетики США изменило архитектуру Aurora, добавив в нее процессоры Intel Sapphire Rapids и графические процессоры Intel Ponte Vecchio. Однако и эта версия столкнулась с проблемами производительности и задержками срока реализации, сообщает Tom's Hardware и Phoronix.

Cейчас эксафлопсный суперкомпьютер Aurora находится на пути к своему запуску и, возможно, даже в этом году. Но проблемы программного и аппаратного обеспечения, в том числе с системой охлаждения, не позволяют ему полностью раскрыть свой потенциал.

Решение Intel прекратить поддержку Xeon Phi в LLVM/Clang отражает общий тренд среди основных компиляторов. Ранее в этом году поддержка была помечена устаревшей в LLVM/Clang 18, а в GCC она была объявлена устаревшей в версии 14 и полностью удалена в версии 15.

Как заявила сама Intel, «удаление поддержки позволит сократить усилия по обслуживанию компилятора и упростит его дальнейшую разработку». Компания намерена сосредоточиться на специализированных решениях для искусственного интеллекта и высокопроизводительных вычислений, что, видимо, знаменует собой окончание долгого пути для продуктов линейки Xeon Phi, вдохновленных Larrabee, производство которых Intel официально прекратила еще в 2019 году.

ИИ-компания Илона Маска xAI построит суперкомпьютер

По сообщениям сетевых источников, принадлежащая Илону Маску (Elon Musk) компания xAI планирует построить собственный компьютер для обеспечения работоспособности своего ИИ-бота Grok. Об этом миллиардер рассказал в рамках недавней встречи с инвесторами.

 Источник изображения: xAI

Источник изображения: xAI

В сообщении сказано, что Маск планирует ввести суперкомпьютер в эксплуатацию к осени следующего года. Он также добавил, что в рамках этого проекта xAI может сотрудничать с Oracle. Официальные представители xAI и Oracle пока никак не комментируют данный вопрос.

Согласно имеющимся данным, xAI планирует использовать в своём суперкомпьютере ускорители Nvidia H100. Сколько именно ускорителей разработчики намерены задействовать для создания нового суперкомпьютера, не уточняется. Известно, что для обучения языковой модели Grok 2 использовались ресурсы 20 тыс. ускорителей H100. Ранее Маск заявлял, что для обучения алгоритма следующего поколения потребуется 100 тыс. ускорителей.

Напомним, ускорители Nvidia H100 доминируют на рыке чипов для центров обработки данных, используемых в сфере искусственного интеллекта. Однако из-за высокого спроса приобрести большое количество таких ускорителей весьма затруднительно. Что касается xAI, то Маск основал эту компанию в прошлом году для конкуренции с Microsoft, OpenAI и Google в сфере искусственного интеллекта.

Суперкомпьютер Aurora на Intel не смог стать самым мощным в мире — лидером остался Frontier на AMD

Суперкомпьютер Aurora на базе процессоров Intel не смог обогнать суперкомпьютер Frontier на базе чипов AMD в свежем рейтинге самых быстрых суперкомпьютеров в мире Top500, заняв в нём второе место. Однако Aurora вырвался в лидеры в бенчмарке HPL-MxP, предназначенном для оценки ИИ-производительности. Таким образом, Aurora является самым быстрым ИИ-суперкомпьютером в мире с производительностью 10,6 AI Эфлопс.

 Источник изображения: Argonne National Laboratory

Источник изображения: Argonne National Laboratory

Суперкомпьютер Aurora по-прежнему не может работать в полную силу. Сообщается, что машина сталкивается с различными проблемами в работе комплектующих, системы охлаждения, рабочими ошибками и нестабильностью сетевой инфраструктуры. Aurora был анонсирован девять лет назад. В первой итерации систему так и не собрали. Вторая версия суперкомпьютера была анонсирована пять лет назад, а последние компоненты машины были установлены лишь 11 месяцев назад.

Суперкомпьютер Aurora разделён на 10 624 кластеров, в которых совокупно содержатся 21 248 центральных и 63 744 графических процессоров. Согласно последним данным, Аргоннская национальная лаборатория (ANL), в которой установлен этот суперкомпьютер, снова не смогла оценить весь потенциал его производительности в тесте Linpack, на результатах которого составляется рейтинг самых мощных суперкомпьютеров в мире Top500.

При работе 87 % компонентов Aurora (9234 активных кластеров из 10 624 имеющихся) Aurora продемонстрировал производительность на уровне 1,012 Эфлопс, преодолев экзафлопсный барьер быстродействия. Это закрепило его на втором месте в списке Top500. Первое участие Aurora в рейтинге производительности состоялось шесть месяцев назад. Тогда у суперкомпьютера работала лишь половина из имеющихся вычислительных блоков, что позволило ему продемонстрировать результат в 585,34 Пфлопс.

 Источник изображения: Tom's Hardware

Источник изображения: Tom's Hardware

Предполагается, что при полной мощности Aurora будет быстрее Frontier в вычислительном тесте производительности Linpack. Однако суперкомпьютеру ещё требуется дополнительная настройка для соответствия заявленным характеристикам. В настоящий момент Frontier с результатом 1,206 Эфлопс примерно на 19 % быстрее Aurora. Однако, как пишет Tom’s Hardware, с учётом линейной масштабируемости Aurora по-прежнему не смог бы выиграть у Frontier даже после задействования его неиспользовавшихся 13 % вычислительных блоков.

Intel широко расхваливала теоретическую пиковую производительность Aurora на уровне 2 Эфлопс (Rpeak), но производительность суперкомпьютеров измеряются показателем устойчивой производительности (Rmax). Frontier обеспечивает 70 % от своей пикового быстродействия в виде устойчивой производительности в Linpack, тогда как у Aurora показатель устойчивой производительности составляет 51 % от пиковой. Возможно, в будущем после всех необходимых доработок ситуация изменится в лучшую сторону. В Аргоннской национальной лаборатории надеются, что это рано или поздно произойдёт. Там отмечают, что для Aurora заявлен контрактный целевой показатель производительности, который выше, чем у Frontier.

И всё же Aurora удалось обогнать всех конкурентов в тесте ИИ-производительности HPL-MxP со смешанной точностью, где он продемонстрировал результат 10,6 Эфлопс при использовании 89 % своих вычислительных блоков. В этом тесте предпочтение отдаётся вычислениям более низкой точности (FP32 и FP16), чем в Linpack (FP64). Считается, что HPL-MxP лучше отражает производительность в реальных рабочих нагрузках ИИ и растущем числе других приложений, связанных с этой средой. В свою очередь FP64 в значительной степени отражает производительность систем, связанных с научными вычислениями.

Однако лидерство Aurora в HPL-MxP может быть подорвано уже в ближайшее время. На горизонте маячит суперкомпьютер Alps Швейцарского национального компьютерного центра (CSCS) на базе суперчипов Nvidia Grace Hopper. Данная система пока не участвовала в рейтинге, однако для неё заявляется ИИ-производительность на уровне 20 Эфлопс. Ожидается, все 10 752 суперчипа Grace Hopper будут установлены на неё к концу июня текущего года.

В тесте HPCG (High Performance Conjugate Gradients), также более репрезентативном для приложений с реальными рабочими нагрузками, чем Linpack, суперкомпьютер Aurora тоже продемонстрировал впечатляющую эффективность. С учётом работы всего 38,5 % от общего числа вычислительных блоков он занял третье место в данном тесте. В бенчмарке Graph500, предназначенном для оценки производительности систем в работе с большими наборами данных, Aurora занял пятое место. Правда, здесь ANL не указала, какой объём системы использовался для этого теста.

Aurora не попал в список самых энергоэффективных суперкомпьютеров Green500, и это совсем неудивительно. Его пиковое энергопотребление составляет до 60 МВт, что вдвое больше энергопотребления Frontier (29 МВт).

С момента установки последних блоков оборудования, входящих в состав Aurora, прошло 10 месяцев. Однако система до сих пор не заработала в полную силу. За прояснением ситуации Tom’s Hardware обратился в Intel.

«Поскольку мы завершили поставку последнего вычислительного узла в конце июня 2023 года (10 месяцев назад), сейчас мы работаем с Аргоннской национальной лабораторией и HPE над полной стабилизацией и настройкой системы, вычислительных узлов, системой хранения данных, коммутационной структурой, системой электропитания и системой охлаждения. Мы также активно работаем над решением проблем стабильности, проявляющихся в аппаратных сбоях, ошибках программного обеспечения, неисправностях системы охлаждения, проблемах с электропитанием, стабильностью сетевой инфраструктуры, операционных ошибках, а также над экологическими факторами», — отметил в разговоре с Tom's Hardware представитель Intel.

Аргоннская национальная лаборатория и Intel пока не готовы говорить о том, когда Aurora станет полностью работоспособным.

Частному лицу удалось купить у правительства США суперкомпьютер на 8 тысячах Xeon, причём по дешёвке

Суперкомпьютер Cheyenne, использовавшийся для научных исследований, продан с аукциона всего за $480 тысяч из-за поломок оборудования, хотя изначальная стоимость системы оценивалась минимум в $25 млн. Покупатель получил в своё распоряжение 8064 процессоров Intel Xeon Broadwell и 313 Тбайт оперативной памяти DDR4-2400 ECC.

 Источник изображения: @ Gsaauctions.gov

Источник изображения: @ Gsaauctions.gov

На состоявшемся на днях онлайн-аукционе правительства США был продан суперкомпьютер Cheyenne по смехотворно низкой цене, что вызвало волну интереса и вопросов. Как так получилось, что многомиллионная государственная система была продана менее чем за полмиллиона долларов? Почему правительство решило избавиться от мощного вычислительного ресурса, обеспечивавшего важные научные исследования? И что новый владелец собирается делать с 8 тысячами процессоров, тоннами оперативной памяти и десятками серверных стоек?

История Cheyenne началась 7 лет назад, когда правительство штата Вайоминг инвестировало десятки миллионов долларов в строительство мощного суперкомпьютера для нужд университетов и научно-исследовательских институтов. Система использовалась для моделирования погоды, изучения климатических изменений и других наукоёмких вычислений. Но за годы напряжённой работы оборудование сильно износилось и стало часто выходить из строя, из-за чего власти приняли решение о замене устаревшего Cheyenne на новый суперкомпьютер.

Однако вместо утилизации старой системы чиновники решили выставить её на онлайн-аукцион. Это решение вызвало недоумение в научном сообществе. Ведь несмотря на высокую степень износа, Cheyenne всё ещё обладал колоссальной вычислительной мощностью. Согласно описанию аукциона, в суперкомпьютере отказал всего 1 % узлов, то есть десятки тысяч ядер и сотни терабайт оперативной памяти сохранили свою работоспособность. А значит, при правильном обслуживании и ремонте компьютер мог бы послужить ещё не один год.

Кроме того, продажа Cheyenne по такой низкой цене, это, по мнению критиков, фактически подарок частному лицу за счет налогоплательщиков. Сумма в полмиллиона долларов даже близко не компенсирует вложенные в систему средства. Учитывая, что новый суперкомпьютер Derecho обошелся бюджету в $35-40 млн, продажа Cheyenne с 98-% дисконтом выглядит как минимум странно.

Возможно, чиновники надеялись, что никто не станет тратить деньги на старую поломанную технику. Однако это оказалось не так — аукцион привлек 27 участников, а победитель заплатил почти полмиллиона. Теперь у него есть тысячи дорогущих серверных процессоров и модулей памяти, которые, например, можно перепродать по частям с большой выгодой.

Выигранный на аукционе суперкомпьютер включает в себя 8064 процессора Intel Xeon E5-2697 v4 с 18 ядрами/36 потоками и частотой 2,3 ГГц, стоимость которых на eBay составляет около $50 за штуку. В сочетании с этой армадой процессоров имеется 313 ТБ оперативной памяти, распределённой между 4890 ECC-совместимыми модулями емкостью по 64 Гбайт, которые стоят около $65 за штуку на вторичном рынке.

Покупатель суперкомпьютера получил также 30 серверных стоек весом в десятки тонн, которые ему придется вывезти самостоятельно, так как государство не предоставляет транспортировку в подобных случаях.


window-new
Soft
Hard
Тренды 🔥
Commandos: Origins не выйдет в 2024 году из-за отзывов игроков — что улучшат к релизу 35 мин.
Intel представила технологию XeSS2 с генерацией кадров — FPS вырастет до четырёх раз 2 ч.
Глава FromSoftware подтвердил, что студия делает не Elden Ring 2, а «несколько проектов широкого круга жанров» 2 ч.
К Microsoft подали иск на £1 млрд за то, что Windows Server в облаках конкурентов стоит дороже 4 ч.
Владелец «Спаса» обвинил Google в сокрытии от акционеров штрафа в 8 ундециллионов рублей 5 ч.
«Добро пожаловать»: постоянную цену «Смуты» в VK Play снизили, «не мелочась, на тысячу рублей» 5 ч.
Apple грозит групповой иск на $1 млрд из-за 30-процентной комиссии в приложениях 5 ч.
Глава разработки новой Mass Effect назвал дополнение к Mass Effect 2, в которое «обязательно стоит сыграть» перед следующей частью 6 ч.
Интерпол арестовал более 5500 подозреваемых в киберпреступлениях и онлайн-мошенничестве 6 ч.
Blizzard скоро снимет Warcraft и Warcraft 2 с продажи в GOG, но магазин CD Projekt их не бросит 8 ч.