Сегодня 05 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ускоритель
Быстрый переход

Intel представила ИИ-ускорители Gaudi 3, которые громят NVIDIA H100 по производительности и энергоэффективности

Сегодня на мероприятии Vision 2024 компания Intel представила множество новых продуктов, среди которых ИИ-ускорители Gaudi 3. По заявлениям создателей, они позволяют обучать нейросети в 1,7 раза быстрее, на 50 % увеличить производительность инференса и работают на 40 % эффективнее конкурирующих H100 от NVIDIA, которые являются самыми популярными на рынке.

 Источник изображений: Intel

Источник изображений: Intel

Gaudi 3 — третье поколение ускорителей ИИ, появившихся благодаря приобретению Intel в 2019 году компании Habana Labs за $2 млрд. Массовое производство Gaudi 3 для OEM-производителей серверов начнётся в третьем квартале 2024 года. Помимо этого, Gaudi 3 будет доступен в облачном сервисе Intel Developer Cloud для разработчиков, что позволит потенциальным клиентам испытать возможности нового чипа.

Gaudi 3 использует ту же архитектуру и основополагающие принципы, что и его предшественник, но при этом он выполнен по более современному 5-нм техпроцессу TSMC, тогда как в Gaudi 2 использованы 7-нм чипы. Ускоритель состоит из двух кристаллов, на которые приходится 64 ядра Tensor Processing Cores (TPC) пятого поколения и восемь матричных математических движков (MME), а также 96 Мбайт памяти SRAM с пропускной способностью 12,8 Тбайт/с. Вокруг установлено 128 Гбайт HBM2e с пропускной способностью 3,7 Тбайт/с. Также Gaudi 3 укомплектован 24 контроллерами Ethernet RDMA с пропускной способностью по 200 Гбит/с, которые обеспечивают связь как между ускорителями в одном сервере, так и между разными серверами в одной системе.

Gaudi 3 будет выпускаться в двух формфакторах. Первый — OAM (модуль ускорителя OCP) HL-325L, использующийся в высокопроизводительных системах на основе ускорителей вычислений. Этот ускоритель получит TDP 900 Вт и производительность 1835 терафлопс в FP8. Модули OAM устанавливаются по 8 штук на UBB-узел HLB-325, которые можно объединять в системы до 1024 узлов. По сравнению с прошлым поколением, Gaudi 3 обеспечивает вдвое большую производительность в FP8 и вчетверо — в BF16, вдвое большую пропускную способность сети и 1,5 раза — памяти.

OAM устанавливаются в универсальную плату, поддерживающую до восьми модулей. Модули и платы уже отгружены партнёрам, но массовые поставки начнутся лишь к концу года. Восемь OAM на плате HLB-325 дают производительность 14,6 петафлопс в FP8, остальные характеристики масштабируются линейно.

Второй формфактор — двухслотовая карта расширения PCIe с TDP 600 Вт. По заявлениям Intel, несмотря на заметно меньший TDP этой версии, производительность в FP8 осталась той же — 1835 терафлопс. А вот масштабируемость хуже — модули рассчитаны на работу группами по четыре. Gaudi 3 в данном формфакторе появятся в 4 квартале 2024 года.

Dell, HPE, Lenovo и Supermicro уже поставили клиентам образцы систем с Gaudi 3 с воздушным охлаждением, а в ближайшее время должны появится модели с жидкостным охлаждением. Массовое производство начнётся лишь в 3 и 4 кварталах 2024 года соответственно.

Intel также поделилась собственными тестами производительности, сравнив Gaudi 3 с системами на основе H100. По словам Intel, Gaudi 3 справляется с обучением нейросетей в 1,5–1,7 раза быстрее. Сравнение велось на моделях LLAMA2-7B и LLAMA2-13B на системах с 8 и 16 ускорителями, а также на модели GPT 3-175B на системе с 8192 ускорителями. Intel не стала сравнивать системы на Gaudi 3 с системами на H200 от NVIDIA, у которого на 76 % больше памяти, а её пропускная способность выше на 43 %.

Intel сравнила Gaudi 3 с H200 в инференсе, но уже не кластерами, а отдельным модулем. В пяти тестах с LLAMA2-7B/70B производительность Gaudi 3 оказалась на 10–20 % ниже, в двух равна и в одном чуть выше H200. При этом Intel заявляет о 2,6-кратном преимуществе в энергопотреблении по сравнению с H100.

NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Архитектура GPU Blackwell получила название в честь американского математика Дэвида Блэквелла (David Harold Blackwell) и включает в себя целый ряд инновационных технологий для ускорения вычислений, которые помогут совершить прорыв в обработке данных, инженерном моделировании, автоматизации проектирования электроники, компьютерном проектировании лекарств, квантовых вычислениях и генеративном ИИ. Причём на последнем в Nvidia делают особый акцент: «Генеративный ИИ — это определяющая технология нашего времени. Графические процессоры Blackwell — это двигатель для новой промышленной революции», — подчеркнул глава Nvidia Дженсен Хуанг (Jensen Huang) в рамках презентации.

Графический процессор Nvidia B200 производитель без лишней скромности называет самым мощным чипом в мире. В вычислениях FP4 и FP8 новый GPU обеспечивает производительность до 20 и 10 Пфлопс соответственно. Новый GPU состоит из двух кристаллов, которые произведены по специальной версии 4-нм техпроцесса TSMC 4NP и объединены 2,5D-упаковкой CoWoS-L. Это первый GPU компании Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. Всего новинка насчитывает 208 млрд транзисторов.

 Один из кристаллов GPU Blackwell

Один из кристаллов Blackwell — в GPU таких кристаллов два

По сторонам от кристаллов GPU расположились восемь стеков памяти HBM3E общим объёмом 192 Гбайт. Её пропускная способность достигает 8 Тбайт/с. А для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения, которая обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С помощью данного интерфейса (коммутатор NVSwitch 7.2T) в одну связку можно объединить до 576 GPU.

Одними из главных источников более высокой производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более тонко подбирать необходимую точность вычислений для тех или иных задач, что влияет и на скорость обучения и работы нейросетей, и на максимальный объём поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватит и FP4. Но отметим, что Blackwell поддерживает работу с самыми разными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64. И во всех случаях кроме последнего есть поддержка разреженных вычислений.

Флагманским ускорителем на новой архитектуре станет Nvidia Grace Blackwell Superchip, в котором сочетается пара графических процессоров B200 и центральный Arm-процессор Nvidia Grace с 72 ядрами Neoverse V2. Данный ускоритель шириной в половину серверной стойки обладает TDP до 2,7 кВт. Производительность в операциях FP4 достигает 40 Пфлопс, тогда как в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Пфлопс.

Как отмечает сама Nvidia, новинка обеспечивает 30-кратный прирост производительности по сравнению с Nvidia H100 для рабочих нагрузок, связанных с большими языковыми моделями, а она до 25 раз более экономична и энергетически эффективна.

Ещё Nvidia представила систему GB200 NVL72 — фактически это серверная стойка, которая объединяет в себе 36 Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T. Таким образом данная система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных NVLink пятого поколения. На систему приходится 13,5 Тбайт памяти HBM3E с общей пропускной способностью до 576 Тбайт/с, а общий объём оперативной памяти достигает 30 Тбайт.

Платформа GB200 NVL72 работает как единый GPU с ИИ-производительностью 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8). Эта система станет строительным блоком для новейшего суперкомпьютера Nvidia DGX SuperPOD.

На переднем плане HGX-система с восемью Blackwell. На заднем — суперчип GB200

Наконец, Nvidia представила серверные системы HGX B100, HGX B200 и DGX B200. Все они предлагают по восемь ускорителей Blackwell, связанных между собой NVLink 5. Системы HGX B100 и HGX B200 не имеют собственного CPU, а между собой различаются только энергопотреблением и как следствие мощностью. HGX B100 ограничен TDP в 700 Вт и обеспечивает производительность до 112 и 56 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP в 1000 Вт и предлагает до 144 и 72 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно.

Наконец, DGX B200 копирует HGX B200 в плане производительности, но является полностью готовой системой с парой центральных процессоров Intel Xeon Emerald Rapids. По словам Nvidia, DGX B200 до 15 раз быстрее в задачах запуска уже обученных «триллионных» моделей по сравнению с предшественником.

Для создания наиболее масштабных ИИ-систем, включающих от 10 тыс. до 100 тыс. ускорителей GB200 в рамках одного дата-центра, компания Nvidia предлагает объединять их в кластеры с помощью сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet. Они также были анонсированы сегодня и обеспечат передовые сетевые возможности со скоростью до 800 Гбит/с.

Свои системы на базе Nvidia B200 в скором времени представят многие производители, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems. Также Nvidia GB200 в составе платформы Nvidia DGX Cloud, а позже в этом году решения на этом суперчипе станут доступны у крупнейших облачных провайдеров, включая AWS, Google Cloud и Oracle Cloud.

Nvidia покажет ИИ-ускоритель нового поколения уже на следующей неделе в рамках GTC 2024

Генеральный директор и соучредитель Nvidia Дженсен Хуанг (Jensen Huang) в понедельник 18 марта выйдет на сцену хоккейной арены Кремниевой долины, чтобы представить новые решения, включая ИИ-чипы нового поколения. Поводом для этого станет ежегодная конференция разработчиков GTC 2024, которая станет первой очной встречей такого масштаба после пандемии. Nvidia ожидает, что это мероприятие посетят 16 000 человек, что примерно вдвое превысит число посетителей в 2019-м.

 Источник изображения: Getty Images

Источник изображения: Getty Images

Рыночная капитализация Nvidia превысила $2 трлн в конце февраля, и теперь ей не хватает «всего» $400 млрд, чтобы превзойти Apple, которая занимает второе место по капитализации после лидера фондового рынка Microsoft. Аналитики ожидают, что выручка Nvidia в этом году вырастет на 81 % до $110 млрд, поскольку технологические компании на волне бума ИИ десятками тысяч скупают её новейшие ускорители ИИ для разработки и обучения чат-ботов, генераторов изображений и других нейросетей.

Новое поколение высокопроизводительных ИИ-чипов от Nvidia, которое предположительно получит обозначение B100, должно стать основой для дальнейшего укрепления рыночных позиций компании. В рамках предстоящей GTC компания Nvidia вряд ли раскроет все характеристики и назовёт точную цену нового ускорителя, которая не в последнюю очередь зависит от размера партии и сроков поставки. Очевидно, B100 будет намного быстрее своего предшественника и, вероятно, будет стоить дороже, хотя цена актуальных H100 может превышать $20 000. Поставки нового чипа ожидаются позднее в этом году.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Спрос на текущие ускорители Nvidia превысил предложение: разработчики программного обеспечения месяцами ждут возможности использовать кластеры ускорителей ИИ у облачных провайдеров. Реагируя на высокий спрос, акции Nvidia выросли на 83 % в этом году после более чем утроения их стоимости в прошлом. И даже после этого стремительного роста акции Nvidia торгуются с прибылью, в 34 раза превышающей ожидаемую. Аналитики значительно повысили оценки будущих доходов компании, но, если их прогнозы окажутся слишком оптимистичными, акции Nvidia рискуют ощутимо просесть в цене.

«Самое большое беспокойство вызывает то, что цифры стали настолько большими и настолько быстрыми, что вы просто беспокоитесь, что они не продлятся долго, — считает аналитик Bernstein Стейси Расгон (Stacy Rasgon). — Чем больше у них появляется новых продуктов с более высокими характеристиками и более высокими ценами, тем больше у них возможностей для взлёта».

Nvidia также, вероятно, представит на GTC 2024 множество обновлений своего программного обеспечения CUDA, которое предоставляет разработчикам инструменты для запуска своих программ на ускорителях компании, ещё сильнее привязывая их к чипам Nvidia. Глубокое погружение в использование CUDA усложняет для разработчика переход на «железо» конкурентов, таких как AMD, Microsoft и Alphabet.

В прошлом году Nvidia начала предлагать процессоры и программное обеспечение в виде облачных сервисов и продолжает развивать успех. Аналитики полагают, что «возможно, поставщики облачных услуг и программного обеспечения нервничают из-за того, что Nvidia действует на их игровой площадке».

Nvidia располагает ощутимым технологическим преимуществом над китайскими конкурентами. США отрезали Китаю доступ к самым передовым чипам Nvidia, поэтому самыми передовыми китайскими ускорителями ИИ являются чипы Huawei, которые по производительности соответствуют процессорам Nvidia A100, выпущенным в далёком 2020 году. Ни один китайский ускоритель ИИ даже близко не может сравниться с флагманским чипом Nvidia H100, выпущенным в 2022 году, а предстоящий B100 ещё более увеличит отрыв. Эксперты полагают, что «со временем этот разрыв станет экспоненциально большим».

Cerebras представила гигантский процессор WSE-3 c 900 тысячами ядер

Американский стартап Cerebras Systems представил гигантский процессор WSE-3 для машинного обучения и других ресурсоёмких задач, для которого заявляется двукратный прирост производительности на ватт потребляемой энергии по сравнению с предшественником.

 Cerebras WSE-3. Источник изображений: Cerebras

Cerebras WSE-3. Источник изображений: Cerebras

Площадь нового процессора составляет 46 225 мм2. Он выпускается с использованием 5-нм техпроцесса компании TSMC, содержит 4 трлн транзисторов, 900 000 ядер и объединён с 44 Гбайт набортной памяти SRAM. Его производительность в операциях FP16 заявлена на уровне 125 Пфлопс.

Один WSE-3 составляет основу для новой вычислительной платформы Cerebras CS-3, которая, по утверждению компании, обеспечивает вдвое более высокую производительность, чем предыдущая платформа CS-2 при том же энергопотреблении в 23 кВт. По сравнению с ускорителем Nvidia H100 платформа Cerebras CS-3 на базе WSE-3 физически в 57 раз больше и примерно в 62 раза производительнее в операциях FP16. Но учитывая размеры и энергопотребление Cerebras CS-3, справедливее будет сравнить её с платформой Nvidia DGX с 16 ускорителями H100. Правда, даже в этом случае CS-3 примерно в 4 раза быстрее конкурента, если речь идёт именно об операциях FP16.

 Cerebras CS-3. Источник изобажений: Cerebras

Cerebras CS-3

Одним из ключевых преимуществ систем Cerebras является их пропускная способность. Благодаря наличию 44 Гбайт набортной памяти SRAM в каждом WSE-3, пропускная способность новейшей системы Cerebras CS-3 составляет 21 Пбайт/с. Для сравнения, Nvidia H100 с памятью HBM3 обладает пропускной способностью в 3,9 Тбайт/с. Однако это не означает, что системы Cerebras быстрее во всех сценариях использования, чем конкурирующие решения. Их производительность зависит от коэффициента «разрежённости» операций. Та же Nvidia добилась от своих решений удвоения количества операций с плавающей запятой, используя «разреженность». В свою очередь Cerebras утверждает, что добилась улучшения примерно до 8 раз. Это значит, что новая система Cerebras CS-3 будет немного медленнее при более плотных операциях FP16, чем пара серверов Nvidia DGX H100 при одинаковом энергопотреблении и площади установки, и обеспечит производительность около 15 Пфлопс против 15,8 Пфлопс у Nvidia (16 ускорителей H100 выдают 986 Тфлопс производительности).

 Одна из установок Condor Galaxy AI

Одна из установок Condor Galaxy AI

Cerebras уже работает над внедрением CS-3 в состав своего суперкластера Condor Galaxy AI, предназначенного для решения ресурсоёмких задач с применением ИИ. Этот проект был инициирован в прошлом году при поддержке компании G42. В его рамках планируется создать девять суперкомпьютеров в разных частях мира. Две первые системы, CG-1 и CG-2, были собраны в прошлом году. В каждой из них сдержится по 64 платформы Cerebras CS-2 с совокупной ИИ-производительностью 4 экзафлопса.

В эту среду Cerebras сообщила, что построит систему CG-3 в Далласе, штат Техас. В ней будут использоваться несколько CS-3 с общей ИИ-производительностью 8 экзафлопсов. Если предположить, что на остальных шести площадках также будут использоваться по 64 системы CS-3, то общая производительность суперкластера Condor Galaxy AI составит 64 экзафлопса. В Cerebras отмечают, что платформа CS-3 может масштабироваться до 2048 ускорителей с общей производительностью до 256 экзафлопсов. По оценкам экспертов, такой суперкомпьютер сможет обучить модель Llama 70B компании Meta всего за сутки.

Помимо анонса новых ИИ-ускорителей Cerebras также сообщила о сотрудничестве с компанией Qualcomm в вопросе создания оптимизированных моделей для ИИ-ускорителей Qualcomm с Arm-архитектурой. На потенциальное сотрудничество обе компании намекали с ноября прошлого года. Тогда же Qualcomm представила свой собственный ИИ-ускорители Cloud AI100 Ultra формата PCIe. Он содержит 64 ИИ-ядра, 128 Гбайт памяти LPDDR4X с пропускной способностью 548 Гбайт/с, обеспечивает производительность в операциях INT8 на уровне 870 TOPS и обладает TDP 150 Вт.

 Источник изображения: Qualcomm

Источник изображения: Qualcomm

В Cerebras отмечают, что вместе с Qualcomm они будут работать над оптимизацией моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.

«Как мы уже показали, разрежённость при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт использования небольшой и облегченной модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», — отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).

Обе компании также рассматривают возможность использования метода MX6, представляющего собой форму сжатия размера модели путём снижения её точности. В свою очередь, поиск сетевой архитектуры представляет собой процесс автоматизации проектирования нейронных сетей для конкретных задач с целью повышения их производительности. По словам Cerebras, сочетание этих методов способствует десятикратному повышению производительности на доллар.

Датчик для Большого адронного коллайдера поможет удалять опухоли головного мозга

От большой науки редко ждут немедленного практического результата, но исключения бывают. Свежим примером стало использование датчика для регистрации столкновений частиц на БАК для картирования тканей головного мозга при работе с опухолями. Датчик помогает определять контуры опухоли и даёт возможность уничтожить её с минимальным вредом для пациента.

 Источник изображения: CERN

Источник изображения: CERN

В обычных условиях для облучения опухоли электронным пучком карта тканей создаётся с помощью предоперационной компьютерной томографии. К моменту операции ткани могут сдвинуться, и работа с опухолью может быть неточной. Разрушение электронным пучком здоровых тканей мозга ни к чему хорошему не приведёт. Пациент может потерять фрагменты памяти, элементы сенсорики и моторики.

Чтобы чётко определять края злокачественной ткани, чешская компания ADVACAM использовала созданный для экспериментов с элементарными частицами датчик Timepix компании Medipix Collaborations. Датчик фиксирует вторичное излучение в виде рассеивания электронного пучка на живых тканях и опухоли. Если картина меняется — в поле действия пучка попадает здоровая ткань — работа пучком по опухоли прекращается. Сейчас это просто остановка процедуры для проведения новой томографии.

В будущем разработчики обещают создать установку для автоматического управления проектором в ходе операции, что упростит и ускорит процедуру удаления опухоли, а также снизит опасность повреждения здоровых тканей. Созданный для задач CERN прибор принесёт фактически немедленную пользу, на которую при его разработке даже не рассчитывали.

Учёные приблизились к созданию ускорителя электронов размером с обувную коробку

Исследователи из Стэнфордского университета разработали и создали крошечный ускоритель электронов, который может быть собран в корпусе размером с коробку из-под обуви. Когда-нибудь они заменят мегадорогие ускорители для передовых исследований в физике и внесут кардинальные перемены в медицинское обслуживание, промышленность и даже повседневную жизнь.

 Источник изображения:  Moore Foundation / Payton Broaddus

Источник изображения: Moore Foundation / Payton Broaddus

Исследователи показали, что кремниевый диэлектрический лазерный ускоритель (DLA) способен как ускорять, так и направлять электроны, создавая сфокусированный пучок электронов высокой энергии. «Если бы электроны были микроскопическими автомобилями, мы бы как будто впервые сели за руль и нажали на газ», — пояснила 23-летняя Пейтон Броддус (Payton Broaddus), кандидат наук в области электротехники и ведущий автор статьи, опубликованной 23 февраля с подробным описанием прорыва в журнале Physical Review Letters.

Сегодня ускорители частиц не отличаются компактностью, начинаясь от размеров с приличный рабочий стол и заканчивая Большим адронным коллайдером с кольцом длиной почти 27 км. Это дорогостоящие научные приборы, использовать которые полноценно могут в основном академические учёные. Создание компактных и относительно недорогих или вовсе недорогих ускорителей позволит применять их в медицине для детальной визуализации внутренних тканей органов человека и для лечения опухолей. Ускорители помогут с анализом материалов, веществ и с неразрушающим контролем качества. Наконец, появятся приборы, по-настоящему показывающие нитратный и даже молекулярный состав купленных в магазине фруктов и овощей.

Около 10 лет назад исследователи из Стэнфорда начали экспериментировать с наноразмерными структурами, изготовленными из кремния и стекла, которые без деформаций выдерживали большие перепады температур, чем металлические части ускорителей. В 2013 году был создан прототип крошечного ускорителя из стекла на основе импульсных инфракрасных лазеров, который успешно разгонял электроны. Под эту разработку Фонд Гордона и Бетти Мур в рамках международного сотрудничества Accelerator on Achip (ACHIP) выделили средства на создание мегаэлектронвольтового ускорителя размером с обувную коробку.

 Изображение трека для создания сфокусированного пучка электронов. Источник изображения: Physical Review Letters

Изображение трека для создания сфокусированного пучка электронов. Источник изображения: Physical Review Letters

В результате исследований была разработана микроструктура, которая оказалась способна фокусировать пучок электронов в двух плоскостях, ускоряя и направляя их вдоль горизонтальной плоскости. Электроны вводятся с одной стороны субмиллиметрового трека, а с обоих его концов происходит импульсное освещение лазерами. Предложенное решение позволило придать электронам дополнительно 25 % энергии — ускорить их до 23,7 кэВ. Это ускорение сопоставимо с возможностями классических настольных ускорителей, но реализовано в «коробке из-под обуви».

Дальнейшее совершенствование схемы позволит поднять энергию ускорения до запланированного уровня в 1 МэВ. Каскад таких ускорителей или использование на начальном этапе других схем, например, этой, созданной коллегами из Университета Фридриха-Александра в Эрлангене и Нюрнберге (FAU), позволит изготавливать компактные усилители с разгоном электронов до субсветовых скоростей. Но это работа для далёкого будущего. Сейчас в этом направлении сделаны хоть и успешные, но только первые шаги.

Купить ИИ-ускоритель NVIDIA H100 стало проще — очереди уменьшились, появился вторичный рынок

Сроки поставки графических процессоров NVIDIA H100, применяемых в приложениях ИИ и высокопроизводительных вычислениях, заметно сократились — с 8–11 до 3–4 месяцев. Аналитики полагают, что это связано с расширением возможностей аренды ресурсов у крупных компаний, таких как Amazon Web Services, Google Cloud и Microsoft Azure. В результате некоторые компании, ранее закупившие большое количество процессоров H100, теперь пытаются их продать.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

The Information сообщает, что некоторые фирмы перепродают свои графические процессоры H100 или сокращают заказы из-за снижения дефицита и высокой стоимости содержания неиспользуемых запасов. Это знаменует собой значительный сдвиг по сравнению с прошлым годом, когда приобретение графических процессоров NVIDIA Hopper было серьёзной проблемой. Несмотря на повышение доступности чипов и значительное сокращение сроков выполнения заказов, спрос на чипы ИИ всё ещё продолжает превышать предложение, особенно среди компаний, обучающих большие языковые модели (LLM).

Ослабление дефицита ускорителей ИИ отчасти связано с тем, что поставщики облачных услуг упростили аренду графических процессоров NVIDIA H100. Например, AWS представила новый сервис, позволяющий клиентам планировать аренду графических процессоров на более короткие периоды, что привело к сокращению спроса и времени ожидания. Увеличение доступности ИИ-процессоров NVIDIA также привело к изменению поведения покупателей. Компании при покупке или аренде становятся более требовательными к ценам, ищут меньшие по размеру кластеры графических процессоров и больше внимания уделяют экономической жизнеспособности своего бизнеса.

В результате рост сектора искусственного интеллекта значительно меньше, чем в прошлом году, сдерживается ограничениями из-за дефицита чипов. Появляются альтернативы устройствам NVIDIA, например, процессоры AMD или AWS, которые наряду с повысившейся производительностью получили улучшенную поддержку со стороны программного обеспечения. В совокупности с взвешенным подходом к инвестициям в ИИ, это может привести к более сбалансированной ситуации на рынке.

Тем не менее, доступ к большим кластерам графических процессоров, необходимым для обучения LLM, до сих пор остаётся проблематичным. Цены на H100 и другие процессоры NVIDIA не снижаются, компания продолжает получать высокую прибыль и невероятными темпами наращивать свою рыночную стоимость. NVIDIA прогнозирует высокий спрос на ИИ-ускорители следующего поколения Blackwell. В поисках альтернатив Сэм Альтман (Sam Altman) из OpenAI пытается привлечь масштабное финансирование для создания дополнительных заводов по производству процессоров ИИ.

Техногиганты собрались положить конец гегемонии NVIDIA на рынке ИИ-ускорителей

Компания Meta в этом году развернёт в своих центрах обработки данных системы на ИИ-чипах собственной разработки второго поколения, пишет Reuters. Все больше технологических компаний берёт курс на создание вертикально интегрированных систем ИИ на базе собственного оборудования вместо дефицитных и дорогих ускорителей от NVIDIA, AMD и других сторонних производителей.

 ИИ-чип *** первого поколения. Источник изображения: ***

ИИ-чип Meta первого поколения. Источник изображения: Meta

ИИ-чип Meta второго поколения, о разработке которого Meta объявила в прошлом году, может помочь компании снизить зависимость от захвативших более 70 % рынка ИИ-ускорителей NVIDIA, лучше контролировать всё возрастающие расходы на ИИ. Компании необходимо наращивать вычислительные мощности для продуктов на базе генеративного ИИ, которые она внедряет в Facebook, Instagram и WhatsApp, а также в аппаратные устройства, такие как смарт-очки Ray-Ban. Сейчас Meta тратит миллиарды долларов на закупку специализированных чипов и модернизацию дата-центров.

По мнению Дилана Пателя (Dylan Patel), основателя группы по рынку чипов в аналитической компании SemiAnalysis, при тех масштабах, в которых работает Meta, успешное внедрение собственного чипа могло бы сэкономить сотни миллионов долларов ежегодно на расходах на электроэнергию, а также миллиарды на закупке чипов. Чипы, инфраструктура и энергия, необходимые для работы систем ИИ, стали гигантской воронкой инвестиций для технологических компаний, что в некоторой степени нивелирует успехи, достигнутые на волне ажиотажа вокруг этой технологии.

Представитель Meta подтвердил Reuters планы по запуску производства обновленного чипа Meta в 2024 году, заявив, что он будет работать в координации с сотнями тысяч уже имеющихся и новых графических процессоров. «Мы считаем, что наши собственные ускорители в значительной степени дополняют коммерчески доступные GPU, обеспечивая оптимальное сочетание производительности и эффективности в специфических для Meta рабочих нагрузках», — говорится в заявлении представителя Meta.

В прошлом месяце генеральный директор Meta Марк Цукерберг (Mark Zuckerberg) заявил, что к концу 2024 года компания планирует получить около 350 000 флагманских ускорителей NVIDIA H100. По его словам, в сочетании с другими системами Meta сможет накопить вычислительную мощность, эквивалентную 600 000 ускорителей H100.

 ИИ-ускоритель NVIDIA H100. Источник изображения: NVIDIA

ИИ-ускоритель NVIDIA H100. Источник изображения: NVIDIA

Заметим, что прежде Meta уже создавала собственные ИИ-чипы, но в 2022 году руководство компании приняло решение отказаться от чипа первого поколения. Вместо этого компания решила купить графические процессоры NVIDIA на миллиарды долларов.

Новый чип, получивший внутреннее кодовое название Artemis («Артемида»), как и его предшественник, сможет использоваться только для запуска уже обученных нейросетей, но не для их обучения. Чип, на котором будут работать уже обученные нейросети, может быть значительно более эффективным в задачах Meta, чем энергоемкие чипы NVIDIA. Для обучения ИИ по-прежнему будут использоваться сторонние чипы, однако в прошлом году появлялась информация, что Meta также работает над более амбициозным чипом, который также сможет выполнять и обучение, и запуск нейросетей.

 ИИ-ускоритель Google Cloud TPU v5p. Источник изображения: Google

ИИ-ускоритель Google Cloud TPU v5p. Источник изображения: Google

Другие крупные технологические компании — Amazon, Google и Microsoft — тоже разрабатывают собственные чипы для тех или иных задач ИИ. Компании Google и Amazon уже давно выпускают чипы для собственных центров обработки данных. В конце прошлого года Google представила свой самый быстрый ИИ-ускоритель Cloud TPU v5p, а Amazon выпустила ускорители Trainium2 для обучения больших ИИ-моделей. Компания Microsoft старается не отставать и создала ИИ-ускоритель Maia 100, а также Arm-процессор Cobalt 100 — оба чипа предназначены для ускорения задач ИИ.

 Система с ИИ-ускорителями Microsoft Maia 100. Источник изображения: Microsoft

Система с ИИ-ускорителями Microsoft Maia 100. Источник изображения: Microsoft

NVIDIA в прошлом году продала 2,5 миллиона чипов примерно по $15 000 каждый, по оценкам аналитика Пьера Феррагу (Pierre Ferragu) из New Street Research. В то же время Google потратила около $2–3 млрд на создание примерно миллиона собственных ИИ-чипов, говорит эксперт, то есть каждый чип ей обошёлся лишь в $2-3 тыс. В свою очередь, Amazon потратила $200 миллионов на 100 000 собственных чипов в прошлом году.

Также недавно появились сообщения, что OpenAI, разработчик ChatGPT, тоже заинтересовалась созданием собственного чипа. Глава компании Сэм Альтман (Sam Altman) уже ведёт переговоры с инвесторами и контрактными производителями чипов. Таким образом, всё больше компаний старается избавиться от зависимости от NVIDIA, ускорители которой хоть и являются лучшими на рынке, но являются крайне дефицитным товаром (заказы на них расписаны на год вперёд), а также стоят отнюдь не мало.

Cоздан сверхкомпактный ускоритель частиц с энергией в 10 миллиардов электрон-вольт

Учёные из Техасского университета в Остине создали «Усовершенствованный лазерный ускоритель кильватерного поля», который имеет очень компактные размеры, но при этом генерирует высокоэнергетический пучок электронов — до 10 ГэВ или 10 миллиардов электрон-вольт. Это настоящий прорыв в области ускорителей частиц.

Источник изображения: Bjorn «Manuel» Hegelich

Учёные продолжают изучать возможности применения этой технологии, включая потенциал ускорителей частиц в полупроводниковой технологии, медицинской визуализации и терапии, исследованиях в области материалов, энергетики и медицины.

Недавно группа учёных разработала компактный ускоритель частиц, получивший название «усовершенствованный лазерный ускоритель кильватерного поля». Устройство при длине менее 20 метров генерирует электронный пучок с энергией 10 миллиардов электрон-вольт, утверждается в заявлении Техасского университета в Остине. Сам лазер работает в 10-сантиметровой камере, что значительно меньше традиционных ускорителей частиц, которым требуются километры пространства.

Работа ускорителя опирается на инновационный механизм, в котором вспомогательный лазер воздействует на гелий. Газ подвергается нагреву до тех пор, пока не переходит в плазму, которая, в свою очередь, порождает волны. Эти волны обладают способностью перемещать электроны с высокой скоростью и энергией, формируя высокоэнергетический электронный луч. Таким образом получается уместить ускоритель в одном помещении, а не строить огромные системы километрового масштаба. Данный ускоритель был впервые описан ещё в 1979 году исследовательской группой из Техасского университета под руководством Бьорна «Мануэля» Хегелича (Bjorn «Manuel» Hegelich), физика и генерального директора TAU Systems. Однако недавно в конструкцию был внесен ключевой элемент: использование металлических наночастиц. Эти наночастицы вводятся в плазму и играют решающую роль в увеличении энергии электронов в плазменной волне. В результате электронный луч становится не только более мощным, но и более концентрированным и эффективным. Бьорн «Мануэль» Хегелич, ссылаясь на размер камеры, в которой был получен пучок, отметил: «Теперь мы можем достичь таких энергий на расстоянии в 10 сантиметров».

Исследователи использовали в своих экспериментах Техасский петаваттный лазер, самый мощный импульсный лазер в мире, который излучал сверхинтенсивный световой импульс каждый час. Один импульс петаваттного лазера примерно в 1000 раз превышает установленную в США электрическую мощность, но длится всего 150 фемтосекунд — примерно миллиардную долю от продолжительности удара молнии.

Учёные намерены использовать эту технологию для оценки устойчивости космической электроники к радиации, получения трёхмерных визуализаций новых полупроводниковых чипов, а также для создания новых методов лечения рака и передовой медицинской визуализации. Кроме того, этот ускоритель может быть использован для работы другого устройства, называемого рентгеновским лазером на свободных электронах, который может снимать замедленные видеоролики процессов в атомном или молекулярном масштабе. Примеры таких процессов включают взаимодействие между лекарствами и клетками, изменения внутри батарей, которые могут привести к воспламенению, а также химические реакции, происходящие в солнечных батареях, и трансформацию вирусных белков при заражении клеток.

Команда проекта намерена сделать систему ещё более компактной. Они хотят создать лазер, который помещается на столешнице и способен выдавать импульсы множество раз в секунду. Это значительно повысит компактность всего ускорителя и расширит возможности его применения в гораздо более широком диапазоне по сравнению с обычными ускорителями.

NVIDIA продала почти полмиллиона ИИ-ускорителей в третьем квартале, а новые партии расписаны на год вперёд

Основная доля выручки NVIDIA в размере $14,5 млрд в сегменте оборудования для центров обработки данных в третьем квартале пришлась на продажи специализированных графических ускорителей H100 для ИИ и высокопроизводительных вычислений (HPC). По мнению аналитической компании Omdia, NVIDIA продала в третьем квартале этого года почти полмиллиона ускорителей A100 и H100, а спрос на эти продукты настолько высок, что срок поставок серверов с ними увеличился с 36 до 52 недель.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Эксперты Omdia считают, что крупнейшими покупателями графических ускорителей NVIDIA H100 являются компании Meta и Microsoft. По мнению аналитиков, каждая из них закупила по 150 тыс. указанных ускорителей. В свою очередь Google, Amazon, Oracle и Tencent купили по 50 тыс. указанных специализированных ускорителей. Примечательно, что основная часть серверных ускорителей поставляется операторам гипермасштабируемых облачных услуг. В свою очередь, OEM-производители серверов (Dell, Lenovo, HPE) пока не могут забронировать достаточное количество графических процессоров для ИИ и высокопроизводительных вычислений, чтобы выполнить свои заказы на поставки серверов, утверждают специалисты Omdia.

 Источник изображения: Omdia

Источник изображения: Omdia

Аналитики полагают, что продажи ускорителей NVIDIA H100 и A100 превысят полмиллиона единиц в четвертом квартале 2023 года. Между тем, спрос на H100 и A100 настолько велик, что срок поставки серверов на базе этих GPU достигает 52 недель. В то же время Omdia сообщает, что в целом объём поставок серверов в 2023 году сократится на 17–20 % по сравнению с прошлым годом, но при этом выручка в этом направлении вырастет на 6–8 % в годовом исчислении.

Следует также отметить, что многие из крупнейших покупателей специализированных ускорителей NVIDIA H100 и A100 сами разрабатывают собственные специализированные GPU для задач ИИ, высокопроизводительных вычислений и графики. Поэтому в перспективе объёмы закупок оборудования у NVIDIA этими компаниями снизятся по мере перехода на собственные решения.

В Omdia также прогнозируют, что рынок серверов в целом вырастет до $195,6 млрд к 2027 году. Одним из драйверов этого роста послужит переход к специализированным серверным системам, в которых будут применяться наборы разнообразных сопроцессоров, предназначенных под конкретные виды задач. Примером уже могут служить серверы компании Amazon для ИИ, в которых применяются 16 специализированных сопроцессоров Inferentia 2, а также серверы кодирования видео компании Google, оснащающиеся 20 специальными VCU или чипами видеокодирования. Компания Meta также последовала этому примеру и выпустила серверы, оснащённые 12 специальными процессорами для обработки видео.

Отмечается, что интерес к использованию специализированных сопроцессоров, оптимизированных для выполнения определённых задач, будет расти по мере внедрения технологий, которые позволят снизить стоимость производства данных чипов. Ключевыми областями применения таких чипов сейчас являются ИИ и медиа, однако в дальнейшем, как ожидается, они также найдут своё применение в сегментах управления базами данных и веб-сервисах.

NVIDIA намерена перейти на ежегодное обновление архитектуры GPU — как минимум, для ИИ

Стремясь сохранить своё лидерство в области ускорителей ИИ и высокопроизводительных вычислений (HPC), NVIDIA планирует ускорить разработку новых архитектур графических процессоров и, по сути, вернуться к годовому графику внедрения новых продуктов. Судя по планам, представленным инвесторам, графические процессоры поколения Blackwell должны увидеть свет в 2024 году, а уже в 2025 году на смену ему придёт новая архитектура, пока не имеющая названия и обозначенная как X.

 Источник изображения: Nvidia

Источник изображения: NVIDIA

До выпуска Blackwell, который ожидается во второй половине следующего года, NVIDIA представит несколько новых продуктов на базе своей актуальной архитектуры Hopper. Ожидается ускоритель H200, созданный на базе H100, а также GH200NVL, предназначенный для работы с большими языковыми моделями (LLM) совместно с процессорами Arm.

В семействе Blackwell в 2024 году NVIDIA, похоже, представит ускоритель вычислений B100 для платформ x86, который придёт на смену H100. Компания также готовит GB200, который предположительно представляет собой преемника для вычислительной системы Grace Hopper, которая объединяет процессор Arm и графический процессор Hopper. И ещё выйдет GB200NVL — решение на базе Arm для обучения и работы c LLM. В планах также представлен продукт B40, предположительно клиентское решение на базе графического процессора для вывода ИИ.

В 2025 году на смену Blackwell придёт архитектура, пока обозначенная буквой X. Аналогично поколению Blackwell будут представлены продукты X100, GX200 и GX200NVL. В потребительском сегменте X40 придёт на смену B40.

На данный момент NVIDIA лидирует на рынке графических процессоров для искусственного интеллекта, но AWS, Google, Microsoft, AMD и другие игроки в области искусственного интеллекта и высокопроизводительных вычислений готовят собственные решения для работы с ИИ, поэтому NVIDIA вынуждена реагировать и вносить корректировки в свои планы.

Сообщается, что для дальнейшего укрепления своих позиций NVIDIA заранее зарезервировала мощности TSMC и приобрела память HBM у всех трёх мировых производителей. Параллельно компания продвигает свои серверы HGX и MGX, стремясь коммерциализировать эти машины и сделать их популярными среди конечных пользователей, особенно в сегменте корпоративного искусственного интеллекта.

Microsoft выпустит собственный ИИ-ускоритель, чтобы подорвать доминирование NVIDIA

Microsoft вскоре может представить собственный ускоритель для систем искусственного интеллекта, выяснило издание The Information. Софтверный гигант включился в работу над этим проектом, чтобы сократить расходы и снизить зависимость от NVIDIA, которая остаётся крупнейшим поставщиком таких компонентов. Презентация чипа от Microsoft может состояться на конференции разработчиков в ноябре.

ИИ-процессор Microsoft, как сообщается, будет ориентирован на работу в серверном сегменте — компания включит его в пакетные предложения для клиентов. Тестированием чипа занимались подразделения в OpenAI и самой Microsoft, которая взяла на себя финансовую нагрузку проекта. Ранее стало известно, что разработку собственных ускорителей рассматривает и сама OpenAI, в том числе изучая возможность поглощения одной из профильных компаний.

Сложившееся положение вещей таково, что ни один из поставщиков ещё не может сравниться с NVIDIA: на рынке ИИ-ускорителей её доля, по некоторым оценкам, составляет около 80 %. И крупнейших игроков в отрасли ИИ это не устраивает: собственные проекты разрабатывают Amazon и Google, и, видимо, к ним готова подключиться Microsoft.

Важнейшей проблемой, касающейся NVIDIA как крупнейшего поставщика ИИ-ускорителей, является тот факт, что компания не справляется со своей задачей: спрос на рынке превышает предложение, несмотря на то, что и NVIDIA значительно нарастила производство, и AMD выпустила собственные модели. Тем временем глава OpenAI Сэм Альтман (Sam Altman) открыто выражал обеспокоенность по поводу дефицита ускорителей. По оценкам TrendForce, только в 2020 году OpenAI для обучения модели GPT требовались 20 тыс. ускорителей NVIDIA A100, а для поддержки коммерческой работы ChatGPT необходимо увеличить их число до 30 тыс. Microsoft связана обязательствами закупать ускорители NVIDIA, но разработка софтверным гигантом собственного чипа способна изменить правила игры в отрасли.

Глава разработки ИИ-чипов Meta✴ уйдёт с должности

Вице-президент по инфраструктуре Meta Алексис Блэк Бьорлин (Alexis Black Bjorlin), курирующая направление, связанное с разработкой фирменных чипов Meta для систем искусственного интеллекта, в конце месяца оставит свою должность. Об этом сообщает Reuters со ссылкой на два собственных источника.

 Источник изображения: Maxence Pira / unsplash.com

Источник изображения: Maxence Pira / unsplash.com

Блэк Бьорлин, являющаяся выходцем из Broadcom и Intel, присоединилась к Meta в декабре 2021 года и была назначена главой подразделения, которому было поручено разработать ускоритель для выполнения задач, связанных с алгоритмами ИИ. Проект реализуется в рамках стратегии по модернизации центров обработки данных компании — сейчас ей необходимы ресурсы для работы чат-ботов и генераторов изображений. Блэк Бьорлин оставит свою должность в конце месяца, но как минимум в ближайшее время останется работать в компании, передаёт один из источников издания. Её место займёт вице-президент Meta по инженерным вопросам Йи Цзюн Сон (Yee Jiun Song).

Накануне Meta представила новые продукты на базе генеративного ИИ, в том числе чат-бот, выводящий как текстовые ответы, так и изображения. Для разработки и реализации этих и других функций компания модернизирует свои ЦОД и проектирует суперкомпьютеры с ускорителями NVIDIA. Разработка собственных чипов поможет Meta снизить расходы и зависимость от сторонних поставщиков.

NVIDIA продаёт ИИ-ускорители H100 с наценкой в 1000 %, но спрос на них только растёт

NVIDIA получает до 1000 % выручки с каждого проданного специализированного графического ускорителя H100, предназначенного для задач, связанных с искусственным интеллектом. Об этом утверждает журналист издания Barron Тэ Ким (Tae Kim), ссылающийся на анализ консалтинговой компании Raymond James.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

В настоящий момент стоимость каждого ускорителя NVIDIA H100 в зависимости от региона продаж и поставщика в среднем составляет $25–30 тыс. При этом речь идёт о менее дорогой PCIe-версии указанного решения. По оценкам Raymond James, стоимость использующегося в этом ускорителе графического процессора, а также дополнительных материалов (печатной платы и других вспомогательных элементов) составляет $3320. К сожалению, Ким не уточняет глубину анализа расчёта стоимости и не поясняет, включены ли в этот показатель такие факторы, как затраты на разработку, зарплата инженеров, а также стоимость производства и логистики.

Разработка специализированных ускорителей требует значительного времени и ресурсов. По данным того же портала Glassdoor, средняя зарплата инженера по аппаратному обеспечению в NVIDIA составляет около $202 тыс. в год. Речь идёт только об одном инженере, но очевидно, что при разработке тех же H100 работала целая команда специалистов, а на саму разработку были затрачены тысячи рабочих часов. Всё это должно учитываться в конечной стоимости продукта.

И всё же очевидно, что сейчас NVIDIA в вопросе поставок аппаратных средств для ИИ-вычислений находится вне конкуренции. На специализированные ускорители «зелёных» сейчас такой спрос, что они распродаются ещё задолго до того, как попадают на условные полки магазинов. Поставщики говорят, что очередь за ними растянулась до второго квартала 2024 года. А с учётом последних оценок аналитиков, согласно которым к 2027 году рынок ИИ-вычислений вырастет до $150 млрд, ближайшее будущее NVIDIA видится точно безбедным.

С другой стороны, для рынка в целом высокий спрос на ускорители ИИ-вычислений имеет свои негативные последствия. В последних отчётах аналитиков говорится, что продажи традиционных серверов (HPC) в глобальном масштабе сокращаются. Основная причина падения спроса заключается в том, что гиперскейлеры и операторы ЦОД переключают внимание на системы, оптимизированные для ИИ, в которых используются решения вроде NVIDIA H100. По этой причине тем же производителям памяти DDR5 пришлось пересмотреть свои ожидания относительно распространения нового стандарта ОЗУ на рынок, поскольку операторы ЦОД сейчас активно инвестируют именно в ускорители ИИ, а не в новый стандарт оперативной памяти. На фоне этого ожидается, что уровень внедрения DDR5 достигнет паритета с DDR4 только к третьему кварталу 2024 года.

NVIDIA представила суперчип GH200 Grace Hopper с памятью HBM3e и производительностью 4 Пфлопс

Компания NVIDIA в рамках конференции SIGGRAPH 2023 представила вычислительную платформу GH200 Grace Hopper SuperChip нового поколения, представляющую собой двухчиповую систему из центрального и графического процессоров. Она послужит для построения НРС-систем и ИИ-платформ. В её основе используется новое поколение суперчипа NVIDIA Grace, оснащённого набортной высокопроизводительной памятью HBM3e, обеспечивающей доступ к информации со скоростью 5 Тбайт/с.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По словам NVIDIA, платформа GH200 Grace Hopper SuperChip нового поколения значительно превосходит по производительности своего предшественника. Один сервер на платформе GH200 Grace Hopper с двумя новыми суперчипами (то есть с двумя парами GPU+CPU) сможет предложить наличие 144 ядер Arm Neoverse, работающих в тандеме с 282 Гбайт передовой набортной высокопроизводительной памяти HBM3e. Такая конфигурация обеспечивает в 3,5 раза больше памяти и в три раза больше пропускной способности, чем предшественник. Производительность подобной платформы с парой суперчипов составляет 8 петафлопс.

«Для удовлетворения растущего спроса на генеративный ИИ центрам обработки данных требуются вычислительные платформы с особыми возможностями. Этот вопрос готова решить новая платформа GH200 Grace Hopper SuperChip, в которой применяется технология набортной памяти HBM3e с повышенной пропускной способностью. Она предлагает возможность объединения нескольких GPU для объединения производительности, а также позволяет создавать серверные системы, которые можно легко развернуть в любом месте центра обработки данных», — прокомментировал глава NVIDIA Дженсен Хуанг (Jensen Huang).

Суперчип Grace Hopper, лежащий в основе новой платформы, может быть объединён с такими же суперчипами с помощью шины NVIDIA NVLink. Эта высокоскоростная технология предоставляет графическому процессору полный доступ к памяти центрального процессора, обеспечивая суммарно 1,2 Тбайт быстрой памяти в случае конфигурации с двумя суперчипами. Это позволяет развёртывать крупномасштабные вычислительных системы, необходимые для решения комплексных задач, связанных с генеративными ИИ.

Память стандарта HBM3e, использующаяся в составе платформы GH200 Grace Hopper SuperChip нового поколения, обладает на 50 % более высокой производительностью по сравнению с HBM3 и обеспечивает совокупную пропускную способность на уровне 10 Тбайт/с в системе с несколькими платформами GH200 Grace Hopper SuperChip. Это позволяет платформе запускать в 3,5 раза более крупные ИИ-модели и обеспечивает значительный прирост общей производительности за счёт увеличенной в три раза пропускной способности памяти по сравнению с предшественником.

В NVIDIA отмечают, что на фоне растущего спроса на платформу Grace Hopper ведущие производители уже начали предлагать системы, построенные на базе суперчипа Grace Hopper. Новая платформа Grace Hopper SuperChip следующего поколения с памятью HBM3e полностью совместима со спецификациями серверной модульной архитектуры NVIDIA MGX, которая была представлена на выставке Computex 2023. Такая совместимость гарантирует, что любой производитель серверных решений сможет быстро и с минимальными затратами интегрировать Grace Hopper в более чем 100 вариантов серверов, представленных на рынке.

Внедрние новой платформы NVIDIA ведущими производителями серверных систем начнётся во втором квартале 2024 года.


window-new
Soft
Hard
Тренды 🔥
Два крупнейших фотостока в мире задумали слияние, но антимонопольщики могут помешать 2 ч.
Новая статья: Самые ожидаемые игры 2025 года 3 ч.
Гендиректор YouTube сделал ставку на ИИ и блогеров 13 ч.
Mozilla запустила расширение Orbit для Firefox для обобщения контента с помощью ИИ 18 ч.
Министерство юстиции США не считает нужным давать TikTok ещё один шанс сохранить американский бизнес 19 ч.
Власти США запретили продавать личные данные американцев в Россию и другие недружественные страны 20 ч.
Новая статья: Лучшие игры 2024 года: выбор читателей и редакции 04-01 00:03
Anthropic договорилась с музыкальными издателями по иску о незаконном пересказывании песен ИИ 03-01 17:10
«Не лучшее начало 2025 года»: Sony включила в январскую подборку PS Plus провальную Suicide Squad: Kill the Justice League 03-01 12:23
Apple согласилась выплатить по $20 десяткам миллионов пользователей, чьи разговоры подслушивала Siri 02-01 22:06
Imagination лишится гендира после скандала с передачей технологий в Китай 2 ч.
Microsoft инвестирует в 2025 финансовом году $80 млрд в создание ИИ ЦОД, больше половины — в объекты в США 3 ч.
Южнокорейские производители аккумуляторов начали затягивать пояса, чтобы пережить тяжёлый год 7 ч.
Acer скоро представит портативные приставки Nitro Blaze 11 и Blaze 8 с большими экранами 8 ч.
BenQ показала самый быстрый монитор в мире — 600-герцевый Zowie XL2586X+ для киберспортсменов 11 ч.
Microsoft совместно с учёными США разработала экологичные облачные серверы GreenSKU, которые используют RAM и SSD из старых систем 12 ч.
Gigabyte анонсировала Aorus FO27Q5P — первый в мире монитор QD-OLED с частотой обновления 500 Гц и портом DisplayPort 2.1a 12 ч.
У Tesla взлетели поставки литиевых батарей Megapack — возобновляемая энергетика сорит деньгами 13 ч.
Состоялся первый космический пуск в 2025 году — SpaceX Falcon 9 доставила спутник связи с ИИ 14 ч.
В 2025 году Microsoft инвестирует огромную сумму в $80 млрд в ИИ ЦОД 19 ч.