Сегодня 02 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → nvidia h100

Сроки поставок ИИ-ускорителей Nvidia H100 сократились до 2–3 месяцев

Cроки поставок ИИ-ускорителей Nvidia H100 сократились с 3–4 до 2–3 месяцев (8–12 недель), сообщает DigiTimes со ссылкой на заявление директора тайваньского офиса компании Dell Теренса Ляо (Terence Liao). ODM-поставщики серверного оборудования отмечают, что дефицит специализированных ускорителей начал снижаться по сравнению с 2023 годом, когда приобрести Nvidia H100 было практически невозможно.

 Источник изображения: Nvidia

Источник изображения: Nvidia

По словам Ляо, несмотря на сокращение сроков выполнения заказов на поставки ИИ-ускорителей, спрос на это оборудование на рынке по-прежнему чрезвычайно высок. И несмотря на высокую стоимость, объёмы закупок ИИ-серверов значительно выше закупок серверного оборудования общего назначения.

Окно поставок в 2–3 месяца — это самый короткий срок поставки ускорителей Nvidia H100 за всё время. Всего шесть месяцев назад он составлял 11 месяцев. Иными словами, клиентам Nvidia приходилось почти год ждать выполнение своего заказа. С начала 2024 года сроки поставок значительно сократились. Сначала они упали до 3–4 месяцев, а теперь до 2–3 месяцев. При таком темпе дефицит ИИ-ускорителей может быть устранён к концу текущего года или даже раньше.

Частично такая динамика может быть связана с самими покупателями ИИ-ускорителей. Как сообщается, некоторые компании, имеющие лишние и нигде не использующиеся H100, перепродают их для компенсации огромных затрат на их приобретение. Также нынешняя ситуация может являться следствием того, что провайдер облачных вычислительных мощностей AWS упростил аренду ИИ-ускорителей Nvidia H100 через облако, что в свою очередь тоже частично помогает снизить на них спрос.

Единственными клиентами Nvidia, которым по-прежнему приходится сталкиваться с проблемами в поставках ИИ-оборудования, являются крупные ИИ-компании вроде OpenAI, которые используют десятки тысяч подобных ускорителей для быстрого и эффективного обучения своих больших языковых ИИ-моделей.

ИИ-ускоритель Intel Gaudi2 оказался на 55 % быстрее Nvidia H100 в тестах Stable Diffusion 3, но есть нюанс

Компания Stability AI, разработчик популярной модели генеративного ИИ Stable Diffusion, сравнила производительность модели Stable Diffusion 3 на популярных ускорителях вычислений для центров обработки данных, включая Nvidia H100 Hopper, A100 Ampere и Intel Gaudi2. По утверждению Stability AI, Intel Gaudi2 продемонстрировал производительность примерно на 56 % выше, чем Nvidia H100.

 Источник изображения: Intel

Источник изображения: Intel

В отличие от H100, который представляет собой суперскалярный графический процессор с тензорными CUDA-ядрами, Gaudi2 специально спроектирован для ускорения генеративного ИИ и больших языковых моделей (LLM). В тестах приняли участие пары кластеров, которые в сумме обеспечивали по 16 тех или ускорителей, а проводились тесты с постоянным размером батча (число тренировочных объектов) в 16 на каждый ускоритель (всего 256). Системы на Intel Gaudi2 оказались способны генерировать 927 изображений в секунду по сравнению с 595 изображениями для ускорителей H100 и 381 изображением в секунду для массива A100.

 Источник изображения: Stability AI

Источник изображения: Stability AI

При увеличении количества кластеров до 32, а числа ускорителей до 256 и размере батча 16 на ускоритель (общий размер 4096), массив Gaudi2 генерирует 12 654 изображения в секунду или 49,4 изображения в секунду на ускоритель, по сравнению с 3992 изображениями в секунду или 15,6 изображениями в секунду на устройство у массива A100 Ampere.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Необходимо отметить, что производительность ускорителей ИИ измерялась с использованием фреймворка PyTorch, а в случае применения оптимизации TensorRT чипы A100 создают изображения до 40 % быстрее, чем Gaudi2. Тем не менее, исследователи Stability AI ожидают, что при дальнейшей оптимизации Gaudi2 превзойдёт A100. Компания полагает, что более быстрый интерконнект и больший объем памяти (96 Гбайт) делают решения Intel вполне конкурентоспособными и планирует использовать ускорители Gaudi2 в Stability Cloud.

 Источник изображения: techpowerup.com

Источник изображения: techpowerup.com

По сообщению Stability AI, в более ранних тестах модели Stable Diffusion XL с использованием фреймворка PyTorch ускоритель Intel Gaudi2 генерирует при 30 шагах изображение размером 1024 × 1024 за 3,2 секунды по сравнению с 3,6 секунды для PyTorch на Nvidia A100 и 2,7 секунды при использовании оптимизации TensorRT на Nvidia А100.

NVIDIA развенчала миф от AMD: ИИ-ускорители H100 в реальных задачах в разы быстрее Instinct MI300X

Компания NVIDIA опубликовала свежие данные о производительности своих ИИ-ускорителей H100, сравнив их с недавно представленными ускорителями Instinct MI300X от компании AMD. Этим сравнением NVIDIA решила показать, что на самом деле H100 обеспечивают более высокую производительность по сравнению с конкурентом, если использовать правильную программную среду для ИИ-вычислений. Компания AMD этого не учла в своём сравнении ускорителей, посчитали в NVIDIA.

 Источник изображения: Wccftech

Источник изображения: Wccftech

Во время презентации Advancing AI компания AMD официально представила специализированные ускорители вычислений для ИИ Instinct MI300X и сравнила их в различных бенчмарках и тестах с ускорителями H100 от NVIDIA. В частности, AMD заявила, что один ускоритель MI300X обеспечивает на 20 % более высокую производительность по сравнению с одним ускорителем H100, а сервер из восьми MI300X до 60 % быстрее сервера из восьми H100. NVIDIA опубликовала заметку на своём сайте, в которой утверждает, что эти заявления далеки от правды.

Ускорители вычислений NVIDIA H100 были выпущены в 2022 году и с тех пор получили различные улучшения на уровне программного обеспечения. Например, наиболее свежие улучшения, связанные с программной средой для ИИ-вычислений TensorRT-LLM позволили ещё больше повысить производительность H100 в рабочих нагрузках, специфичных для искусственного интеллекта, а также провести оптимизацию на уровне ядра. Всё это, по словам NVIDIA, позволяет чипам H100 эффективнее работать с такими большими языковыми моделями, как Llama 2 с 70 млрд параметров с использованием операций FP8.

Сама AMD в своей презентации утверждала, что Instinct MI300X до 20 % быстрее H100 в Llama 2 70B, а также система из восьми ускорителей AMD обеспечивает превосходство по задержке на 40 % по сравнению с системой на восьми NVIDIA H100 в той же нейросети. Превосходство в операциях FP8 и FP16 составляет 30 % в пользу MI300X.

AMD проводила тесты своих ускорителей MI300X с использованием оптимизированных библиотек программной среды вычислений ROCm 6.0. Однако для NVIDIA H100 использовались данные без учёта применения оптимизированной программной среды TensorRT-LLM, предназначенной для этих задач. В свежей статье NVIDIA привела актуальные данные производительности одного DGX-сервера из восьми H100 в модели Llama 2 70B с учётом обработки одного программного пакета (Batch-1).

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

NVIDIA поясняет, что выводы AMD (серым и красным на графике выше) о превосходстве над H100 основаны на данных, представленных в сноске #MI300-38 к презентации AMD. Для их получения использовалась система NVIDIA DGX H100, фреймворк vLLM v.02.2.2 и модель Llama 2 70B с длиной входной последовательности 2048 и длиной выходной последовательности 128. NVIDIA отмечает, что в AMD сравнили систему из восьми MI300X с системой DGX H100 из восьми H100.

В свою очередь данные NVIDIA показаны на графике зелёным. Для их получения применена система DGX H100 из восьми NVIDIA H100 с 80 Гбайт памяти HBM3 в каждом, а также находящийся в открытом доступе фреймворк NVIDIA TensorRT-LLM v0.5.0 для расчёта Batch-1 и версии v0.6.1 для расчёта задержки. Рабочая нагрузка такая же, как указано в сноске AMD #MI300-38.

Приведённые NVIDIA результаты показывают, что сервер DGX H100 вдвое быстрее при использовании оптимизированных фреймворков, чем заявляет AMD. Кроме того, сервер с восемью H100 до 47 % быстрее системы с восемью AMD MI300X.

«Система DGX H100 способна обработать один инференс-запрос размером в один пакет (Batch-1) или иными словами, один запрос вывода за раз, за 1,7 секунды. Запрос уровня Batch-1 обеспечивает максимально быстрый показатель времени отклика для обработки модели. Для оптимизации времени отклика и пропускной способности ЦОД облачные сервисы устанавливают фиксированное время ответа для конкретной задачи. Это позволяет операторам ЦОД объединять несколько запросов на вывод в более крупные “пакеты” и увеличивать общее количество выводов сервера в секунду. Стандартные отраслевые тесты вроде MLPerf также измеряют производительность с помощью этого фиксированного показателя времени отклика», — продолжает NVIDIA.

В NVIDIA поясняют, что небольшие компромиссы в вопросе времени отклика системы могут привести к увеличению количества запросов на вывод, которые сервер может обработать в реальном времени. Используя фиксированный бюджет времени отклика в 2,5 секунды, сервер DGX H100 с восемью графическими процессорами может обработать более пяти инференс-запросов Llama 2 70B за раз.

NVIDIA отгрузила 900 тонн ускорителей H100 в прошлом квартале

Объёмы поставок ускорителей NVIDIA для систем искусственного интеллекта в новостях фигурируют преимущественно в контексте обсуждения дефицита данного вида компонентов, но представители Omdia использовали неожиданный подход для оценки масштабов отгрузки этой продукции NVIDIA — за второй квартал, по их мнению, компания поставила клиентам не менее 900 тонн ускорителей H100.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Как поясняет ресурс Tom’s Hardware, данный показатель увязывается авторами исходной оценки со способностью NVIDIA отгрузить по итогам второго квартала около 300 000 ускорителей H100. Средняя масса такого изделия в сочетании с системой охлаждения достигает 3 кг, по данным первоисточника, что и даёт в итоге 900 тонн. Следует учитывать, что на базе чипов H100 создаются ускорители разных типоразмеров. Плата с разъёмом PCI Express весит 1,2 кг, но масса модуля SXM в открытых источниках не фигурирует, и лишь по приблизительным оценкам можно судить, что она наверняка приближается к 2 кг.

На недавней технологической конференции финансовый директор компании Колетт Кресс (Colette Kress) призналась, что во втором квартале NVIDIA отгрузила примерно равное количество ускорителей H100 и A100, поэтому в массовом выражении последних было выпущено тоже около 900 тонн, если ориентироваться на оценки Omdia. Существуют ещё и адаптированные под условия антикитайских санкций США ускорители A800 и H800, которые не должны отличаться по массе от исходных A100 и H100, но пока сложно судить, учитывались ли они в этой статистике.

Представители NVIDIA не раз за последние недели подчеркнули, что с каждым кварталом компания будет увеличивать объёмы поставок ускорителей, и темпы этой экспансии сейчас во многом зависят от способности подрядчиков выпускать необходимое количество профильной продукции. «Узким местом», например, многими экспертами считается этап тестирования и упаковки чипов силами компании TSMC. С учётом некоторого количества поставленных в первом квартале ускорителей вычислений, по итогам всего года NVIDIA наверняка выпустит более 1 млн одних только H100. Сейчас данный вид деятельности является источником основных доходов для NVIDIA, поэтому она заинтересована в максимально быстрой экспансии.

Tesla запустила суперкомпьютер на 10 тыс. ускорителей NVIDIA H100 — на нём будут учить автопилот

Компания Tesla сообщила о запуске на этой неделе нового суперкомпьютера для решения ресурсоемких задач, связанных с ИИ. В его основе используются 10 тыс. специализированных графических ускорителей NVIDIA H100.

 Источник изображений: HPC Wire

Источник изображений: HPC Wire

Отмечается, что система обеспечивает пиковую производительность в 340 Пфлопс в операциях FP64 для технических вычислений и 39,58 Эфлопс в операциях INT8 для задач ИИ. Таким образом, по производительности FP64 кластер превосходит суперкомпьютер Leonardo, который располагается на четвёртой позиции в нынешнем мировом рейтинге суперкомпьютеров Тор500 с показателем 304 Пфлопс.

Новый суперкомпьютер Tesla с ускорителями NVIDIA H100 является одной из самых мощных платформ в мире. На формирование кластера потрачено около $300 млн. Он подходит не только для обработки алгоритмов ИИ, но и для НРС-задач. Благодаря данной системе компания рассчитывает значительно расширить ресурсы для создания полноценного автопилота.

На фоне сформировавшегося дефицита ускорителей NVIDIA H100 компания хочет диверсифицировать вычислительные мощности. Для этого Tesla ведёт разработку своего собственного проприетарного суперкомпьютера Dojo. В проект планируется инвестировать $1 млрд. Уже к октябрю следующего года Tesla рассчитывает преодолеть барьер в 100 Эфлопс производительности, что более чем в 60 раз мощнее самого производительного суперкомпьютера в мире на сегодняшний день.

Помимо простого аппаратного обеспечения, новая вычислительная инфраструктура предоставит Tesla преимущество в обработке огромных наборов данных, что имеет решающее значение для реальных сценариев обучения ИИ.

Очередь за ускорителями вычислений NVIDIA H100 растянулась до 2024 года

Ажиотажный спрос на ускорители вычислений NVIDIA для систем искусственного интеллекта уже привёл к дефициту данного вида продукции, и старшая карта H100 с архитектурой Hopper востребована в такой степени, что все доступные объёмы таких ускорителей уже распределены до начала следующего года.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По крайней мере, уверенность в этом в интервью ресурсу Barron’s выразил технический директор стартапа CoreWeave Брайан Вентуро (Brian Venturo), поскольку приближённый к NVIDIA поставщик инфраструктурных решений для ускорения вычислений силами GPU имеет актуальное представление о положении дел на рынке. Как пояснил Брайан Вентуро, ещё в первом квартале текущего года с доступом к нужным объёмам ускорителей проблем не было, но в апреле всё резко изменилось. Сроки исполнения заказов растянулись до конца текущего года, и спрос неожиданно подскочил буквально за одну неделю. Ускорители теперь нужны не только крупным облачным провайдерам, но и исследовательским лабораториям, и крупным предприятиям, которые экспериментируют с внедрением систем искусственного интеллекта.

Как поясняет этот поставщик ускорителей, сейчас желающие получить самую производительную версию в исполнении NVIDIA, которая обозначается H100, вынуждены рассчитывать сроки поставки на первый или второй квартал следующего года. Непосредственно CoreWeave, инвестором которой является сама NVIDIA, сможет возобновить закупку ускорителей серии H100 не ранее второго или третьего квартала следующего года. По словам руководителя компании, решения NVIDIA в этой сфере востребованы в силу наличия развитой экосистемы для разработчиков, универсальности и сопутствующей инфраструктуры передачи информации в виде скоростных решений InfiniBand.

Из-за новых антикитайских санкций NVIDIA рискует лишиться $400 млн

Взяв за основу уровень производительности, обеспечиваемый ускорителями вычислений A100, власти США запретили NVIDIA поставлять в Китай и Россию не только их, но и более современные H100. Компания выразила озабоченность не только способностью довести до конца разработку нового поколения ускорителей в намеченные сроки, но и потерей до 10 % выручки на серверном направлении.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Дело в том, как поясняет Reuters, что NVIDIA уже заключила с китайскими клиентами контракты на поставку ускорителей вычислений из «запрещённой номенклатуры» на общую сумму $400 млн, и если китайские компании не переключатся на альтернативные изделия марки, которые не попали под новые ограничения, то пропорциональная часть выручки в третьем квартале может быть потеряна. NVIDIA выразила готовность подать заявку на оформление экспортной лицензии, которая позволила бы ей продолжать поставки ускорителей вычислений в Китай, но она не уверена в успехе данной затеи.

С точки зрения распространения данных ограничений на поставки ускорителей в Россию влияние на бизнес NVIDIA вряд ли будет значительным. Во-первых, компания ещё весной прекратила официальные поставки своей продукции на российский рынок. Во-вторых, она пояснила, что в совокупной структуре выручки наша страна формировала не более двух процентов, и только в игровом сегменте российские клиенты обеспечивали её четырьмя процентами выручки. По всей видимости, в серверном сегменте зависимость NVIDIA от российского рынка была выражена ещё слабее.

Примечательно, что опубликованная вчера же форма квартального отчёта 10-Q компании NVIDIA демонстрирует её высокую зависимость от китайского рынка в целом. Например, в минувшем квартале она выручила здесь почти 24 % от совокупной суммы $6,7 млрд. Если учесть, что в текущем квартале компания рассчитывает выручить на всех рынках присутствия не более $5,9 млрд, то потеря $400 млн на китайском направлении станет для неё серьёзным ударом. Эти новости вызвали снижение курса акций компании на 6,56 %.

SK hynix начала массовое производство памяти HBM3 — первым продуктом с ней будут серверные ускорители NVIDIA H100

Компания SK hynix сообщила о начале массового производства памяти HBM3. Первыми коммерческими продуктами с её использованием станут серверные ускорители вычислений NVIDIA H100 на графической архитектуре Hopper.

 Источник изображения: SK hynix

Источник изображения: SK hynix

В SK hynix отмечают, что к массовому производству памяти HBM3 производитель перешёл спустя всего семь месяцев с момента первого официального анонса данного стандарта памяти в октябре прошлого года. Использование памяти HBM3 в коммерческих продуктах позволит значительно увеличить производительность в задачах, связанных с искусственным интеллектом и большими данными.

Компания NVIDIA недавно завершила тестирование образцов памяти SK hynix HBM3. Поставки систем NVIDIA с этим видом памяти начнутся в третьем квартале текущего года. SK hynix увеличит объёмы производства памяти HBM3 в соответствии с запросами NVIDIA.

Память SK hynix HBM3 обеспечивает пропускную способностью до 819 Гбайт/с. Это равносильно передаче 163 фильмов в разрешении 1080p (размер файла 5 Гбайт) каждую секунду.


window-new
Soft
Hard
Тренды 🔥
iPhone перестали будить пользователей — Apple уже борется со сбоем в будильнике 41 мин.
Физики на шаг приблизились к пониманию молний — у восходящих молний засекли рентгеновские вспышки 44 мин.
Смартфоны iPhone 15 до сих пор не догнали по популярности своих предшественников 2 ч.
Космический телескоп «Хаббл» вернулся к научной работе после сбоя 2 ч.
Google уволит 200 инженеров и разработчиков в США, но расширит штат в Индии и Мексике 3 ч.
SK hynix начнёт поставлять образцы 12-ярусной памяти HBM3E в этом месяце, заказами она обеспечена до конца 2025 года 3 ч.
Huawei Lab лишится права сертифицировать телекоммуникационное оборудование для использования в США 5 ч.
Мобильный ИИ-гаджет Rabbit R1 за $199 подвергся критике экспертов после дебюта на CES 2024 5 ч.
Прогноз по выручке Qualcomm на второй квартал превзошёл ожидания аналитиков 6 ч.
Выручка AMD от игровых чипов обвалилась вдвое: Radeon RX 8000 может не выйти в этом году 7 ч.