Сегодня 21 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gb200

Microsoft, Google и прочие урезали заказы на серверы с Nvidia Blackwell из-за перегрева и проблем с передачей данных

Злые языки, которые с середины прошлого года утверждали, что у серверных ускорителей вычислений Nvidia семейства Blackwell возникают то дефекты дизайна, то проблемы с перегревом, не успокоились и с наступлением января. Издание The Information заявило, что крупные клиенты Nvidia сокращают объёмы закупок серверных систем на базе Blackwell из-за проблем с перегревом.

 Источник изображения: Nvidia

Источник изображения: Nvidia

По данным источника, в серверных системах на базе Blackwell были обнаружены проблемы с перегревом и передачей информации между чипами из-за дефекта соединения. Соответственно, крупные покупатели таких систем в лице Microsoft, Amazon, Alphabet (Google) и Meta Platforms сократили количество заказанных серверных систем на базе чипов Nvidia GB200 относительно первоначальных планов. Представители перечисленных компаний своих комментариев Reuters на эту тему не предложили.

Каждая из этих компаний, по данным источника, первоначально потратила более $10 млрд на заказы, связанные с поставкой серверных систем на базе Blackwell. Теперь клиенты Nvidia предпочитают либо дождаться исправленных версий систем на базе Blackwell, либо согласны получить стойки на основе менее производительных ускорителей поколения Hopper.

На одной из своих площадок в Аризоне, как сообщается, Microsoft планировала установить не менее 50 000 ускорителей поколения Blackwell. Обслуживаемая ею OpenAI в итоге решила ограничиться ускорителями поколения Hopper, чтобы меньше страдать от вероятной задержки с поставками Blackwell. На фоне данных слухов акции Nvidia начали терять в цене до 4 %. Представители Google, на которых ссылается Seeking Alpha, задержку с поставками ускорителей Blackwell не подтвердили, а представители Nvidia от комментариев отказались.

Крупные партнёры Nvidia отрицают проблемы с перегревом серверов на чипах Blackwell

За несколько дней до публикации квартального отчёта Nvidia слухи о наличии проблем с охлаждением ускорителей GB200 поколения Blackwell в стойках NVL72 могли потрепать нервы инвесторам, но партнёры компании поспешили заявить, что подобные решения уже начали поставляться и каких-либо дефектов не содержат.

 Источник изображения: Nvidia

Источник изображения: Nvidia

По крайней мере, основатель и глава Dell Technologies Майкл Делл (Michael Dell) на страницах социальной сети заявил, что первые в мире серверные стойки GB200 NVL72 начала отгружать именно его компания. Оснащённая жидкостным охлаждением система PowerEdge XE9712 была отгружена CoreWeave. «Ракета ИИ только что получила серьёзное ускорение», — отметил Делл в своём заявлении.

Тайваньское издание Economic Daily News добавило, что тайваньские контрактные производители Foxconn и Quanta, которые являются крупнейшими подрядчиками Nvidia по выпуску непосредственно ускорителей GB200, также начали поставки первых партий серверных стоек NVL72 на их основе. Никаких изменений в графике поставок не предусмотрено, как поясняют тайваньские производители. В любом случае, массовыми эти поставки станут только в следующем году. По словам представителей Foxconn, ускорители серии GB200 пользуются «сумасшедшим спросом». Представители Quanta также отметили, что массовые поставки соответствующих серверных систем начнутся в следующем квартале.

В следующем квартале Nvidia нарастит объёмы поставок Blackwell в три раза до 500 000 штук

На уходящей неделе в стороне от обсуждения планов Nvidia по экспансии производства ускорителей Blackwell не смог остаться известный отраслевой эксперт Мин-Чи Куо (Ming-Chi Kuo), который предположил, что в текущем квартале компания сможет отгрузить от 150 до 200 тысяч ускорителей этого семейства, но в следующем объёмы поставок утроятся до 500 или 550 тысяч штук.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Активнее всего, как поясняет Мин-Чи Куо, ускорители GB200 заказывает корпорация Microsoft. В четвёртом квартале она сосредоточится на закупке ускорителей GB200 NVL36 преимущественно для нужд тестирования, а более производительные системы GB200 NVL72 компания предпочтёт закупить ещё до того, как Nvidia приступит к их массовым поставкам в середине второго квартала. Microsoft будет получать от Nvidia адаптированные под свои нужды версии GB200 NVL72.

В четвёртом квартале Microsoft увеличила объёмы заказываемых ускорителей GB200 в три или четыре раза, с 300–500 штук до 1400–1500 штук, причём в последнем случае до 70 % заказов приходятся на NVL72. Дальнейшие заказы также сосредоточатся на системах серии NVL72. Выпуском этих ускорителей занимается Foxconn, которая обсудила с партнёрами свои планы увеличить объёмы производства в полтора или два раза в течение четвёртого квартала. Quanta также привлечена к подобной деятельности. Оба подрядчика Nvidia подтверждают, что Microsoft получает больше всего систем на основе ускорителей GB200 по сравнению с другими клиентами.

Что характерно, Microsoft собирается начать развёртывание центров обработки данных на базе GB200 с регионов с более холодным климатом, чтобы компенсировать вероятные огрехи в оптимизации системы охлаждения. Microsoft закупает ускорители Blackwell настолько активно, что прочим клиентам Nvidia их не хватает.

Foxconn подтвердила, что широкомасштабных поставок ускорителей Nvidia Blackwell не будет до конца года

На фоне многочисленных слухов о задержке поставок ускорителей вычислений Nvidia поколения Blackwell слова представителей Foxconn на отчётном мероприятии были призваны успокоить заинтересованных участников рынка. Этот контрактный производитель пообещал начать поставку серверных систем на базе ускорителей GB200 в следующем квартале.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Впрочем, речь всё же идёт о небольших партиях, как поясняет Nikkei Asian Review со ссылкой на комментарии представляющего интересы Foxconn Джеймса Ву (James Wu): «Мы по графику разрабатываем и готовимся приступить к производству нового ИИ-сервера Nvidia, который начнёт поставляться в небольших количествах в последнем квартале 2024 года, а в первом квартале следующего года объёмы производства будут увеличены». Как добавил представитель компании, динамическое изменение графика поставок является нормой, когда спецификации и технологии нового продукта существенно обновляются. Вне зависимости от возможного изменения графика поставок, Foxconn будет первым поставщиком первой партии серверов на основе GB200, как резюмировал Джеймс Ву.

Поскольку эти серверы будут поставляться в небольших количествах в текущем году, они могут и не оказать серьёзного влияния на выручку Foxconn, но спрос на решения на основе H100 и H200 достаточно предсказуем, а потому у компании будет возможность достичь поставленных целей по росту выручки как последовательно, так и год к году по итогам второй половины текущего года.

Уже сейчас ИИ-серверы формируют 40 % выручки серверного бизнеса Foxconn, а сама компания контролирует такую же долю мирового рынка ИИ-серверов. В скором времени по своим оборотам этот бизнес станет очередным источником потенциальной выручки, измеряемой в триллионах долларов.

Foxconn является главным контрактным производителем серверных систем NVL72, основанных на 72 ускорителях GB200. Такой кластер способен в 30 раз превосходить по быстродействию аналогичную систему на базе H100. Прошлый квартал компания завершила ростом чистой прибыли на 6 % до $1,1 млрд, а норма прибыли осталась на уровне аналогичного периода прошлого года (6,42 %). В текущем квартале Foxconn рассчитывает на увеличение выручки в серверном сегменте на 15 % по сравнению с аналогичным периодом прошлого года. Клиентский сегмент сохранит выручку на уровне аналогичного квартала прошлого года.

Nvidia начала отгрузку образцов ускорителей на архитектуре Blackwell

Nvidia скоро начнёт полномасштабные поставки оборудования на чипах Blackwell для систем искусственного интеллекта. На конференции SIGGRAPH в американском Денвере 29 июля компания представила несколько обновлений своих программных решений и сообщила, что начала отгружать образцы ИИ-оборудования на чипах Blackwell, передаёт Commercial Times.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Гендиректор Nvidia Дженсен Хуанг (Jensen Huang) считает, что серия ускорителей Blackwell станет самым успешным продуктом в истории компании — ожидается, что поставщики облачных услуг начнут отстраивать новые центры обработки данных с серверами для искусственного интеллекта. Эти чипы повлияют и на другие сегменты технологической отрасли: вырастет спрос на техпроцесс 4 нм у TSMC; начнут активно распространяться технологии водяного охлаждения — их проникновение достигнет 10 % и сыграет на руку таким компаниям как Asia Vital Components, Auras Technology, Delta Electronics и Cool IT.

Начало поставок новых чипов для ИИ клиентам ожидается в IV квартале, а полномасштабное производство запланировано на 2025 год. От этого выиграют сборочные заводы Wistron и Ingrasys (входит в Foxconn), которые занимаются производством подложек, вычислительных и коммуникационных плат. Вырастут заказы на стоечные системы Wiwynn, Quanta, Gigabyte, Asus и ASRock — при этом Quanta, Wiwynn и Inventec уже анонсировали сопутствующие продукты с поставками в IV квартале и дальнейшим увеличением объёмов в первой половине следующего года.

В 2025 году будут поставлены 60 000 стоечных систем Nvidia GB200 NVL36, а распространение графических процессоров Blackwell составит от 2,1 млн до 2,2 млн единиц, что сделает Blackwell основной платформой, которая будет присутствовать в 80 % высокопроизводительных систем Nvidia, прогнозируют аналитики TrendForce. Системы GB200 NVL36 будут использовать комбинацию решений воздушного и жидкостного охлаждения, а NVL72 станут работать преимущественно на жидкостном.

Поставки ИИ-серверов Nvidia GB200 по цене $3 млн под угрозой срыва из-за протечек в СЖО

Неожиданная проблема настигла новейшие серверные системы Nvidia GB200 NVL72 и NVL36, оснащённые передовыми ускорителями вычислений GB200, которые предназначены для приложений искусственного интеллекта. Незадолго до начала массового производства и запуска продукта в продажу была обнаружена серьёзная проблема в системе жидкостного охлаждения.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Напомним, что системы GB200 NVL72 представляют собой целую серверную стойку сразу с 18 1U-узлами, в каждом из которых имеется пара ускорителей GB200, которые, в свою очередь, представляют собой пару чипов Nvidia B200 и один 72-ядерный Arm-процессор Grace. Итого система включает 72 чипов B200, 36 процессоров Grace, соединённых шиной NVLink 5. Вся эта система потребляет порядка 120 кВт, оснащена СЖО и единой DC-шиной питания. В свою очередь, система GB200 NVL36 представляет собой систему с вдвое меньшим числом GB200. По предварительным данным, система GB200 NVL72 будет стоить $3 млн.

Как сообщает TweakTown со ссылкой на тайваньское издание UDN, в системах жидкостного охлаждения GB200 NVL72 обнаружены утечки, которые, по предварительным данным, связана с комплектующими сторонних производителей. Ранее Nvidia передала производство некоторых компонентов системы охлаждения, таких как патрубки, быстроразъёмные соединения и шланги, своим партнёрам — крупным международным производителям.

 Источник изображения: theregister.com

Источник изображения: theregister.com

Утечки были обнаружены до начала массового производства ИИ-систем NVL36 и NVL72, что дало производителям время на устранение неполадок и, несмотря на возникшие трудности и угрозу срыва сроков поставок ключевым клиентам, ожидается, что продукт будет поставлен вовремя.

Тем не менее, инцидент вызвал обеспокоенность у крупных поставщиков облачных услуг, которые опасаются за надёжность новых серверов Nvidia. В ответ на ситуацию, тайваньские производители, такие как Shuanghong и Qihong, стали наращивать производство компонентов для систем жидкостного охлаждения, чтобы предоставить Nvidia альтернативные варианты.

Сертификация патрубков, быстроразъёмных соединений и шлангов является сложным процессом, требующим специальных знаний и опыта. Ранее тайваньские компании не специализировались на производстве подобных компонентов, но решение Nvidia использовать жидкостное охлаждение в своих AI-чипах подтолкнуло их к освоению новых технологий. В настоящий момент ведутся активные работы над устранением проблемы. Ожидается, что серверные шкафы с процессорами GB200 и исправленной системой охлаждения начнут поставляться клиентам в ближайшее время.

Foxconn получил крупный заказ на производство коммутаторов NVLink для Nvidia GB200

Для тайваньского контрактного производителя Foxconn сотрудничество с Nvidia выгодно не только благодаря выпуску серверных стоек на основе компонентов этой марки, как поясняет Economic Daily News. Этот подрядчик будет выпускать значительную часть коммутаторов NVLink, которые в составе ускорителей GB200 отвечают за передачу информации между CPU, GPU и прочими компонентами системы.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Как отмечают тайваньские источники, объём заказов на выпуск коммутаторов NVLink оказался пропорционален заказу на выпуск серверных стоек на базе ускорителей GB200 — первых нужно в семь раз больше, чем вторых. На одну стойку с ускорителями GB200 как раз требуется семь коммутаторов, поэтому соотношение заказов отображает эту структуру. Впервые Foxconn достался крупный заказ на выпуск коммутаторов интерфейса NVLink. Компании он выгоден тем, что норма прибыли при выпуске этого типа компонентов выше, чем при сборке серверных стоек.

Помимо этого, Foxconn уже является крупнейшим производителем коммутаторов серверного назначения. Она выпускает их для Dell, HP, Cisco, Nokia и Ericsson, не считая других более мелких заказчиков. Foxconn уже контролирует 75 % мирового рынка соответствующих заслуг. Возможно, наличие такого опыта и подтолкнуло Nvidia к привлечению Foxconn в качестве подрядчика по выпуску коммутаторов NVLink для серверных стоек на основе GB200. По итогам текущего года Foxconn намеревается занять 40 % на рынке услуг по контрактному производству серверных систем для ИИ.


window-new
Soft
Hard
Тренды 🔥
У Nvidia закончились игровые видеокарты в облаке 8 мин.
Российское ПО не удовлетворяет 63 % айтишников по части совместимости с другим софтом 15 мин.
Олдскульная стратегия Tempest Rising в духе Command & Conquer стала доступна для предзаказа в российском Steam и обзавелась временной демоверсией 24 мин.
Золотой век наступил раньше времени: разработка Sid Meier’s Civilization VII официально завершена 2 ч.
«Мечты сбываются»: амбициозный мод GTA: Vice City Nextgen Edition на движке от GTA IV наконец получил точную дату выхода 2 ч.
RuStore стал вторым самым популярным магазином Android-приложений в России 2 ч.
«Начало новой эры»: Marvel Snap возобновила работу в США после разблокировки TikTok и готовится к переменам 4 ч.
Трамп подписал указ, который отсрочил на 75 дней блокировку TikTok в США 7 ч.
Canon выпустила приложение для стриминга с нескольких камер, но не своих собственных 8 ч.
Китайцы создали нейросеть, которая превзошла мыслящую OpenAI o1 в важных тестах 14 ч.
Amazon снова стала крупнейшим в мире корпоративным покупателем возобновляемой энергии в 2024 году 10 мин.
Учёные отказали частицам тёмной материи в возможности быть сверхтяжёлыми 24 мин.
Спецслужбы США и ЕС: причиной обрывов кабелей в Балтийском море стали не диверсии, а низкая квалификация экипажей 32 мин.
Seagate начала поставки HAMR-дисков Exos M вместимостью 36 Тбайт 50 мин.
Трамп отменил принудительный перевод США на электромобили 51 мин.
AAEON выпустила плату Boxer-8654AI-Kit на базе NVIDIA Jetson Orin NX 53 мин.
Huawei стала помогать клиентам внедрять ИИ-ускорители Ascend, чтобы отвоевать рынок у Nvidia 54 мин.
Huawei показала взрывной рост и стала вторым брендом смартфонов в Китае — Apple быстрее всех теряет рынок 2 ч.
Российским операторам разрешили готовиться к тестированию 5G 2 ч.
Seagate представила HDD на 36 Тбайт — это самый плотный жёсткий диск с CMR-записью 4 ч.