Поставки ИИ-серверов Nvidia GB200 по цене $3 млн под угрозой срыва из-за протечек в СЖО

Читать в полной версии

Неожиданная проблема настигла новейшие серверные системы Nvidia GB200 NVL72 и NVL36, оснащённые передовыми ускорителями вычислений GB200, которые предназначены для приложений искусственного интеллекта. Незадолго до начала массового производства и запуска продукта в продажу была обнаружена серьёзная проблема в системе жидкостного охлаждения.

Источник изображения: Nvidia

Напомним, что системы GB200 NVL72 представляют собой целую серверную стойку сразу с 18 1U-узлами, в каждом из которых имеется пара ускорителей GB200, которые, в свою очередь, представляют собой пару чипов Nvidia B200 и один 72-ядерный Arm-процессор Grace. Итого система включает 72 чипов B200, 36 процессоров Grace, соединённых шиной NVLink 5. Вся эта система потребляет порядка 120 кВт, оснащена СЖО и единой DC-шиной питания. В свою очередь, система GB200 NVL36 представляет собой систему с вдвое меньшим числом GB200. По предварительным данным, система GB200 NVL72 будет стоить $3 млн.

Как сообщает TweakTown со ссылкой на тайваньское издание UDN, в системах жидкостного охлаждения GB200 NVL72 обнаружены утечки, которые, по предварительным данным, связана с комплектующими сторонних производителей. Ранее Nvidia передала производство некоторых компонентов системы охлаждения, таких как патрубки, быстроразъёмные соединения и шланги, своим партнёрам — крупным международным производителям.

Источник изображения: theregister.com

Утечки были обнаружены до начала массового производства ИИ-систем NVL36 и NVL72, что дало производителям время на устранение неполадок и, несмотря на возникшие трудности и угрозу срыва сроков поставок ключевым клиентам, ожидается, что продукт будет поставлен вовремя.

Тем не менее, инцидент вызвал обеспокоенность у крупных поставщиков облачных услуг, которые опасаются за надёжность новых серверов Nvidia. В ответ на ситуацию, тайваньские производители, такие как Shuanghong и Qihong, стали наращивать производство компонентов для систем жидкостного охлаждения, чтобы предоставить Nvidia альтернативные варианты.

Сертификация патрубков, быстроразъёмных соединений и шлангов является сложным процессом, требующим специальных знаний и опыта. Ранее тайваньские компании не специализировались на производстве подобных компонентов, но решение Nvidia использовать жидкостное охлаждение в своих AI-чипах подтолкнуло их к освоению новых технологий. В настоящий момент ведутся активные работы над устранением проблемы. Ожидается, что серверные шкафы с процессорами GB200 и исправленной системой охлаждения начнут поставляться клиентам в ближайшее время.