Сегодня 25 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → nvidia a100

ИИ-ускоритель Intel Gaudi2 оказался на 55 % быстрее Nvidia H100 в тестах Stable Diffusion 3, но есть нюанс

Компания Stability AI, разработчик популярной модели генеративного ИИ Stable Diffusion, сравнила производительность модели Stable Diffusion 3 на популярных ускорителях вычислений для центров обработки данных, включая Nvidia H100 Hopper, A100 Ampere и Intel Gaudi2. По утверждению Stability AI, Intel Gaudi2 продемонстрировал производительность примерно на 56 % выше, чем Nvidia H100.

 Источник изображения: Intel

Источник изображения: Intel

В отличие от H100, который представляет собой суперскалярный графический процессор с тензорными CUDA-ядрами, Gaudi2 специально спроектирован для ускорения генеративного ИИ и больших языковых моделей (LLM). В тестах приняли участие пары кластеров, которые в сумме обеспечивали по 16 тех или ускорителей, а проводились тесты с постоянным размером батча (число тренировочных объектов) в 16 на каждый ускоритель (всего 256). Системы на Intel Gaudi2 оказались способны генерировать 927 изображений в секунду по сравнению с 595 изображениями для ускорителей H100 и 381 изображением в секунду для массива A100.

 Источник изображения: Stability AI

Источник изображения: Stability AI

При увеличении количества кластеров до 32, а числа ускорителей до 256 и размере батча 16 на ускоритель (общий размер 4096), массив Gaudi2 генерирует 12 654 изображения в секунду или 49,4 изображения в секунду на ускоритель, по сравнению с 3992 изображениями в секунду или 15,6 изображениями в секунду на устройство у массива A100 Ampere.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Необходимо отметить, что производительность ускорителей ИИ измерялась с использованием фреймворка PyTorch, а в случае применения оптимизации TensorRT чипы A100 создают изображения до 40 % быстрее, чем Gaudi2. Тем не менее, исследователи Stability AI ожидают, что при дальнейшей оптимизации Gaudi2 превзойдёт A100. Компания полагает, что более быстрый интерконнект и больший объем памяти (96 Гбайт) делают решения Intel вполне конкурентоспособными и планирует использовать ускорители Gaudi2 в Stability Cloud.

 Источник изображения: techpowerup.com

Источник изображения: techpowerup.com

По сообщению Stability AI, в более ранних тестах модели Stable Diffusion XL с использованием фреймворка PyTorch ускоритель Intel Gaudi2 генерирует при 30 шагах изображение размером 1024 × 1024 за 3,2 секунды по сравнению с 3,6 секунды для PyTorch на Nvidia A100 и 2,7 секунды при использовании оптимизации TensorRT на Nvidia А100.

Китайские ИИ-ускорители Huawei Ascend 910B оказались быстрее NVIDIA A100 в некоторых задачах

В августе 2019 года китайская компания Huawei представила ускоритель вычислений Ascend 910, однако после введения санкций США компания TSMC не смогла выпускать для него чипы по 7-нм технологии. В прошлом году Huawei представила Ascend 910B, который был создан уже на «суверенном» 7-нм техпроцессе SMIC. Эксперты считают, что по уровню быстродействия он способен в чём-то превосходить NVIDIA A100.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Во всяком случае, на подобные оценки представителей SemiAnalysis ссылается издание South China Morning Post. Как утверждает Дилан Пател (Dylan Patel), теоретически Ascend 910B немного превосходит NVIDIA A100 при обработке вычислений, применяемых в системах искусственного интеллекта. Важен и тот факт, что чип Huawei производится компанией SMIC по 7-нм техпроцессу — самому современному из доступных китайским разработчикам.

В прошлом месяце глава и основатель NVIDIA Дженсен Хуанг (Jensen Huang) назвал Huawei «действительно очень хорошей компанией», признав, что она в своей деятельности ограничена доступом к передовым техпроцессам, но по-прежнему сохраняет возможность строить очень большие вычислительные системы, сочетая имеющиеся в её распоряжении чипы в больших количествах.

Опрошенные SCMP источники признались, что ускорители Huawei Ascend 910B доступны для заказа, но в ограниченных из-за высокого спроса количествах. Оснащённый восемью ускорителями такой модели сервер на китайском рынке стоит примерно $208 395, на одном уровне с аналогично оснащённой системой на базе NVIDIA A100, которая в условиях санкций может попадать на местный рынок только нелегально. Несомненным преимуществом решений NVIDIA остаётся развития экосистема разработки программного обеспечения. Huawei в этой сфере должна плотно работать с партнёрами, чтобы добиться сопоставимых успехов в развитии ПО.

Новые антикитайские санкции могут стоить NVIDIA до 7 % выручки

Слухи о намерениях властей США с первого июля ограничить экспорт любых ускорителей вычислений в Китай без наличия специальной лицензии попали на благодатную почву для биржевых спекуляций. Перед открытием торгов в США курс акций NVIDIA более чем на 3 % отставал от вчерашней отметки, а представители Bank of America вообще заявили, что компания в результате новых санкций может лишиться 7 % выручки.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Исходя из сценария, который предусматривает фактическое ограничение поставок в Китай специально созданных в условиях прошлогодних санкций ускорителей H800 и A800, аналитики Bank of America смоделировали снижение выручки NVIDIA в сегменте центров обработки данных на 10 %, а совокупная выручка компании в результате должна сократиться на 7 %. Как считают эксперты, подобная ситуация для NVIDIA является хоть и нежелательной, но в целом управляемой. По крайней мере, в результате введения санкций осенью прошлого года она предложила клиентам соответствующие экспортным ограничениям США ускорители H800 и A800.

Когда первая волна профильных санкций была введена осенью прошлого года, курс акций NVIDIA снизился на 10 % в течение нескольких последовательных торговых сессий, но через десять недель с лихвой перекрыл эти значения после публикации компанией квартального отчёта. По итогам прошлого фискального года NVIDIA в Китае выручила $5,8 млрд, что соответствует 21,5 % годовой выручки компании. В долгосрочной перспективе, как считают представители Bank of America, компания сможет восстановить объёмы выручки на серверном направлении за счёт западных рынков. Аналитики даже предполагают, что NVIDIA решится понести некоторые затраты, чтобы переделать предназначенные для Китая ускорители H800 и A800 обратно в полноценные H100 и A100. Представители компании в момент появления первых упоминаний о H800 и A800 давали понять, что подобная трансформация силами клиентов невозможна технически.

В долгосрочной перспективе, как считает первоисточник, китайские клиенты смогут определять не более 10 % оборота мирового рынка компонентов, связанных с системами искусственного интеллекта, который достигнет $100 млрд.

Эксперты Citi оценили ёмкость мирового рынка компонентов для систем ИИ в $30 млрд по итогам текущего года, причём доля Китая на нём будет варьироваться от 5 до 10 %, непосредственно для NVIDIA возникающие из-за санкций потери будут поправимыми. Спрос на мировом рынке всё равно будет превышать возможности NVIDIA обеспечить всех клиентов необходимым количеством ускорителей, поэтому компания сможет перераспределить имеющиеся ресурсы. Сегодняшнюю торговую сессию акции NVIDIA открыли снижением курса почти на два процента.

NVIDIA предложила на китайском рынке ускоритель A800, который с запасом избегает санкций

Этой осенью американские власти запретили NVIDIA поставлять в Китай ускорители вычислений с уровнем быстродействия A100 и H100, хотя формально компания сохранила возможность делать это до марта 2023 года в первом случае, и до сентября во втором. Ответом на данные ограничения, по словам Reuters, стал выпуск компанией NVIDIA специально для нужд китайских клиентов нового ускорителя A800, который в полтора раза уступает по быстродействию A100, по этой причине не попадая под санкционные ограничения.

 NVIDIA A100. Источник изображения: NVIDIA

NVIDIA A100. Источник изображения: NVIDIA

Как отмечается, китайские поставщики серверного оборудования уже начали рекламировать системы на основе ускорителя A800, который может быть установлен вместо A100 или H100, но при этом поднять уровень быстродействия такого ускорителя сами клиенты за счёт каких-либо манипуляций не смогут. По словам представителей NVIDIA, выпуском A800 компания занялась в третьем квартале, и этот ускоритель является «законной» альтернативой A100 для клиентов в Китае. Согласованы ли данные шаги с американскими регуляторами, не уточняется.

На сайте китайских производителей серверного оборудования A800 уже сравнивается по характеристикам с A100, и скорость передачи информации у него снижена с 600 до 400 Гбайт/с. Таким образом, до «санкционной» планки в 600 Гбайт/с остаётся полуторакратный запас, что и даёт NVIDIA право поставлять ускорители A800 в Китай. Когда соответствующие ограничения были объявлены в сентябре, NVIDIA прогнозировала, что может потерять из-за них до $400 млн выручки. В таких условиях создание особого ускорителя для китайского рынка оправдывает себя с материальной точки зрения.

NVIDIA хочет объединить классические и квантовые компьютеры — нужны быстрый интерфейс и удобная модель программирования

NVIDIA продвигает идею объединения элементов квантовых и классических компьютеров для ускорения вычислений. В частности, компания работает над внедрением своих ускорителей вычислений на графических процессорах (GPU) в квантовые системы, а также над упрощением создания квантовых алгоритмов. И сегодня NVIDIA анонсировала новые шаги на этом пути.

Компания NVIDIA некоторое время назад представила набор инструментов cuQuantum, который позволяет моделировать работу алгоритмов для квантовых процессоров на графических процессорах NVIDIA A100, а точнее на их тензорных ядрах. Это упростило вход в мир квантовых вычислений. cuQuantum, в частности, доступна всем желающим в составе облака AWS. Теперь NVIDIA намерена объединить квантовые и классические системы.

Для этого NVIDIA хочет создать интерфейс с малой задержкой, который позволит связать её ускорители вычислений и квантовые процессоры (QPU). Это позволит квантовым компьютерам использовать мощный потенциал параллельных вычислений GPU для решения классических задач. В частности, предлагается задействовать их для оптимизации схем, калибровки и исправления ошибок. Графические процессоры могут сократить время выполнения этих задач и уменьшить задержку при связи между классическими и квантовыми компьютерами, которая является основным узким местом для современных гибридных квантовых систем.

Также NVIDIA считает, что отрасли квантовых вычислений нужна унифицированная модель программирования с эффективными и простыми в использовании инструментами. Сегодня для программирования QPU исследователи вынуждены использовать квантовый эквивалент низкоуровневого ассемблерного кода, что находится за пределами возможностей многих учёных. Кроме того, сейчас нет единой модели программирования и компилятора, которые позволили бы выполнять один и тот же алгоритм на любом QPU.

NVIDIA намерена предложить набор инструментов, который позволит учёным легко воплощать свои квантовые алгоритмы сначала на смоделированных QPU, а затем на реальных. Для этого нужен компилятор, позволяющий работать в обеих средах. Благодаря сочетанию инструментов для моделирования квантовых вычислений на GPU, а также унифицированной модели программирования и компилятора, исследователи получат возможность приступить к созданию гибридных квантовых центров обработки данных, считает NVIDIA.

Ускоритель вычислений NVIDIA A100 выйдет в версии с предустановленным водоблоком для жидкостного охлаждения

NVIDIA готовит ещё одну версию анонсированной в прошлом июне PCIe-версии ускорителя вычислений A100 на базе графического процессора GA100 (архитектура Ampere). Новинка будет отличаться наличием водоблока для подключения к системе жидкостного охлаждения. Об этом сообщил ресурс VideoCardz, опубликовавший изображение новинки.

 Источник изображения: videocardz.com

Источник изображения: videocardz.com

Стоит отметить, что для ускорителей вычислений, к которым и относится NVIDIA A100, не характерны предустановленные водоблоки — если жидкостное охлаждение используются в готовых системах, то установку водоблоков берут на себя производители серверов. Однако NVIDIA, похоже, решила упростить партнёрам задачу, предложив собственное решение с присущей бренду элегантностью. Система охлаждения занимает всего один слот расширения, а пара штуцеров типа «ёлочка» для подвода и отвода тепла находится в торце, рядом с 8-контактным разъёмом питания.

Тут же отметим, что ранее NVIDIA уже выпускала ускоритель A100 с жидкостным охлаждением. Но это была SXM-версия акселератора, применяемая в составе «настольного суперкомпьютера» DGX A100 Station. А для PCIe-версиии NVIDIA A100 уже довольно давно на рынке есть водоблоки от сторонних производителей, например, от известной компании EK Water Blocks.

В целом же решение NVIDIA, пусть пока и не подтверждённое официально, отражает общий тренд на всё более активное применение СЖО в серверном сегменте.


window-new
Soft
Hard
Тренды 🔥
Еврокомиссия вынудила TikTok приостановить программу вознаграждения за просмотр видео в Lite-версии приложения 4 ч.
«Будьте уверены — мы никуда не денемся», — TikTok прокомментировал закон о своём запрете в США 9 ч.
Apple представила малые языковые модели OpenELM, которые работают локально на смартфонах и ноутбуках 9 ч.
NVIDIA приобрела за $700 млн платформу оркестрации ИИ-нагрузок Run:ai 9 ч.
В ранний доступ Steam ворвался стильный кооперативный роглайк Rotwood от создателей Don’t Starve 10 ч.
Британские антимонопольщики заинтересовались инвестициями Microsoft и Amazon в ИИ-стартапы 10 ч.
NetEase раскрыла, когда начнётся закрытая «альфа» командного шутера Marvel Rivals в духе Overwatch 10 ч.
Не помешал бы Dark Souls: ведущий разработчик No Rest for the Wicked встал на защиту раннего доступа 11 ч.
Байден подписал закон о запрете TikTok в США, если ByteDance его не продаст 12 ч.
Вышла новая версия системы резервного копирования «Кибер Бэкап Облачный» с расширенной поддержкой Linux-платформ 13 ч.