Сегодня 06 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → a100
Быстрый переход

ИИ-ускоритель Intel Gaudi2 оказался на 55 % быстрее Nvidia H100 в тестах Stable Diffusion 3, но есть нюанс

Компания Stability AI, разработчик популярной модели генеративного ИИ Stable Diffusion, сравнила производительность модели Stable Diffusion 3 на популярных ускорителях вычислений для центров обработки данных, включая Nvidia H100 Hopper, A100 Ampere и Intel Gaudi2. По утверждению Stability AI, Intel Gaudi2 продемонстрировал производительность примерно на 56 % выше, чем Nvidia H100.

 Источник изображения: Intel

Источник изображения: Intel

В отличие от H100, который представляет собой суперскалярный графический процессор с тензорными CUDA-ядрами, Gaudi2 специально спроектирован для ускорения генеративного ИИ и больших языковых моделей (LLM). В тестах приняли участие пары кластеров, которые в сумме обеспечивали по 16 тех или ускорителей, а проводились тесты с постоянным размером батча (число тренировочных объектов) в 16 на каждый ускоритель (всего 256). Системы на Intel Gaudi2 оказались способны генерировать 927 изображений в секунду по сравнению с 595 изображениями для ускорителей H100 и 381 изображением в секунду для массива A100.

 Источник изображения: Stability AI

Источник изображения: Stability AI

При увеличении количества кластеров до 32, а числа ускорителей до 256 и размере батча 16 на ускоритель (общий размер 4096), массив Gaudi2 генерирует 12 654 изображения в секунду или 49,4 изображения в секунду на ускоритель, по сравнению с 3992 изображениями в секунду или 15,6 изображениями в секунду на устройство у массива A100 Ampere.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Необходимо отметить, что производительность ускорителей ИИ измерялась с использованием фреймворка PyTorch, а в случае применения оптимизации TensorRT чипы A100 создают изображения до 40 % быстрее, чем Gaudi2. Тем не менее, исследователи Stability AI ожидают, что при дальнейшей оптимизации Gaudi2 превзойдёт A100. Компания полагает, что более быстрый интерконнект и больший объем памяти (96 Гбайт) делают решения Intel вполне конкурентоспособными и планирует использовать ускорители Gaudi2 в Stability Cloud.

 Источник изображения: techpowerup.com

Источник изображения: techpowerup.com

По сообщению Stability AI, в более ранних тестах модели Stable Diffusion XL с использованием фреймворка PyTorch ускоритель Intel Gaudi2 генерирует при 30 шагах изображение размером 1024 × 1024 за 3,2 секунды по сравнению с 3,6 секунды для PyTorch на Nvidia A100 и 2,7 секунды при использовании оптимизации TensorRT на Nvidia А100.

Китайские ИИ-ускорители Huawei Ascend 910B оказались быстрее NVIDIA A100 в некоторых задачах

В августе 2019 года китайская компания Huawei представила ускоритель вычислений Ascend 910, однако после введения санкций США компания TSMC не смогла выпускать для него чипы по 7-нм технологии. В прошлом году Huawei представила Ascend 910B, который был создан уже на «суверенном» 7-нм техпроцессе SMIC. Эксперты считают, что по уровню быстродействия он способен в чём-то превосходить NVIDIA A100.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Во всяком случае, на подобные оценки представителей SemiAnalysis ссылается издание South China Morning Post. Как утверждает Дилан Пател (Dylan Patel), теоретически Ascend 910B немного превосходит NVIDIA A100 при обработке вычислений, применяемых в системах искусственного интеллекта. Важен и тот факт, что чип Huawei производится компанией SMIC по 7-нм техпроцессу — самому современному из доступных китайским разработчикам.

В прошлом месяце глава и основатель NVIDIA Дженсен Хуанг (Jensen Huang) назвал Huawei «действительно очень хорошей компанией», признав, что она в своей деятельности ограничена доступом к передовым техпроцессам, но по-прежнему сохраняет возможность строить очень большие вычислительные системы, сочетая имеющиеся в её распоряжении чипы в больших количествах.

Опрошенные SCMP источники признались, что ускорители Huawei Ascend 910B доступны для заказа, но в ограниченных из-за высокого спроса количествах. Оснащённый восемью ускорителями такой модели сервер на китайском рынке стоит примерно $208 395, на одном уровне с аналогично оснащённой системой на базе NVIDIA A100, которая в условиях санкций может попадать на местный рынок только нелегально. Несомненным преимуществом решений NVIDIA остаётся развития экосистема разработки программного обеспечения. Huawei в этой сфере должна плотно работать с партнёрами, чтобы добиться сопоставимых успехов в развитии ПО.

Новые антикитайские санкции могут стоить NVIDIA до 7 % выручки

Слухи о намерениях властей США с первого июля ограничить экспорт любых ускорителей вычислений в Китай без наличия специальной лицензии попали на благодатную почву для биржевых спекуляций. Перед открытием торгов в США курс акций NVIDIA более чем на 3 % отставал от вчерашней отметки, а представители Bank of America вообще заявили, что компания в результате новых санкций может лишиться 7 % выручки.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Исходя из сценария, который предусматривает фактическое ограничение поставок в Китай специально созданных в условиях прошлогодних санкций ускорителей H800 и A800, аналитики Bank of America смоделировали снижение выручки NVIDIA в сегменте центров обработки данных на 10 %, а совокупная выручка компании в результате должна сократиться на 7 %. Как считают эксперты, подобная ситуация для NVIDIA является хоть и нежелательной, но в целом управляемой. По крайней мере, в результате введения санкций осенью прошлого года она предложила клиентам соответствующие экспортным ограничениям США ускорители H800 и A800.

Когда первая волна профильных санкций была введена осенью прошлого года, курс акций NVIDIA снизился на 10 % в течение нескольких последовательных торговых сессий, но через десять недель с лихвой перекрыл эти значения после публикации компанией квартального отчёта. По итогам прошлого фискального года NVIDIA в Китае выручила $5,8 млрд, что соответствует 21,5 % годовой выручки компании. В долгосрочной перспективе, как считают представители Bank of America, компания сможет восстановить объёмы выручки на серверном направлении за счёт западных рынков. Аналитики даже предполагают, что NVIDIA решится понести некоторые затраты, чтобы переделать предназначенные для Китая ускорители H800 и A800 обратно в полноценные H100 и A100. Представители компании в момент появления первых упоминаний о H800 и A800 давали понять, что подобная трансформация силами клиентов невозможна технически.

В долгосрочной перспективе, как считает первоисточник, китайские клиенты смогут определять не более 10 % оборота мирового рынка компонентов, связанных с системами искусственного интеллекта, который достигнет $100 млрд.

Эксперты Citi оценили ёмкость мирового рынка компонентов для систем ИИ в $30 млрд по итогам текущего года, причём доля Китая на нём будет варьироваться от 5 до 10 %, непосредственно для NVIDIA возникающие из-за санкций потери будут поправимыми. Спрос на мировом рынке всё равно будет превышать возможности NVIDIA обеспечить всех клиентов необходимым количеством ускорителей, поэтому компания сможет перераспределить имеющиеся ресурсы. Сегодняшнюю торговую сессию акции NVIDIA открыли снижением курса почти на два процента.

Двойная цена и малые партии: ускорители вычислений NVIDIA можно купить в Китае даже в условиях санкций

С осени прошлого года ускорители вычислений NVIDIA A100 и H100 попали под экспортные ограничения США, в результате чего их стало невозможно купить в Китае по официальным каналам, а NVIDIA пришлось быстро наладить поставки в страну усечённых по производительности ускорителей A800 и H800, которые соответствуют экспортным ограничениям США. Практика показывает, что ускорители A100 и H100 всё равно можно приобрести в Китае, хотя и не на самых выгодных условиях.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Корреспондентам Reuters удалось побывать на крупном рынке электроники в китайском Шэньчжэне, и по итогам краткого опроса местных продавцов не менее десяти из них предложили потенциальным покупателям ускорители NVIDIA A100 по удвоенной до $20 000 за штуку цене. Кроме того, покупатель в Китае не может рассчитывать на единовременное получение крупной партии таких ускорителей, речь обычно идёт о поставке буквально нескольких экземпляров за раз.

Как поясняют участники цепочки поставок, на китайский рынок попавшие под санкции США ускорители NVIDIA продолжают поставляться либо через посредников в Индии, Сингапуре или на Тайване, либо по «серым» каналам из США, в случае, если какой-то из крупных клиентов NVIDIA просто выбросит на рынок «излишки» заказанных для собственных нужд ускорителей. Подчёркивается, что китайские продавцы не дают никакой гарантийной поддержки для реализуемых по такой схеме ускорителей вычислений.

Поставки ускорителей NVIDIA H100 начались только в марте, поэтому в Китае их найти достаточно сложно, и предложений пока мало. Запрещённые к реализации в КНР ускорители NVIDIA встречаются и на популярных в стране торговых интернет-площадках, но ситуацией нередко пользуются и мошенники, продающие откровенные подделки. По мнению аналитиков 86Research, власти США пока не сильно обеспокоены сохранением поставок ускорителей NVIDIA в Китай мелкими партиями, поскольку они стремятся отрезать к ним доступ для крупных разработчиков. Необходимость платить двойную цену за санкционную продукцию NVIDIA не будет сохраняться в Китае вечно, поскольку некоторое количество китайских стартапов будет вынуждено уйти с рынка, и спрос автоматически снизится.

Американская NVIDIA на треть замедлила ускорители для китайского рынка

В конце прошлого года власти США запретили компании NVIDIA поставлять в Китай ускорители вычислений с уровнем быстродействия A100 и H100. В качестве ответа NVIDIA решила выпустить для Китая ускорители H800 и A800, являющиеся их менее производительными аналогами, а потому не подпадающими под санкционные ограничения.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Рост спроса на сложные нейронные языковые модели (LLM), такие как Generative Pre-trained Transformer (GPT), которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим, привёл к повышению спроса и инвестициям в ускорители вычислений, с помощью которых эти модели обучаются.

Как сообщает издание MyDrivers, ускоритель вычислений A800 для китайского рынка обеспечивает 70 % производительности обычного A100. Последний демонстрирует 9,7 Тфлопс в операциях FP64, 19,5 Тфлопс в задачах FP64 с использованием тензорных ядер и до 624 Тфлопс в смешанных задачах FP16 и BF16. Таким образом, при сниженной на 30 % производительности ускорители A800 показывают 6,8 Тфлопс в задачах FP64, 13,7 Тфлопс в операциях FP64 с использованием тензорных ядер и 437 Тфлопс в смешанных задачах FP16 и BF16.

По данным MyDrivers, стоимость NVIDIA A800 в Китае достигает 100 тыс. юаней, что примерно равно 14 462 долларам. Однако это не самый быстрый из доступных для китайского рынка ускоритель NVIDIA. Ведь есть ещё модель H800, позиционируемая классом выше. Правда, более подробных данных о его производительности издание не приводит.

NVIDIA: криптовалюты не приносят обществу ничего полезного — то ли дело ИИ

В NVIDIA считают, что криптовалюты не приносят человечеству ничего полезного, хотя сама компания не так давно получала сверхприбыли от продажи чипов и видеокарт для майнингового сообщества. Главный технический директор NVIDIA Майкл Каган (Michael Kagan) заявил, что другие области применения вычислительной мощности, такие как чат-бот с искусственным интеллектом ChatGPT, являются гораздо более полезными.

 Источник изображения: Kanchanara/unsplash.com

Источник изображения: Kanchanara/unsplash.com

«Все эти криптовалютные продукты нуждались в параллельной обработке данных, и [NVIDIA] была лучшей, поэтому люди просто запрограммировали [GPU] для использования с данной целью. Накупили много всего, а потом в итоге наступил коллапс, потому что ничего полезного для общества это не несет. В отличие от ИИ», — сказал Каган ресурсу The Guardian. Он добавил, что никогда не верил, что криптовалюта может принести пользу человечеству.

Поначалу ставшая известной благодаря производству мощных видеокарт для новейших игр, NVIDIA со своей продукцией оказалась в самом центре бума искусственного интеллекта. Её мощные чипы позволили значительно ускорить процесс обучения новых систем искусственного интеллекта.

Две недели назад Microsoft рассказала, что ранее приобрела у NVIDIA десятки тысяч ускорителей A100, чтобы обеспечить работу ИИ-систем компании OpenAI, в том числе и ChatGPT. Также NVIDIA продала 20 000 ускорителей H100 компании Amazon для ее сервиса облачных вычислений AWS. Кроме того, 16 000 ускорителей H100 были проданы Oracle.

NVIDIA также предоставляет свои вычислительные мощности в аренду. Её сервис ИИ-супервычислений DGX Cloud предлагает за чуть менее $37 000 в месяц доступ к кластеру из восьми ускорителей H100.

NVIDIA предложила на китайском рынке ускоритель A800, который с запасом избегает санкций

Этой осенью американские власти запретили NVIDIA поставлять в Китай ускорители вычислений с уровнем быстродействия A100 и H100, хотя формально компания сохранила возможность делать это до марта 2023 года в первом случае, и до сентября во втором. Ответом на данные ограничения, по словам Reuters, стал выпуск компанией NVIDIA специально для нужд китайских клиентов нового ускорителя A800, который в полтора раза уступает по быстродействию A100, по этой причине не попадая под санкционные ограничения.

 NVIDIA A100. Источник изображения: NVIDIA

NVIDIA A100. Источник изображения: NVIDIA

Как отмечается, китайские поставщики серверного оборудования уже начали рекламировать системы на основе ускорителя A800, который может быть установлен вместо A100 или H100, но при этом поднять уровень быстродействия такого ускорителя сами клиенты за счёт каких-либо манипуляций не смогут. По словам представителей NVIDIA, выпуском A800 компания занялась в третьем квартале, и этот ускоритель является «законной» альтернативой A100 для клиентов в Китае. Согласованы ли данные шаги с американскими регуляторами, не уточняется.

На сайте китайских производителей серверного оборудования A800 уже сравнивается по характеристикам с A100, и скорость передачи информации у него снижена с 600 до 400 Гбайт/с. Таким образом, до «санкционной» планки в 600 Гбайт/с остаётся полуторакратный запас, что и даёт NVIDIA право поставлять ускорители A800 в Китай. Когда соответствующие ограничения были объявлены в сентябре, NVIDIA прогнозировала, что может потерять из-за них до $400 млн выручки. В таких условиях создание особого ускорителя для китайского рынка оправдывает себя с материальной точки зрения.

Из-за новых антикитайских санкций NVIDIA рискует лишиться $400 млн

Взяв за основу уровень производительности, обеспечиваемый ускорителями вычислений A100, власти США запретили NVIDIA поставлять в Китай и Россию не только их, но и более современные H100. Компания выразила озабоченность не только способностью довести до конца разработку нового поколения ускорителей в намеченные сроки, но и потерей до 10 % выручки на серверном направлении.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Дело в том, как поясняет Reuters, что NVIDIA уже заключила с китайскими клиентами контракты на поставку ускорителей вычислений из «запрещённой номенклатуры» на общую сумму $400 млн, и если китайские компании не переключатся на альтернативные изделия марки, которые не попали под новые ограничения, то пропорциональная часть выручки в третьем квартале может быть потеряна. NVIDIA выразила готовность подать заявку на оформление экспортной лицензии, которая позволила бы ей продолжать поставки ускорителей вычислений в Китай, но она не уверена в успехе данной затеи.

С точки зрения распространения данных ограничений на поставки ускорителей в Россию влияние на бизнес NVIDIA вряд ли будет значительным. Во-первых, компания ещё весной прекратила официальные поставки своей продукции на российский рынок. Во-вторых, она пояснила, что в совокупной структуре выручки наша страна формировала не более двух процентов, и только в игровом сегменте российские клиенты обеспечивали её четырьмя процентами выручки. По всей видимости, в серверном сегменте зависимость NVIDIA от российского рынка была выражена ещё слабее.

Примечательно, что опубликованная вчера же форма квартального отчёта 10-Q компании NVIDIA демонстрирует её высокую зависимость от китайского рынка в целом. Например, в минувшем квартале она выручила здесь почти 24 % от совокупной суммы $6,7 млрд. Если учесть, что в текущем квартале компания рассчитывает выручить на всех рынках присутствия не более $5,9 млрд, то потеря $400 млн на китайском направлении станет для неё серьёзным ударом. Эти новости вызвали снижение курса акций компании на 6,56 %.

NVIDIA хочет объединить классические и квантовые компьютеры — нужны быстрый интерфейс и удобная модель программирования

NVIDIA продвигает идею объединения элементов квантовых и классических компьютеров для ускорения вычислений. В частности, компания работает над внедрением своих ускорителей вычислений на графических процессорах (GPU) в квантовые системы, а также над упрощением создания квантовых алгоритмов. И сегодня NVIDIA анонсировала новые шаги на этом пути.

Компания NVIDIA некоторое время назад представила набор инструментов cuQuantum, который позволяет моделировать работу алгоритмов для квантовых процессоров на графических процессорах NVIDIA A100, а точнее на их тензорных ядрах. Это упростило вход в мир квантовых вычислений. cuQuantum, в частности, доступна всем желающим в составе облака AWS. Теперь NVIDIA намерена объединить квантовые и классические системы.

Для этого NVIDIA хочет создать интерфейс с малой задержкой, который позволит связать её ускорители вычислений и квантовые процессоры (QPU). Это позволит квантовым компьютерам использовать мощный потенциал параллельных вычислений GPU для решения классических задач. В частности, предлагается задействовать их для оптимизации схем, калибровки и исправления ошибок. Графические процессоры могут сократить время выполнения этих задач и уменьшить задержку при связи между классическими и квантовыми компьютерами, которая является основным узким местом для современных гибридных квантовых систем.

Также NVIDIA считает, что отрасли квантовых вычислений нужна унифицированная модель программирования с эффективными и простыми в использовании инструментами. Сегодня для программирования QPU исследователи вынуждены использовать квантовый эквивалент низкоуровневого ассемблерного кода, что находится за пределами возможностей многих учёных. Кроме того, сейчас нет единой модели программирования и компилятора, которые позволили бы выполнять один и тот же алгоритм на любом QPU.

NVIDIA намерена предложить набор инструментов, который позволит учёным легко воплощать свои квантовые алгоритмы сначала на смоделированных QPU, а затем на реальных. Для этого нужен компилятор, позволяющий работать в обеих средах. Благодаря сочетанию инструментов для моделирования квантовых вычислений на GPU, а также унифицированной модели программирования и компилятора, исследователи получат возможность приступить к созданию гибридных квантовых центров обработки данных, считает NVIDIA.

Ускоритель вычислений NVIDIA A100 выйдет в версии с предустановленным водоблоком для жидкостного охлаждения

NVIDIA готовит ещё одну версию анонсированной в прошлом июне PCIe-версии ускорителя вычислений A100 на базе графического процессора GA100 (архитектура Ampere). Новинка будет отличаться наличием водоблока для подключения к системе жидкостного охлаждения. Об этом сообщил ресурс VideoCardz, опубликовавший изображение новинки.

 Источник изображения: videocardz.com

Источник изображения: videocardz.com

Стоит отметить, что для ускорителей вычислений, к которым и относится NVIDIA A100, не характерны предустановленные водоблоки — если жидкостное охлаждение используются в готовых системах, то установку водоблоков берут на себя производители серверов. Однако NVIDIA, похоже, решила упростить партнёрам задачу, предложив собственное решение с присущей бренду элегантностью. Система охлаждения занимает всего один слот расширения, а пара штуцеров типа «ёлочка» для подвода и отвода тепла находится в торце, рядом с 8-контактным разъёмом питания.

Тут же отметим, что ранее NVIDIA уже выпускала ускоритель A100 с жидкостным охлаждением. Но это была SXM-версия акселератора, применяемая в составе «настольного суперкомпьютера» DGX A100 Station. А для PCIe-версиии NVIDIA A100 уже довольно давно на рынке есть водоблоки от сторонних производителей, например, от известной компании EK Water Blocks.

В целом же решение NVIDIA, пусть пока и не подтверждённое официально, отражает общий тренд на всё более активное применение СЖО в серверном сегменте.


window-new
Soft
Hard
Тренды 🔥
Новая студия режиссёра The Witcher 3: Wild Hunt не повторит ошибок Cyberpunk 2077 37 мин.
No Rest for the Wicked получила настолько крупные улучшения производительности, что разработчики снизили системные требования игры 3 ч.
Открытый мир, мотоцикл и скорый релиз: инсайдер рассказал, чего ждать от следующей Tomb Raider 4 ч.
Утечка раскрыла первые подробности PvP-мультиплеера Warhammer 40,000: Space Marine 2 5 ч.
YouTube протестирует на платных подписчиках перемотку видео сразу на самое интересное место 6 ч.
В AlmaLinux сформировано подразделение по НРС и ИИ 7 ч.
Сооснователь Twitter Джек Дорси покинул совет директоров децентрализованной соцсети Bluesky 7 ч.
Обзорный трейлер пошаговой ролевой игры SteamWorld Heist II: бои, прокачка, мультиклассы и кое-что ещё 18 ч.
Не бывать дешёвым мейнфреймам: IBM подала второй иск к LzLabs, предлагающей доступную облачную альтернативу её «железу» 19 ч.
TikTok удалил сотни видео с запрещёнными материалами по требованию «Роскомнадзора» с начала 2023 года 05-05 15:47