Сегодня 22 октября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-ускоритель Intel Gaudi2 оказался на 55 % быстрее Nvidia H100 в тестах Stable Diffusion 3, но есть нюанс

Компания Stability AI, разработчик популярной модели генеративного ИИ Stable Diffusion, сравнила производительность модели Stable Diffusion 3 на популярных ускорителях вычислений для центров обработки данных, включая Nvidia H100 Hopper, A100 Ampere и Intel Gaudi2. По утверждению Stability AI, Intel Gaudi2 продемонстрировал производительность примерно на 56 % выше, чем Nvidia H100.

 Источник изображения: Intel

Источник изображения: Intel

В отличие от H100, который представляет собой суперскалярный графический процессор с тензорными CUDA-ядрами, Gaudi2 специально спроектирован для ускорения генеративного ИИ и больших языковых моделей (LLM). В тестах приняли участие пары кластеров, которые в сумме обеспечивали по 16 тех или ускорителей, а проводились тесты с постоянным размером батча (число тренировочных объектов) в 16 на каждый ускоритель (всего 256). Системы на Intel Gaudi2 оказались способны генерировать 927 изображений в секунду по сравнению с 595 изображениями для ускорителей H100 и 381 изображением в секунду для массива A100.

 Источник изображения: Stability AI

Источник изображения: Stability AI

При увеличении количества кластеров до 32, а числа ускорителей до 256 и размере батча 16 на ускоритель (общий размер 4096), массив Gaudi2 генерирует 12 654 изображения в секунду или 49,4 изображения в секунду на ускоритель, по сравнению с 3992 изображениями в секунду или 15,6 изображениями в секунду на устройство у массива A100 Ampere.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Необходимо отметить, что производительность ускорителей ИИ измерялась с использованием фреймворка PyTorch, а в случае применения оптимизации TensorRT чипы A100 создают изображения до 40 % быстрее, чем Gaudi2. Тем не менее, исследователи Stability AI ожидают, что при дальнейшей оптимизации Gaudi2 превзойдёт A100. Компания полагает, что более быстрый интерконнект и больший объем памяти (96 Гбайт) делают решения Intel вполне конкурентоспособными и планирует использовать ускорители Gaudi2 в Stability Cloud.

 Источник изображения: techpowerup.com

Источник изображения: techpowerup.com

По сообщению Stability AI, в более ранних тестах модели Stable Diffusion XL с использованием фреймворка PyTorch ускоритель Intel Gaudi2 генерирует при 30 шагах изображение размером 1024 × 1024 за 3,2 секунды по сравнению с 3,6 секунды для PyTorch на Nvidia A100 и 2,7 секунды при использовании оптимизации TensorRT на Nvidia А100.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ByteDance с треском уволила старжёра за внедрение вредоносного кода в ИИ-модели 39 мин.
Состоялся релиз российской платформы «Аксиома 3.0» для управления материальными активами предприятия 4 ч.
Для Vampire Survivors анонсировали «просто огромное» дополнение по мотивам «Кастлвании» — трейлер и подробности Ode to Castlevania 5 ч.
Календарь релизов 21 – 27 октября: CoD: Black Ops 6, No More Room in Hell 2 и Factorio: Space Age 6 ч.
Проверенный инсайдер сообщил, когда выйдут первые обзоры Dragon Age: The Veilguard 6 ч.
Нелинейная ролевая игра Dawnwalker от ведущих разработчиков The Witcher 3: Wild Hunt и Cyberpunk 2077 нашла издателя 7 ч.
«Не первый, но лучший»: Тим Кук объяснил отставание Apple в области ИИ и других инноваций 8 ч.
Midjourney запустит ИИ-редактор изображений 8 ч.
Анджей Сапковский подтвердил дату выхода следующей книги «Ведьмак» — первой за 11 лет 11 ч.
Надёжный инсайдер раскрыл, как будет называться новая кооперативная игра от создателей It Takes Two и когда её анонсируют 12 ч.
Super Flower представила серию блоков питания Zillion FG мощностью до 1250 Вт 60 мин.
Qualcomm представила самый быстрый мобильный процессор — 3-нм Snapdragon 8 Elite с компьютерными ядрами Oryon 2 ч.
Новая статья: Обзор складного смартфона HONOR Magic V3: тоньше некуда 2 ч.
Zotac опровергла информацию о начале производства видеокарты GeForce RTX 5090 3 ч.
Asus представила карту расширения ThunderboltEX 5 — она превращает PCIe 4.0 x4 в два Thunderbolt 5 и три mini-DP 3 ч.
Hyundai задумала полностью отказаться от экранов в автомобилях в пользу голограмм 4 ч.
Японская Ubitus, обслуживающая Nintendo и Sega, тоже захотела запитать новый ИИ ЦОД от АЭС 4 ч.
Qualcomm вот-вот представит Snapdragon 8 Elite — 3-нм процессор с ядрами Oryon и частотой до 4,3 ГГц 5 ч.
Анонсирован панорамный корпус DeepCool CG580 с поддержкой плат с разъёмами на изнанке от Asus и MSI 6 ч.
Ryzen 7 9800X3D заставили работать на частоте 5,6 ГГц у всех восьми ядер одновременно 6 ч.