Сегодня 27 июня 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → cdna 4

AMD представила мощнейший ИИ-ускоритель MI325X с 288 Гбайт HBM3e и рассказала про MI350X на архитектуре CDNA4

Компания AMD представила на выставке Computex 2024 обновлённые планы по выпуску ускорителей вычислений Instinct, а также анонсировала новый флагманский ИИ-ускоритель Instinct MI325X.

 Источник изображений: AMD

Источник изображений: AMD

Ранее компания выпустила ускорители MI300A и MI300X с памятью HBM3, а также несколько их вариаций для определённых регионов. Новый MI325X основан на той же архитектуре CDNA 3 и использует ту же комбинацию из 5- и 6-нм чипов, но тем не менее представляет собой существенное обновление для семейства Instinct. Дело в том, что в данном ускорителе применена более производительная память HBM3e.

Instinct MI325X предложит 288 Гбайт памяти, что на 96 Гбайт больше, чем у MI300X. Что ещё важнее, использование новой памяти HBM3e обеспечило повышение пропускной способности до 6,0 Тбайт/с — на 700 Гбайт/с больше, чем у MI300X с HBM3. AMD отмечает, что переход на новую память обеспечит MI325X в 1,3 раза более высокую производительность инференса (работа уже обученной нейросети) и генерации токенов по сравнению с Nvidia H200.

Компания AMD также предварительно анонсировала ускоритель Instinct MI350X, который будет построен на чипе с новой архитектурой CDNA 4. Переход на эту архитектуру обещает примерно 35-кратный прирост производительности в работе обученной нейросети по сравнению с актуальной CDNA 3.

Для производства ускорителей вычислений MI350X будет использоваться передовой 3-нм техпроцесс. Instinct MI350X тоже получат до 288 Гбайт памяти HBM3e. Для них также заявляется поддержка типов данных FP4/FP6, что принесёт пользу в работе с алгоритмами машинного обучения. Дополнительные детали об Instinct MI350X компания не сообщила, но отметила, что они будут выпускаться в формфакторе Open Accelerator Module (OAM).

 Источник изображения: AnandTech

Источник изображения: AnandTech

ИИ-ускорители Instinct MI325X начнут продаваться в четвёртом квартале этого года. Выход MI350X ожидается в 2025 году. Кроме того, AMD сообщила, что ускорители вычислений серии MI400 на архитектуре CDNA-Next будут представлены в 2026 году.

Новая статья: AMD Instinct MI300: новый взгляд на ускорители

Данные берутся из публикации AMD Instinct MI300: новый взгляд на ускорители

AMD продемонстрировала ускоритель вычислений MI300X, который превосходит решение NVIDIA по объёму поддерживаемой памяти

В этот вторник глава AMD Лиза Су (Lisa Su) на специальном мероприятии предсказуемо продемонстрировала образец ускорителя вычислений MI300X, который начнёт поставляться клиентам до конца текущего года. По сравнению с конкурирующим решением NVIDIA H100, он обеспечивает поддержку до 192 Гбайт памяти против 120 Гбайт соответственно.

 Источник изображения: Getty Images, David Becker

Источник изображения: Getty Images, David Becker

В ходе демонстрации способностей ускорителей на базе MI300X была показана их способность работать с языковой моделью для искусственного интеллекта, содержащей 40 млрд параметров. Для сравнения, известная GPT-3 стартапа OpenAI располагает 175 млрд параметров. Как пояснила Лиза Су, языковые модели становятся значительно больше по этому критерию, поэтому разработчикам потребуется сразу несколько GPU для работы с одной моделью. Правда, за счёт поддержки большего объёма памяти AMD MI300X способен сократить потребность собственно в дополнительных ускорителях.

Поддержка архитектуры Infinity Architecture позволяет клиентам AMD объединять в одной системе до восьми ускорителей MI300X. Конкурирующие решения NVIDIA опираются на программную экосистему CUDA для разработки приложений, формирующих систему искусственного интеллекта, а AMD опирается на платформу ROCm, которая работает с открытой экосистемой моделей. Архитектурно MI300X опирается на вычислительные ядра с архитектурой Zen 4 и CDNA 3, дополняя их стеками памяти типа HBM3 общим количеством до восьми штук. Общее количество транзисторов на одной подложке ускорителя MI300X достигает 153 млрд штук. Решение AMD превосходит продукт NVIDIA и по пропускной способности памяти, которая достигает 5,2 Тбайт/с, а интерфейс Infinity Fabric обеспечивает передачу до 896 Гбайт информации в секунду.

Лиза Су впервые продемонстрировала ускоритель AMD Instinct MI300 с 146 млрд транзисторов

Рассказав об ускорителе вычислений Instinct MI300 в общих чертах ещё летом прошлого года, компания AMD только в рамках презентации на январской CES 2023 уточнила некоторые особенности компоновки и характеристики этого долгожданного решения, которое найдёт применение в серверном сегменте в текущем году. Чиплетная компоновка позволяет новинке объединять несколько разнородных кристаллов с общим количеством транзисторов 146 млрд штук.

 Источник изображения: AMD, YouTube

Источник изображения: AMD, YouTube

Как пояснила на презентации Лиза Су (Lisa Su), сложная компоновка Instinct MI300 позволяет разместить чиплеты не только рядом друг с другом, но и в несколько ярусов. Ускоритель впервые объединяет на одном чипе процессорные и «графические» ядра, причём для системы они считаются одним целым, обеспечивая и равноправный доступ к памяти типа HBM3, которая расположилась на общей подложке по соседству. Глава AMD справедливо назвала Instinct MI300 самым сложным чипом из когда-либо созданных компанией.

Было заявлено, что Instinct MI300 сочетает ядра с архитектурой CDNA 3 и 24 процессорных ядра с архитектурой Zen 4. Объём памяти типа HBM3 достигает 128 Гбайт. Образец ускорителя был продемонстрирован на сцене Лизой Су, это было его первым появлением на публике. Как пояснила глава компании, в конструкции этого чипа девять 5-нм кристаллов располагаются на четырёх 6-нм кристаллах, а по бокам расположены стеки с микросхемами памяти типа HBM3.

 Источник изображения: AMD, YouTube

Источник изображения: AMD, YouTube

По сравнению с Instinct MI250X, новинка обеспечивает в восемь раз более высокую производительность в вычислениях, при этом обеспечивая в пять раз более высокую энергоэффективность в задачах искусственного интеллекта. Использование Instinct MI300 позволяет сократить время обучения соответствующих систем с нескольких месяцев до нескольких недель, как пояснила Лиза Су, при этом существенно сокращая сопутствующие затраты на оплату электроэнергии. В лабораториях AMD образцы Instinct MI300 уже успешно работают, на рынке ускорители этой модели появятся во втором полугодии.

AMD рассказала о серверных ускорителях вычислений Instinct MI200 из нескольких кристаллов на CDNA 2

В рамках конференции Hot Chips 34 компания AMD поделилась деталями о серверных ускорителях вычислений серии Instinct MI200 на базе чипов Aldebaran на архитектуре CDNA 2. Это первые GPU компании AMD, в составе которых применяется компоновка из нескольких кристаллов (чиплетов), также известная как MCM-компоновка.

 Источник изображений: AMD

Источник изображений: AMD

Одними из ключевых особенностей Instinct MI200 являются:

  • архитектура CDNA 2 с матричными ядрами второго поколения для ускорения вычислений FP64 и FP32. Они до четырёх раз увеличивают производительность операций FP64 по сравнению с предыдущим поколением серверных ускорителей AMD;
  • передовая технология упаковки 2.5D Elevated Fanout Bridge (EFB), позволяющая до 1,8 раза увеличить количество ядер и до 2,7 раза повысить пропускную способность памяти по сравнению с предыдущим поколением серверных GPU AMD, а также обеспечить пиковую пропускную способности памяти в 3,2 Тбайт/c;
  • третье поколение шины AMD Infinity Fabric; поддержка до 8 линий Infinity Fabric, которые обеспечивают связь между несколькими самими AMD Instinct MI200, а также процессорами AMD EPYC, в том числе третьего поколения, что обеспечивает системе унифицированную память CPU/GPU и повышает максимальную пропускную способность.

В составе ускорителей AMD Instinct MI200 используется GPU с двумя кристаллами (чиплетами) — основным и второстепенным. Каждый кристалл содержит по 8 шейдерных движков, в каждом из которых находятся по 14 вычислительных блоков (Compute Units, CU) для операций FP64, FP32, а также матричные движки второго поколения для операций FP16 и BF16.

Таким образом на каждый кристалл приходятся по 112 вычислительных блоков или 7168 потоковых процессоров, а на весь GPU в целом — 224 CU или 14 336 потоковых процессоров. GPU производится с использованием 6-нм техпроцесса TSMC. В общей сложности в составе ускорителя присутствуют 58 млрд транзисторов.

 Блок-схема AMD Instinct MI200 GPU

Блок-схема AMD Instinct MI200 GPU

В составе чипа Aldebaran применяется скоростная шина xGMI. В составе каждого чиплета имеется движок VCN 2.6 и основной IO-контроллер, по четыре 1024-битных контроллера памяти HBM2e. На каждый чиплет также приходится по 8 Мбайт кеш-памяти L2, физически разделённой на 32 блока и по 64 Гбайт памяти HBM2e с пропускной способностью на уровне 1,6 Тбайт/с. Совокупный объём памяти HBM2e на GPU может достигать 128 Гбайт, а её пропускная способность составлять 3,2 Тбайт/с. Это на 1,2 Тбайт/с выше, чем у NVIDIA A100, оснащённой 80 Гбайт памяти HBM2e.

AMD Aldebaran поддерживают 8 каналов Infinity Fabric. Один из них может использоваться для соединения CPU и GPU (по PCI Express). Оно рассчитано на согласованную передачу данных со скоростью 144 Гбайт/с. Показатель можно масштабировать до 500 Гбайт/с используя внешний канал Infinity Fabric с четырьмя подключёнными ускорителями AMD Instinct MI200 или с помощью PCIe 4.0 ESM AIC для пропускной способности на уровне 100 Гбайт/с.

 Метрика производительности AMD Instinct MI200 (Aldebaran)

Метрика производительности AMD Instinct MI200

AMD заявляет, что в зависимости от той или иной задачи Aldebaran может быть до трёх раз производительнее по сравнению с NVIDIA A100.

Ускорители вычислений AMD Instinct MI200 на архитектуре CNDA 2 уже используются в составе суперкомпьютера Frontier эксафлопсного уровня, возглавляющего рейтинг самых производительных суперкомпьютеров мира TOP500. Он обеспечивает производительность на уровне 1,1 эксафлопс.

AMD также сообщила о планах по выпуску нового поколения ускорителей вычислений Instinct MI300. В них тоже будет использоваться чиплетная компоновка, но это уже будут APU — на одной подложке будут сочетаться кристаллы CPU и GPU. Для Instinct MI300 заявляется использование архитектур CDNA 3 GPU и Zen 4 и до 5 раз более высокая производительность в ИИ-задачах по сравнению с архитектурой CDNA 2.


window-new
Soft
Hard
Тренды 🔥
Dead Rising Deluxe Remaster выйдет из тени на следующей неделе — анонсирована игровая презентация Capcom Next: Summer 2024 2 ч.
В мобильном Chrome теперь можно совершать вызовы прямо из адресной строки 3 ч.
Ловкий патч и никакого мошенничества: эмуляция NUMA повышает производительность Raspberry Pi 5 на 18 % 3 ч.
Классическая приключенческая игра Little Big Adventure спустя 30 лет после выхода получит ремейк — первый трейлер и подробности 12 ч.
VK Cloud интегрировала Dev Platform с инструментами безопасной разработки 13 ч.
Valve представила функцию записи игр в Steam — возможности, особенности и открытая «бета» 13 ч.
Capcom анонсировала Dead Rising Deluxe Remaster — то ли ещё одно переиздание, то ли ремейк культового зомби-экшена 14 ч.
Новая страница: Broadcom представила VMware Cloud Foundation 5.2 15 ч.
Фальшивые адвокаты всё чаще повторно обманывают жертв крипто-мошенников 16 ч.
Спустя 10 лет культовая игра 7 Days to Die выйдет из раннего доступа — версию 1.0 уже можно попробовать 17 ч.
Рыночная капитализация Amazon впервые достигла $2 трлн, но не на долго 44 мин.
Встраиваемая система AAEON Boxer-8658AI получила модуль NVIDIA Jetson Orin NX и восемь 1GbE-портов с PoE 53 мин.
SiFive анонсировала новое семейство процессоров RISC-V для встраиваемых устройств 57 мин.
ЕС решил чуть снизить таможенные пошлины на китайские электромобили 2 ч.
Rivian готовит пять новых моделей электромобилей, включая решения для массового сегмента 4 ч.
Инструмент диагностики Apple для самостоятельного ремонта стал доступен в Европе 6 ч.
Акции Micron упали в цене на 7 % — инвесторов не удовлетворил прогноз, который не превзошёл их ожиданий 6 ч.
Apple расширит поддержку неоригинальных дисплеев и аккумуляторов для iPhone 7 ч.
Intel представила первый полностью интегрированный оптический чиплет ввода-вывода для передовых ИИ-систем 7 ч.
Новая статья: Обзор блока питания MSI MAG A850GL PCIE5 с разъемом 12V2x6 11 ч.