Сегодня 20 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → cdna

Новая статья: AMD Instinct MI300: новый взгляд на ускорители

Данные берутся из публикации AMD Instinct MI300: новый взгляд на ускорители

AMD продемонстрировала ускоритель вычислений MI300X, который превосходит решение NVIDIA по объёму поддерживаемой памяти

В этот вторник глава AMD Лиза Су (Lisa Su) на специальном мероприятии предсказуемо продемонстрировала образец ускорителя вычислений MI300X, который начнёт поставляться клиентам до конца текущего года. По сравнению с конкурирующим решением NVIDIA H100, он обеспечивает поддержку до 192 Гбайт памяти против 120 Гбайт соответственно.

 Источник изображения: Getty Images, David Becker

Источник изображения: Getty Images, David Becker

В ходе демонстрации способностей ускорителей на базе MI300X была показана их способность работать с языковой моделью для искусственного интеллекта, содержащей 40 млрд параметров. Для сравнения, известная GPT-3 стартапа OpenAI располагает 175 млрд параметров. Как пояснила Лиза Су, языковые модели становятся значительно больше по этому критерию, поэтому разработчикам потребуется сразу несколько GPU для работы с одной моделью. Правда, за счёт поддержки большего объёма памяти AMD MI300X способен сократить потребность собственно в дополнительных ускорителях.

Поддержка архитектуры Infinity Architecture позволяет клиентам AMD объединять в одной системе до восьми ускорителей MI300X. Конкурирующие решения NVIDIA опираются на программную экосистему CUDA для разработки приложений, формирующих систему искусственного интеллекта, а AMD опирается на платформу ROCm, которая работает с открытой экосистемой моделей. Архитектурно MI300X опирается на вычислительные ядра с архитектурой Zen 4 и CDNA 3, дополняя их стеками памяти типа HBM3 общим количеством до восьми штук. Общее количество транзисторов на одной подложке ускорителя MI300X достигает 153 млрд штук. Решение AMD превосходит продукт NVIDIA и по пропускной способности памяти, которая достигает 5,2 Тбайт/с, а интерфейс Infinity Fabric обеспечивает передачу до 896 Гбайт информации в секунду.

Лиза Су впервые продемонстрировала ускоритель AMD Instinct MI300 с 146 млрд транзисторов

Рассказав об ускорителе вычислений Instinct MI300 в общих чертах ещё летом прошлого года, компания AMD только в рамках презентации на январской CES 2023 уточнила некоторые особенности компоновки и характеристики этого долгожданного решения, которое найдёт применение в серверном сегменте в текущем году. Чиплетная компоновка позволяет новинке объединять несколько разнородных кристаллов с общим количеством транзисторов 146 млрд штук.

 Источник изображения: AMD, YouTube

Источник изображения: AMD, YouTube

Как пояснила на презентации Лиза Су (Lisa Su), сложная компоновка Instinct MI300 позволяет разместить чиплеты не только рядом друг с другом, но и в несколько ярусов. Ускоритель впервые объединяет на одном чипе процессорные и «графические» ядра, причём для системы они считаются одним целым, обеспечивая и равноправный доступ к памяти типа HBM3, которая расположилась на общей подложке по соседству. Глава AMD справедливо назвала Instinct MI300 самым сложным чипом из когда-либо созданных компанией.

Было заявлено, что Instinct MI300 сочетает ядра с архитектурой CDNA 3 и 24 процессорных ядра с архитектурой Zen 4. Объём памяти типа HBM3 достигает 128 Гбайт. Образец ускорителя был продемонстрирован на сцене Лизой Су, это было его первым появлением на публике. Как пояснила глава компании, в конструкции этого чипа девять 5-нм кристаллов располагаются на четырёх 6-нм кристаллах, а по бокам расположены стеки с микросхемами памяти типа HBM3.

 Источник изображения: AMD, YouTube

Источник изображения: AMD, YouTube

По сравнению с Instinct MI250X, новинка обеспечивает в восемь раз более высокую производительность в вычислениях, при этом обеспечивая в пять раз более высокую энергоэффективность в задачах искусственного интеллекта. Использование Instinct MI300 позволяет сократить время обучения соответствующих систем с нескольких месяцев до нескольких недель, как пояснила Лиза Су, при этом существенно сокращая сопутствующие затраты на оплату электроэнергии. В лабораториях AMD образцы Instinct MI300 уже успешно работают, на рынке ускорители этой модели появятся во втором полугодии.

AMD рассказала о серверных ускорителях вычислений Instinct MI200 из нескольких кристаллов на CDNA 2

В рамках конференции Hot Chips 34 компания AMD поделилась деталями о серверных ускорителях вычислений серии Instinct MI200 на базе чипов Aldebaran на архитектуре CDNA 2. Это первые GPU компании AMD, в составе которых применяется компоновка из нескольких кристаллов (чиплетов), также известная как MCM-компоновка.

 Источник изображений: AMD

Источник изображений: AMD

Одними из ключевых особенностей Instinct MI200 являются:

  • архитектура CDNA 2 с матричными ядрами второго поколения для ускорения вычислений FP64 и FP32. Они до четырёх раз увеличивают производительность операций FP64 по сравнению с предыдущим поколением серверных ускорителей AMD;
  • передовая технология упаковки 2.5D Elevated Fanout Bridge (EFB), позволяющая до 1,8 раза увеличить количество ядер и до 2,7 раза повысить пропускную способность памяти по сравнению с предыдущим поколением серверных GPU AMD, а также обеспечить пиковую пропускную способности памяти в 3,2 Тбайт/c;
  • третье поколение шины AMD Infinity Fabric; поддержка до 8 линий Infinity Fabric, которые обеспечивают связь между несколькими самими AMD Instinct MI200, а также процессорами AMD EPYC, в том числе третьего поколения, что обеспечивает системе унифицированную память CPU/GPU и повышает максимальную пропускную способность.

В составе ускорителей AMD Instinct MI200 используется GPU с двумя кристаллами (чиплетами) — основным и второстепенным. Каждый кристалл содержит по 8 шейдерных движков, в каждом из которых находятся по 14 вычислительных блоков (Compute Units, CU) для операций FP64, FP32, а также матричные движки второго поколения для операций FP16 и BF16.

Таким образом на каждый кристалл приходятся по 112 вычислительных блоков или 7168 потоковых процессоров, а на весь GPU в целом — 224 CU или 14 336 потоковых процессоров. GPU производится с использованием 6-нм техпроцесса TSMC. В общей сложности в составе ускорителя присутствуют 58 млрд транзисторов.

 Блок-схема AMD Instinct MI200 GPU

Блок-схема AMD Instinct MI200 GPU

В составе чипа Aldebaran применяется скоростная шина xGMI. В составе каждого чиплета имеется движок VCN 2.6 и основной IO-контроллер, по четыре 1024-битных контроллера памяти HBM2e. На каждый чиплет также приходится по 8 Мбайт кеш-памяти L2, физически разделённой на 32 блока и по 64 Гбайт памяти HBM2e с пропускной способностью на уровне 1,6 Тбайт/с. Совокупный объём памяти HBM2e на GPU может достигать 128 Гбайт, а её пропускная способность составлять 3,2 Тбайт/с. Это на 1,2 Тбайт/с выше, чем у NVIDIA A100, оснащённой 80 Гбайт памяти HBM2e.

AMD Aldebaran поддерживают 8 каналов Infinity Fabric. Один из них может использоваться для соединения CPU и GPU (по PCI Express). Оно рассчитано на согласованную передачу данных со скоростью 144 Гбайт/с. Показатель можно масштабировать до 500 Гбайт/с используя внешний канал Infinity Fabric с четырьмя подключёнными ускорителями AMD Instinct MI200 или с помощью PCIe 4.0 ESM AIC для пропускной способности на уровне 100 Гбайт/с.

 Метрика производительности AMD Instinct MI200 (Aldebaran)

Метрика производительности AMD Instinct MI200

AMD заявляет, что в зависимости от той или иной задачи Aldebaran может быть до трёх раз производительнее по сравнению с NVIDIA A100.

Ускорители вычислений AMD Instinct MI200 на архитектуре CNDA 2 уже используются в составе суперкомпьютера Frontier эксафлопсного уровня, возглавляющего рейтинг самых производительных суперкомпьютеров мира TOP500. Он обеспечивает производительность на уровне 1,1 эксафлопс.

AMD также сообщила о планах по выпуску нового поколения ускорителей вычислений Instinct MI300. В них тоже будет использоваться чиплетная компоновка, но это уже будут APU — на одной подложке будут сочетаться кристаллы CPU и GPU. Для Instinct MI300 заявляется использование архитектур CDNA 3 GPU и Zen 4 и до 5 раз более высокая производительность в ИИ-задачах по сравнению с архитектурой CDNA 2.


window-new
Soft
Hard
Тренды 🔥
Schneider Electric ведёт переговоры о покупке Bentley Systems 13 ч.
Новая статья: Atom Bomb Baby: рассказываем, почему Fallout — идеальная экранизация видеоигрового материала, и почему этот сериал не стоит пропускать 14 ч.
Bethesda готовит «несколько очень хороших обновлений» для Starfield, а Fallout 5 не в приоритете 15 ч.
Apple откроет сторонним приложениям доступ к NFC 15 ч.
В Dota 2 стартовало сюжетное событие «Павшая корона» с уникальными наградами, новыми «арканами» и комиксом 16 ч.
Связанные одной шиной: «Лаб СП» и «Фактор-ТС» представили отечественную интеграционную платформу Integration Gears 16 ч.
Paradox отказала Prison Architect 2 в досрочном освобождении — релиз отложили ещё на четыре месяца 18 ч.
Спустя 17 лет после релиза Team Fortress 2 получила поддержку 64 бит — выросла производительность и даже боты пропали 19 ч.
Netflix резко нарастила аудиторию и прибыль, запретив совместное использование аккаунтов 20 ч.
Российские студенты победили в чемпионате мира по программированию ICPC 20 ч.
AWS закрыла службу Snowmobile по транспортировке данных на фурах 24 мин.
Oracle инвестирует $8 млрд в облака и ИИ в Японии, а Fujitsu станет одним из ключевых партнёров 36 мин.
Дата-центры IBM на 74 % переведены на энергию из возобновляемых источников 2 ч.
В Японии в 2034 году запустят маглев, скорость движения которого составит 500 км/ч 5 ч.
«Народный» электрический кроссовер Kia EV2 за $14 500 мелькнул на видео 7 ч.
Власти Китая упростили условия привлечения иностранных инвестиций в национальный технологический сектор 7 ч.
Гиперщит с ИИ: Cisco представила систему безопасности Hypershield 15 ч.
Highpoint представила карту расширения на восемь SSD: до 64 Тбайт со скоростью до 56 Гбайт/с 15 ч.
Китайские экспериментальные лунные навигационные спутники прислали фотографии обратной стороны Луны 16 ч.
Налоговая служба Швеции закрыла 18 дата-центров за незаконный майнинг криптовалют 17 ч.