Теги → hbm2
Быстрый переход

Флагманский графический процессор NVIDIA GA100 не годится для игр

Представляя ускоритель вычислений A100 в середине мая, NVIDIA подчёркивала, что поставки графических процессоров GA100 с архитектурой Ampere уже начались. Чуть позже была опубликована техническая документация, которая позволяет выяснить некоторые нюансы, учитывающие особенности применения новинки. В частности, для трассировки лучей GA100 не годится, а ведь это является важным атрибутом старших видеокарт NVIDIA.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

В этой документации NVIDIA открытым текстом говорит, что в полной конфигурации GA100 содержит восемь вычислительных кластеров, 8192 ядра CUDA, 512 тензорных ядер, шесть стеков памяти HBM2 с 6144-разрядной шиной. В составе ускорителей вычислений NVIDIA A100 используется слегка усечённая версия графического процессора GA100, которая обладает только семью вычислительными кластерами, 6912 ядрами CUDA, 432 тензорными ядрами и пятью стеками HBM2 с 5120-разрядной шиной. Обнаруживается и другая особенность A100 — объём кеш-памяти второго уровня уменьшен с 48 до 40 Мбайт.

Физически все «избыточные» блоки присутствуют на кристалле, они просто отключены. Даже количество стеков памяти типа HBM2 производства Samsung осталось неизменным — на подложке разместились все шесть штук, но один из них не работает. Такая компоновка объясняет, почему при наличии шести стеков памяти её общий объём ограничен 40 Гбайт. Каждый стек содержит 8 Гбайт памяти, но только в полной конфигурации совокупный объём HBM2 может достигать 48 Гбайт. На рынок такая версия GA100 пока не поставляется.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

В каждом стеке HBM2 микросхемы памяти расположены в восемь ярусов. Память работает на частоте 1215 МГц, что в совокупности с наличием 5120-разрядной шины обеспечивает пропускную способность 1555 Гбайт/с. Это более чем в 1,7 раза выше, чем у Tesla V100 (Volta).

В составе графического процессора GA100 нет так называемых RT-ядер, которые отвечают за ускорение отрисовки графики методом трассировки лучей. Это говорит о том, что на игровой рынок путь GA100 заказан. NVIDIA придётся разработать отдельные графические процессоры с архитектурой Ampere для применения в игровом сегменте. Частота графического процессора GA100 в его нынешнем виде ограничена 1410 МГц. Вычислительный модуль в исполнении SXM4 рассчитан на TDP до 400 Вт, в серверном шасси он способен охлаждаться воздушной системой, но по сравнению с предшественниками в радиаторе пришлось значительно увеличить количество тепловых трубок.

NVIDIA DGX A100: дебютная платформа на базе Ampere предложила пять петафлопс быстродействия

В состав системы DGX A100, основу которой Дженсен Хуанг (Jen-Hsun Huang) на днях вынимал из духовки, входят восемь графических процессоров A100, шесть коммутаторов NVLink 3.0, девять сетевых контроллеров Mellanox, два процессора AMD EPYC поколения Rome с 64 ядрами, 1 Тбайт оперативной памяти и 15 Тбайт твердотельных накопителей с поддержкой NVMe.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

NVIDIA DGX A100 — это третье поколение вычислительных систем компании, предназначенных в первую очередь для решения задач искусственного интеллекта. Теперь такие системы строятся на самых современных графических процессорах A100 семейства Ampere, что обуславливает резкий рост их производительности, которая достигла 5 петафлопс. Благодаря этому DGX A100 способна обеспечить работу с гораздо более сложными моделями ИИ и с гораздо большими объёмами данных.

Для системы DGX A100 компания NVIDIA указывает только совокупный объём памяти типа HBM2, который достигает 320 Гбайт. Нехитрые арифметические вычисления позволяют определить, что на каждый графический процессор приходится по 40 Гбайт памяти, а изображения новинки позволяют однозначно судить, что этот объём распределён между шестью стеками. Упоминается и пропускная способность графической памяти — 12,4 Тбайт/с для всей системы DGX A100 в совокупности.

Если учесть, что система DGX-1 на базе восьми Tesla V100 выдавала один петафлопс в вычислениях смешанной точности, а для DGX A100 заявлено быстродействие на уровне пяти петафлопс, можно предположить, что в специфических вычислениях один графический процессор Ampere в пять раз быстрее своего предшественника с архитектурой Volta. В отдельных случаях преимущество становится двадцатикратным.

В общей сложности, в целочисленных операциях (INT8) система DGX A100 обеспечивает пиковое быстродействие на уровне 1016 операций в секунду, в операциях с плавающей запятой половинной точности (FP16) — 5 петафлопс, в операциях двойной точности (FP64) — 156 терафлопс. Кроме того, в тензорных вычислениях TF32 пиковое быстродействие DGX A100 достигает 2,5 петафлопс. Напомним, один терафлопс — это 1012 операций с плавающей запятой в секунду, один петафлопс — 1015 операций с плавающей запятой в секунду.

Важной особенностью ускорителей NVIDIA A100 является способность разделять ресурсы одного графического процессора на семь виртуальных сегментов. Это позволяет значительно повысить гибкость конфигурирования в том же облачном сегменте. Например, одна система DGX A100 с восемью физическими графическими процессорами может выступать в качестве 56 виртуальных графических процессоров. Технология Multi-Instance GPU (MIG) позволяет выделить сегменты разной величины как среди вычислительных ядер, так и в составе кеш-памяти и памяти типа HBM2, причём они не будут соперничать друг с другом за пропускную способность.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Стоит заметить, что по сравнению с прошлыми системами DGX анатомия DGX A100 претерпела некоторые изменения. Количество тепловых трубок в радиаторах модулей SXM3, на которые установлены графические процессоры A100 с памятью HBM2, значительно увеличилось по сравнению с модулями Tesla V100 поколения Volta, хотя их концы и скрыты от взора обывателя верхними накладками. Практический предел для такого конструктивного исполнения — это 400 Вт тепловой энергии. Это же подтверждается и официальными характеристиками A100 в исполнении SXM3, опубликованными сегодня.

Рядом с графическими процессорами A100 на материнской плате разместились шесть коммутаторов интерфейса NVLink третьего поколения, которые в совокупности обеспечивают двухсторонний обмен данными со скоростью 4,8 Тбайт/с. Об их охлаждении NVIDIA тоже серьёзно позаботилась, если судить по полнопрофильным радиаторам с тепловыми трубками. На каждый графический процессор выделено по 12 каналов интерфейса NVLink, соседние графические процессоры могут обмениваться данными со скоростью 600 Гбайт/с.

Система DGX A100 разместила и девять сетевых контроллеров Mellanox ConnectX-6 HDR, способных передавать информацию со скоростью до 200 Гбит/с. В совокупности, DGX A100 обеспечивает двухсторонний обмен данными со скоростью 3,6 Тбайт/с. Система также использует фирменные технологии Mellanox, направленные на эффективное масштабирование вычислительных систем с такой архитектурой. Поддержку PCI Express 4.0 на уровне платформы определяют процессоры AMD EPYC поколения Rome, в итоге этот интерфейс используется не только графическими ускорителями A100, но и твердотельными накопителями с протоколом NVMe.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Помимо DGX A100, компания NVIDIA начала снабжать своих партнёров платами HGX A100, являющимися одним из компонентов серверных систем, которые прочие производители будут выпускать самостоятельно. На одной плате HGX A100 может находиться либо четыре, либо восемь графических процессоров NVIDIA A100. Кроме того, для собственных нужд NVIDIA уже собрала DGX SuperPOD — кластер из 140 систем DGX A100, обеспечивающий быстродействие на уровне 700 петафлопс при достаточно скромных габаритных размерах. Компания пообещала оказывать методологическую помощь партнёрам, желающим построить похожие вычислительные кластеры на базе DGX A100. К слову, на строительство DGX SuperPOD у NVIDIA ушло не более месяца вместо типичных для подобных задач нескольких месяцев или даже лет.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

По словам NVIDIA, поставки DGX A100 уже начались по цене $199 000 за экземпляр, партнёры компании уже размещают эти системы в своих облачных кластерах, экосистема уже охватывает 26 стран, среди которых упоминаются Вьетнам и ОАЭ. Кроме того, графические решения с архитектурой Ampere вполне предсказуемо войдут в состав суперкомпьютерной системы Perlmutter, создаваемой Cray по заказу Министерства энергетики США. В её составе графические процессоры NVIDIA Ampere будут соседствовать с центральными процессорами AMD EPYC поколения Milan с архитектурой Zen 3. Узлы суперкомпьютера на основе NVIDIA Ampere доберутся до заказчика во втором полугодии, хотя первые экземпляры уже поступили в профильную лабораторию американского ведомства.

NVIDIA представила графический процессор Ampere и начала его поставки

Компания NVIDIA долго хранила в секрете разработку графических процессоров с архитектурой Ampere, но на этой неделе Дженсен Хуанг (Jen-Hsun Huang) предвосхитил рыночный дебют DGX A100, вынув одноимённую систему из духовки у себя на кухне. Именно с вычислительных систем этой серии NVIDIA Ampere начнёт свой рыночный путь.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Сам графический процессор NVIDIA A100 выпускается по 7-нм технологии компанией TSMC и содержит более 54 млрд транзисторов на площади 826 мм2, что делает его крупнейшим в своём «геометрическом классе». По соседству расположилось шесть стеков памяти типа HBM2 производства Samsung совокупным объёмом 40 Гбайт с пропускной способностью 1,6 Тбайт/с. Ядра CUDA разделились по специализации: для вычислений с плавающей запятой двойной точности (FP64) отведено 3456 штук, одинарной (FP32) — 6912 штук. Количество тензорных ядер достигло 432 штук, предусмотрены и потоковые мультипроцессоры в количестве 108 штук.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

NVIDIA утверждает, что обучение нейронных систем с применением графических процессоров происходит в 20 раз быстрее по сравнению с предшественниками. Сфера применения ускорителей с архитектурой Ampere — это не только системы искусственного интеллекта, но и анализ «больших данных», научные расчёты и облачная графика. Архитектура Ampere использует тензорные ядра третьего поколения с поддержкой вычислений TF32. Внедрена и поддержка вычислений с плавающей запятой двойной точности (FP64).

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Пиковая производительность A100 в обучаемых системах при использовании вычислений с плавающей запятой одинарной точности (FP32) достигает 312 терафлопс, это в двадцать раз выше, чем у Volta. Целочисленные операции (INT8) в системах, способных делать логические выводы, Ampere выполняет со скоростью 1,248 трлн штук в секунду. Отрыв от Volta тоже двадцатикратный. Наконец, в высокопроизводительных операциях с двойной точностью (FP64) новинка NVIDIA оказывается в два с половиной раза быстрее предшественницы.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Ориентацию на серверное применение A100 выдаёт и поддержка интерфейса NVLink третьего поколения, который позволяет обмениваться данными с аналогичными графическими процессорами со скоростью 600 Гбайт/с. Каждый графический процессор Ampere поддерживает двенадцать каналов NVLink 3.0. Впервые в серверном сегменте NVIDIA предлагает продукт с поддержкой PCI Express 4.0, им как раз является графический процессор A100. Кроме того, технология виртуализации MIG позволяет разделять ресурсы одного графического процессора на семь независимых сегментов.

NVIDIA подчёркивает, что серийное производство графического процессора A100 уже началось, ускорители на его основе поставляются клиентам. Им потребуется какое-то время, чтобы интегрировать эти ускорители в своих вычислительных системах. В суперкомпьютерах, например, Ampere пропишется не ранее второго полугодия.

Никакой официальной информации о сроках доступности игровых видеокарт с архитектурой Ampere пока нет.

Micron обещает в этом году приступить к выпуску памяти HBM2

Micron окончательно смирилась с ошибочной ставкой на стековую память HMC и намерена позднее в этом году начать массовое производство памяти HBM (HBM2). Она станет третьей компанией из «большой тройки» производителей памяти, кто выпускает эту быструю и плотную оперативную память для флагманских видеокарт и ускорителей расчётов.

Конкуренция, когда она возможна, это почти всегда хорошо. Плотную и быструю память HBM2 до сих пор выпускали только две компании ― SK Hynix и Samsung. Компания Micron в своё время сделала ставку на некоторое подобие HBM ― на память Hybrid Memory Cube (HMC). Как и память HBM, микросхемы HMC собираются в вертикальные стеки из нескольких кристаллов. Разница была в интерфейсе. Память HBM имеет множество линий для передачи данных, а память HMC ― намного меньше, но зато скорость передачи по интерфейсным линиям данных HMC существенно выше, чем у линий данных HBM.

Увы, память HMC как говорится «не взлетела», хотя она предлагала более простую разводку на плате, лучшее масштабирование и облегчённые требования к интерфейсам процессоров и ускорителей. Зато память HBM вышла на рынок сначала в видеокартах AMD, а затем и в ускорителях NVIDIA. Также память HBM стала популярной подсистемой для хранения и кеширования данных в разного рода вычислительных устройствах и в сетевых процессорах. Компания Micron признала это в 2018 году и свернула разработку и производство памяти HMC.

Но при этом Micron не теряла времени даром. Она значительно продвинулась в разработке и производстве других передовых версий памяти ― это GDDR5X и GDDR6. В этом году, как признался глава компании Санджай Мехротра, Micron наконец-то приступит к выпуску микросхем памяти HBM2. Очевидно, Micron придётся сделать в этой области что-то достаточно интересное, чтобы привлечь интерес к фирменной памяти HBM2 на фоне серийного и масштабного производства этой же памяти компаниями Samsung и SK Hynix.

Причудливый прототип AMD Radeon Vega 12 выставлен на аукционе

Коллекционеры компьютерных комплектующих иногда избавляются от экспонатов через популярные интернет-площадки. Наибольший интерес в таких случаях представляют компоненты, которые для продажи не предназначались, и были выпущены ограниченным тиражом. Например, такие, как прототип Radeon Vega 12 в настольном исполнении.

Источник изображения: eBay

Источник изображения: eBay

Один китайский коллекционер на страницах eBay просит $799 за интересный прототип видеокарты на базе графического процессора AMD Radeon Vega 12. Популярное обозначение серии скрадывает уникальность данного продукта. На самом деле, 14-нм графический процессор Vega 12 с памятью типа HBM2 совокупным объёмом 4 Гбайт был создан по заказу Apple, которая применяла его в составе мобильных графических решений AMD Radeon Pro Vega 16 и Radeon Pro Vega 20. Оба продукта не должны были покинуть пределов ноутбуков Apple MacBook Pro.

Источник изображения: eBay

Источник изображения: eBay

Тем интереснее наблюдать на страницах аукциона прототип Vega 12 в настольном исполнении с интерфейсом PCI Express x16 и тремя восьмиконтактными разъёмами дополнительного питания. По сути, разработанный для мобильного применения графический процессор Vega 12 не так уж прожорлив, но на печатной плате присутствует разного рода вспомогательная логика — можно обнаружить, например, ПЛИС марки Altera, которая требуется для отладки.

Источник изображения: eBay

Источник изображения: eBay

Отдельный радиатор установлен на графическом процессоре, память HBM2 в единственной микросхеме объёмом 4 Гбайт расположилась на одной с ним подложке. Силовые элементы и вспомогательные компоненты оснащены производительной системой охлаждения с тепловыми трубками и отдельным вентилятором. На плате присутствует множество диагностических разъёмов, сама она имеет неправильную форму и нестандартные габариты.

Источник изображения: eBay

Источник изображения: eBay

Продавец поясняет, что изделие было в употреблении, изначально для перепродажи оно не предназначалось, но в данный момент полностью работоспособно. В качестве доказательства даже приводится снимок экрана утилиты GPU-Z, которая точно определяет наличие 4 Гбайт памяти типа HBM2 и 14-нм графического процессора Vega 12, а саму видеокарту принимает за Radeon Pro Vega 16. Частоты утилита определить оказалась не в силах. Продавец готов отправить лот в любую страну мира, но по такой цене его обладателем наверняка захочет стать только обеспеченный любитель компьютерной экзотики.

Невиноватая я: SK Hynix дистанцируется от утечки про AMD Navi и HBM2e

Вчерашнее упоминание о возможных характеристиках памяти будущей флагманской видеокарты AMD выглядело вполне правдоподобно — изображение документа имитировало признаки официального источника, хотя и сочетало на одной странице разнородную информацию. SK Hynix от этой истории предпочла откреститься.

Самые разные источники давно приписывают AMD намерения создать видеокарту с архитектурой RDNA или RDNA 2, использующую память типа HBM2 или HBM2e. По крайней мере, для ускорения вычислений такой продукт бы сгодился, даже если был бы слишком дорог для розницы. «Долгожительство» Radeon VII во всех презентационных материалах AMD кажется искусственным, поэтому глава компании Лиза Су (Lisa Su) не скрывает, что флагманское графическое решение нового поколения будет представлено в текущем году.

Напомним, что на этой неделе один из анонимных источников опубликовал изображение документа, который вполне достоверно передавал фирменную стилистику SK Hynix. На одной странице причудливым образом соседствовали финансовая статистика, описание характеристик микросхем памяти типа HBM2e совокупным объёмом 24 Гбайт, а также словесное упоминание о сотрудничестве AMD и SK Hynix в сфере создания печатной платы для таинственной видеокарты Radeon RX 5950XT. Такая формулировка потом даже породила домыслы о намерениях AMD привлечь SK Hynix к выпуску печатных плат для нового флагмана на территории Южной Кореи из-за вспышки коронавируса в КНР.

Сама компания SK Hynix сегодня выступила с опровержением своей причастности к распространению и созданию указанного документа. Более того, она выразила решимость в защите своих юридических интересов при появлении подобной ложной информации в будущем, призвав средства массовой информации не способствовать её распространению. Интересы своих деловых партнёров и клиентов она готова отстаивать не менее ревностно.

Нужен самый быстрый интерфейс для памяти HBM2E? Обращайтесь в Synopsys

Дорогая, но самая быстрая на сегодня память HBM продолжает наращивать скорость. На сегодня стандарт JEDEC устанавливает предел скорости обмена HBM2E по каждому контакту шины данных на уровне 3,2 Гбит/с. Чтобы получить этот скоростной интерфейс и встать на самую высшую ступеньку достаточно обратиться к компании Synopsys. Сегодня она начала предлагать готовый для интеграции физический уровень интерфейса HBM2E.

Пакет интеллектуальной собственности HBM2E PHY IP компании Synopsys позволит в кратчайшие сроки создать продукты с поддержкой памяти HBM2E. Это могут быть SoC, центральные процессоры, графические процессоры, программируемые матрицы ПЛИС, ускорители или что-то ещё. Все эти решения должна объединять общая цель ― добиться максимально возможной в современных условиях пропускной способности с подсистемой памяти. Пакет HBM2E PHY IP Synopsys обеспечивает совокупную скорость обмена с каждым 1024-разрядным чипом HBM2E на уровне 409 Гбайт/с.

По полосе пропускания интерфейс HBM2E в 14 раз превосходит 72-битный интерфейс памяти DDR4, работающий с той же скоростью 3,2 Гбит/с на один контакт шины данных. При этом энергоэффективность подсистемы памяти на чипах HBM2E примерно в 10 раз выше, чем в случае подсистем памяти стандарта DDR4.

Важной особенностью физического уровня HBM2E Synopsys представляется адаптация для объёмных многокристальных упаковок. Так, блок физического интерфейса подходит для упаковки методом Chip-on-Wafer-on-Substrate (CoWoS) компании TSMC. Очевидно, в первую очередь от этого выиграют клиенты этого тайваньского чипмейкера. Упаковка CoWoS позволяет располагать на общей подложке-интерпозере логику и память HBM2E. Это сокращает длины интерфейсных соединений и позволяет добиться наилучших характеристик.

Метод упаковки Chip-on-Wafer-on-Substrate (CoWoS) компании TSMC

Метод упаковки Chip-on-Wafer-on-Substrate (CoWoS) компании TSMC

Кстати, о лучших характеристиках. Компании Samsung и SK Hynix в этом году собираются побить рекорд производительности интерфейса HBM2E. Первая обещает выпустить чип памяти со скоростью обмена 538 Гбайт/с, а вторая — со скоростью 460 Гбайт/с. При этом компания Samsung, вероятно, будет использовать собственный физический уровень HBM2E, тогда как SK Hynix, не имеющая своей логики, приобретает необходимые IP у Synopsys.

Документация SK Hynix упоминает возможные характеристики флагманского AMD Navi

С начала года глава AMD Лиза Су (Lisa Su) не раз обещала представить графические решения нового поколения, и флагманский продукт семейства Navi среди них тоже упоминался. Нельзя исключать, что в подготовке к анонсу этого графического процессора участвует компания SK Hynix, предлагающая память типа HBM2e.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

Один из блогеров на страницах Twitter разместил изображение, которое якобы запечатлело фрагмент официального документа SK Hynix, описывающего вероятные характеристики нового графического процессора с артикулом D32310 или D32315. Соответствующие изделия уже прошли сертификацию в Южной Корее, что только добавляет правдоподобности данной утечке.

Источник изображения: Twitter, CyberPunkCat

Источник изображения: Twitter, CyberPunkCat

Если изучить правую часть снимка внимательнее, то можно встретить упоминание о Radeon RX 5950XT — утверждается, что в разработке печатной платы для одноимённой видеокарты принимали участие специалисты SK Hynix. По всей видимости, они помогали интегрировать микросхемы памяти типа HBM2e, которые будут использоваться данным графическим решением. Объём памяти достигнет 24 Гбайт, она будет использовать 4096-разрядную шину и пропускную способность 2048 Гбайт/с.

Самое интересное, что источник описывает и конфигурацию графического процессора AMD, который будет использовать память типа HBM2e. Количество шейдерных процессоров достигнет 5120 штук, блоков выборки текстур — 320 штук, блоков растеризации — 96 штук, а количество вычислительных блоков будет ограничено 80 штуками. Кроме того, предусмотрена кеш-память второго уровня объёмом 12 Мбайт. Следует ли доверять этой информации, сказать сложно, но принять её к сведению определённо не помешает.

AMD Navi 12 станет основой для ускорителя вычислений с памятью HBM2

Графическому процессору AMD Navi 12 слухи предписывали разное предназначение, но программные платформы с открытым годом недавно указали на ещё один вариант — ускоритель вычислений с памятью типа HBM2. По количеству векторных процессоров такой ускоритель будет близок к Radeon RX 5700 XT.

Источник изображения: AMD

Источник изображения: AMD

Некоторое время назад на ресурсе GitHub появилось описание нового графического процессора GFX1011, в котором знатоки распознали AMD Navi 12. Немного настораживало сопутствующее упоминание о поддержке команд, используемых в обучаемых системах (deep learning operations). Постепенно выяснилось, что такой ускоритель не только поддерживает специфические инструкции, но и оснащается памятью типа HBM2. В потребительском сегменте AMD от неё постепенно отказалась в силу высокой стоимости, а вот ускорителям вычислений она нужна для обеспечения максимальной производительности, на фактор цены здесь внимание обращается в меньшей степени.

Источник изображения: GitHub

Источник изображения: GitHub

Было установлено, что Navi 12 в этой конфигурации обладает 40 исполнительными блоками, что соответствует 2560 векторным ALU и уровню производительности Radeon RX 5700 XT. Следует отметить, однако, что частота графического процессора в данном случае не превышает 1144 МГц. Вполне возможно, что такое ограничение сделано ради снижения энергопотребления и тепловыделения. Ускорители вычислений нередко оснащаются крупными пассивными радиаторами, воздух через которые прогоняют вентиляторы, расположенные у стенки корпуса сервера.

В семействе Intel Arctic Sound будут видеокарты с уровнем TDP до 500 Вт

Самые разные источники уже давно упоминают графические решения Intel Arctic Sound, и только теперь появилось более или менее внятное представление о компоновочных особенностях их серверных вариантов. Как и обещалось, графические решения этой серии будут использовать многокристальную компоновку.

Источник изображения: Intel

Источник изображения: Intel

Ресурсу Digital Trends удалось раздобыть пусть и не очень свежую, но интересную презентацию Intel, в которой рассказывается о планах компании по выводу в серверный сегмент ускорителей вычислений на базе графических решений семейства Arctic Sound. По внутренней классификации, решения серии Intel Xe получат архитектуру Gen12, изделия Arctic Sound займут промежуточное положение между DG1 и Ponte Vecchio. В отличие от последнего, они будут выпускаться по 10-нм технологии, но уже возьмут на вооружение и память типа HBM2e, и многокристальную компоновку, и даже интерфейс PCI Express 4.0.

Источник изображения: Digital Trends

Источник изображения: Digital Trends

Как поясняет источник, внутренняя иерархия продуктов семейства Arctic Sound будет определяться компоновочными условиями. Однокристальные продукты ограничатся уровнем TDP от 75 до 150 Вт. Точных сведений о характеристиках каждого кристалла нет, но на уровне предположений говорится о наличии 128 исполнительных блоков в каждом. Из двух кристаллов уже можно собрать графическое решение с 256 исполнительными блоками, уровень TDP в этом случае поднимется до 300 Вт.

Самое интересное исполнение Arctic Sound — это графическая плата с четырьмя кристаллами, которая может поднять уровень TDP до 400 или 500 Вт. Кроме того, она будет получать питание по 48-вольтовой линии вместо традиционной 12-вольтовой. Для серверного сегмента это вполне допустимо. Количество исполнительных блоков, как нетрудно определить, в данном случае достигнет 512 штук.

Источник изображения: Digital Trends

Источник изображения: Digital Trends

Объём памяти типа HBM2e пока не раскрывается, но уже известна скорость передачи информации — до 2,8 Гбит/с на контакт. У предлагаемой ныне памяти типа HBM2 этот показатель несколько ниже — 2,0 Гбит/с на контакт. В презентации Intel говорится и о планах экспансии во многие смежные сегменты рынка, игровые дискретные графические продукты тоже предусмотрены, но сроки их появления пока не конкретизируются. Если вернуться к Arctic Sound, то технологических препятствий к появлению таких серверных ускорителей в текущем году почти нет. Intel увеличивает ассортимент 10-нм продуктов, поставки микросхем памяти типа HBM2e начнут компании Samsung и SK Hynix. Наконец, в четвёртом квартале могут выйти процессоры Ice Lake-SP, которые принесут поддержку PCI Express 4.0 в серверном сегменте для продукции Intel.

Новые данные о характеристиках ускорителя AMD Arcturus

Ускорители вычислений Radeon Instinct пользуются неплохой популярностью, если верить скудной на откровения статистике AMD, но рано или поздно им придётся обновиться. Кодовое обозначение ускорителей нового поколения давно известно — Arcturus, но характеристики до последнего момента оставались тайной.

Источник изображения: AMD

Источник изображения: AMD

Приподнять завесу секретности взялся японский блогер Komachi Ensaka, который опубликовал лаконичное описание инженерного образца ускорителя Arcturus. Изделие с предполагаемым обозначением Radeon Instinct MI100 должно оснащаться 32 Гбайт памяти типа HBM2 с частотой 1000 МГц. Для частоты графического процессора приводится два значения: 1090 МГц для базового уровня и 1333 МГц для «турбо-режима». Уровень TDP ограничен 200 Вт, и это весьма заметный прогресс на фоне существующих ускорителей Radeon Instinct, которые обладают TDP до 300 Вт.

Источник изображения: Twitter, KOMACHI ENSAKA

Источник изображения: Twitter, KOMACHI ENSAKA

Сам графический процессор Arcturus XL должен выпускаться по 7-нм технологии, что отчасти объясняет умеренный уровень энергопотребления. Количество потоковых процессоров может достигать 8192 штук. По сравнению с предшественниками, Radeon Instinct MI100 может предложить двукратный прирост быстродействия. Нельзя исключать, что дебют этого ускорителя намечен на текущий год.

Samsung начнёт выпускать самую быструю память HBM2E в текущем полугодии

Продукты с памятью типа HBM2E ещё не представлены, но SK Hynix и Samsung уже вовсю соревнуются в скоростях. Первая в том году пообещала выпустить память со скоростью передачи информации 460 Гбайт/с, вторая обещает начать выпуск памяти со скоростью передачи информации 538 Гбайт/с. Одновременно обновился стандарт JEDEC.

Источник изображения: Samsung Electronics

Источник изображения: Samsung Electronics

Самое интересное, что в терминологии JEDEC обозначение «HBM2E» так и не прижилось, хотя Samsung в своём пресс-релизе эту память относит к третьему поколению. Формально, стандарт признаёт только существование памяти типа HBM2, которая с момента утверждения этого обозначения серьёзно эволюционировала. Например, в одном стеке могут располагаться в двенадцать ярусов микросхемы памяти объёмом по 2 Гбайт, в совокупности это позволяет разместить в одном стеке до 24 Гбайт памяти. Если вокруг специализированного процессора разместить четыре стека, совокупный объём памяти достигнет 96 Гбайт. Высоту этого стека обновлённый стандарт никак не регламентирует.

В текущем полугодии Samsung обещает наладить серийный выпуск микросхем памяти HBM2E с использованием техпроцесса 10-нм класса. Условное обозначение этой памяти — Flashbolt, это уже третье поколение HBM в производственной программе корейской компании. На начальном этапе будут производиться микросхемы, сформированные из восьми ярусов, совокупным объёмом 16 Гбайт. Штатная скорость передачи данных в пересчёте на один контакт соответствует стандартной — 3,2 Гбит/с, что в итоге даёт 410 Гбайт/с при использовании 1024-разрядной шины.

Желая потешить самолюбие, Samsung отдельно упоминает в пресс-релизе, что её память типа HBM2E способна передавать информацию со скоростью 538 Гбайт/с (4,2 Гбит/с на контакт). Это выше тех 460 Гбайт/с, которые в прошлом году обещала осилить SK Hynix. В любом случае, спецификациями подобные режимы не предусмотрены, а это значит, что эксплуатация на таких скоростях не гарантируется в ста процентах случаев.

Дискретное графическое решение Arctic Sound будет многопроцессорным

Ускоритель вычислений Ponte Vecchio не будет единственным продуктом Intel на базе графических процессоров с многокристальной компоновкой. В сегменте потребительской графики будет предложен продукт с условным обозначением Arctic Sound, сочетающий несколько 10-нм кристаллов и память типа HBM2e.

Источник изображения: Intel

Источник изображения: Intel

В конце 2021 года Intel пообещала представить ускоритель вычислений Ponte Vecchio, который будет первым серийным 7-нм изделием марки. Ему же предстоит сочетать сложную пространственную компоновку Foveros c наличием нескольких кристаллов, подложки EMIB, быстрой памяти Rambo Cache и микросхем HBM.

Представители сайта AdoredTV выяснили, что по 10-нм техпроцессу третьего поколения будет выпускаться графическое решение Arctic Sound, оно тоже будет использовать многокристальную компоновку. Четыре кристалла площадью по 150 мм2 каждый будут сочетаться с памятью типа HBM2e. Утверждается, что первоначально лежащие в основе этого продукта графические процессоры разрабатывались для скоростной обработки потокового видео в высоком качестве. Спрос на подобные услуги постепенно снизился, и перешедший на работу в Intel Раджа Кодури (Raja Koduri) распорядился адаптировать Arctic Sound таким образом, чтобы получился графический процессор общего назначения. Увы, «лишние транзисторы» из «потокового прошлого» никуда деть не удалось, а потому для достижения оптимальной производительности потребовалось объединить на одной графической плате четыре соответствующих кристалла.

Присутствие памяти типа HBM2e в скудном пока описании характеристик этого продукта позволяет предположить, что оно будет обладать достаточно высоким быстродействием. Из ранних утечек известно, что по архитектуре Arctic Sound будет унифицирован с DG1 и встроенной графикой процессоров Tiger Lake — все они формально относятся к Gen12. На использование 10-нм техпроцесса второго поколения Intel перейдёт только в этом году, а третье будет освоено не ранее следующего. Это позволяет предположить, что и дискретная графика Arctic Sound дебютирует в 2021 году. До конца текущего года будет представлена менее производительная графика DG1, которая уже поставляется разработчикам в виде образцов.

AMD призналась в существовании видеокарты поколения Navi с 16 Гбайт памяти

Пока всё внимание прогрессивной общественности привлечено к мероприятию SC19, в австралийском Брисбене проходит SIGGRAPH Asia 2019, и представители AMD на нём выступают с интересным докладом, содержание которого пока доступно только в аннотации к самому выступлению. В повестку дня мероприятия внесён рассказ об особенностях построения трёхмерных изображений в «облачных» системах распределённого типа, основанных на графических адаптерах семейства Radeon Pro.

Источник изображения: SIGGRAPH Asia

Источник изображения: SIGGRAPH Asia

Примечательно, что технология распределённых реестров («блокчейн») тоже задействована в данной демонстрации, о чём недвусмысленно намекает символ цепи на иллюстрации. Всё это работает в среде ProRender и явным образом ориентировано на профессионалов в сфере компьютерной графики. В конце лаконичной аннотации привлекает внимание упоминание о неких новых графических процессорах поколения Navi с архитектурой RDNA, соседствующих с 16 Гбайт памяти неустановленного типа.

Уместно напомнить, что в семействе Radeon Pro пока нет графических решений с архитектурой Navi, которые оснащались бы 16 Гбайт памяти типа GDDR6. Нельзя исключать, что речь идёт о давно обсуждаемых графических адаптерах с кодовым обозначением Arcturus, которые должны были стать идеологическими преемниками Vega в профессиональном сегменте. Не исключено и использование памяти типа HBM2 или HBM2E, поскольку представители AMD не готовы полностью от неё отказываться. В сегменте ускорения вычислений такая память тоже будет востребована, AMD могла бы унифицировать часть решений серий Radeon Pro и Radeon Instinct по этому признаку.

В январе AMD может рассказать о графике поколения RDNA2 с трассировкой лучей

Подробное изучение изменений, произошедших в презентации AMD для инвесторов за период с сентября по ноябрь, позволило нам выяснить, что компания не желает, чтобы начинка игровых консолей Sony и Microsoft нового поколения ассоциировалась у общественности с архитектурой RDNA второго поколения. Сделанные «на заказ» продукты AMD внутри этих консолей обеспечат аппаратную поддержку трассировки лучей, но пока представители компании не спешат говорить о сроках распространения подобной функции на дискретную графику. Обычно используются размытые формулировки типа «когда экосистема будет готова».

На страницах китайского форума ChipHell один проверенный хранитель чужих секретов опубликовал новую информацию о планах AMD. Если верить этому источнику, на январском мероприятии CES 2020 в Лас-Вегасе представители компании должны рассказать о графической архитектуре RDNA2, которая обеспечит поддержку трассировки лучей на аппаратном уровне. Это не значит, что соответствующий продукт сразу появится в продаже, видеокарты этого поколения могут выйти в течение 2020 года, как и позволяет думать профильный слайд из презентации AMD.

Архитектуре RDNA второго поколения, помимо использования улучшенной версии 7-нм техпроцесса с элементами EUV-литографии, приписывается и способность чередовать память типа GDDR6 с идейным преемником HBM2. В профессиональной среде новый тип скоростной памяти принято называть «HBM2E», но на обывательском уровне его нередко обозначают как «HBM3». Компании SK Hynix и Samsung уже готовы предложить микросхемы памяти HBM2E в 2020 году, да и выступивший на юбилейном мероприятии сайта SweClockers вице-президент AMD Джо Макри (Joe Macri) подтвердил, что компания проявляет интерес к данному типу памяти. HBM первого поколения компания помогала разрабатывать корейскому производителю SK Hynix на протяжении восьми лет.

Есть вероятность, что в семействе графических решений с архитектурой RDNA2 появятся флагманские игровые продукты с памятью типа HBM2E, поскольку сейчас AMD всеми силами пытается «припудрить» бездыханное тело Radeon VII, не скрывая от партнёров, что давно прекратила его поставки. По сути, позиция флагманской игровой видеокарты AMD временно вакантна, и как только в плотном графике премьер найдётся «окно», компания сможет дать адекватный ответ на GeForce RTX 2080 Ti, например.

Китайский источник попутно говорит о некоторых специальных версиях графических плат на базе Navi 10, которые после функциональных ограничений смогут расположиться ниже Radeon RX 5700 как по быстродействию, так и по цене. Серия Radeon RX 5500 на базе графического процессора Navi 14, по данным источника, тоже может расшириться за счёт продукта с полным набором исполнительных блоков — больше, чем 22 у нынешнего Radeon RX 5500. Ожидается, что такое изделие появится в составе готовых компьютеров Apple, а вот получит ли оно распространение за пределами экосистемы этой марки — вопрос открытый.

window-new
Soft
Hard
Тренды 🔥