Теги → hpc
Быстрый переход

Производители ожидают значительного роста спроса на ASIC в ближайшие годы

Тайваньские поставщики заказных БИС (ASIC), проектируемых по требованиям клиентов, ожидают значительного роста заказов в ближайшие несколько лет, что будет обусловлено спросом на такие чипы в секторах высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ). Это спрос, согласно источникам в отрасли, будет расти в геометрической прогрессии.

Например, MediaTek недавно разработала свой первый 7-нм ASIC для нового клиента. Как ожидается, выпуск ASIC станет основным драйвером роста выручки компании.

Новая статья: SC18: что-то с памятью моей стало, три терабайта на сокет уж мало…

Данные берутся из публикации SC18: что-то с памятью моей стало, три терабайта на сокет уж мало…

Новая статья: SC18: RISC — дело благородное

Данные берутся из публикации SC18: RISC — дело благородное

Новая статья: Репортаж с ISC 2018: и вышла Astra, каменный цветок

Данные берутся из публикации Репортаж с ISC 2018: и вышла Astra, каменный цветок

Новая статья: ПаВТ-2018: как байты к флопсам ходили

Данные берутся из публикации ПаВТ-2018: как байты к флопсам ходили

Rambus выделила контроллеры DDR5 и HBM3 в качестве своих приоритетов

Представители одного из опытнейших разработчиков энергозависимой памяти — компании Rambus — на днях пообщались с инвесторами, рассмотрев как финансовые вопросы, так и планы на будущее. Rambus нередко упоминается в качестве патентного тролля, однако в компании делают акцент на участии в перспективных проектах, таких как разработка контроллеров оперативной памяти DDR5 и многослойной оперативной памяти HBM3. Последняя найдёт своё применение в готовящихся графических и HPC-ускорителях, а DDR5 со временем повсеместно заменит DDR4 — начиная с серверов и заканчивая мобильными устройствами.

Для рядового потребителя сегодня на первом плане скорее стоит вопрос стоимости оперативной памяти, нежели её пропускной способности или других характеристик. Тем не менее разработчики, и в их числе Rambus, продолжают трудиться над соответствующими контроллерами. На сегодняшний день единственным крупным клиентом Rambus является компания AMD, которая использует плод стараний соседей по Саннивейлу — контроллер DDR4 — в процессорах Ryzen.

DDR5 почти наверняка начнёт свой путь с серверного рынка, поэтому Rambus акцентирует внимание потенциальных клиентов на контроллерах DDR5 в составе модулей памяти для серверных платформ. Характерная для этих контроллеров скорость передачи данных ожидается на уровне 4800–6400 МТ/с, техпроцесс выпуска — 7 нм. Последнее обстоятельство, а также планы разработчиков оперативной памяти по выводу на рынок DDR5 только в 2020–21 гг., говорят о том, что производство вышеупомянутых контроллеров Rambus начнётся ещё не скоро.

Эффективная частота модулей DDR5 составит не менее 4800 МГц, пропускная способность — от 38,4 Гбайт/с, максимальный объём, в связи с переходом на более тонкий техпроцесс, вырастет вдвое. Рабочее напряжение, скорее всего, снизится с 1,2 В у DDR4 до 1,1 В у DDR5. Полагаем, что свой путь память DDR пятого поколения начнёт с HPC — серверов для ресурсоёмких вычислений.

Контроллеры памяти Rambus, ассоциированные с HBM3, появятся в эру 7-нм графических процессоров и будут выпускаться по той же технологической норме. Скорость передачи данных у этих контроллеров будет достигать 4000 МТ/с. Сама память HBM3 составит конкуренцию достаточно «взрослой» (к моменту покорения полупроводниковой индустрией 7-нм рубежа) графической памяти GDDR6. В отличие от массовой DDR5, память HBM3 будет больше ориентирована на конкретные проекты и продукты, в которых важна не только пропускная способность, но и компактность исполнения.

AMD Radeon R9 Nano с памятью HBM

AMD Radeon R9 Nano с памятью HBM

Rambus прогнозирует, что в текущем году её доход от реализации продукции всех видов составит $28 млн, а лицензионные отчисления от более чем 2500 патентов — около $212 млн. Крупнейшими «донорами» компании на сегодняшний день являются Broadcom, IBM, Intel, Micron, Qualcomm, Samsung, SK Hynix и WD.

Новая статья: Репортаж с GTC Europe 2017: роботакси вызывали?

Данные берутся из публикации Репортаж с GTC Europe 2017: роботакси вызывали?

Новая статья: ISC 2017: зен-буддизм в межзионье

Данные берутся из публикации ISC 2017: зен-буддизм в межзионье

AMD не собирается устанавливать высокую цену на Radeon RX Vega

Игровые карты и специализированные ускорители AMD Vega дебютируют на рынке в скором времени, и интерес к ним только растёт. Геймеры надеются, что ограниченное количество адаптеров Radeon RX Vega не разберут добытчики криптовалют на фоне устрашающих цен на Radeon RX 580, а те, кому GPU Vega нужен для работы в других приложениях, ждут объявления рекомендованных цен на Radeon Vega Frontier Edition и Radeon Instinct MI25. Карта Frontier с воздушным охлаждением пока доступна для предзаказа по цене $1199,99, а её вариант с СЖО — по $1799,99. Рекомендованная стоимость HPC-ускорителя MI25, скорее всего, будет выше, чем у Radeon Vega FE, однако это не значит, что и за игровую модель Vega — Radeon RX Vega — AMD будет просить чересчур много. Конечно, немаловажным фактором останется ситуация на рынке криптовалют, но непосредственно в Саннивейле не собираются пользоваться возникшим дефицитом карт.

«Цена Vega будет отличной... Polaris будет по-прежнему иметь лучшее соотношение производительности и энергопотребления для майнинга», — пишет твиттер итальянского «железячного» ресурса Bits and Chips. Если отбросить фактор нового витка криптовалютной лихорадки, то для эффективной борьбы с GeForce GTX 1080 Ti новому флагману придётся обосноваться в районе $500–550, где с недавних пор обитает GTX 1080. Агрессивным ценообразованием AMD частично оправдает «прожорливость» Radeon RX Vega (около 300 Вт), её высокое тепловыделение и ограниченный объём видеопамяти (8 Гбайт, пусть и HBM2). Официальный анонс видеокарты состоится на конференции SIGGRAPH 2017, которая пройдёт в Лос-Анджелесе с 30 июля по 3 августа.

Среди прочего, в Bits and Chips полагают, что ускорители Vega (подразумевается MI25) не смогут бороться с NVIDIA Tesla в сегменте высокопроизводительных решений для серверов — с этой задачей должно справиться следующее поколение HPC-карт на ядрах Navi.

«Забудьте о Vega для корпоративного рынка. Ситуацию для AMD кардинально изменит Navi — как EPYC в случае с CPU, — заверяет источник. — Vega будет отличным графическим процессором, но для "атаки" на HPC AMD нуждается в Navi, который получит множество функций, нацеленных на рынки HPC и искусственного интеллекта».

Наиболее вероятным сроком появления видеокарт Navi разного назначения является вторая половина 2018 года либо первая половина 2019 года. С 14-нм техпроцесса выпуска GPU компания AMD планирует сразу перейти на 7-нм, что потребует немалых затрат времени и денег.

Новая статья: Репортаж с Intel AI Day: новый мозг для искусственного разума

Данные берутся из публикации Репортаж с Intel AI Day: новый мозг для искусственного разума

AMD планирует выпустить двухпроцессорную версию Vega 10

Новости с фронтов войны за рынок дискретной игровой графики не очень хороши для «красных»: мало того, что решения «зеленых», чипы Pascal, показывают отличные результаты в текущем виде, так NVIDIA ещё и планирует выпустить их обновлённую версию с отточенным до совершенства техпроцессом и, судя по всему, серьёзно возросшим потенциалом. Если же верить сообщениям AMD, то разработка чипов следующего за Polaris поколения под кодовым названием Vega идёт по плану, но компания, похоже, опасается, что Vega 10 не сможет стать новым королём трёхмерной графики. В таких случаях и «красные», и «зелёные» прибегают к одному простому методу — выпускают флагманскую графическую карту с двумя графическими процессорами, каждый из которых поодиночке не тянет на лидерство. И теперь появилась информация о том, что во втором квартале 2017 года Radeon Technologies Group планирует выпустить двухпроцессорную карту с двумя чипами Vega 10 на борту.

Мы знаем, что Vega 10 будет иметь 64 унифицированных вычислительных блока (4096 ядер GCN в совокупности), так что гипотетическая Vega 10 X2 получит 8192 потоковых процессора GCN. Совокупный объём памяти HBM2 составит 32 Гбайт, по 16 Гбайт на чип, что даст пиковую пропускную способность 1 Тбайт/с. Как и Pascal, AMD Vega будет ориентирована не только на игровой рынок, но и на рынок супервычислений, поэтому новые чипы AMD будут поддерживать смешанные вычисления в различных форматах, начиная с FP16. Ожидается, что каждый процессор Vega 10 сможет развивать 24 терафлопса в режиме FP16 и 12 терафлопс в режиме FP32, а значит, совокупная мощь Vega 10 X2 составит 24 терафлопса в наиболее востребованном сегодня режиме вычислений FP32.  Тактовые частоты новых процессоров ожидаются в районе 1465 МГц, и это не очень хорошая новость для болельщиков из лагеря «красных» — уже имеющееся поколение Pascal имеет более высокий частотный потенциал, а ведь на смену ему придёт ещё более совершенное поколение Volta.

Как правило, двухпроцессорные решения — будь то игровые карты или вычислительные ускорители — не используют полностью частотный потенциал каждого чипа, поскольку система охлаждения, способная отводить нужный объём тепловой энергии, просто не уместится в стандартный двухслотовый форм-фактор карты расширения. Есть причины ожидать, что Vega 10 X2 получит частоты ядер в районе 1100‒1200 МГц, а значит, совокупная вычислительная производительность окажется в районе 18‒19,6 терафлопс. Вычисляется эта цифра легко: следует умножить количество потоковых процессоров на частоту и затем на два (2 инструкции на такт). Если NVIDIA не выпустит двухпроцессорных версий P100, то гипотетическая Vega 10 X2 может стать вполне конкурентоспособным с точки зрения производительности решением. Источники сообщают о появлении Красного Монстра во втором квартале 2017 года, но первая демонстрация его может состояться раньше, уже в конце этого года.

ARM анонсировала новую архитектуру v8-A с набором Scalable Vector Extensions

Мощность суперкомпьютеров по всему миру растёт, но растут и требования к питанию. Современный суперкомпьютер легко может потребовать только для своей работы небольшой электростанции, вот почему разработчики вычислительных средств постоянно ищут способы увеличить экономичность процессоров, входящих в состав систем для супервычислений. Перспективной в этой отрасли выглядит архитектура ARM, особенно после того, как компания анонсировала новую версию архитектуры v8 с поддержкой расширений Scalable Vector Extensions. ARM всерьёз нацелена на завоевание серверного рынка, а также рынка облачных систем и суперкомпьютеров.

В задачах, которые решают такие машины, часто встречаются векторные вычисления, так что набор векторных расширений в новой архитектуре ARM придётся как нельзя более к месту, когда соответствующие процессоры доберутся до серийного производства. ARM v8-A с векторными расширениями пока не является полноценной лицензируемой архитектурой, но предназначена для компаний, создающих собственные процессоры на базе наработок ARM. Одной из первых компаний на рынке HPC, ставшей владельцем лицензии на ARM v8-A with Scalable Vector Extensions стала Fujitsu. Она планирует использовать эту архитектуру в суперкомпьютере Post-K RIKEN, который должен войти в строй в 2020 году. Набор векторных инструкций SVE является гибким дополнением к существующему набору инструкций ARM v8 и поддерживает вычисления с разрядностью от 128 до 2048 бит.

В названии не зря имеется слово «scalable» (масштабируемый) — вне зависимости от длины вызова, будь то 128, 512 или даже 2048 бит, планировщик распределяет вычисления так, чтобы наиболее полно загрузить имеющееся аппаратное обеспечение. Иными словами, если имеется 128-битное ядро, то 2048-битные вычисления будут выполняться по кускам и наоборот, 128-битные вычисления на 2048-битном ядре будут распараллелены, причём аппаратно. Это отличает новый набор инструкций от уже имеющегося NEON, способного работать только с 64 или 128-битными векторами. ARM вскоре выпустит обновления для компиляторов GCC и LLVM с поддержкой автоматического использования VSE. По данным компании-разработчика, использование SVE уже позволяет добиться существенного улучшения производительности, а по мере оптимизации программного обеспечения выигрыш станет ещё более существенным.

Новая статья: ISC 2016: галопом по Европам. Репортаж

Данные берутся из публикации ISC 2016: галопом по Европам. Репортаж

Новая статья: ПаВТ 2016: Архитектура и технологии Intel для HPC

Данные берутся из публикации ПаВТ 2016: Архитектура и технологии Intel для HPC

Производительность NVIDIA Pascal в режиме FP64 превысит 4 терафлопса

Уже прошедшая Supercomputing Conference ’15 продолжает служить источником весьма интересной информации. На этот раз речь пойдёт об одном из самых амбициозных проектов NVIDIA — архитектуре Pascal и процессорах на её основе. Мы намеренно опускаем эпитет «графический», поскольку видеокарты на базе Pascal, конечно, будут выпущены, но станут лишь побочной ветвью, а основной целью NVIDIA является доминирование на рынке супервычислений (HPC), и с учётом этой цели Pascal и разрабатывается. Кроме того, компания поделилась информацией и о будущем наследнике Pascal, проекте Volta.

Уже известно, что процессоры Pascal будут выпускаться с использованием 16-нм технологических норм, и на SC15 NVIDIA подтвердила использование техпроцесса 16-нм FinFET+. О том, на какой именно фабрике будут производиться новые чипы, компания умолчала, но имя главного контрактного поставщика было названо — TSMC. Неудивительно, ведь первые образцы процессора GP100 были получены именно c помощью вышеупомянутого техпроцесса TSMC. Поэтому не исключен сценарий, в котором мы увидим анонс Pascal уже в первой половине 2016 года. Таким образом, ранние предсказания о том, что выпуском Pascal может заняться и Samsung, не оправдались.

Плотность упаковки транзисторов, как мы уже знаем, удвоена в сравнении с Maxwell GM200, так что Pascal будет состоять из примерно 16 ‒ 17 миллиардов активных элементов. В сравнении с технологией 20SoC, техпроцесс 16FF+ может обеспечить до 40 % прироста производительности и до 60 % выигрыша в уровне энергопотребления, что для таких монстров, как GP100, является очень важным фактором. Итак, пока мы знаем о GP100 следующие факты:

  • Поддержка возможностей DirectX 12 уровня 12_1 или выше;
  • Наследник GM200, будет использован в новых флагманских моделях видеокарт;
  • Производится с использованием техпроцесса TSMC 16-нм FinFET+;
  • Состоит из 16 ‒ 17 миллиардов транзисторов;
  • Впервые получен в кремнии ещё в июне 2015 года;
  • Получит 4 сборки HBM2 4-Hi, объём памяти — 16 Гбайт в потребительской версии, 32 Гбайт в профессиональном варианте;
  • Ширина интерфейса памяти 4096 бит;
  • Получит высокоскоростную шину NVLink;
  • Будет поддерживать вычислительные нагрузки смешанного характера: FP16, 32 и 64;
  • Производительность в режиме FP16 вдвое выше, нежели в режиме FP32, полноценная поддержка FP64;
  • Производительность в режиме FP64 свыше 4 терафлопс (см. вышеприведённую диаграмму);
  • Производительность в режиме FP32 свыше 10 терафлопс.

А в следующем поколении процессоров под кодовым названием Volta NVIDIA планирует достичь цифр в районе 7 терафлопс, что очень впечатляет: новейший 14-нм ускоритель Intel Knight’s Landing развивает в режиме FP64 лишь несколько более 3 терафлопс, а самый мощный на сегодня двухпроцессорный ускоритель NVIDIA Tesla K80 — всего 2,91 терафлопса, да и то в турборежиме.

Volta послужит основой для нового поколения сверхмощных суперкомпьютеров, таких, как Summit Supercomputer (Oak Ridge National Laboratory) и Sierra Supercomputer (Lawrence Livermore National Laboratory). Оба проекта рассчитываются на пиковую производительность более 100 петафлопс и будут включать в себя несколько тысяч узлов производительностью более 40 терафлопс каждый.

Несомненно, процессорам Pascal нужна по-настоящему быстрая шина для обмена данными между собой в многочисленных узлах суперкомпьютера или вычислительного кластера. Такую шину GP100 действительно получит. Первое поколение NVLink будет обладать пропускной способностью 80 Гбайт/с, в будущих реализациях NVIDIA надеется увеличить этот показатель до 200 Гбайт/с. Неплохое добавление к уже имеющимся 1 Тбайт/с в случае обмена данным с памятью HBM2. В NVLink будет воплощена концепция унифицированной виртуальной памяти (UVM) с произвольной адресацией. Поскольку пропускная способность NVLink в 5 ‒ 12 раз превысит аналогичный показатель PCI Express, реализация UVM не станет узким местом.

Даже в случае с обычными мощными видеокартами проблема энергопотребления и тепловыделения стоит довольно остро. Но для разработчиков суперкомпьютеров она, наверняка, является одной из тем ночных кошмаров. Быстрая память таким системам просто необходима, но HBM2 в Pascal и Volta при пропускной способности 1,2 Тбайт/с добавляет целых 60 ватт к энергопакету процессора. Даже HBM1, использующаяся в AMD Fiji, и то добавляет 25 ватт к потреблению ядра. В дальнейшем планируется достичь скоростей в районе 2 Тбайт/с, и тут-то и начинается ужас: пропускная способность HBM2 на уровне 2,5 Тбайт/с обойдётся в 120 ватт на процессор, а при повышении ПСП до 3 Тбайт/с этот показатель увеличится до 160 ватт. Умножьте это на количество процессоров в узле и на количество узлов в суперкомпьютере — и будет понятно, какую цену приходится платить за высокую производительность подсистемы памяти.

В ближней перспективе это приемлемо, поскольку HBM2 является на сегодня оптимальным типом памяти для решений такого рода. Но к 2020 году, с появлением новых, ещё более производительных процессорных архитектур, кризис энергопотребления многослойной памяти может обостриться до предела. NVIDIA это понимает, поэтому, по всей видимости, уже ведёт исследования в области создания новой, высокопроизводительной, но при этом экономичной архитектуры памяти. Какой она будет, сейчас сказать крайне сложно. Даже в общих чертах неясно, как сохранить скорости в районе единиц или даже десятков терабайт в секунду и удержать при этом уровень энергопотребления в мало-мальски приемлемых рамках.

Итак, новая архитектура Pascal и первый процессор на её основе, GP100, появится в 2016 году, что официально подтверждено NVIDIA. Насчёт первой половины года заявлений нет, но с учётом всех вышеперечисленных факторов вероятность раннего анонса Pascal довольно высока. Компания также заявила о поддержке широкого спектра платформ — x86, ARM и IBM Power. Для рынка HPC будут выпущены модули Pascal с поддержкой NVLink, в то время, как классические графические карты и серверные ускорители сохранят привычный форм-фактор PCI Express c пропускной способностью до 16 Гбайт/с. Посмотрим, каков будет ответ AMD: её новая «тяжёлая артиллерия» под кодовым названием Arctic Islands, базирующаяся на техпроцессе Global Foundries 14FF и новой версии архитектуры GCN, обещает стать серьёзным соперником Pascal.

window-new
Soft
Hard
Тренды 🔥