SC18: RISC — дело благородное

 

Суперкомпьютинг — занятие увлекательное и в конечном итоге весьма прибыльное, вот только очень и очень дорогое. За исключением нефтегазовых компаний, которые иной раз будут побогаче некоторых стран, дело это сугубо государственного уровня, а значит, и политическое во многом. На наших глазах разворачивается гонка за экзафлопсом, так что возврат США в лидеры TOP500 в этом свете особенно важен. Но намного важнее и то, что все участники гонки сознательно стремятся избежать зависимости от этой страны, поэтому вынесенное в заголовок упоминание RISC не случайно. Нет, речь не про уникальное появление в рейтинге первого ARM-суперкомпьютера, которое, конечно, тоже очень важно. Речь про совершенно незаметную и совсем скупую новость о выходе на большую сцену новой архитектуры: Евросоюз хочет с нуля создать собственный суперкомпьютер на базе RISC-V и FPGA. Затея несколько рискованная. Лет через пять узнаем, что из этого выйдет, а пока посмотрим на текущий расклад дел в индустрии.

TOP500 и все-все-все

Вкратце о свежем списке TOP500 можно узнать из отдельной заметки. Здесь же по традиции соберём небольшую статистику. SPARC-машин как было шесть, так и осталось. Число POWER-систем упало с 15 до 13, но это не важно, потому что конкретно POWER9-инсталляций стало пять. И из этих пяти две машины — Summit и Sierra — занимают вершину рейтинга TOP500. Обе, конечно, снабжены ускорителями NVIDIA Volta GV100, так что лидерство тут обеспечивает не только IBM. Ну и в целом около 130 машин из 500 имеют те или иные версии ускорителей NVIDIA. А из 153 новичков рейтинга 52 также имеют эти GPU — по большей части это V100, но есть и P100. В целом в этом сегменте довольно стандартна связка Xeon Skylake/Broadwell + NVIDIA. Из непривычных архитектур — всё те же китайцы, которые не ушли с первых строчек TOP500, да японцы, медленно, но верно продвигающиеся к концу списка.

Впрочем, нынешний TOP500 войдёт в историю хотя бы потому, что в нём есть два главных «открытия». Про первое — скромный суперкомпьютер Astra на базе узлов HPE Appolo 70 с ARM-процессорами Cavium (теперь уже Marvel) ThunderX 2 — мы кратко писали в репортаже с ISC 2018. Он действительно довольно скромный и занимает 203-е место. С другой стороны, он и заявлялся как экспериментальный, как машина для переноса и отладки ПО, для оценки применимости ARM в HPC. Поэтому важно то, что это своего рода первая демонстрация силы ARM, поскольку никаких ускорителей в этой машине нет, всё считается на CPU. Да, это всё ещё немного не тот ARM-процессор, который ждут, — пока без SVE-инструкций, своего рода аналога AVX. Хотя справедливости ради отметим, что не всегда и везде такие инструкции нужны.

Что-то такое мы увидим году этак в 2020-м, на примере того же Fujitsu A64FX для проекта Post-K. Похоже, переход ARM в руки японцев пойдет только на пользу. Впрочем, даже на текущих Cavium французы будут делать суперкомпьютер, а из прочих крупных игроков у той же Cray давно есть варианты узлов XC50 с ними, да и новая Shasta обделена ими не будет. Однако про Shasta разговор отдельный — эта платформа берёт универсальностью устанавливаемых узлов (AMD/Intel, NVIDIA, FPGA), и главная её фишка — в механических решениях и быстром интерконнекте для лёгкого объединения разнородных вычислителей в одну систему. С другой стороны, как уже неоднократно говорилось, для успеха ARM важны не только и не столько CPU/SoC, сколько хорошая программная платформа, позволяющая быстро перенести уже имеющийся софт на новую архитектуру без потери производительности, что в случае HPC не всегда просто. Ещё острее этот вопрос стоит для новых специализированных ускорителей вроде NEC Aurora.

Ну а в области SoC с лета дела особо не поменялись. На SC18 несчастные Qulacomm Centriq засветились лишь в одном продукте GIGABYTE, осенние Ampere eMAG на выставке не появились (ну или я, конечно, мог их и не заметить), а про Samsung только циркулируют слухи, но никакой конкретики нет. На помощь приходит Китай. Во-первых, похоже, продолжается развитие Phytium Xiaomi (не путать с производителем смартфонов и прочей потребительской электроники) для прототипа суперкомпьютера Tianhe экзафлопсного класса. Обещанного три года ждут? Во-вторых, HiSilicon — дочка Huawei — продолжает разработку собственных чипов Hi16xx. В феврале 2019-го ожидается появление Hi1620 (7 нм, до 64 ядер, до 64 Мбайт L3, 8 × DDR4-3200, TDP до 200 Вт). У Huawei давно есть серверы TaiShan с CPU этой серии, а некоторые даже побывали в CERN.

Однако переход ARM к Японии понравился не всем. Тут на сцену как раз и выходит ещё одна относительно свежая архитектура, которая, правда, пока что для HPC никаких реальных воплощений не имеет, но есть надежда, что таковые очень скоро появятся. Речь, конечно, о RISC-V. На SC18 приехала SiFive совместно с Open-Silicon и Credo. Первая компания — это, наверное, самый известный разработчик. Вторая больше известна решениями в области HBM-памяти, а третья занимается SerDes-продуктами. Присоседилась к ним CCIX, решения которой теперь доступны и в кремнии, так что эту шину можно было увидеть на многих стендах. В общем, не самый плохой набор для старта. Идея довольно простая. SiFive предлагает настраиваемые ядра и SoC на их базе. В данном случае предлагается ядро серии U7. Credo даёт SerDes-шину 112 Гбит/с, а OpenSilicon, поглощённая SiFive, не только добавит в сборку HBM2, но и в принципе всё это добро соберёт, протестирует и подготовит к производству. А если надо, то и разместит заказы на фабриках, а также ещё раз проверит и упакует готовые чипы.

Все вместе они могут обеспечить заказчику полный цикл производства или взять на себя любой из этапов. Цель — 64-битные многоядерные чипы на 7-нм техпроцессе в 2,5D-упаковке. Пока что U7, судя по всему, несильно отличаются в плане производительности от привычных ARM и MIPS: 2,5 DMIPS/МГц и 4,9 CoreMark/МГц (для сравнения — см. "Байкал-Т1"). Но архитектура молодая и открытая, так что всё в теории возможно. Кроме того, Евросоюз жаждет независимости, поэтому активно вкладывается в разработку собственных процессоров на базе всё тех же ARM и RISC-V. По слухам, виды на RISC-V имеет и индийское правительство. Да, с учётом относительно небольших партий SoC/CPU, стоимость подобных проектов будет довольно высокой. Зато это позволит хотя бы частично отказаться от продукции США.

В России, напомним, есть собственные "Эльбрусы" (суперкомьютер пока в планах), а также ведётся разработка серверных ARM. Япония, как уже понятно, полностью делает ставку на ARM. В США и так всего хватает, но ARM тоже могут появиться. А вот Китай не гнушается любых разработок. Про TaihuLight и Tianhe все и так наслышаны — обе компании активно развивают собственные архитектуры. А вот третий ключевой игрок — вовсе не Lenovo или Huawei, а Sugon, ещё одна давно известная компания, которая, хоть и имеет в нынешнем TOP500 более 50 инсталляций, знакома пока не всем. А зря, потому что именно она и представила второе «открытие» рейтинга — первый суперкомпьютер на базе AMD EPYC. Да, формально это процессоры Hygon Dhyana (клон EPYC 7501), а не оригинал. Но всё равно возврат в высшую лигу для AMD очень важен. Правда, узлы этой системы, находящейся сейчас на 38-м месте TOP500, также снабжены некими ускорителями с безликим названием Deep Computing Processor (что это?). В будущем же ожидается создание как минимум одной большой системы Hawk на базе уже EPYC Rome.

На выставке Sugon показала не узлы этого суперкомпьютера, а одно из своих решений серии Silicon Cube. Тоже на базе EPYC, но с ускорителями NVIDIA формата SXM2: 4 + 4. Сочетание несколько необычное, как и использованная для отвода тепла СЖО. В данном случае это иммерсионная система на уровне узлов. Интересно и то, что это единственное решение с интерконнектом 200 Гбит/с Ethernet (возможно, это новый Broadcom Thor). Вообще, половина инсталляций в TOP500 использует Ethernet, но в основном 10/25/40 Гбит/с, и лишь совсем чуть-чуть может похвастаться 100 Гбит/с. InfiniBand установлен почти в 130 машинах, а Omni-Path есть чуть больше чем в 40. Остальное — проприетарные разработки. Впрочем, для экзафлопсных машин этого всё равно мало — пока следует ориентироваться на уровень в 500 Гбит/с.

Деньги и цифры

Выручка от суперкомпьютерного рынка, согласно прогнозу Hyperion Research, вырастет с $12,3 млрд в 2017 до 19,6 в 2022 году. Но это касается только серверной составляющей, а в целом рынок HPC, который включает ещё и СХД, ПО и сопутствующие сервисы, в плане выручки вырастет с $24,3 млрд до 38,4. За полный 2018 год данных пока, конечно, нет, но ожидается рост рынка минимум на 8 %. Крупнейшие сектора в деньгах в порядке убывания по итогам 2017 года таковы: государственные лаборатории во всём своём многообразии, академические проекты, инженерные расчёты (CAE), оборонные (хотя тут скорее уж просто военные) исследования и биотехнологии. Остальные области оцениваются менее чем в $1 млрд каждая. Например, на погоду, которую часто приводят как хороший пример HPC-задач, потратили всего-то полмиллиарда долларов.

Почему «всего-то»? А потому что гонка за первенство в создании систем экзафлопсного класса приобретает уже какие-то фантастические масштабы. Прогнозируется, что итоговая стоимость подобных суперкомпьютеров может достичь $1 млрд за штуку. Основные игроки, как уже неоднократно говорилось, всё те же: США, Япония, Китай, Евросоюз. Все, кроме США, заняты созданием своих собственных CPU. Никаких существенных новостей по этим проектам нет, за исключением Китая. Мы уже увидели результат работы Sugon, которая и далее будет сотрудничать с AMD, борясь попутно за финансирование с Sunway. Последняя и далее будет развивать наработки вроде ShenWei 26010, точная архитектура которых до сих пор неизвестна, хотя в Сети полно спекуляций на тему того, что всё это наследие легендарных DEC Alpha, пусть и изрядно переработанное.

Зато Tianhe точно будет развиваться далее. Предполагается, что третья версия машины получит упомянутые выше Phytium, но слегка обновлённые: 64-битные ARM, 64 ядра, 16-нм техпроцесс, 2-2,4 ГГц. И она же будет снабжена наследниками ускорителей Matrix-2000, которые весьма неплохи — нынешнее, второе поколение Tianhe только сейчас удалось сместить с вершины рейтинга. А ведь, помимо Matrix-ускорителей, там стоят только древние по современным меркам Xeon поколения IvyBridge. Проект Tianhe интересен ещё и тем, что интерконнект там тоже собственный: TH Express-2. С учётом наработок в области DRAM и Flash, а также усовершенствования фабрик, есть реальный шанс создания полностью «домашнего» суперкомпьютера!

Япония делает ставку на ARM64 с SVE в своём Post-K, хотя та же NEC, к примеру, развивает активность со своими векторными ускорителями Aurora, которые в кремнии уже готовы, но всё ещё требуют адаптации софта. У США есть большая четвёрка — AMD, IBM, Intel, NVIDIA — и Micron, а также пачка компаний поменьше. В Европе развиваются сразу несколько межгосударственных и межиндустриальных проектов, деньги на которые не жалеют: рост инвестиций в эту область выше, чем в США. Предварительно от ETP4HPC в рамках European Processor Initiative ожидается выход в первом квартале 2021 года семейства CPU Rhea EP271x на базе RISC-V + FPGA, а также программных компонентов для него. Затем появится серия Cronos. Впрочем, реально экзафлопсных машин от всех игроков стоит ждать примерно в 2022-2023 годах. И только Китай рассчитывает выпустить их в 2021 году.

Остальные пункты отчёта Hyperion с летней версии особо не поменялись. Впервые выделенные в особую группу квантовые вычисления пока тоже всё ещё в подвешенном состоянии. Не понятно, будут ли они дополнять HPC или окажутся совершенно самостоятельной областью. Впрочем, в целом 2018 год видится весьма успешным для HPC, хотя самая «жара» начнётся только в 2022-м. ИИ и прочая аналитика данных показывают рост, но всё равно находятся в самом начале развития, хотя именно за счёт этих технологий сейчас и растёт HPC. Ключевые проблемы софта всё те же: сложности с масштабированием на всё более крупные системы, нехватка адаптированных алгоритмов, малая унификация решений, неоптимальное (не на полную мощь) использование гибридных систем.

Традиционные награды за инновации получили представители NASA и UberCloud. В NASA исследовали и моделировали риски удара астероидов, а в UberCloud занимались двумя совершенно несвязанными областями. Одна касается неинвазивного индивидуального лечения шизофрении посредством электростимуляции отдельных участков мозга. Аналогичный метод пригоден и для лечения болезни Паркинсона. Вторая, совершенно неожиданно, связана со спором в суде, что происходит впервые в истории. Исследователям пришлось создать весьма сложную модель жилого здания и проследить её поведение с течением времени, чтобы выяснить, почему оно в итоге получило повреждения и кто именно в этом виноват.

Что дальше?

И вот вроде бы всё хорошо и стабильно в HPC-мире: рынок растёт, юбилеи празднуются, мощности увеличиваются. Но… всё равно растёт и растёт уверенность, что не всё в порядке в этом королевстве. Действительно больших потрясений уже давно не было, а последние крупные сдвиги в этой индустрии — приход и резкий рост ускорителей NVIDIA в HPC, а также безальтернативность СЖО в новых системах — теперь уже не кажутся чем-то удивительным. Напротив, это можно рассматривать как начало большого конца текущей эры. И дело не только в Cray с её Shasta, где явно виден переход к гетерогенным вычислениям. Просто задумайтесь: в чём отличие домашнего ПК от сервера? Принципиально уже давно никаких отличий нет. Не пора ли что-то поменять? Вот об этом и поговорим в следующей статье.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.
Постоянный URL: https://servernews.ru/978606
Система Orphus