ISC 2015: новые суперкомпьютеры РСК. Репортаж

 

Группа компаний РСК в рамках ежегодной конференции ISC 2015 по традиции провела собственное мероприятие, где в очередной раз рассказала о своих достижениях в области суперкомпьютеростроения, представила новое поколение кластерного решения «РСК Торнадо», поделилась подробностями о новом проекте для СпбПУ, а также представила доклады реальных пользователей суперкомпьютеров РСК. Как и ранее, компания планомерно наращивает плотность размещения вычислительных модулей в своих решениях с попутным увеличением энергоэффективности и эффективности охлаждения. Строго говоря, продукты РСК универсальны и подходят не только для построения суперкомпьютеров, но и для привычных ЦОД. На приведённом ниже слайде из презентации компании на ISC 2015 данные слегка устарели.

Согласно свежему списку TOP500 самых мощных вычислительных систем от июня 2015 года, компания создала половину (4 из 8) всех российских систем, представленных в этом списке. Впрочем, и в обновлённом списке энергоэффективных суперкомпьютеров Green500 РСК тоже наверняка упрочит свои позиции, в том числе за счёт свежих инсталляций в Межведомственном суперкомпьютерном центре Российской академии наук и Санкт-Петербургском политехническом университете. О последнем поговорим отдельно, а пока перейдём к главному анонсу РСК на выставке ISC 2015 – компания официально представила новое поколение кластерного решения «РСК Торнадо». Основные улучшения: увеличена физическая и вычислительная плотность, а также повышены уровни отказоустойчивости и энергоэффективности.

Во-первых, резко повысилась плотность размещения узлов в шкафу – теперь их 153 вместо 128. Кроме того, сменилась ориентация – вместо ранее использовавшегося вертикального размещения узлов на полке в новом поколении предлагается 51 «полочка» на три узла. Естественно, это потребовало и некоторых других изменений в конструкции. Шкафы, блоки питания и сами узлы стали легче. Шкафы обзавелись поддержкой более эффективных систем жидкостного охлаждения и питания, кроме того, они готовы к использованию различных вариантов связи между узлами – InfiniBand, Intel OmniPath, 10/40 GbE. При этом сама конструкция шкафа имеет разумные габариты и, в отличие от решений некоторых других производителей (не будем показывать пальцем) с их высоченными 19” кабинетами, удобна в обслуживании.

Новый кабинет РСК Торнадо

Сами узлы также подверглись некоторым конструкционным улучшениям – появилась новая защитная крышка, разъём питания стал унифицированным для всех типов узлов, а доступ к заменяемым компонентам стал проще (например, для модулей памяти есть специальные окошки). Блоки питания выполнены в том же форм-факторе, что и остальные узлы, и содержат в себе преобразователи 220 В AC ↔ 400 В DC, что также приводит к снижению потерь энергии. Один БП по умолчанию обслуживает до 16 вычислительных узлов, так что стандартная конфигурация кабинета выглядит так: 9 блоков питания и 144 «лезвия». Предусмотрена возможность параллельной работы БП на общую шину. Впрочем, никто не мешает отдельно завести питание в шкаф и полностью набить его узлами. Либо же, наоборот, последовательно сменить часть узлов на БП, достигая таким образом нужного уровня резервирования по питанию – от N+1 до N+N.

Но, конечно, главная фишка нового решения – это полностью жидкостное охлаждение всей системы, да не простое, а умное. В каждый шкаф можно установить до девяти насосных модулей с возможностью резервирования вплоть до N+N. При этом доступна и возможность горячей замены модулей, и возможность включения их в единый контур охлаждения. Вся система изначально рассчитана на фрикулинг с температурой «забортного» воздуха вплоть до +40 °C, что в конечном итоге позволяет снизить операционные расходы на её работу на 30 %. Вторая важная и уникальная особенность – возможность работы системы охлаждения с водой, температура которой может составлять до +65 °C. На выставке РСК представила первый в мире образец узла, поддерживающий такой режим работы. Для сравнения: подавляющее большинство производителей если и предлагает такую возможность, то только для температур не выше +45 °C.

 Утренний прогрев «лезвий»

Утренний прогрев «лезвий»

Наконец, последнее нововведение в списке – это оснащение непосредственно вычислительных узлов. Здесь, в общем, для простоты можно лишь процитировать слова представителя компании: «Новое поколение «РСК Торнадо» построено на базе серверных процессоров Intel Xeon E5-2600 v3, серверных плат Intel S2600KP и твердотельных накопителей Intel SSD DC S3500/3600/3700 для ЦОД, что даёт повышение вычислительной плотности – более 200 Тфлопс/м3 на стандартных процессорах и до 256 Гбайт оперативной памяти на узел». Кроме того, каждый узел оснащён специальным контроллером для телеметрии и интеллектуального управления не только отдельными элементами, но и всей вычислительной системой в целом. В том числе с возможностью настраиваемой реакции на выход из строя или деградацию отдельных подсистем, обновление оборудования и другие штатные и нештатные ситуации.

Впрочем, показателем правильности выбранного пути и решений являются не все эти дикие флопсы производительности и не участие в списках TOP500, который, во-первых, как ни крути, всё ж таки несколько однобок, а во-вторых, в него попадают только публичные системы и, например, машина на «лезвиях» с «Эльбрусами» (а есть и такие, да!) в нём может и не засветиться. Гораздо занятнее наблюдать за тем, как крупные и старые компании аккуратно и постепенно заимствуют те решения, которые безбоязненно внедряет «молодёжь». Или же за тем, как другие, не менее крупные, соглашаются подгонять свои продукты под нужды таких заказчиков. Просто для примера – Intel поставляет РСК слегка видоизменённые карты Xeon Phi. В конце концов, важнее всего всё-таки конкретные внедрения решений компании.

 Макет суперкомпьютерного центра Санкт-Петербургского политехнического университета, справа – модуль РСК PetaStream

Макет суперкомпьютерного центра Санкт-Петербургского политехнического университета, справа – модуль РСК PetaStream

На выставке компания официально поведала о своей последней работе – суперкомпьютерном центре в Санкт-Петербургском политехническом университете Петра Великого (СПбПУ). Данное гибридное решение состоит из кластерной системы «Политехник РСК Торнадо» (Intel Xeon E5-2697 v3, суммарно 829 Тфлопс) и массивно-параллельной системы RSC PetaStream (Intel Xeon Phi 5120D, суммарно 258 Тфлопс), объединённых с помощью FDR InfiniBand, а также ряда дополнительных систем: собственного облака и подсистемы визуализации (NVIDIA GRID K1/K2), две СХД ёмкостью 1,1 (Lustre FS) и 0,5 Пбайт (блочная), кластер cc-NUMA (AMD Opteron 6380). Все элементы, за исключением последнего, снабжены жидкостной системой охлаждения.

Таким образом, 94 % всех компонентов снабжены именно СЖО. Кроме того, разработчик отмечает, что система построена на базе одних и тех же компонентов (CPU, SSD, материнские платы, память), за счёт чего появляется возможность гибко распределить текущую нагрузку между всеми узлами или быстро перекинуть задачи с одних узлов на другие в случае, например, сбоя питания. Хотя об этом создатели тоже позаботились – к центру подведены две линии питания на 1,3 МВт, дополненные рядом ИБП, которые обеспечивают до 10 минут работы вычислительных узлов и до 17 минут функционирования систем охлаждения и вентиляции, а подсистемы управления и безопасности способны проработать до получаса. Отчасти это заслуга СО, которая потребляет менее 15 % от всей подводимой электроэнергии и которая способна работать в режиме фрикулинга при температуре окружающей среды ниже 15 °C или в гибридном режиме при t < 22°C.

В дальнейшем новый суперкомпьютер СпбПУ планируется использовать не только для внутренних нужд университета, но и предоставлять другим вычислительные мощности системы, что, в общем, тоже немаловажно для окупаемости проекта и рациональности его использования. Во всяком случае, ходят слухи, что некоторые подобные системы большую часть времени простаивают и были запущены на полную мощность лишь несколько раз, да и то только ради того, чтобы отметиться в очередном рейтинге. Конкретно решения РСК прямо сейчас используют и для прикладных задач, и для решения фундаментальных проблем. В основном все они сводятся к моделированию сложных процессов и обработке больших массивов данных. Конкретные примеры – симуляция сложных турбулентных потоков и моделирование деталей высоконагруженных механизмов, изучение генетической регуляции развития организма на молекулярном уровне и создание «живой» вакцины от гриппа, моделирование столкновения галактик и других астрофизических процессов, создание качественных моделей земной атмосферы и океанов, изучение климата и прогнозирование погоды. Проводятся и расчёты задач квантовой химии, обработка и анализ снимков со спутников, а также многое, многое другое.

Отдельно стоит отметить активное использование массивно-параллельных вычислений на базе Intel Xeon Phi в целом и RSC PetaStream в частности, а также наметившуюся тенденцию переноса уже имеющихся научных и инженерных программных пакетов на эту платформу с целью заметного ускорения вычислений. В общем, можно ещё долго расписывать в превосходных степенях наработки РСК, однако компания действительно за несколько лет значительно выросла во всех отношениях и теперь предлагает интересные, хорошие, как бы пошло это нынче ни звучало, инновационные решения в области суперкомпьютеров, способные конкурировать с монстрами этого рынка.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.
Постоянный URL: https://servernews.ru/917777
Система Orphus