Сегодня 26 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги  →
Быстрый переход

Восемь операторов нелегального ЦОД в бывшем бункере НАТО получили сроки

В Германии осудили восемь человек, участвовавших в работе дата-центра, использовавшегося для ведения нелегальной деятельности — от торговли наркотиками до сбыта порнографии. ЦОД располагался в бывшем бункере НАТО в городе Трабен-Трарбах — до продажи здесь работали серверы, принадлежавшие военным ведомствам.

Построенный в 1970-е западногерманскими военными бункер после объединения Германии использовался, в частности, Бундесвером, а затем был продан и с 2013 года принадлежал Герману-Йохану Ксеннту (Herman-Johan Xennt), заявившему при покупке, что будет использовать помещения для создания «гражданского» дата-центра.

 Источник: conner/pixabay.com

Источник: conner/pixabay.com

Считается, что оператором германского ЦОД выступал нелегальный хостинг-провайдер CyberBunker, ранее уже предоставлявший мощности для преступной деятельности, которые располагались в другом бывшем бункере НАТО на территории Нидерландов. «Соинвестором» предположительно стал Джордж «Пингвин» Митчелл (George 'The Penguin' Mitchell), некогда один из самых успешных ирландских импортёров наркотиков. Ксеннт также сдавал часть помещений в голландском дата-центра нарколаборатории, где в 2002 году произошёл пожар.

Хотя Ксеннту на тот момент не предъявили обвинений, его бизнес-лицензия была аннулирована и фактически его деятельность полностью перешла на нелегальное положение. История CyberBunker чрезвычайно заинтересовала прокуроров. К 2015 году к расследованию привлекли германское подразделение, занимающееся борьбой с киберпреступностью. Позже в том же году правоохранительные органы подключились к кабелям связи, ведущим из бункера.

В незашифрованных потоках информации были обнаружены сведения о торговле наркотиками, мошеннических действиях и прочих преступлениях. Как сообщает Data Centre Dynamics, в этом дата-центре нашли пристанище всевозможные нелегальные сервисы различного назначения, включая Cannabis Road, Fraudsters, Flugsvamp, Flight Vamp 2.0, orangechemicals и второй по величине в мире «наркомаркетплейс» Wall Street Market.

 Источник: reportyorym/pixabay.com

Источник: reportyorym/pixabay.com

Чтобы получить больше прямых доказательств, правоохранительные органы оплатили криптовалютой хостинг в CyberBunker и создали веб-сайт, похожий на площадку для проведения мошеннической лотереи, недвусмысленно давая понять владельцам дата-центра, что намерены заниматься незаконной деятельностью.

В сентябре 2019 года, собрав достаточно информации из различных источников, бункер штурмовали более 600 полицейских — они знали, что все сотрудники будут вне помещений, поскольку один из них праздновал получение наследства. Были изъяты 403 сервера, 412 жёстких дисков, 65 USB-накопителей, 61 компьютер (включая ноутбуки), а также 57 смартфонов и около €100 тыс. наличными.

Подозреваемых обвинили в создании и участии в преступном сообществе, при этом не удалось доказать их соучастие в совершении порядка 250 тыс. фактов нарушения закона, предположительно совершённых с помощью сайтов, которые размещались на серверах в бункере. В результате судебного разбирательства Ксеннт приговорён к пяти годам и девяти месяцам лишения свободы, семеро других фигурантов уголовного дела — к различным срокам, от четырёх лет и трёх месяцев в тюрьме до года условно.

СХД Huawei OceanStor Dorado V6: для тех, кто превыше всего ценит надёжность и скорость

Комплексные программно-аппаратные решения одного производителя практически всегда превосходят похожие по параметрам, но более разнородные системы. Высокая степень интеграции и продуманная многоуровневая оптимизация всех компонентов не только позволяют добиться более высоких технических показателей, но и существенно упрощают и удешевляют внедрение и поддержку такого оборудования. Компанию Huawei можно назвать лидером в области таких решений, и особенно ярко это проявилось в шестом поколении СХД OceanStor Dorado.

Их Huawei позиционирует как СХД высшего класса, обладающие не только высочайшей производительностью, но и надёжностью класса минимум «шесть девяток», то есть 99,9999%. Достаточно привести лишь один факт: Dorado 18000 V6 остаётся работоспособной при выходе семи контроллеров из восьми в каждой стойке, а также легко переживает одновременный выход из строя трёх накопителей в массиве. Для сравнения, классический RAID6 может пережить потерю лишь двух накопителей в массиве.

По результатам тестирования, проведённого Storage Performance Council в октябре 2020 года, СХД Huawei OceanStor Dorado 18000 V6 признана быстрейшим в мире флеш-хранилищем. На случайных операциях данное решение способно развивать 21 млн IOPS. Не удивительно, что разработками Huawei заинтересовались крупные финансовые организации, нуждающиеся не просто в надёжных, но и быстрых системах хранения данных. Уже 8 из 20 крупнейших мировых банков пользуются системами OceanStor Dorado и этот «клуб» будет только расти. Компания разместила на своём сайте подробный вебинар, посвящённый особенностям шестого поколения СХД OceanStor Dorado.

 OceanStor Dorado 18000 V6

Высочайший уровень производительности OceanStor Dorado 18000 V6 обуславливается монолитностью и отлаженностью платформы, которая целиком построена на высокинтегрированных между собой собственных разработках Huawei в области процессоров, ускорителей и сетевых контроллеров. «Умные технологии» в шестом поколении Dorado начинаются уже на уровне отдельного накопителя.

 Платформа Dorado V6 целиком базируется на собственных разработках Huawei

Платформа Dorado V6 целиком базируется на собственных разработках Huawei

Такие SSD сами следят за износом фонда ячеек NAND, используют продвинутые методы коррекции ошибок LDPC и SmartFSP 3.0 и обеспечивают базовый уровень надёжности, поскольку контроллер Hi1812e работает с NAND как с динамическим RAID-массивом. Такие накопители на 20% долговечнее обычных и на 50% отзывчивее в плане задержек.

В качестве основного процессора используется Kunpeng 920, 48-ядерный чип с архитектурой ARMv8.2, имеющий набор движков-ускорителей и собственные контроллеры SAS 3.0 и 100GbE (с RoCE, конечно). Четыре таких процессора умещаются в 1U-шасси. Им может помогать устанавливаемый дополнительно ИИ-ускоритель Ascend 310, отвечающий за обслуживание массива NVMe-накопителей и оптимизацию дисковых кешей.

 Унифицированная симметричная архитектура обеспечивает предсказуемый и постоянный уровень производительности

Унифицированная симметричная архитектура обеспечивает предсказуемый и постоянный уровень производительности

За сеть отвечает чип ASIC Hi1822, который полностью совместим с RoCE и NVMe-oF. Адаптеры на базе этого чипа могут иметь различную конфигурацию портов — от двух 25GbE SFP28 до двух 100GbE QSFP28 — и обеспечивают латентность всего лишь 80 мкс против 160 мкс у конкурентов. В дисковых полках Dorado 18000 V6 таких адаптеров несколько, заменять их можно без остановки системы.

Даже контроллер управления (BMC) у СХД Huawei свой, Hi1710. Высокая интеграция всех программмно-аппаратных компонентов системы (а кто ещё может лучше знать, как задействовать весь потенциал «железа», кроме самих разработчиков) обеспечивает не только высокую производительность и надёжность, но и быстрое восстановление системы при сбоях — десятки минут для OceanStor Dorado V6 против нескольких часов у обычных СХД.

 Распределённая архитектура OceanStor Dorado V6

Распределённая архитектура OceanStor Dorado V6

Архитектурно OceanStor Dorado 18000 V6 представляет собой симметричную распределённую меш-сеть, в которой на уровне стоек контроллеров все компоненты соединены со всеми, что и обеспечивает беспрецедентный уровень надёжности. Компания называет эту технологию SmartMatrix. С «умными» дисковыми полками бэкенды контроллеров общаются посредством NVMe-oF, а с внешней сетью — либо через NVMe-oF/RoCE (100 Гбит/с на порт), либо через NVMe-oF/FC 32G.

 У Dorado V6 нет привилегированных контроллеров, что упрощает балансировку нагрузки

У Dorado V6 нет привилегированных контроллеров, что упрощает балансировку нагрузки

Huawei вполне справедливо считает, что за сочетанием NVMe-oF и RoCE лежит будущее высокопроизводительных систем хранения данных. Данные технологии к настоящему моменту хорошо проработаны и полностью описываются стандартами, которые обеспечивают гибкость и взаимозаменяемость элементов инфраструктуры. Некоторые производители всё ещё поддерживают SAS, но время старых дисковых стандартов уходит.

 Технология Huawei FLASHLINK отвечает за распределение вычислительных ресурсов

Технология Huawei FLASHLINK отвечает за распределение вычислительных ресурсов

Симметрия архитектуры СХД данной серии выражена в том числе и в том, что все логические тома (LUN) не привязаны к главному контроллеру (ownership), вместо этого они «нарезаются» системой на сегменты (shards в терминологии Huawei), которые равномерно распределяются по всем активным в системе в настоящий момент контроллерам. Сами контроллеры работают с едиными пулами кеша и SSD, из которого и черпают необходимые ресурсы.

За распределение обработки сегментов по процессорным ядрам отвечает фирменная технология FLASHLINK, которая работает в динамическом режиме: высокоприоритетные задачи получают больше ядер из выделенной группы. При этом каждое ядро выполняет IO-запросы только своей назначенной задачи, чтобы избежать конфликтов.

 Глубокая интеграция ускорителей экономит процессорное время и ускоряет перестройку массивов

Глубокая интеграция ускорителей экономит процессорное время и ускоряет перестройку массивов

Дисковые полки Dorado V6 имеют свой «интеллект» и не загружают CPU контроллеров низкоуровневыми задачами, а это позволяет, по словам разработчиков, повысить производительность СХД на 30% по сравнению с классическими архитектурами с «глупыми» полками. Этот же подход существенно ускоряет процесс восстановления данных — Huawei говорит о двукратном превосходстве в скорости, при этом влияние этого процесса на производительность СХД минимально и не превышает 5% против десятков процентов у СХД классической архитектуры.

Более того, архитектура Dorado V6 такова, что производительность дисковых массивов в ней не зависит от типа используемого RAID и всегда одинаково высока как в простом режиме RAID10, так и в куда более сложных в плане нагрузки на контроллеры режимах RAID-6 или RAID-TP.

 Модельный ряд и позиционирование СХД Huawei OceanStor Dorado

Модельный ряд и позиционирование СХД Huawei OceanStor Dorado

Что касается более высокоуровневых программных компонентов, то в серии Dorado V6 все сложные процессы, от драйвера NVMe и управления пулом ресурсов до клиентских дополнений выполняются в пространстве пользователя (user space), что позволяет избежать лишних задержек, так как обращений в пространство ядра практически нет.

 За NVMe и RDMA over Converged Ethernet — будущее

За NVMe и RDMA over Converged Ethernet — будущее

В настоящее время Huawei предлагает заказчикам СХД нового поколения в двух вариациях: Dorado 8000 V6 и Dorado 18000 V6. Отличаются они только количеством модулей в максимальной комплектации (ну и габаритами, массой, количеством ядер в процессорах контроллера). 18000 V6 поддерживает до 32 контроллеров и до 32 Тбайт пула кеширования. Оба варианта могут работать с фронтендами 10/25/40/100GbE RoCE или FC-8/16/32G, поддерживая протоколы FC, iSCSI, NFS и CIFS.

Каждый блок контроллеров может иметь до 28 IO-модулей и до 96 сетевых портов. Максимальное количество SSD в системе также одинаково и составляет 6400. Они могут работать в разных режимах RAID, включая фирменный RAID-TP, способный вынести одновременный отказ трёх накопителей. Максимальный объём флеш-хранилища составляет 98,3 Пбайт для модели Dorado 8000 V6, а у Dorado 18000 V6 он достигает 196,6 Пбайт.

Поскольку речь идёт о комплексных системах, способных обеспечить доступностью класса «шесть девяток» (99,9999%) и производительность на уровне свыше 20 млн IOPS при непревзойдённом уровне надёжности, стоимость конечной реализации вырабатывается в процессе проработки сертифицированными партнёрами Huawei проекта, создаваемого под нужды конкретного заказчика. Ознакомиться с OceanStor Dorado 8000/18000 V6 можно на сайте Huawei, там же можно найти подходящего партнёра для разработки законченного решения с учётом нужд заказчика.

Аквариус T50 D224CF: надёжный и масштабируемый сервер для любых задач

Компания «Аквариус» работает на российском рынке с 1989 года, постоянно расширяя ассортимент производимой продукции. При этом она практически не использует оборудование ОЕМ-поставщиков, 94% из всего модельного ряда устройств «Аквариус» составляют системы собственной разработки. В этом году компания сообщила о разработке двадцати новых моделей серверов и преодолела рубеж в 250 тысяч произведенных серверных устройств. Юбилейной стала флагманская модель — Aquarius T50 D224CF.

Это сервер форм-фактора 2U, располагающий серьёзными возможностями: новая модель разработана с прицелом на максимальную гибкость конфигурирования и расширения, поэтому она одинаково хорошо подойдёт как для развёртывания среды виртуализации или работы с объемными базами данных, так и для создания современной высокопроизводительной системы хранения данных.

Базируется Аквариус T50 D224CF на хорошо известной и доказавшей свою надёжность платформе Intel® Xeon® Scalable (LGA 3647). Системная плата на базе чипсета Intel® C624 предусматривает установку процессоров Xeon® Scalable с этим разъёмом как первого (Skylake-SP), так и второго (Cascade Lake-SP/Refresh) поколения с теплопакетом вплоть до 205 Вт включительно. 24 слота для модулей памяти позволяют установить до 3 Тбайт оперативной памяти стандарта DDR4, а с использованием модулей Optane DCPMM этот показатель можно довести и до 6 Тбайт.

Но по-настоящему интересной данную модель делает её гибкость в конфигурировании. Во-первых, она имеет 24 дисковых корзины формата 2,5″ с поддержкой SAS-3/SATA-3 и NVMe (до 16 накопителей) и опционально может оснащаться ещё 4 такими отсеками на тыльной стороне (но уже без NVMe). А поддержка одновременной работы 16 NVMe SSD делает Aquarius T50 D224CF отличной платформой для создания высокопроизводительной СХД.

Во-вторых, новый сервер Аквариус может поставляться в двух конфигурациях в зависимости от адаптеров расширения:

  • «конфигурация А» предусматривает наличие четырёх слотов для полноразмерных PCIe плат (2х16 + 2х8 линий PCIe 3.0), двух слотов для плат половинной высоты (по 8 линий PCIe 3.0) и одного слота для низкопрофильных плат расширения (4 линии);
  • «Конфигурация Б» (для установки мощных GPU) имеет два полноразмерных слота двойной высоты и два слота половинной длины, причём все четыре слота используют по 16 линий PCIe 3.0. Дополнительно есть два слота для мезонинных плат OCP 2.0 и, как и в конфигурации А, имеется низкопрофильный слот PCIe 3.0 x4.

Оба варианта прекрасно работают с любыми картами расширения, включая ускорители, периферийные и сетевые адаптеры стандартов Ethernet, InfiniBand 10/40/100 Гбит/с, а также Fibre Channel. Сервер имеет развитую систему мониторинга и удалённого управления на основе популярного контроллера ASPEED AST2500, поддерживающего стандарты IPMI 2.0 и Redfish 1.1. Контроллер имеет свой выделенный порт 1GbE.

 Стапельная сборка сервера на производственном комплексе «Аквариус», город Шуя, Ивановская область

Стапельная сборка сервера на производственном комплексе «Аквариус», город Шуя, Ивановская область

Максимальная конфигурация сервера требует наличие высокоэффективной системы охлаждения, которая в данной модели состоит из 6-ти вентиляторов с ШИМ-управлением, имеющих вибропоглощающие крепления и поддерживающих горячую замену. Дополнительную отказоустойчивость системы охлаждения обеспечивает индикатор отказа. Заменять в горячем режиме можно и ряд других компонентов сервера, за исключением процессоров, что позволяет в случае неисправности сократить время простоя до минимума.

За питание отвечает пара (1+1) блоков, которые, в зависимости от конфигурации, могут иметь мощность от 800 до 2000 Ватт. Базовый вариант предполагает питание от стандартной сети, опционально «Аквариус» предлагает питание от сети постоянного тока 48 В, либо высоковольтной сети 380 В. Также доступен встроенный источник бесперебойного питания.

Гибкость и масштабируемость данного сервера делают его поистине универсальным решением: Аквариус T50 D224CF может применяться в облачных системах, кластерах HPC, комплексах виртуализации (в том числе для виртуальных рабочих мест, VDI), системах машинного обучения или как сервер веб-приложений. Он может стать частью комплекса ИИ, основой СХД или мощной сетевой инфраструктуры.

Компания-производитель гарантирует совместимость с широчайшим спектром операционных систем и программного обеспечения. В частности, модель сертифицирована для работы с ПО VMware, RedHat, SUSE, Microsoft Windows Server, а также протестирована на совместимость работы с ускорителями вычислений NVIDIA и российскими средствами защиты информации «Соболь» и «Аккорд». Более того, сервер может комплектоваться двумя микросхемами BIOS, предоставляя заказчику возможность переключаться между AMI BIOS и отечественной разработкой NUMA BIOS.

Аквариус T50 D224CF — это современный, высокопроизводительный сервер, который отличается гибкостью конфигурирования и широкоми возможностями расшириения системы. Именно гибкость и масштабируемость делают его действительно универсальной системой для поддержки самого широкого спектра нагрузок и формирования различных IT-систем.

Стоимость нового сервера варьируется в зависимости от конфигурации, цена базового варианта стартует от 400 000 рублей. При необходимости можно получить более точную информацию на сайте компании-производителя, либо по телефону +7 (495) 729-51-50.

ИИ-ускорители AWS Trainium: 55 млрд транзисторов, 3 ГГц, 512 Гбайт HBM и 840 Тфлопс в FP32

GPU давно применяются для ускорений вычислений и в последние годы обросли поддержкой специфических форматов данных, характерных для алгоритмов машинного обучения, попутно практически лишившись собственно графических блоков. Но в ближайшем будущем их по многим параметрам могут превзойти специализированные ИИ-процессоры, к числу которых относится и новая разработка AWS, чип Trainium.

На мероприятии AWS Re:Invent компания рассказала о прогрессе в области машинного обучения на примере своих инстансов P3dn (Nvidia V100) и P4 (Nvidia A100). Первый вариант дебютировал в 2018 году, когда модель BERT-Large была примером сложности, и благодаря 256 Гбайт памяти и сети класса 100GbE он продемонстрировал впечатляющие результаты. Однако каждый год сложность моделей машинного обучения растёт почти на порядок, а рост возможностей ИИ-ускорителей от этих темпов явно отстаёт.

 Рост сложности моделей машинного обучения будет лишь расти

Сложность моделей машинного обучения будет расти всё быстрее

Когда в прошлом году был представлен вариант P4d, его вычислительная мощность выросла в четыре раза, а объём памяти и вовсе на четверть, в то время как знаменитая модель GPT-3 превзошла по сложности BERT-Large в 500 раз. А теперь и 175 млрд параметров последней — уже ничто по сравнению с 10 трлн в новых моделях. Приходится наращивать и объём локальной памяти (у Trainium имеется 512 Гбайт HBM с суммарной пропускной способностью 13,1 Тбайт/с), и активнее использовать распределённое обучение.

Для последнего подхода узким местом стала сетевая подсистема, и при разработке стека Elastic Fabric Adapter (EFA) компания это учла, наделив новые инстансы Trn1 подключением со скоростью 800 Гбит/с (вдвое больше, чем у P4d) и с ультранизкими задержками, причём доступен и более оптимизированный вариант Trn1n, у которого пропускная способность вдвое выше и достигает 1,6 Тбит/с. Для связи между самими чипами внутри инстанса используется интерконнект NeuroLink со скоростью 768 Гбайт/с.

 Прогресс подсистем сети и памяти в ИИ-инстансах AWS

Прогресс подсистем сети и памяти в ИИ-инстансах AWS

Но дело не только в возможности обучить GPT-3 менее чем за две недели: важно и количество используемых для этого ресурсов. В случае P3d это потребовало бы 600 инстансов, работающих одновременно, и даже переход к архитектуре Ampere снизил бы это количество до 200. А вот обучение на базе чипов Trainium требует всего 130 инстансов Trn1. Благодаря оптимизациям, затраты на «общение» у новых инстансов составляют всего 7% против 14% у Ampere и целых 49% у Volta.

 Меньше инстансов, выше эффективность при равном времени обучения — вот что даст Trainium

Меньше инстансов, выше эффективность при равном времени обучения — вот что даст Trainium

Trainium опирается на систолический массив (Google использовала тот же подход для своих TPU), т.е. состоит из множества очень тесно связанных вычислительных блоков, которые независимо обрабатывают получаемые от соседей данные и передают результат следующему соседу. Этот подход, в частности, избавляет от многочисленных обращений к регистрам и памяти, что характерно для «классических» GPU, но лишает подобные ускорители гибкости.

В Trainium, по словам AWS, гибкость сохранена — ускоритель имеет 16 полностью программируемых (на С/С++) обработчиков. Есть и у него и другие оптимизации. Например, аппаратное ускорение стохастического округления, которое на сверхбольших моделях становится слишком «дорогим» из-за накладных расходов, хотя и позволяет повысить эффективность обучения со смешанной точностью. Всё это позволяет получить до 3,4 Пфлопс на вычислениях малой точности и до 840 Тфлопс в FP32-расчётах.

AWS постаралась сделать переход к Trainium максимально безболезненным для разработчиков, поскольку SDK AWS Neuron поддерживает популярные фреймворки машинного обучения. Впрочем, насильно загонять заказчиков на инстансы Trn1 компания не собирается и будет и далее предоставлять на выбор другие ускорители поскольку переход, например, с экосистемы CUDA может быть затруднён. Однако в вопросах машинного обучения для собственных нужд Amazon теперь полностью независима — у неё есть и современный CPU Graviton3, и инфереренс-ускоритель Inferentia.

Процессор Amazon Graviton3: 64 ядра Arm, 5-нм техпроцесс, чиплетная компоновка и DDR5 с PCIe 5.0

Анонсированный на днях Arm-процессор Graviton3, создававшийся специально для нужд Amazon и AWS, неожиданно оказался по ряду параметров на голову выше ещё даже не вышедших EPYC и Xeon следующего поколения. И это не самый хороший сигнал для AMD, Intel, Qualcomm и прочих производителей.

 Amazon Graviton3. Фото: Ian Colle

Amazon Graviton3. Фото: Ian Colle

Graviton3 — первый массовый (самой Amazon и рядом избранных клиентов он используется уже не один месяц) серверный процессор с поддержкой DDR5 и PCIe 5.0. CPU выполнен по 5-нм техпроцессу TSMC и содержит примерно 55 млрд транзисторов. Для удешевления он использует BGA-корпусировку и чиплетную компоновку из семи отдельных кристаллов — два PCIe-контроллера и четыре двухканальных контроллера DDR5 вынесены за пределы собственно CPU.

 Узел EC2 C7g. Здесь и ниже изображения Amazon AWS

Узел EC2 C7g. Здесь и ниже изображения Amazon AWS

Более того, их упаковка использует передовые решения с каналами длиной менее 55 мкм, что вдвое меньше, чем у других серверных CPU. Уменьшение длины проводников положительно сказывается на энергоэффективности, которая очень важна для любого гиперскейлера. Этим же объясняется и относительно небольшое по современным меркам число ядер (всего 64) и их частота (2,6 ГГц). Всё это позволило добиться энергопотребления примерно в 100 Вт.

Есть и ещё один важный плюс в сохранении числа ядер — переход на DDR5-4800 позволил не только достичь пиковой суммарной пропускной способности памяти в 300 Гбайт/с на чип, но и повысить реальную скорость работы с памятью каждого vCPU (фактически ядра) в полтора раза по сравнению с прошлым поколением. Та же ситуация и с PCIe 5.0 — для достижения той же пропускной способности, что ранее, нужно вдвое меньше линий.

Для удешевления используются готовые IP-блоки сторонних компаний и, судя по всему, ядра тоже несильно отличаются от референсов Arm. А вот какие именно, узнаем не сразу, поскольку Amazon явно не указала, будут ли это Neoverse V1 (Zeus) или N2 (Perseus). Вероятно, это всё же V1 (ARMv8.5-A), поскольку по описанию Graviton3 похожи именно на эту архитектуру. Новые ядра стали значительно «шире» прежних — они забирают 8 инструкций, декодируют от 5 до 8 из них и отправляют на исполнение сразу 15 инструкций. Соответственно и число исполнительных блоков по сравнению с Neoverse-N1 (Graviton2) практически удвоилось.

Кроме того, они обзавелись поддержкой 256-бит векторных инструкций SVE, что повысило не только скорость выполнения «классических» FP-операций (например, для задач медиакодирования и шифрования), но и благодаря поддержке bfloat16 позволило утверждать Amazon, что новые чипы годятся и для инференса. Среди упомянутых ранее мер защиты есть, например, принудительное шифрование оперативной памяти, изолированные кеши для каждого vCPU (ядра), аппаратная защита стека.

 В подписи второго столбца явная опечатка

В подписи второго столбца явная опечатка

В целом, средний прирост производительности Graviton3 по сравнению с Graviton2 составил 25 %, но в некоторых задачах он достигает 60 %. И всё это при сохранении того же уровня энергопотребления и тепловыделения. Всё это позволило уместить в одном 1U-узле с воздушным охлаждением сразу три процессора Graviton3. И они разительно отличаются от грядущих 128-ядерных процессоров Altra Max и EPYC Bergamo, которые Ampere и AMD позиционируют как решения для гиперскейлеров. Зато в чём-то похожи на Yitian 710 от Alibaba Cloud.

Но CPU — это лишь часть платформы, фундамент для которой несколько лет назад заложило появление чипов Nitro. Их сейчас стоило бы назвать DPU/IPU, хотя на момент их появления такого понятия, можно сказать, и не было. Nitro берёт на себя все задачи по обслуживанию гипервизора, обеспечению безопасности, работе с хранилищем и сетью и т.д., высвобождая, с одной стороны, все ресурсы CPU, памяти и SSD для обработки задачи клиента, а с другой — позволяя практически полностью дезагрегировать всю инфраструктуру.

 Узел с Nitro SSD

Узел с Nitro SSD

Впрочем, Amazon пошла ещё дальше — теперь она самостоятельно закупает NAND-чипы и производит SSD, тоже под управлением Nitro. То есть у компании под контролем практически полный стек современных аппаратных решений: CPU, DPU, SSD, ИИ-ускорители для обучения (Trainium) и инференса (Inferentia). Она активно переносит на него собственные сервисы и предлагает их клиентам. И именно это и должно обеспокоить крупных вендоров, поскольку их решения вряд ли позволят добиться такого же уровня TCO, а гиперскейлеров, желающих перейти на аналогичную модель, немало.

UPD 06.12.21: презентация новых процессоров стала доступна публично, поэтому в материал добавлены некоторые иллюстрации, а в галерее ниже приведены результаты тестов производительности.

Microsoft, Caterpillar и Ballard протестируют 1,5-МВт генератор на водородных топливных элементах

Microsoft объединила усилия с Caterpillar и Ballard Power Systems для тестирования резервных генераторов на водородных топливных элементах в своём дата-центре в Куинси (штат Вашингтон). Проект рассчитан на три года и нацелен на изучение возможности использования водородных топливных элементов в масштабе ЦОД. Проект частично финансируется Министерством энергетики США (DOE) в рамках инициативы H2@Scale.

Caterpillar станет генеральным подрядчиком, обеспечивающим общую интеграцию всех систем, работу силовой электроники и средств управления. Ballard предоставит водородный электрогенератор на топливных элементах ClearGen-II мощностью 1,5 МВт, а Национальная лаборатория возобновляемых источников энергии (NREL) выполнит анализ его безопасности, экологичности и технико-экономических аспектов эксплуатации.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Для успешной реализации проекта необходимо решить ряд проблем. Чтобы топливные элементы обеспечивали мощность 3 МВт в течение 48 часов, требуется около 68 м3 жидкого водорода, для хранения которого требуется намного больше места, чем для дизельного топлива. Для избегания утечек требуются специальные трубопроводы, а сам водород надо хранить при температуре ниже -253 °C. Ранее Microsoft успешно испытала водородные топливные ячейки мощностью 250 кВт от Power Innovations.

LiquidStack и Microsoft продемонстрировали ИИ-серверы с двухфазным иммерсионным охлаждением

LiquidStack, дочернее предприятие BitFury, специализирующееся на разработке иммерсионных СЖО, и Microsoft продемонстрировали на OCP Global Summit стандартизированное решение с двухфазным погружным жидкостным охлаждением. Демо-серверы Wiwynn, разработанные в соответствии со спецификациями OCP Open Accelerator Infrastructure (OAI), были погружены в бак LiquidStack DataTank 4U, способный отводить порядка 3 кВт/1U (эквивалент 126 кВт на стойку).

LiquidStack сообщила, что она впервые оптимизировала серверы OCP OAI для охлаждения путем погружения в жидкость. По словам компании, её двухфазные иммерсионные СЖО DataTank предоставляют наиболее эффективное решение, которое требует немного пространства и потребляет меньше энергии, чем другие системы охлаждения, и вместе с тем повышает плотность размещения компонентов и их производительность.

 Фото: LiquidStack

Фото: LiquidStack

В демо-серверах использовались ИИ-ускорители Intel Habana Gaudi, погружённые в жидкий диэлектрик (от 3M) с низкой температурой кипения, который наиболее эффективно отводит тепло благодаря фазовому переходу. Данное решение должно помочь достижению показателя PUE в пределах от 1,02 до 1,03, поскольку оно практически не потребляет энергию. LiquidStack утверждает, что у её СЖО эффективность теплоотвода примерно в 16 раз выше, чем у типичных систем воздушного охлаждения.

 Фото: LiquidStack

Фото: LiquidStack

По мнению компании, системы высокопроизводительных вычислений (HPC) уже сейчас слишком энергоёмки, чтобы их можно было охлаждать воздухом. Поэтому следует использовать платы, специально предназначенные для жидкостного охлаждения, а не пытаться адаптировать те, что были созданы с расчётом на воздушные системы — при использовании СЖО вычислительная инфраструктура может занимать на 60% меньше места.

 Изображение: Microsoft

Изображение: Microsoft

LiquidStack и Wiwynn являются партнёрами. В апреле Wiwynn инвестировала в LiquidStack $10 млн. Также Wiwynn протестировала серверы с погружным жидкостным охлаждением в центре обработки данных Microsoft Azure в Куинси (штат Вашингтон). Microsoft, как и другие гиперскейлеры, уже некоторое время изучает возможности иммерсионных СЖО.

Kioxia выпустила NVMe-oF SSD серии EM6 c Ethernet-подключением 25 Гбит/с

Компания Kioxia сообщила о доступности твердотельных накопителей семейства EM6, относящихся к корпоративному классу. Решения предназначены для использования в составе платформ высокопроизводительных вычислений, систем машинного обучения и искусственного интеллекта.

 Источник изображения: Kioxia

Источник изображения: Kioxia

Устройства серии EM6 выполнены на основе контроллера Marvell 88SN2400 NVMe-oF. Реализована спецификация NVMe 1.4. Доступны один или два интерфейса Ethernet с пропускной способностью 25 Гбит/с. Накопители заключены в корпус формата 2,5" толщиной 15 мм. Предлагаются два варианта вместимости — 3,84 и 7,68 Тбайт, оба с 1 DWPD.

 Источник изображения: Ingrasys

Источник изображения: Ingrasys

Устройства доступны в составе платформы ES2000 EBOF (Ethernet Bunch of Flash) производства Ingrasys (подразделение Foxconn). Данный продукт представляет собой систему хранения данных в 2U-шасси с возможностью установки 24 накопителей NVMe-oF типоразмера 2,5"/U2/E3.S или 48 E1.S. СХД имеет коммутатор Marvell 98EX5630 и предоставляет 12 200GbE-портов QSFP28/56.

NVIDIA представила платформу Jetson AGX Orin для периферийных ИИ-вычислений, робототехники и автономного транспорта

Одним из лидеров в создании высокопроизводительных встраиваемых решений давно является NVIDIA с серией Jetson. На смену уже немолодой платформе Jetson AGX Xavier пришла Jetson AGX Orin, обладающая ускорителем с архитектурой Ampere.

Компания не без оснований называет Jetson AGX Orin самой мощной, компактной и энергоэффективной платформой для робототехники, автономного транспорта и встраиваемых решений для работы на периферии — её производительность оценивается в 200 Топс, что более чем в шесть раз выше показателей Xavier. По словам NVIDIA новинка сравнима по скорости работы с GPU-сервером, но при этом умещается на человеческой ладони.

Новая 7-нм SoC состоит из 17 млрд транзисторов. Она включает 12 ядер Cortex-A78AE, одних из самых мощных в арсенале Arm, предназначенных для задач класса mission critical и имеющих продвинутые механизмы защиты от системных сбоев Это немаловажно, к примеру, при применении в беспилотных транспортных средствах и промышленной автоматике. Всё это дополнено 2048 ядрами NVIDIA Ampere. ускорители. Ускорена подсистема памяти (200 Гбайт/с). Серьёзно возросли сетевые возможности — новый чип имеет сразу четыре интерфейса 10 Гбит/с.

Разработчики решений на базе Jetson AGX Orin могут использовать NVIDIA CUDA-X, JetPack SDK и наиболее новые версии утилит NVIDIA. Также на момент анонса уже доступны предварительно натренированные и оптимизированные под новую платформу ИИ-модели из каталога NVIDIA TAO, которые помогут сократить время создания новых решений на базе Orin. Доступность новых плат Jetson AGX запланирована на первый квартал следующего года. Дабы не пропустить этот момент, NVIDIA предлагает зарегистрироваться в соответствующем разделе своего сайта.

Получена первая партия российских серверных Arm-процессоров Baikal-S: 48 ядер, 6 каналов DDR4-3200 и 80 линий PCIe 4.0

Компания «Байкал Электроникс» сообщила о получении первой партии инженерных образцов серверных Arm-процессоров Baikal-S объёмом 400 шт. Следующую партию компания ожидает получить в первом квартале следующего года, а первые массовые поставки (партия более 10 тыс. шт.) должны начаться до конца третьего квартала. Инженерные платы для разработчиков, созданы «Гаоди рус» (Dannie Group) и выпущены компанией «Рутек».

Baikal-S, изготавливаемый по 16-нм техпроцессу на TSMC, имеет 48 ядер Arm Cortex-A75 на базе достаточно свежей 64-бит архитектуры ARMv8.2-A, которая была анонсирована в 2017 году. Частота составляет до 2,2 ГГц, а уровень TDP равен 120 Вт. Заявленный диапазон рабочих температур простирается от 0 до +70 °C. Производительность в HPL составляет 385 Гфлопс, а рейтинг в SPEC CPU2006 INT — до 600. Ориентировочная цена одного процессора ожидается на уровне $3 тыс.

L1-кеш имеет объём по 64 Кбайт для данных и инструкций, а L2 — 512 Кбайт на ядро. Любопытно, что в дополнение к L3-кешу (по 2 Мбайт на кластер) есть ещё и L4-кеш на 32 Мбайт. Контроллер памяти имеет шесть каналов DDR4-3200 ECC и обслуживает до 128 Гбайт на канал (суммарно 768 Гбайт на сокет). Кроме того, каждый процессор имеет 80 линий PCIe 4.0, из которых 48 линий делятся тремя интерфейсами CCIX x16. Также есть пара 1GbE-интерфейсов.

 Источник: CNews

Источник: CNews

При этом новинка поддерживает аппаратную виртуализацию, Arm TrustZone и позволяет создавать четырёхсокетные платформы. Всё это делает её привлекательным решением не только для традиционных серверов и СХД, но и для и HCI- и HPC-систем. С экосистемой ПО проблемы вряд ли будут. Во-первых, для «малого» Байкал-М уже сейчас есть отечественные ОС и другие продукты. Во-вторых, серверные платформы Arm в мире развивают сразу несколько игроков, да и сама Arm стимулирует процесс разработки и портирования ПО. Кроме того, «Байкал Электроникс» имеет тесные связи с ГК Astra Linux.

В тихом омуте: дата-центры потребляют сотни миллионов кубометров воды, но сколько именно, не знает никто

В сентябре текущего года на юго-востоке США случилась сильная засуха. По данным местных регуляторов, ситуация может только усугубиться. Это нахудшая ситуация с водными ресурсами за всю зарегистрированную в регионе историю. На этом фоне гигантские расходы воды дата-центрами является одним из тревожных факторов — хотя бы потому, что никто точно не знает, сколько воды они используют на самом деле.

По словам профессора Армана Шехаби (Arman Shehabi) из Национальной лаборатории им. Лоуренса в Беркли (США), которые приводит Datacenter Dynamics, достоверные сведения о потреблении дата-центрами воды централизованно никем не собираются, а сами компании, если и ведут статистику, не горят желанием показывать её даже властям, ссылаясь на коммерческую тайну. Отрывочные сведения поступают из юридических документов, публикуемых в ходе разбирательств.

И хотя дата-центры, как и заводы, потребляют много электричества и воды, от них — в отличие от предприятий, например, текстильной или химической промышленности — власти обычно не требуют регулярных отчётов. По данным Uptime Institute, операторы только половины ЦОД собирают хоть какую-то статистику о расходе воды. Вместе с тем, по экспертным оценкам, ЦОД входят в десятку крупнейших коммерческих потребителей воды в США. И, что важно, зачастую это питьевая вода.

Профессор, в своё время сумевший подсчитать энергопотребление всех ЦОД США (205 ТВт·ч в 2018 году), пытается сделать схожие вычисления расхода воды. При этом важно учесть не только прямое потребление воды кампусами ЦОД, но и ту воду, которая используется ГЭС, воду, израсходованную очистительными предприятиями, а также другие факторы. Как считает профессор, дата-центры потребляют воду из 90% бассейнов США. Предположительно суммарно на дата-центры в 2018 году ушло 513 млн м3. В среднем на один потраченный МВт·ч приходится 7,1 м3 воды, но разница между регионами просто огромная.

Оценить меры по восстановлению водного баланса тоже крайне сложно. Многие из подобных проектов не «восстанавливают» воду — вместо этого минимизируются её потери, высаживаются растения, ремонтируются водопроводы, устанавливаются очистные сооружения. Хотя такие действия безусловно полезны, расход воды не компенсируется напрямую. Кроме того, в каждом конкретном регионе возможно конечное число водосберегающих мероприятий, которые можно провести, поэтому дата-центрам помельче не остаётся поля деятельности в соответствующей сфере.

Среди крупных игроков Facebook и Microsoft планируют достичь положительного водного баланса к 2030 году, а Google обещает к концу десятилетия возвращать по 120% от объёма использованной воды. Во всех случаях речь идёт прямом потреблении воды и не уточняется, как именно будет восстанавливаться баланс. Возможна та же ситуация, что и с «зелёной» энергетикой, когда крупные компании потребляют электроэнергию из обычных сетей, используя для компенсации углеродного следа т.н. «зелёный камуфляж».

По мнению Шехаби, бизнесу стоит делиться подобными данными хотя бы на анонимной основе. В случае отказа усиливающиеся засухи и рост осведомлённости общества о деятельности дата-центров приведут к тому, что будут приняты законы, обязывающие собирать и раскрывать сведения о потреблении воды в принудительном порядке (и с возможной последующей регуляцией рынка). Профессор считает, что водные ресурсы имеют даже более критическое значение, чем энергетические.

Для обеспечения работы суперкомпьютера El Capitan потребуется 28 тыс. тонн воды и 35 МВт энергии

К моменту ввода в эксплуатацию в 2023 году суперкомпьютер El Capitan на базе AMD EPYC Zen4 и Radeon Instinct, как ожидается, будет иметь самую высокую в мире производительность — более 2 Эфлопс. А это означает, что ему потребуются гигантские мощности для питания и охлаждения. Ливерморская национальная лаборатория (LLNL), в которой и будет работать El Capitan, поделилась подробностями о масштабном проекте, призванном обеспечить HPC-центр необходимой инфраструктурой.

В основе плана модернизации лежит проект Exascale Computing Facility Modernization (ECFM) стоимостью около $100 млн. В его рамках будет обновлена уже существующая в LLNL инфраструктура. Для реализации проекта необходимо получить очень много разрешений от местных регуляторов и очень тесно взаимодействовать с местными поставщиками электроэнергии. Тем не менее, LLNL заявляет, что проект «почти готов», по некоторым оценкам — на 93%. Функционировать новая инфраструктура должна с мая 2022 года (с опережением графика).

Сам проект стартовал ещё в 2019 году и, согласно планам, должен быть полностью завершён в июле 2022 года. В его рамках модернизируют территорию центра, введённого в эксплуатацию в 2004 году, общей площадью около 1,4 га. Если раньше центр, в котором работали системы вроде лучшего для 2012 года суперкомпьютера Sequoia (ныне выведенного из эксплуатации), обеспечивал подачу до 45 МВт, то теперь инфраструктура рассчитана уже на 85 МВт.

Конечно, даже для El Capitan такие мощности будут избыточны — ожидается, что суперкомпьютер будет потреблять порядка 30-35 МВт. Однако LLNL заранее думает о «жизнеобеспечении» преемника El Capitan. Следующий суперкомпьютер планируется ввести в эксплуатацию до того, как его предшественник будет отключён в 2029 году. Кроме того, для новой системы потребуется установка нескольких 3000-тонных охладителей. Если раньше общая ёмкость системы охлаждения составляла 10 000 т воды, то теперь она вырастет до 28 000 т.

AWS потратила на дата-центры $35 млрд в одной только Северной Вирджинии

За прошедшие 10 лет облачный провайдер AWS потратила $35 млрд на строительство инфраструктуры на севере штата Вирджиния (США). Строительство такого масштаба оказало важное влияние на региональную экономику. Обычно гиперскейлеры не делятся детальными сведениями о своих затратах на ЦОД, но в данном случае речь идёт об отчёте, который призван показать, как сотрудничество местных органов власти и индустрии дата-центров может положительно влиять на возможности развития региона.

Сегодня Amazon относится к числу техногигантов, способных играть ведущие роли при создании облачных систем. На северо-востоке штата сейчас находится более 50 дата-центров, формирующих крупнейшее в мире облачное пространство. При этом кластер в Северной Вирджинии — это только часть инфраструктуры AWS, включающей шесть облачных регионов на территории США и 25 по всему миру. Однако именно регион US-East исторически является наиболее важным и крупным для AWS, поскольку здесь развёрнуто сразу шесть зон доступности (AZ).

Провайдеры облачных сервисов сыграли важную роль для развития финансовых систем всего мира в период пандемии. В то же время и заработок AWS в 2020 году составил $45 млрд — больше, чем у многих подразделений Amazon, связанных с торговлей. Деятельность Amazon в штате позволяет акцентировать внимание на двух фактах — по данным компании, создание облачных кластеров несёт большие преимущества для локальных экономик, но вместе с тем требует финансирования в объёмах, доступных лишь немногим компаниям.

 datacenterfrontier.com

datacenterfrontier.com

Расширение проекта Amazon в Северной Вирджинии потребовало закупки местных земель, строительства большего числа дата-центров — это позволяет с запасом обеспечить корпоративный спрос на облачные решения. Прямым следствием становится появление рабочих мест среди местных жителей и рост затрат на местах на обслуживание инфраструктуры, обеспечение безопасности, а также рост поступлений налогов в местные бюджеты:

  • В 2020 году AWS заплатила более $220 млн налогов на собственность за дата-центры, расположенные в нескольких округах Северной Вирджинии. На долю компании приходится порядка 20 % всех налоговых отчислений на собственность, полученных этими округами в 2020 фискальном году. Правда, следует учитывать и то, что округа исторически предоставляли налоговые льготы;
  • В 2020 году инвестиции AWS в строительство здесь новых мощностей и расширение и поддержку прежних позволили сохранить тысяч штатных рабочих мест и ещё больше в связанных отраслях;
  • К 2023 году Amazon планирует построить в Вирджинии 15 новых «зелёных» солнечных ферм общей мощностью 1,43 ГВт.

Инвестиции объёмом $35 млрд в Вирджинии — самые масштабные для одного штата. Такие большие расходы соответствуют масштабным потребностям в затратах, необходимых для создания соответствующей инфраструктуры — конкурирующие компании вроде Google, Microsoft и Facebook обычно тратят на строительство каждого облачного кампуса от $600 млн до $4 млрд. Тем не менее, в последнее время капитальные вложения всей индустрии выросли почти на треть.

«Яндекс», «ЛАНИТ», Gigabyte и ВТБ вложат 1 млрд руб. в российский завод по выпуску серверов

В России неподалёку от Рязани, на территории индустриального парка «Рязанский», началось строительство нового завода по производству серверов. Проект реализуется совместным предприятием, созданным «Яндексом», группой компаний «ЛАНИТ», разработчиком компьютерной техники Gigabyte и банком ВТБ.

На заводе будет выпускаться оборудование под торговой маркой Openyard. В частности, планируется организовать производство серверов, систем хранения данных, шлюзов и компонентов умных устройств.

Участники проекта на начальном этапе вложат в новую производственную площадку более миллиарда рублей. Пуско-наладочные работы намечены на третий квартал следующего года: их выполнят специалисты Gigabyte. Первый сервер со сборочных линий должен сойти до конца 2022-го.

«Первая очередь будет включать производственные линии, лаборатории и тестовые зоны. Здесь будут выполняться все операции, начиная от поверхностного монтажа компонентов и заканчивая испытаниями готовой продукции», — говорится в сообщении.

 Фото: Яндекс

Фото: Яндекс

Производимые в Рязани серверы будут спроектированы на основе разработок и технологий «Яндекса». Отмечается, что выбор места для строительства завода продиктован хорошей транспортной доступностью, наличием необходимых коммуникаций и близостью учебных заведений, которые готовят профильных специалистов.

HPE Synergy 12000 как гимн модульности: новая единая ИТ-инфраструктура для любых задач

Синергия — эффект совместного действия двух и более факторов, превышающий простую сумму их действий. Слово это пришло к нам из древнегреческого, где означало «единое дело». Но в обычных ЦОД «старой школы» она проявляется далеко не всегда, и расширение, переконфигурирование или смена задачи может стать долгим, затратным предприятием. К тому же в облачную эпоху каждый час простоя инфраструктуры может обернуться серьёзными убытками.

Создавая Synergy, HPE позаботилась о том, чтобы максимально унифицировать новую ЦОД-платформу, способную справиться с любым приложением. В основу легла модульно-лезвийная (blade) компоновка, компания называет её «компонуемой». Такая инфраструктура Synergy — это шаг вперёд от обычных гиперконвергентных систем в сторону большей оптимизации и аппаратных, и программных средств.

Единая структура Synergy одинаково хорошо подойдет для любых типов нагрузок. За счёт использования программно определяемой логики, паттернов автоматизации и единой платформы управления OneView затраты на обслуживание ЦОД на базе новой платформы можно существенно снизить, направив высвободившиеся ресурсы на более важные для компании проекты и задачи.

Не возникнет и проблем с совместимостью — все компоненты Synergy изначально созданы в рамках единого форм-фактора и являются взаимозаменяемыми. Имеется также задел на будущее: с появлением новых высокоскоростных технологий (фотоники) платформа не устареет, но может быть легко модернизирована.

 Готовая к работе система HPE Synergy

Готовая к работе система HPE Synergy

Основные узлы Synergy представляют собой компонуемые модули лезвийного типа Synergy 480 Gen10. Они полностью поддерживают возможность «горячей замены», но самое интересное скрыто внутри: компактная системная плата с двумя Intel Xeon Scalable в окружении 24 слотов DDR4. Поддерживаются все процессоры с теплопакетом до 205 Ватт включительно (до 3,8 ГГц), также поддерживаются модули Optane DCPMM. Имеется специальный слот для дискового контроллера. Само «лезвие» оснащено или двумя SFF-дисками, или четырьмя SSD формата uFF.

Также к узлу можно подключать до трёх мезаниновых карт расширения с интерфейсом PCI Express x16, правда, только версии 3.0. Эти карты предельно компактны. Так, основой для сетевой инфраструктуры может служить адаптер Synergy 6810C, поддерживающий стандарты Ethernet со скоростями 25 и 50 Гбит/с. Он базируется на технологиях Mellanox и поддерживает RoCEv2.

В конструкции изначально предусмотрена резервная батарея (BBU) для сохранения дисковых кешей, тогда как обычный RAID-контроллер не во всякой комплектации имеет BBU. Из прочего отметим наличие системы удалённого мониторинга и управления HPE iLO5 и продвинутую реализацию подключения к системе: за управление данными и питанием отвечает выделенный чип-контроллер.

Есть в вариантах Synergy 480 Gen10 и модуль двойной ширины, предназначенный специально для установки графических или вычислительных ускорителей. Несмотря на скромные габариты, он может принять в себя шесть ускорителей в формате Multi MXM, либо две мощные видеокарты в классическом исполнении. Ещё более производительны модули HPE Synergy 660 Gen10. Они вдвое выше Synergy 480, так что внутри может размещаться уже восемь uFF-накопителей, либо четыре SFF и четыре M.2. Процессорных разъёмов четыре, а количество слотов памяти равно 48. Мезонинов тоже вдвое больше, то есть шесть.

Для высокоплотного хранения данных предлагается использовать модуль Synergy D3940. В нём размещается до 40 накопителей общим объёмом 612 Тбайт, причём поддерживается любое сочетание дисков SAS и SATA. Реализованы операции как на файловом уровне, так и на блочном и даже объектном. Предусмотрено два адаптера ввода/вывода, которые при необходимости быстро заменяются. Сами накопители физически отделены от RAID-контроллеров и связаны с ними независимыми модулями коммутации. Модуль коммутации поддерживает 48 портов SAS, обслуживает до 40 SSD на модуль с производительностью до 50 тыс. IOPS на каждый SSD.

Компания хорошо понимает, что за счёт совместимости с оборудованием других производителей охват рынка будет шире, поэтому Synergy легко интегрируется с системами хранения данных, разработанными вне стен HPE. Поддерживаются решения Fibre Channel, FC over Ethernet и iSCSI таких компаний, как Hitachi Data Systems, Net App, IBM и даже извечного конкурента HPE — Dell EMC. На программном уровне обеспечена совместимость с виртуальными SAN Scality, VMWare, Ceph и Microsoft.

Для связи с SAN и LAN предлагаются различные коммутационные модули с портами вплоть до FC32 и 100GbE. Все эти модули объединяются в рамках 10U-шасси HPE Synergy 12000: до 12 вычислительных, 6 коммутационных и 5 модулей хранения данных. Новое шасси во всём лучше HPE Blade System c7000 прошлого поколения. Оно мощнее, лучше охлаждается, имеет более эффективную систему питания, а общая коммутационная плата для узлов поддерживает суммарную скорость передачи данных до 16 Тбит/с и изначально готова к переходу на использование высокоскоростной фотоники.

Шасси позволяет сформировать шасси с оптимальным набором компонентов, и HPE предлагает типовые варианты конфигураций в зависимости от задачи: базы данных, виртуальные машины, платформы аналитики, максимально ёмкие СХД или платформа для вычислений на графических ускорителях. Все компоненты предельно унифицированы, все базовые функции являются программно-определяемыми и унифицированными. Даже кабели придётся подключить только во время установки. После этого систему можно «нарезать» на отдельные фабрики с нужным набором дискового пространства, числа ядер CPU и GPU, объёмом памяти и сетевых подключений.

На уровне фабрик HPE позаботилась о резервировании и физическом разделении сетей управления и данных. Есть отдельное подключение к серверу образов для загрузки операционных систем и отдельные порты управления. Сетевые коммутаторы могут быть типов «Мастер» или «Спутник». Первый отвечает за весь сетевой трафик и обладает минимальными задержками, а второй является повторителем сигнала и содержит ретаймеры; задержка в передаче сетевого пакета не превышает 8 нс. Поддерживаются порты со скоростью 10 и 20 Гбит/с.

Дирижёром всего этого оркестра является модуль компоновщика (composer). Он базируется на фирменном управляющем ПО HPE OneView. При необходимости настроить систему на месте в дело вступает модуль сети управления (frame link module), который имеет разъём Display Port для монитора и порт USB.

Если обычная процедура ввода в строй нового сервера содержит множество пунктов, от установки его в стойку до настроек BIOS и установки ОС, то в Synergy достаточно установить новый модуль в шасси и применить нужный серверный профиль из шаблона. Остальное система сделает сама.

Компоновщик поддерживает форматы виртуализации Hyper-V и ESXi, а фирменное ядро OneView работает с аппаратными и сетевыми компонентами, но наружу информация предоставляется посредством стандартного API RESTful. Предусмотрено управление как с помощью веб-интерфейса, так и с помощью различного ПО — CHEF, Microsoft PowerShell или System Center; имеется также и фирменное приложение HPE OneView для VMWare.

Таким образом, перед нами действительно уникальная, инновационная технология. HPE Synergy образует совершенно новый класс систем, по-настоящему универсальных на всех уровнях построения и конфигурации. Образуемая этим «конструктором» инфраструктура подходит для выполнения любого класса задач, причём разворачивается она по меркам мира ИТ практически мгновенно, буквально одной строкой кода, и сразу в нужных заказчику масштабах, в том числе облачных.

Простои практически исключены, все элементы унифицированы и легко заменяются, управление аппаратными серверами в облаке так же просто, как и традиционными виртуальными машинами. Использование HPE Synergy или модернизация ИТ-экосистемы этой новинкой означает сокращение как финансовых затрат, так и трудовых ресурсов, а единый API позволяет провести такую модернизацию постепенно, но в кратчайшие сроки за счёт совместимости с оборудованием СХД других поставщиков.

Кому подойдёт HPE Synergy? Всем, но особенно крупным компаниям, специализирующимся на ресурсоёмких ИТ-задачах любого класса, включая телеком, CAD/CAM, VDI, 3D-моделирование, а также медицину. Более того, именно медикам новинка подойдёт особенно хорошо. Об этом хорошо рассказывает нижеприведённое видео:

Сценариев развёртывания Synergy может быть множество, вот лишь некоторые из них:

Сама HPE называет десять причин для выбора Synergy. Они просты и понятны:

  • Безопасность. Инфраструктура Synergy обеспечивает этот фактор за счёт повышенной надёжности, в том числе за счёт возможности физического разделения сегментов данных и управления.
  • Единая аппаратная платформа. Не потребуется закупка разных, порой не очень совместимых друг с другом серверов, дисковых полок и коммутаторов. Достаточно добавить в уже установленную «фабрику» новые модули, либо дополнить стойку новыми «фабриками» с учётом того, что от них требуется — чистая вычислительная мощь, дисковые объемы или специализированные вычисления с использованием ускорителей.
  • Программно-определяемость. Не нужен «шаманизм» в попытках заставить работать вместе «зоопарк» различных аппаратных и программных решений. Вся инфраструктура Synergy едина и предоставляет доступ извне через стандартизированные API. Все ранее занимавшие драгоценное время технические задачи, вроде обновления прошивок и микрокодов решаются автоматически с использованием единых шаблонов.
  • Эффективность. Гиперскейлеры могут позволить себе любое специализированное оборудование и ПО, располагая соответствующими ресурсами. Менее крупные компании должны думать об экономических последствиях при принятии решений о внедрении или модернизации ИТ-инфраструктуры. Synergy позволяет обойтись без развёртывания разных сред для разных приложений — всё делается в рамках единой компонуемой экосистемы.
  • Непрерывность процессов разработки. В наше время разработка ПО требует всё больше труда и всё меньше времени, но Synergy позволяет разработчикам легко запрашивать столько вычислительных, дисковых и сетевых ресурсов, сколько требует рабочий процесс. Нужные ресурсы выделяются мгновенно, разработчикам не требуется вникать в тонкости физического оборудования. Поддерживается интеграция с такими популярными средами, как Chef, Puppet, Ansible и Docker. Всё это распространяется и на среды тестирования, которые развёртываются и масштабируются так же легко, как и среды разработки.
  • Гибкость ресурсов. В случае с классическими ИТ-инфраструктурами с момента появления новой идеи до её реализации может пройти полгода — огромный срок по современным меркам. Synergy позволяет избежать таких задержек, поскольку разворачивает среды очень быстро и в любом количестве, необходимом заказчику.
  • Экономия. Затраты на труд высокооплачиваемых специалистов, таких как системные администраторы, с развитием ИТ-технологий и ростом их популярности становятся пугающе огромными и могут в три раза превышать затраты на само физическое оборудование. Компонуемая среда Synergy поддерживает программно определяемую аналитику, которая управляет развёртываемым комплексом с помощью шаблонов, а это позволяет сократить трудозатраты. Снижаются также затраты на избыточность оборудования и ПО.
  • Конкурентоспособность. За счёт унификации Synergy может наделить заказчика конкурентными преимуществами на рынке — сокращаются расходы и затраты, а внедрение новых идей, напротив, ускоряется. Более быстрая реакция на требования рынка может означать победу в конкурентной борьбе.
  • Задел на будущее. Реагировать на бурный рост ИТ-технологий с использованием Synergy проще — компонуемая инфраструктура легко расширяется, и при необходимости можно просто заменить стандартные модули на более производительные или нарастить количество стоек. Решение HPE готово и к технологиям будущего, таким, как фотоника.
  • Простота развёртывания. Synergy является полностью законченным решением, готовым к эксплуатации. По мере необходимости легко добавить новые узлы, фабрики, стойки и ряды. Synergy легко будет расти вместе с ростом требований бизнеса.

При этом заказать Synergy весьма просто: компания готова как к немедленной отправке оплаченного оборудования со склада, так и к компоновке под заказ. В России поставкой систем HPE Synergy занимается компания OCS, авторизованный партнёр Hewlett Packard Enterprise с опытом работы более 25 лет. Системы могут поставляться во все регионы страны, партнёрам предоставляются дополнительные удобные сервисы. Также отметим, что 12 октября в 10:00 по московскому времени состоится веб-семинар, посвящённый новой модульной платформе HPE. Записаться на него можно здесь.

128-ядерный Arm-процессор Ampere Altra Max оказался на треть дешевле флагманских Xeon и EPYC

Ресурс Phoronix раскрыл стоимость многоядерных процессоров Ampere Altra Max, предназначенных для использования в высокопроизводительных серверах. Наблюдатели отмечают, что эти изделия, насчитывающие до 128 вычислительных ядер, предлагаются по цене ниже флагманских серверных чипов Intel Xeon и AMD EPYC.

Arm-процессоры Ampere Altra Max M128-30 с частотой 3,0 ГГц изготавливаются по 7-нм технологии и предлагают 128 линий PCIe 4.0 и восемь каналов оперативной памяти DDR4-3200. Тесты Phoronix показывают, что в целом ряде задач чипы Ampere Altra Max M128-30 могут вполне конкурировать со старшими моделями Intel Xeon Ice Lake и AMD EPYC Milan.

 Источник: Phoronix

Источник: Phoronix

Итак, сообщается, что цена Ampere Altra Max M128-30 составляет $5800. Для сравнения: чип Intel Xeon Platinum 8380 сейчас предлагается за $8099, тогда как AMD EPYC 7763 стоит $8600. Процессор Ampere Altra Q80-30 с 80 вычислительными ядрами можно приобрести по цене $3950, а самая младшая 32-ядерная модель Ampere Altra Q32-17 стоит всего $800. Правда, надо учитывать, что всё это рекомендованные цены, а у AMD с Intel намного больше возможностей по их снижению для конечных заказчиков.

На Аляске появился быстрый беспроводной интернет на базе Facebook✴ Terragraph

Сложный рельеф и суровый климат Аляски создают серьёзные трудности при обеспечении пользователей стабильным быстрым интернетом-соединением. С распространением пандемии и переходом многих жителей на удалённую работу потребность в устойчивых соединениях только выросла. На помощь местным жителям пришёл провайдер Alaska Communications с беспроводной технологией Terragraph, разработанной Facebook Connectivity.

Провайдер использует оборудование компании Cambium Networks, получившего лицензию от Facebook на использование Terragraph в своих решениях. Технология использует спектр 60 ГГц и позволяет наладить быструю связь значительно дешевле, чем обходится прокладка под землёй кабельных соединений.

Многие интернет-провайдеры штата уже убедились, что в местных суровых условиях прокладывать кабели конечным потребителям не только дорого, но и долго. Если же возникает обрыв, установить его местонахождение и устранить поломку очень сложно, особенно зимой. Cambium Networks предоставляет беспроводные решения на основе Terragraph — от Пинанга в Малайзии до Пуэрто-Рико.

 tech.fb.com

tech.fb.com

Facebook Connectivity разработала Terragraph, намереваясь расширить доступность стабильного беспроводного интернет-соединения в регионах с плохим или отсутствующим соединением. Лицензии на технологию выдаются партнёрам по всему миру — производители оборудования и провайдеры могут сосредоточить усилия на её внедрении вместо проведения собственных разработок.

Первая фаза развёртывания на Аляске планируется с использованием клиентских узлов cnWave 60 ГГц производства Cambium Networks, обеспечивающих скорость передачи данных до 1 Гбит/с для 6500 локаций. «Доступный, надёжный высокоскоростной интернет сегодня отсутствует на рынке Аляски. Поэтому мы здесь — для того, чтобы обеспечить местным жителям связь с тем, что наиболее важно для них», — говорит вице-президент по маркетингу Alaska Communications Бет Барнс (Beth Barnes).

Вместо использования кабельных соединений, Terragraph полагается на ячеистую mesh-топологию, в которой клиентские беспроводные узлы размером с книгу размещаются на уже существующих объектах вроде крыш или телефонных столбов. Отдельные узлы не только обеспечивают интернетом конкретные дома, но и передают сигнал другим аналогичным узлам, находящимся в зоне досягаемости.

Структура mesh-сетей предусматривает многочисленные альтернативные пути соединения между узлами, поэтому связь в сети остаётся стабильной почти в любых условиях. Для сравнения, обрыв связи на «последней миле» кабельного соединения требует обязательного ремонта, иначе доступ к Интернету прервётся.

 tech.fb.com

tech.fb.com

Местные жители уже начали пользоваться преимуществами Terragraph. Даже тем, кому по роду деятельности приходится пересылать очень большие файлы, теперь доступны по-настоящему быстрые соединения. По данным некоторых пользователей, скорость соединения выросла почти в 100 раз в сравнении с проводными решениями, применявшимися прежде: на отправку файла чуть более 10 Гбайт уходит около 10 минут.

Из-за низкой плотности населения на Аляске связь имеет ещё большее значение, чем в густонаселённых регионах. Например, Аляска в 2,5 раза больше Техаса или в 77 раз больше Нью-Джерси, при этом здесь приходится приблизительно по одному человеку на 2,5 км2. Если трудно предоставить высокоскоростное интернет-соединение даже населению городов вроде Анкориджа, то ещё труднее обеспечить связь за пределами городов. При этом в период пандемии критически важно оставаться на связи.

До конца текущего года Terragraph намерены использовать в 6500 локациях по всему штату, а скоро в Alaska Communications планируется обеспечить и более широкое распространение технологии. В следующие несколько лет сервис появится в новых районах вблизи Анкориджа, а также Фэрбенксе, Джуно, на Кенайском полуострове.

Fujifilm и HPE представили ленточные картриджи LTO-9 ёмкостью 45 Тбайт

Ленточные накопители и библиотеки остаются одним из самых популярных вариантов для «холодного» хранения больших объёмов данных, и новые технологии в этой сфере продолжают активно развиваться. Компании Fujifilm и HPE объявили о выпуске ленточных картриджей LTO-9 Ultrium, эффективная ёмкость которых достигает 45 Тбайт. Правда, эта цифра относится к режиму со сжатием данных, «чистая» же ёмкость LTO-9 составляет 18 Тбайт.

Для сравнения, картриджи LTO-8 могут хранить до 12 и 30 Тбайт несжатых и сжатых данных соответственно, Хотя налицо паритет с традиционными HDD, темпы прироста ёмкости LTO замедлились: так, при переходе от седьмого поколения к восьмому «чистый» объём вырос вдвое (с 6 до 12 Тбайт), а сейчас мы видим лишь 50% прирост. Тем не менее, в будущем планируется вернуться к удвоению ёмкости в каждом новом поколении. Скорость передачи данных LTO-9 в сравнении c LTO-8 выросла, но ненамного: с 360/750 Мбайт/с до 440/1000 Мбайт/с в режимах без сжатия и со сжатием соответственно.

В новых картриджах Fujifilm используется лента на основе феррита бария (BaFe), покрытие формируется с использованием фирменной технологии NANOCUBIC. Компания заявляет о 50 годах стабильного хранения данных с использованием новой ленты. HPE пока что ограничилась коротким сообщением о выходе RW- и WORM-картриджей. Quantum анонсировала приводы LTO-9, а IBM объявила о совместимости ПО Spectrum Archive с новым стандартом. Наконец, Spectra Logic сообщила о поддержке нового стандарта в своих ленточных библиотеках.

Ленточные накопители, пожалуй, являются своеобразными патриархами в мире систем хранения данных — магнитная лента использовалась ещё в первых компьютерах IBM. Однако даже сегодня именно они могут похвастаться одной из самых больших ёмкостей в пересчёте на единицу носителя, а кроме того, имеют и ряд других достоинств, например, повышенную надёжность хранения данных за счёт «пассивного» характера хранения записанной информации.

 В будущем темпы роста ёмкостей картриджей LTO будут восстановлены

В будущем темпы роста ёмкостей картриджей LTO будут восстановлены

Также ленточные библиотеки могут похвастаться меньшей стоимостью владения, нежели HDD-фермы или облачные хранилища. Среди областей применения ленточных накопителей и библиотек называется сценарий защиты данных от «шифровальщиков» и вымогательства, поскольку при необходимости уцелевшую копию можно просто восстановить с картриджа. Однако при современных объёмах данных даже скорость 3,6 Тбайт/час может оказаться недостаточно быстрой.

 Петабайтные ёмкости потребуют перехода от феррита бария к эпсилон-ферриту железа (ɛ-Fe2O3)

Петабайтные ёмкости потребуют перехода от феррита бария к эпсилон-ферриту железа (ɛ-Fe2O3)

Тем не менее, развитие LTO не останавливается. В экспериментальных устройствах ещё в конце 2020 года была достигнута ёмкость 580 Тбайт, а уже 2021 году было объявлено уже о разработке лент и накопителей, способных хранить до 2,5 Пбайт сжатых данных. Так что говорить о смерти ленточных накопителей не приходится, хотя пандемия и повлияла отрицательно на объёмы продаж оборудования LTO.

IBM представила серверы E1080: 16 CPU POWER10, 240 ядер, 1920 потоков, 64 Тбайт RAM и 224 PCIe-слота в одной системе

IBM объявила о выходе нового поколения серверов IBM POWER E1080 на базе 7-нм чипа POWER10. Это первая коммерческая система на новых процессорах IBM, представленных на прошлогодней конференции Hot Chips и использующих архитектуру POWER v3.1. IBM POWER E1080 предназначен для удовлетворения спроса на надёжные гибридные облачные среды.

E1080 представляет собой четырёхсокетный сервер с процессорами POWER10. На текущий момент компания предлагает CPU c 10, 12 или 15 ядрами (ещё одно «запасное» ядро отключено), тогда как у POWER9 число ядер не превышало 12. На каждое ядро приходится 2 Мбайт L2-кеша и 8 Мбайт — L3 (до 120 Мбайт общего кеша на CPU). Для систем на базе E1080 поддерживается масштабирование до четырёх узлов, то есть можно получить 16 процессоров, 240 ядер, 1920 потоков, 64 Тбайт RAM и 224 PCIe-слота.

 IBM POWER E1080

IBM POWER E1080

Отличительной чертой новинок является поддержка SMT8, то есть обработка до 120 потоков на процессор. По сравнению с POWER9 производительность новых CPU выросла на 20% на поток и на 30% на ядро, а в пересчёте на Вт она выросла трёхкратно. А четыре 512-бит матричных движка и восемь 128-бит SIMD-блоков повысили скорость INT8-операций в 20 и более раз.

Память тоже новая — буферизированная OMI DDR4 DDIMM, которая, по словам компании, отличается повышенной надёжностью и отказоустойчивостью в сравнении с традиционными DDIMM. На один сервер приходится 64 слота с поддержкой до 16 Тбайт RAM с поддержкой технологии прозрачного шифрования памяти (Transparent Secure Memory Encryption, TSME), которая в 2,5 раза быстрее по сравнению с IBM POWER9. Заявленная пропускная способность составляет 409 Гбайт/с на ядро.

И для OMI, и для OpenCAPI используется шина PowerAXON (1 Тбайт/с), которая позволяет подключать к системе различные типы памяти (можно адресовать до 2048 Тбайт в рамках одного кластера), накопители, ускорители и т.д. Также в самой системе доступно четыре слота для NVMe SSD и 8 слотов PCIe 5.0. К E1080 можно подключить до четырёх полок расширения с 12 слотами PCIe 5.0 в каждой.

По данным IBM, благодаря E1080 установлен «мировой рекорд производительности: это первая система, достигшая 955 000 SAPS (SAP Application Performance Standard, в стандартном тесте приложений SAP SD в восьмипроцессорной системе — значительно больше, чем у альтернативной архитектуры x86, 2x на сокет (и) до 4 раз больше возможностей на ядро с E1080 (по сравнению с Intel)».

IBM заявила, что повышение производительности на ядро и увеличение количества ядер в системе означает значительное сокращение занимаемой серверами площади и энергопотребления. В тематическом исследовании неназванного клиента компания сообщила, что 126 серверов на чипах Intel, обслуживающих СУБД Oracle, были заменены тремя E980 на базе POWER9 и, по прогнозам, их можно будет заменить на два E1080. В результате потребляемая мощность упадёт со 102 до 20 кВт, а количество требуемых лицензий сократится с 891 (для системы Intel) до 263 (для E1080).

Новинка имеет в 4,1 раза более высокую по сравнению с x86-серверами пропускную способность контейнеризированных приложений OpenShift, а также целостность архитектуры и гибкость в гибридной облачной среде для повышения универсальности и снижения расходов без рефакторинга приложений. А по сравнению с IBM POWER E980v рост производительности и масштабируемости составил до 50% с одновременным снижением энергопотребления.

Кроме того, E1080 предлагает новые функции RAS для расширенного восстановления, самовосстановления и диагностики, а также усовершенствования для гибридного облака, включая первый в индустрии поминутный контроль использования ПО Red Hat, в том числе OpenShift и Red Hat Enterprise Linux. У IBM POWER E1080 также имеется возможность мгновенного масштабирования с помощью POWER Private Cloud with Dynamic Capacity, что позволит платить только за использованные ресурсы.

Среди прочих преимуществ своего решения IBM отмечает наличие надёжной экосистемы независимых поставщиков ПО, бизнес-партнёров и поддержки для E1080. Кроме того, IBM анонсировала многоуровневый сервис POWER Expert Care, призванный обеспечить защиту от продвинутых киберугроз, а также согласованное функционирование аппаратного и программного обеспечения и более высокую эксплуатационную готовность систем.

Ветераны индустрии основали стартап Ventana для создания чиплетных серверных процессоров RISC-V

Стартап Ventana Micro Systems, похоже, намерен перевернуть рынок серверов. Компания заявила о разработке высокопроизводительных процессоров на архитектуре RISC-V для центров обработки данных. Первые образцы фирменных CPU будут переданы клиентам во второй половине следующего года, а поставки начнутся в первой половине 2023 года. При этом процессоры получат чиплетную компоновку — различные модули и кристаллы на общей подложке.

Основные процессорные ядра разработает сама Ventana, а вот остальные чиплеты будут создаваться под нужды определённых заказчиков. CPU-блоки будут иметь до 16 ядер, которые, как обещается, окажутся быстрее любых других реализаций RV64. Использование RISC-V позволит разрабатывать сверхмощные решения в рекордные сроки и без значительного бюджета. Ядра будут «выпекаться» на TSMC по 5-нм нормам, но для остальных блоков могут использовать другие техпроцессы и фабрики.

Ventana будет следить за процессом их создания и упаковывать до полудюжины блоков в одну SoC. Для соединения ядер, кеша и других компонентов будет использоваться фирменная кеш-когерентная шина, которая обеспечит задержку порядка 8 нс и скорость передачи данных 16 Гбит/с на одну линию. Основными заказчиками, как ожидается, станут гиперскейлеры и крупные IT-игроки, которым часто требуется специализированное «железо» для ЦОД, 5G и т.д.

Сегодня Ventana объявила о привлечении $38 млн в рамках раунда B. Общий же объём инвестиций составил $53 млн. Компания была основана в 2018 году. Однако это не совсем обычный стартап — и сами основатели, и команда являются настоящими ветеранами индустрии. Все они имеют многолетний опыт работы в Arm, AMD, Intel, Samsung, Xilinx и целом ряде других крупных компаний в области микроэлектроники. Часть из них уже имела собственные стартапы, которые были поглощены IT-гигантами.

Кластер суперчипов Cerebras WSE-2 позволит тренировать ИИ-модели, сопоставимые по масштабу с человеческим мозгом

В последние годы сложность ИИ-моделей удваивается в среднем каждые два месяца, и пока что эта тенденция сохраняется. Всего три года назад Google обучила «скромную» модель BERT с 340 млн параметров за 9 Пфлоп-дней. В 2020 году на обучение модели Micrsofot MSFT-1T с 1 трлн параметров понадобилось уже порядка 25-30 тыс. Пфлоп-дней. Процессорам и GPU общего назначения всё труднее управиться с такими задачами, поэтому разработкой специализированных ускорителей занимается целый ряд компаний: Google, Groq, Graphcore, SambaNova, Enflame и др.

Особо выделятся компания Cerebras, избравшая особый путь масштабирования вычислительной мощности. Вместо того, чтобы печатать десятки чипов на большой пластине кремния, вырезать их из пластины, а затем соединять друг с другом — компания разработала в 2019 г. гигантский чип Wafer-Scale Engine 1 (WSE-1), занимающий практически всю пластину. 400 тыс. ядер, выполненных по 16-нм техпроцессу, потребляют 15 кВт, но в ряде задач они оказываются в сотни раз быстрее 450-кВт суперкомпьютера на базе ускорителей NVIDIA.

В этом году компания выпустила второе поколение этих чипов — WSE-2, в котором благодаря переходу на 7-нм техпроцесс удалось повысить число тензорных ядер до 850 тыс., а объём L2-кеша довести до 40 Гбайт, что примерно в 1000 раз больше чем у любого GPU. Естественно, такой подход к производству понижает выход годных пластин и резко повышает себестоимость изделий, но Cerebras в сотрудничестве с TSMC удалось частично снизить остроту этой проблемы за счёт заложенной в конструкцию WSE избыточности.

Благодаря идентичности всех ядер, даже при неисправности некоторых их них, изделие в целом сохраняет работоспособность. Тем не менее, себестоимость одной 7-нм 300-мм пластины составляет несколько тысяч долларов, в то время как стоимость чипа WSE оценивается в $2 млн. Зато система CS-1, построенная на таком процессоре, занимает всего треть стойки, имея при этом производительность минимум на порядок превышающую самые производительные GPU. Одна из причин такой разницы — это большой объём быстрой набортной памяти и скорость обмена данными между ядрами.

Тем не менее, теперь далеко не каждая модель способна «поместиться» в один чип WSE, поэтому, по словам генерального директора Cerebras Эндрю Фельдмана (Andrew Feldman), сейчас в фокусе внимания компании — построение эффективных систем, составленных из многих чипов WSE. Скорость роста сложности моделей превышает возможности увеличения вычислительной мощности путём добавления новых ядер и памяти на пластину, поскольку это приводит к чрезмерному удорожанию и так недешёвой системы.

Инженеры компании рассматривают дезагрегацию как единственный способ обеспечить необходимый уровень производительности и масштабируемости. Такой подход подразумевает разделение памяти и вычислительных блоков для того, чтобы иметь возможность масштабировать их независимо друг от друга — параметры модели помещаются в отдельное хранилище, а сама модель может быть разнесена на несколько вычислительных узлов CS, объединённых в кластер.

На Hot Chips 33 компания представила особое хранилище под названием MemoryX, сочетающее DRAM и флеш-память суммарной емкостью 2,4 Пбайт, которое позволяет хранить до 120 трлн параметров. Это, по оценкам компании, делает возможным построение моделей близких по масштабу к человеческому мозгу, обладающему порядка 80 млрд. нейронов и 100 трлн. связей между ними. К слову, флеш-память размером с целую 300-мм пластину разрабатывает ещё и Kioxia.

Для обеспечения масштабирования как на уровне WSE, так и уровне CS-кластера, Cerebras разработала технологию потоковой передачи весовых коэффициентов Weight Streaming. С помощью неё слой активации сверхкрупных моделей (которые скоро станут нормой) может храниться на WSE, а поток параметров поступает извне. Дезагрегация вычислений и хранения параметров устраняет проблемы задержки и узости пропускной способности памяти, с которыми сталкиваются большие кластеры процессоров.

Это открывает широкие возможности независимого масштабирования размера и скорости кластера, позволяя хранить триллионы весов WSE-2 в MemoryX и использовать от 1 до 192 CS-2 без изменения ПО. В традиционных системах по мере добавления в кластер большего количества вычислительных узлов каждый из них вносит всё меньший вклад в решение задачи. Cerebras разработала интерконнект SwarmX, позволяющий подключать до 163 млн вычислительных ядер, сохраняя при этом линейность прироста производительности.

Также, компания уделила внимание разрежённости, то есть исключения части незначимых для конечного результата весов. Исследования показали, что должная оптимизации модели позволяет достичь 10-кратного увеличения производительности при сохранении точности вычислений. В CS-2 доступна технология динамического изменения разрежённости Selectable Sparsity, позволяющая пользователям выбирать необходимый уровень «ужатия» модели для сокращение времени вычислений.

«Крупные сети, такие как GPT-3, уже изменили отрасль машинной обработки естественного языка, сделав возможным то, что раньше было невозможно и представить. Индустрия перешла к моделям с 1 трлн параметров, а мы расширяем эту границу на два порядка, создавая нейронные сети со 120 трлн параметров, сравнимую по масштабу с мозгом» — отметил Фельдман.

Huawei OceanProtect X8000 и X9000 — быстрые, ёмкие и надёжные All-Flash СХД для резервного копирования

Перефразируя старую поговорку: люди делятся на тех, кто ещё не делает бэкапы, на тех, кто уже делает, и на тех, кто делает их правильно. Хотя, казалось бы, с начала пандемии первая категория должна стремительно уменьшаться, это происходит не везде, несмотря на совершенно неприличные для современной IT-индустрии — как по активности злоумышленников, так и по беспомощности жертв — атаки на бизнес любого размера.

Впрочем, даже в тех индустриях, где резервное копирование делать привыкли, есть области с особыми требованиями. Это в первую очередь финансовые институты, энергетика, телекоммуникации, управление производством, ретейл и т.д. Во всех этих областях минута простоя обходится более чем $1 млн, а в случае финансовых учреждений эта цифра достигает почти $6,5 млн.

 Huawei OceanProtect X8000 и X9000

Huawei OceanProtect X8000 и X9000

По оценкам экспертов, отсутствие катастрофоустойчивости, важнейшим элементом которой является именно резервное копирование, в более чем половине случае приводит к банкротству в течение 2-3 лет после первого падения IT-систем. А причин такого падения масса — от природных бедствий и человеческого фактора до неумышленного (сбой оборудования) или умышленного (атака) вмешательства в работу систем.

Вместе с тем в последние годы поменялись и сами данные, и требования к работе с ними. Никого уже не удивляет необходимость поддержки надёжности в семь «девяток», резкий рост объёмов «горячих» и «тёплых» данных и постепенный переход от петабайтных хранилищ к экзабайтным, а также изменение самой сути хранимой и обрабатываемой информации — структурированные данные становятся всё менее заметными на фоне растущих как снежный ком неструктурированных.

Всё это кардинальным образом меняет требования и к «боевым» СХД, и в особенности к системам резервного копирования. Без бэкапа «тёплых» данных кое-где уже не обойтись, но такие СХД должны обладать уникальным набором характеристик: достаточно высокое быстродействие, причём не только на получение, но и на отдачу данных; повышенная надёжность; универсальность, то есть работа и с SAN, и с NAS; масштабируемость по ёмкости и производительности.

Ровно те же требования предъявляются и к основным СХД, однако для задач бэкапа нужно соблюсти ещё два очень важных условия. Во-первых, доступное пространство должно значительно превышать ёмкость резервируемых СХД, чего, не раздувая размеры системы, можно добиться лишь правильным использованием дедупликации и компрессии, которые при этом должны происходить на лету и минимально влиять на производительность. Во-вторых, такая система должны быть выгоднее, чем просто установка дубля основной СХД.

И у Huawei есть именно такое уникальное решение. Весной компания анонсировала новую серию СХД с говорящим названием OceanProtect. Наиболее интересными в ней являются модели X9000 и X8000, относящиеся к высокому и среднему сегменту соответственно. «Хитрость» в том, что основой для них является всё та же современная OceanStor Dorado, которую лишили части некритичных для задач резервного копирования функций и оснастили исключительно SAS SSD.

Технические характеристики Huawei OceanProtect X8000/X9000
Модель X8000 X9000
Узел 2U, 2 контроллера 4U, 4 контроллера
Макс. узлов, шт. 2 2
Макс. SSD, шт. 600 1600
Макс. «сырая» ёмкость, Пбайт 3,4 9,2
Макс. «сырая» ёмкость на узел, Пбайт 1,7 4,6
Ёмкость кеша на узел, Гбайт 1024 2048
Макс. скорость копирования, Тбайт/ч 55 155
Макс. скорость восстановления, Тбайт/ч 33 94
Интерфейсные модули для хостов Fibre Channel: FC8/16/32; Ethernet: 10/25/40/100GbE
Интерфейсные модули для полок SAS 3.0

И, конечно, добавили ряд специфичных для работы с бэкапом оптимизаций. Например, в OceanProtect наряду с RAID-5/6 доступен и фирменный массив RAID-TP, сохраняющий работоспособность при потере до трёх накопителей сразу. Однако в данном случае данные агрегируются в длинные непрерывные блоки в кеше, сливаются воедино и записываются с использованием RoW (redirect-on-write) целыми страйпами.

Такой подход отчасти связан с используемыми в OceanProtect алгоритмами дедупликации и компрессии, которые вместе позволяют достичь коэффициента сжатия вплоть до 55:1. Для этого используется несколько техник. В частности, мета-данные выявляются и отделяются от остальных, подвергаясь только компрессии. Для основных же данных используется динамически подстраиваемая системой дедупликация с сегментами переменной длины. После неё данные снова анализируются и делятся на те, которые хорошо подвергаются компрессии и для которых используются стандартные алгоритмы сжатия, и на те, которые просто так сжать не удастся.

 Контроллер Huawei OceanProtect X9000

Контроллер Huawei OceanProtect X9000

Для последних применяется фирменный алгоритм сжатия, который, к слову, является детищем российского подразделения исследований и разработок компании — Huawei регулярно проводит конкурс по созданию именно таких алгоритмов среди отечественных вузов, так что некоторые наработки попадают в столь заметные продукты. Сжатые данные побайтно выравниваются для компактности и отправляются на запись. Таким образом достигается и эффективное использование дискового пространства, и снижение нагрузки на накопители.

 Контроллер Huawei OceanProtect X8000

Контроллер Huawei OceanProtect X8000

Повышение надёжности СХД достигается несколькими механизмами на различных уровнях. Так, непосредственно внутри SSD из чипов памяти формируются массивы RAID 4. Сами SSD представляются системе не как «монолиты», а в виде групп RAID 2.0+ из блоков фиксированного размера. Это позволяет не только повысить надёжность без потери производительности, но и сбалансировать нагрузку, выровнять износ и значительно сократить время на пересборку массивов.

 Дисковая полка Huawei OceanProtect X8000/X9000

Дисковая полка Huawei OceanProtect X8000/X9000

Для подключения дисковых полок используются 4-портовые (Mini-SAS) интерфейсные модули SAS-3, для контроллеров — 25/100GbE с RDMA, а для хостов — модули FC8/16/32 и 10/25/40/100GbE с RDMA. Ethernet-контроллеры поддерживают разгрузку стека TCP/IP, избавляя CPU от лишней нагрузки. Посадочных мест для модулей достаточно для того, чтобы объединить контроллеры с резервированием подключения без использования внешнего коммутатора. Для SAN доступна поддержка Fibre Channel и iSCSI, а для NAS — NFSv3/4.1, SMB/CIFS 2.0/3.0 и NDMP.

Дисковый бэкенд и IO-фронтенд подключаются к контроллерам по схеме «каждый-с-каждым» с дополнительным резервированием, да и сами контроллеры провязаны между собой по той же схеме. Таким образом формируется полноценная mesh-сеть из всех компонентов и линков. Это даёт всё те же отказоустойчивость, производительность и сбалансированность. Ну и поддержку горячей замены или обновления (что программного, что аппаратного) практически любого из компонентов системы без её остановки.

На программном уровне доступны различные варианты репликации и работы со снапшотами, «умные» квоты и классы обслуживания (по скорости, IOPS и задержке), расширенная система мониторинга, прогнозная аналитика по состоянию системы в целом и отдельных её компонентов, в том числе по производительности и ёмкости. Для задач безопасности доступно шифрование на уровне дисков, безопасное затирание данных по международным стандартам, а также аппаратный RoT, формирующий цепочку доверия для всего ПО.

 Huawei OceanProtect X9000

Huawei OceanProtect X9000

Всё вышесказанное относится к обеим моделям, X8000 и X900. Но различия между ними, конечно, есть. У OceanProtect X9000 в отдельном 4U-шасси находятся четыре контроллера Active-Active, каждый из которых может иметь до четырёх CPU и до 1 Тбайт памяти для кеширования. Система сохраняет работоспособность при выходе из строя трёх из четырёх контроллеров. На шасси приходится 28 интерфейсных модулей и четыре БП, которые являются общими для всех. Можно объединить два шасси, то есть получить восемь контроллеров, связанных между собой 100GbE-подключениями.

 Huawei OceanProtect X8000

Huawei OceanProtect X8000

OceanProtect X8000 объединяет в 2U-шасси два контроллера Active-Active, 25 накопителей SAS-3 и два БП. Каждый контроллер имеет до 2 CPU, до 512 Гбайт памяти для кеширования и шесть интерфейсных модулей. Можно объединить два шасси (четыре контроллера) посредством 25GbE-подключений. Дисковые полки одинаковые для обеих моделей — 2U-шасси на 25 накопителей с четырьмя портами Mini-SAS и двумя БП. Пока что доступны только накопители объёмом 3,84 и 7,68 Тбайт, но в будущем появятся и более ёмкие модели.

В серии OceanProtect есть и СХД попроще. Так, модель A8000 похожа на X8000, но имеет более скромные показатели производительности и предлагает только 10/25GbE-интерфейсы. А линейка Huawei DPA использует уже SATA-накопители и 1/10GbE-подключения. В будущем появится и серия оптических библиотек OceanArchive для «холодных» данных. Таким образом, продукты компании покроют все ключевые задачи в этом сегменте. Huawei ожидает, что рынок СХД для резервного копирования вырастет к 2025 году до $14,7 млрд и рассчитывает «отъесть» от него примерно половину.

Получены первые образцы 1000-ядерного суперкомпьютера-на-чипе Esperanto ET-SoC-1

Рекомендательные системы, активно используемые социальными сетями, рекламными платформами и т.д. имеют специфические особенности. От них требуется высокая скорость отклика, но вместе с тем их ИИ-модели весьма объёмны, порядка 100 Гбайт или более. А для их эффективной работы нужен ещё и довольно большой кеш. Для инференса чаще всего используется либо CPU (много памяти, но относительно низкая скорость) или GPU (высокая скорость, но мало памяти), но они не слишком эффективны для этой задачи.

При этом существуют ещё и физические ограничения со стороны гиперскейлеров: в сервере не так много полноценных PCIe-слотов и свободного места + есть жёсткие ограничения по энергопотреблению и охлаждению (чаще всего воздушному). Всё это было учтено компанией Esperanto, чьей специализацией является разработка чипов на базе архитектуры RISC-V. На днях она получила первые образцы ИИ-ускорителя ET-SoC-1, который она сама называет суперкомпьютером-на-чипе (Supercomputer-on-Chip).

Новинка предназначена для инференса рекомендательных систем, в том числе на периферии, где на первый план выходит экономичность. Компания поставила для себя непростую задачу — весь комплекс ускорителей с памятью и служебной обвязкой должен потреблять не более 120 Вт. Для решения этой задачи пришлось применить немало ухищрений. Самое первое и очевидное — создание относительно небольшого, но универсального чипа, который можно было бы объединять с другими такими же чипами с линейным ростом производительности.

Для достижения высокой степени параллелизма основой такого чипа должны стать небольшие, но энергоэффективные ядра. Именно поэтому выбор пал на 64-бит ядра RISC-V, поскольку они «просты» не только с точки зрения ISA, но и по транзисторному бюджету. Чип ET-SoC-1 сочетает в себе два типа ядер RISC-V: классических «больших» ядер (ET-Maxion) с внеочередным выполнением у него всего 4, зато «малых» ядер (ET-Minion) с поддержкой тензорных и векторных вычислений — целых 1088.

На комплекс ядер ET-Maxion возлагаются задачи общего назначения и в ИИ-вычислениях он напрямую не участвует, зато позволяет быть ET-SoC-1 полностью автономным, так как прямо на нём можно запустить Linux. Помогает ему в этом ещё один служебный RISC-V процессор для периферии. А вот ядра ET-Minion довольно простые: внеочередного исполнения инструкций в них нет, зато есть поддержка SMT2 и целый набор новых инструкций для INT- и FP-операций с векторами и тензорами.

За каждый такт ядро ET-Minion способно выполнять 128 INT8-операций с сохранением INT32-результата, 16 FP32-операций или 32 — FP16. «Длинные» тензорные операции могут непрерывно исполняться в течение 512 циклов (до 64 тыс. операций), при этом целочисленные блоки в это время отключаются для экономии питания. Система кешей устроена несколько непривычным образом. На ядро приходится 4 банка памяти, которые можно использовать как L1-кеш для данных и как быструю универсальную память (scratchpad).

Восемь ядер ET-Minion формируют «квартал» вокруг общего для них кеша инструкций, так как на таких задачах велика вероятность того, что инструкции для всех ядер действительно будут одни и те же. Кроме того, это энергоэффективнее, чем восемь индивидуальных кешей, и позволяет получать и отправлять данные большими блоками, снижая нагрузку на L2-кеш. Восемь «кварталов» формируют «микрорайон» с коммутатором и четырьмя банками SRAM объёмом по 1 Мбайт, которые можно использовать как приватный L2-кеш, как часть общего L3-кеша или как scratchpad.

Посредством mesh-сети «микрорайоны» общаются между собой и с другими блоками: ET-Maxion, восемь двухканальных контроллеров памяти, два root-комплекса PCIe 4.0 x8, аппаратный RoT. Суммарно на чип приходится порядка 160 Мбайт SRAM. Контроллеры оперативной памяти поддерживают модули LPDDR4x-4267 ECC (256 бит, до 137 Гбайт/с). Тактовая частота ET-Minion варьируется в пределах от 500 МГц до 1,5 ГГц, а ET-Maxion — от 500 МГц до 2 ГГц.

В рамках OCP-блока Glacier Point V2 компания объединила на одной плате шесть ET-SoC-1 (всего 6558 ядер RISC-V), снабдив их 192 Гбайт памяти (822 Гбайт/с) — это больше, нежели у NVIDIA A100 (80 Гбайт). Такая связка развивает более 800 Топс, требуя всего 120 Вт. В среднем же она составляет 100 ‒ 200 Топс на один чип с потреблением менее 20 Вт. Это позволяет создать компактный M.2-модуль или же наоборот масштабировать систему далее. Шасси Yosemite v2 может вместить 64 чипа, а стойка — уже 384 чипа.

В тесте MLPerf для рекомендательных систем производительность указанной выше связки из шести чипов в пересчёте на Ватт оказалась в 123 раза выше, чем у Intel Xeon Platinum 8380H (250 Вт), и в два-три раза выше, чем у NVIDIA A10 (150 Вт) и T4 (70 Вт). В «неудобном» для чипа тесте ResNet-50 разница с CPU и ускорителем Habana Goya уже не так велика, а вот с решениями NVIDIA, напротив, более заметна.

При этом о поддержке со стороны ПО разработчики также подумали: чипы Esperanto могут работать с широко распространёнными фреймворками PyTorch, TensorFlow, MXNet и Caffe2, а также принимать готовые ONNX-модели. Есть и SDK для C++, а также драйверы для x86-хостов.

Опытные образцы изготовлены на TSMC по 7-нм техпроцессу. Кристалл площадью 570 мм2 содержит 24 млрд транзисторов. Чип имеет упаковку BGA2494 размерами 45 × 45 мм2. Энергопотребление (а вместе с ним и производительность) настраивается в диапазоне от 10 до 60+ Ватт. Потенциальным заказчикам тестовые чипы станут доступны до конца года. Компания также готова адаптировать ET-SoC-1 под другие техпроцессы и фабрики, но демо на базе OCP-платформы и сравнение с Cooper Lake — это недвусмысленный намёк для Facebook, что Esperanto будет рада видеть её в числе первых клиентов.

IBM представила процессоры Telum: 8 ядер, 5+ ГГц, L2-кеш 256 Мбайт и ИИ-ускоритель

Финансовые организации, системы бронирования и прочие операторы бизнес-критичных задач любят «большие машины» IBM за надёжность. Недаром литера z в названии систем означает Zero Downtime — нулевое время простоя. На конференции Hot Chips 33 компания представила новое поколение z-процессоров, впервые в истории получившее собственное имя Telum (дротик в переводе с латыни). «Оружейное» название выбрано неспроста: в новой архитектуре IBM внедрила и новые, ранее не использовавшиеся в System z решения, предназначенные, в частности, для борьбы с фродом.

 Пластина с кристаллами IBM Telum

Пластина с кристаллами IBM Telum

Одни из ключевых заказчиков IBM — крупные финансовые корпорации и банки — давно ждали встроенных ИИ-средств, поскольку их системы должны обрабатывать тысячи и тысячи транзакций в секунду, и делать это максимально надёжно. Одной из целей при разработке Telum было внедрение инференс-вычислений, происходящих в реальном времени прямо в процессе обработки транзакции и без отсылки каких-либо данных за пределы системы.

Поэтому инференс-ускоритель в Telum соединён напрямую с подсистемой кешей и использует все механизмы защиты процессора и памяти z/Architecture. И сам он тоже несёт ряд характерных для z подходов. Так, управляет работой акселератора отдельная «прошивка» (firmware), которую можно менять для оптимизации задач конкретного клиента. Она выполняется на одном из ядер и собственно ускорителе, который общается с данным ядром, и отвечает за обращения к памяти и кешу, безопасность и целостность данных и управление собственно вычислениями.

Акселератор включает два вида движков. Первый имеет 128 SIMD-блоков для MAC-операций с FP16-данными и нужен для перемножения и свёртки матриц. У второго всего 32 SIMD-блока, но он может работать с FP16/FP32-данными и оптимизирован для функций активации сети и других, более комплексных задач. Дополняет их блок сверхбыстрой памяти (scratchpad) и «умный» IO-движок, ответственный за перемещение и подготовку данных, который умеет переформатировать их на лету.

Scratchpad подключён к блоку, который подкачивает данные из L2-кеша и отправляет обратно результаты вычислений. IBM отдельно подчёркивает, что наличие выделенного ИИ-ускорителя позволяет параллельно использовать и обычные SIMD-блоки в ядрах, явно намекая на AVX-512 VNNI. Впрочем, в Sapphire Rapids теперь тоже есть отдельный AMX-блок в ядре, который однако скромнее по функциональности.

Доступ к ускорителю возможен из пространства пользователя, в том числе в виртуализированном окружении. Для работы с новым ускорителем компания предлагает IBM Deep Learning Compiler, который поможет оптимизировать импортируемые ONNX-модели. Также есть готовая поддержка TensorFlow, IBM Snap ML и целого ряда популярных средств разработки. На процессор приходится один ИИ-ускоритель производительностью более 6 Тфлопс FP16.

На тестовой RNN-модели для защиты от фрода чип может выполнять 116 тыс. инференс-операций с задержкой в пределах 1,1 мс, а для системы из 32 процессоров этот показатель составляет уже 3,6 млн инференс-операций, а латентность при этом возрастает всего лишь до 1,2 мс. Помимо ИИ-акселератора также имеется общий для всех ядер ускоритель (де-)компрессии (gzip) + у каждого ядра есть ещё и движок для CSMP. Ну и ускорители для сортировки и шифрования тоже никуда не делись.

За надёжность отвечают сотни различных механизмов проверки и перепроверки работоспособности. Так, например, регистры и кеш дублируются, позволяя в случае сбоя ядра сделать его полную перезагрузку и продолжить выполнение задач ровно с того места, где оно прервалось. А для оперативной памяти, которая в обязательном порядке шифруется, используется режим Redundant Array of Memory (RAIM), своего рода RAID-массив, где одна кеш-линия «размазывается» сразу между восемью модулями.

Telum, унаследовав многое от своего предшественника z15, всё же кардинально отличается от него. Процессор содержит восемь ядер с поддержкой «умного» глубокого внеочередного исполнения и SMT2, работающих на частоте более 5 ГГц. Каждому ядру полагается 32 Мбайт L2-кеша, так что на его фоне другие современные CPU выглядят блекло. Но не всё так просто.

 IBM Telum

IBM Telum

Между собой кеши общаются посредством двунаправленной кольцевой шины с пропускной способностью более 320 Гбайт/с, формируя таким образом виртуальный L3-кеш объёмом 256 Мбайт и со средней задержкой в 12 нс. Каждый чип Telum может содержать один (SCM) или два (DCM) процессора. А в одном узле может быть до четырёх чипов, то есть до восьми CPU, объединённых по схеме каждый-с-каждым с той же скоростью 320 Гбайт/с.

Таким образом, в рамках узла формируется виртуальный L4-кеш объёмом уже 2 Гбайт. Плоская топология кешей, по данным IBM, обеспечивает новым процессорам меньшую латентность в сравнении с z15. Масштабирование возможно до 32 процессоров, но отдельные узлы связаны несколькими подключениями со скоростью «всего» 45 Гбайт/с в каждую сторону.

В целом, IBM говорит о 40% прироста производительности в сравнении с z15 в пересчёте на сокет. Telum содержит 22 млрд транзисторов и имеет TDP на уровне 400 Вт в нормальном режиме работы. Процессор будет производиться на мощностях Samsung с использованием 7-нм техпроцесса EUV. Он станет основной для мейнфреймов IBM z16 и LinuxNOW. Программной платформой всё так же будут как традиционная z/OS, так и Linux.

Intel представила Xeon Sapphire Rapids: четырёхкристалльная SoC, HBM-память, новые инструкции и ускорители

В рамках Architecture Day компания Intel рассказала о грядущих серверных процессорах Sapphire Rapids, подтвердив большую часть опубликованной ранее информации и дополнив её некоторыми деталями. Intel позиционирует новинки как решение для более широкого круга задач и рабочих нагрузок, чем прежде, включая и популярные ныне микросервисы, контейнеризацию и виртуализацию. Компания обещает, что CPU будут сбалансированы с точки зрения вычислений, работой с памятью и I/O.

Новые процессоры, наконец, получили чиплетную, или тайловую в терминологии Intel, компоновку — в состав SoC входят четыре «ядерных» тайла на техпроцессе Intel 7 (10 нм Enhanced SuperFIN). Каждый тайл объединён с соседом посредством EMIB. Их системные агенты, включающие общий на всех L3-кеш объём до 100+ Мбайт, образуют быструю mesh-сеть с задержкой порядка 4-8 нс в одну сторону. Со стороны процессор будет «казаться» монолитным.

Каждые ядро или поток будут иметь свободный доступ ко всем ресурсам соседних тайлов, включая кеш, память, ускорители и IO-блоки. Потенциально такой подход более выгоден с точки зрения внутреннего обмена данными, чем в случае AMD с общим IO-блоком для всех чиплетов, которых в будущих EPYC будет уже 12. Но как оно будет на самом деле, мы узнаем только в следующем году — выход Sapphire Rapids запланирован на первый квартал 2022-го, а массовое производство будет уже во втором квартале.

Ядра Sapphire Rapids базируются на микроархитектуре Golden Cove, которая стала шире, глубже и «умнее». Она же будет использована в высокопроизводительных ядрах Alder Lake, но в случае серверных процессоров есть некоторые отличия. Например, увеличенный до 2 Мбайт на ядро объём L2-кеша или новый набор инструкций AMX (Advanced Matrix Extension). Последний расширяет ИИ-функциональность CPU и позволяет проводить MAC-операции над матрицами, что характерно для такого рода нагрузок.

Для AMX заведено восемь выделенных 2D-регистров объёмом по 1 Кбайт каждый (шестнадцать 64-байт строк). Отдельный аппаратный блок выполняет MAC-операции над тремя регистрами, причём делаться это может параллельно с исполнением других инструкций в остальной части ядра. Настройкой параметров и содержимого регистров, а также перемещением данных занимается ОС. Пока что в процессорах представлен только MAC-блок, но в будущем могут появиться блоки и для других, более сложных операций.

В пике производительность AMX на INT8 составляет 2048 операций на цикл на ядро, что в восемь раз больше, чем при использовании традиционных инструкций AVX-512 (на двух FMA-портах). На BF16 производительность AMX вдвое ниже, но это всё равно существенный прирост по сравнению с прошлым поколением Xeon — Intel всё так же пытается создать универсальные ядра, которые справлялись бы не только с инференсом, но и с обучением ИИ-моделей. Тем не менее, компания говорит, что возможности AMX в CPU будут дополнять GPU, а не напрямую конкурировать с ними.

К слову, именно Sapphire Rapids должен, наконец, сделать BF16 более массовым, поскольку Cooper Lake, где поддержка этого формата данных впервые появилась в CPU Intel, имеет довольно узкую нишу применения. Из прочих архитектурных обновлений можно отметить поддержку FP16 для AVX-512, инструкции для быстрого сложения (FADD) и более эффективного управления данными в иерархии кешей (CLDEMOTE), целый ряд новых инструкций и прерываний для работы с памятью и TLB для виртуальных машин (ВМ), расширенную телеметрию с микросекундными отсчётами и так далее.

Последние пункты, в целом, нужны для более эффективного и интеллектуального управления ресурсами и QoS для процессов, контейнеров и ВМ — все они так или иначе снижают накладные расходы. Ещё больше ускоряют работу выделенные акселераторы. Пока упомянуты только два. Первый, DSA (Data Streaming Accelerator), ускоряет перемещение и передачу данных как в рамках одного хоста, так и между несколькими хостами. Это полезно при работе с памятью, хранилищем, сетевым трафиком и виртуализацией.

Второй упомянутый ускоритель — это движок QAT (Quick Assist Engine), на который можно возложить операции или сразу цепочки операций (де-)компрессии (до 160 Гбит/с в обе стороны одновременно), хеширования и шифрования (до 400 Гбитс/с) в популярных алгоритмах: AES GCM/XTS, ChaChaPoly, DH, ECC и т.д. Теперь блок QAT стал частью самого процессора, тогда как прежде он был доступен в составе некоторых чипсетов или в виде отдельной карты расширения. Это позволило снизить задержки и увеличить производительность блока.

Кроме того, QAT можно будет задействовать, например, для виртуализации или Intel Accelerator Interfacing Architecture (AiA). AiA — это ещё один новый набор инструкций, предназначенный для более эффективной работы с интегрированными и дискретными ускорителями. AiA помогает с управлением, синхронизацией и сигнализацией, что опять таки позволит снизить часть накладных расходов при взаимодействии с ускорителями из пространства пользователя.

Подсистема памяти включает четыре двухканальных контроллера DDR5, по одному на каждый тайл. Надо полагать, что будут доступные четыре же NUMA-домена. Больше деталей, если не считать упомянутой поддержки следующего поколения Intel Optane PMem 300 (Crow Pass), предоставлено не было. Зато было официально подтверждено наличие моделей с набортной HBM, тоже по одному модулю на тайл. HBM может использоваться как в качестве кеша для DRAM, так и независимо. В некоторых случаях можно будет обойтись вообще без DRAM.

Про PCIe 5.0 и CXL 1.1 (CXL.io, CXL.cache, CXL.memory) добавить нечего, хотя в рамках другого доклада Intel ясно дала понять, что делает ставку на CXL в качестве интерконнекта не только внутри одного узла, но и в перспективе на уровне стойки. Для объединения CPU (бесшовно вплоть до 8S) всё так же будет использоваться шина UPI, но уже второго поколения (16 ГТ/с на линию) — по 24 линии на каждый тайл.

Конкретно для Sapphire Rapids Intel пока не приводит точные данные о росте IPC в сравнении с Ice Lake-SP, ограничиваясь лишь отдельными цифрами в некоторых задачах и областях. Также не был указан и ряд других важных параметров. Однако AMD EPYC Genoa, если верить последним утечкам, даже по чисто количественным характеристикам заметно опережает Sapphire Rapids.


window-new
Soft
Hard
Тренды 🔥
Huawei показала конкурирующую с Nvidia GB200 систему CloudMatrix 384 3 ч.
Новинки Google Pixel предстали на фото в разных цветах до анонса 3 ч.
GPD выпустит портативную консоль на процессорах AMD Ryzen AI MAX, но ей потребуется внешний аккумулятор 5 ч.
Всё лишнее — за борт: Intel выделит NEX в отдельную компанию и подыщет ей инвестора 5 ч.
OCP запустила проект OCS по развитию оптической коммутации в ИИ ЦОД 6 ч.
Honor, Huawei, Vivo и Xiaomi искажают толщину складных смартфонов в рекламе — в реальности они толще 7 ч.
Китайская Lisuan Technology представила видеокарту на собственном GPU, и она тянет Black Myth: Wukong в 4K 7 ч.
В продаже появились чипсы со вкусом 9-вольтовой батарейки — это тот самый вкус, знакомый с детства 7 ч.
Infinix запустила глобальные продажи смартфонов серии Hot 60 по цене от $150 7 ч.
Внеплановая экономика: Китай создаст метаоблако для продажи избыточных вычислительных мощностей 7 ч.