Сегодня 22 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги  →
Быстрый переход

Российская суперкомпьютерная платформа «РСК Торнадо» объединила отечественные «Эльбрусы» и зарубежные x86-процессоры

Группа компаний РСК на конференции «Параллельные вычислительные технологии (ПаВТ) 2022» сообщила о создании суперкомпьютерной платформы «РСК Торнадо», которая позволяет одновременно использовать в одной системе вычислительные узлы на базе зарубежных x86-процессоров и отечественных чипов «Эльбрус».

Возможность использования различных типов микропроцессорных архитектур в одном монтажном шкафу (до 104 серверов в стойке), позволит ускорить темпы импортозамещения в области высокопроизводительных вычислительных систем (HPC), решений для центров обработки данных (ЦОД) и систем хранения данных (СХД). Унифицированная интероперабельная (т.е. обеспечивающая функциональную совместимость разных решений) платформа «РСК Торнадо» предназначена для решения широкого круга задач, в том числе для работы с нагрузками Big Data, HPC и ИИ.

 Суперкомпьютер «Говорун» в ОИЯИ (Фото: Группа компаний РСК)

Суперкомпьютер «Говорун» в ОИЯИ (Фото: Группа компаний РСК)

Разработка и создание вычислительных систем на основе «РСК Торнадо» осуществляется на территории России в рамках соглашения с Министерством промышленности и торговли Российской Федерации с целью реализации подпрограммы «Развитие производства вычислительной техники» в составе государственной программы «Развитие электронной и радиоэлектронной промышленности».

Программный стек «РСК БазИС» для вышеупомянутой платформы тоже разработан в России. В настоящее время система «РСК БазИС» используется для оркестрации вычислительных мощностей Межведомственного суперкомпьютерного центра (МСЦ) РАН, Санкт-Петербургского политехнического университета (СПбПУ) и Объединенного института ядерных исследований (ОИЯИ), сведённых в единую инфраструктуру для оптимизации вычислительных ресурсов.

Микро-ЦОД вместо котельной — Qarnot предложила отапливать дома б/у серверами

«Зелёная» экономика, переход на которую стремится осуществить всё больше стран, требует радикального сокращения вредного воздействия техносферы на окружающую среду. Один из эффективных способов достижения этой задачи связан с включением в полезный оборот побочных продуктов экономической деятельности. В случае дата-центров таким продуктом является тепло.

Великобритания, Дания и другие страны направляют тепло от ЦОД в отопительные системы домов, а Норвегия обогревает им омаровые фермы и планирует обязать дата-центры отдавать «мусорное» тепло на общественные нужды. Французская компания Qarnot решила посмотреть на эту задачу под другим углом, разработав в 2017 г. концепцию электрообогревателя для жилых и офисных помещений на процессорах AMD и Intel.

 Изображение: Qarnot (via DataCenterDynamics)

Изображение: Qarnot (via DataCenterDynamics)

В 2018 г. Qarnot продолжила изыскания и выпустила криптообогреватель QC-1. А недавно она порадовала своих заказчиков следующим поколением отопительных устройств QB, которое создано в сотрудничестве с ITRenew. Новые модули используют OCP-серверы, которые ранее работали в дата-центрах гиперскейлеров. Оснащённые водяным охлаждением, они обогревают помещения пользователей и обеспечивают дополнительные мощности для периферийных облачных вычислений.

Система отводит 96% тепла, производимого кластером серверов, которое попадает в систему циркуляции воды. IT-часть состоит из процессоров AMD EPYC/Ryzen или Intel Xeon E5 в составе OCP-платформ Leopard, Tioga Pass или Capri с показателем PUE, который, по словам разработчиков, стремится к 1,0. При этом вся система практически бесшумная, поскольку вентиляторы отсутствуют.

В компании заявляют, что с февраля уже развёрнуто 12 000 ядер, и планируется довести их число до 100 000 в течении 2022 года. Среди предыдущих заказчиков систем отопления Qarnot числятся жилищные проекты во Франции и Финляндии, а также банк BNP и клиенты, занимающиеся цифровой обработкой изображений.

По словам технического директора Qarnot Клемента Пеллегрини (Clement Pellegrini), QB приносит двойную пользу экологии, используя не только «мусорное» тепло, но и оборудование, которое обычно утилизируется. У ITRenew уже есть очень похожий совместный проект с Blockheating по обогреву теплиц такими же б/у серверами гиперскейлеров.

IBM подала в суд на LzLabs, предлагающую дешёвую облачную альтернативу её мейнфреймам

IBM подала в Окружной суд в Уэйко (штат Техас) на разработчика ПО LzLabs, заявив, что созданная им платформа Software Defined Mainframe (SDM, программно определяемый мейнфрейм) нарушает её патенты. В судебном иске корпорация утверждает, что платформа LzLabs, позволяющая выполнять приложения для мейнфреймов на стандартном оборудовании в облаке, базируется на ПО, основанном на проприетарной технологии IBM.

IBM также обвинила LzLabs в том, что та делает ложные заявления о своих продуктах. Кроме того, в иске сообщается, что люди, стоящие за LzLabs, и раньше нарушали патенты IBM. Среди руководителей LzLabs оказался бывший гендиректор стартапа Neon Enterprise Software, который создал ПО zPrime, предлагающее похожую на SDM функциональность. Более того, компания сама подала в 2009 году иск к IBM, обвиняя последнюю в принуждении заказчиков пользоваться дорогими мейнфреймами. В ответном иске IBM обвинили компания в нарушении патентов, и в 2011 году продукт zPrime прекратил существования.

 Изображение: IBM

Изображение: IBM

По счастливой случайности в том же году появилась швейцарская компания LzLabs. В 2016 году она представила платформу, которая позволяла выполнять традиционные рабочие нагрузки мейнфреймов, написанные на Cobol или PL/1, на стандартных x86-серверах под управлением Linux как локально, так и в облаке. Впоследствии компания добавила поддержку контейнеров. У LzLabs есть успешные проекты — так, Swisscom перенесла на облачный вариант SDM «все критически важные бизнес-приложения» без перекомпилирования.

IBM утверждает, что LzLabs, используя транслятор CPU-инструкций, нарушила два патента на решения, воплощенные в этих инструкциях. Ещё два нарушения связаны с повышением эффективности эмуляции и трансляции. Последний, пятый патент, о нарушении которого сообщила IBM, касается автоматический замены вызываемых приложений на их аналоги для x86-платформ. В своём иске IBM добивается судебного запрета на использование LzLabs интеллектуальной собственности и коммерческих секретов IBM.

У IBM есть собственная платформа для разработки, тестирования, демонстрации и изучения приложений мейнфреймов IBM Z Development and Test Environment (ZD&T) на x86-системах, в том числе облачных. А недавно компания представила сервис Wazi aaS для IBM Cloud. В обоих случаях IBM прямо запрещает использовать эти решения для выполнения любых реальных нагрузок, в особенности критически важных.

Graphcore анонсировала ИИ-ускорители BOW IPU с 3D-упаковкой кристаллов WoW

Разработка специализированных ускорителей для задач и алгоритмов машинного обучения в последние несколько лет чрезвычайно популярна. Ещё в 2020 году британская компания Graphcore объявила о создании нового класса ускорителей, которые она назвала IPU: Intelligence Processing Unit. Их архитектура оказалась очень любопытной.

Основной единицей IPU является не ядро, а «тайл» — область кристалла, содержащая как вычислительную логику, так и некоторое количество быстрой памяти с пропускной способностью в районе 45 Тбайт/с (7,8 Тбайт/с между тайлами). В первой итерации чип Graphcore получил 1216 таких тайлов c 300 Мбайт памяти, а сейчас компания анонсировала следующее поколение своих IPU.

 Изображения: Graphcore

Изображения: Graphcore

Новый чип, получивший название BOW, можно условно отнести к «поколению 2,5». Он использует кристалл второго поколения Colossus Mk2: 892 Мбайт SRAM в 1472 тайлах, способных выполнять одновременно 8832 потока. Этот кристалл по-прежнему производится с использованием 7-нм техпроцесса TSMC, но теперь Graphcore перешла на использование более продвинутой упаковки типа 3D Wafer-on-Wafer (3D WoW).

Новый IPU стал первым в индустрии чипом высокой сложности, использующем новый тип упаковки, причём технология 3D WoW была совместно разработана Graphcore и TSMC с целью оптимизации подсистем питания. Процессоры такой сложности отличаются крайней прожорливостью, а «накормить» их при этом не просто. В итоге обычная упаковка не позволяет добиться от чипа уровня Colossus Mk2 максимальной производительности — слишком велики потери и паразитный нагрев.

Реализована 3D WoW во многом аналогично технологии, применённой AMD в серверных чипах Milan-X. Упрощённо говоря, медные структуры-стержни пронизывают кристалл и позволяют соединить его напрямую с другим кристаллом, причём «склеиваются» они друг с другом благодаря. В случае с BOW роль нижнего кристалла отводится распределителю питания с системой стабилизирующих конденсаторов, который питает верхний кристалл Colossus Mk2. За счёт перехода с плоских структур на объёмные можно как увеличить подводимый ток, так и сделать путь его протекания более короткими.

В итоге компании удалось дополнительно поднять частоту и производительность BOW, не прибегая к переделке основного процессора или переводу его на более тонкий и дорогой техпроцесс. Если у оригинального IPU второго поколения максимальная производительность составляла 250 Тфлопс, то сейчас речь идёт уже о 350 Тфлопс — для системы BOW-2000 с четырьмя чипами заявлено 1,4 Пфлопс совокупной производительности. И это хороший выигрыш, полученный без критических затрат.

С внешним миром IPU общается по-прежнему посредством 10 каналов IPU-Link (320 Гбайт/с). Внутренней памяти в такой системе уже почти 4 Гбайт, причём работает она на скорости 260 Тбайт/с — критически важный параметр для некоторых задач машинного обучения, которые требуют всё большие по объёму наборов данных. Ёмкость набортной памяти далека от предлагаемой NVIDIA и AMD, но выигрыш в скорости даёт детищу Graphcore серьёзное преимущество.

Узлы BOW-2000 совместимы с узлами предыдущей версии. Четыре таких узла (BOW POD16) с управляющим сервером — всё в 5U-шасси — имеют производительность до 5,6 Пфлопс. А полная стойка с 16 узлами BOW-2000 (BOW POD64) даёт уже 22,4 Пфлопс. По словам компании, производительность новой версии возросла на 30–40 %, а прирост энергоэффективности составляет от 10 % до 16 %.

Graphcore говорит о десятикратном превосходстве BOW POD16 над NVIDIA DGX-A100 в полной стоимости владения (TCO). Cтоит BOW POD16 вдвое дешевле DGX-A100. К сожалению, говорить о завоевании рынка машинного обучения Graphcore рано: клиентов у компании уже довольно много, но среди них нет таких гигантов, как Google или Baidu. В долгосрочной перспективе ситуация для Graphcore далеко не безоблачна, но компания уже готовит третье поколение IPU на базе 3-нм техпроцесса.

Intel анонсировала новую версию платформы vPro, в том числе для ChromeOS

Вместе с расширением двенадцатого поколения процессоров Core (Alder Lake) компания Intel представила и новую версию бизнес-платформы vPro, обеспечивающую улучшенные возможности в области удалённого управления и информационной безопасности. Сама платформа vPro насчитывает уже более 15 лет, но сегодня некогда достаточно простой набор технологий разросся до полноценного портфолио, покрывающего потребности бизнес-клиентов в любых масштабах.

 Изображения: Intel

Изображения: Intel

Обновлённое портфолио включает следующие разновидности Intel vPro:

  • Intel vPro Enterprise for Windows — наиболее полная версия, предназначенная для больших предприятий и компаний;
  • Intel vPro Essentials — технологии, ранее доступные только крупному бизнесу, теперь могут использоваться и в малом или среднем. Включает технологию Intel Hardware Shield для защиты систем под управлением Windows;
  • Intel vPro Enterprise for Chrome — нацелена на тех, кто использует в бизнесе большой парк ноутбуков или иных устройств на базе Chrome OS, обладает всеми преимуществами Windows-версии;
  • Intel vPro Evo Design — для мобильных устройств, отвечающих одновременно критериям vPro и Evo Design.

В рамках новой версии vPro, по словам Intel, представлен полный спектр систем и решений, подходящий для любой задачи любой компании любого размера. Помимо всех тех особенностей, что предлагает архитектура Alder Lake (два вида ядер, DDR5 и т.д.), платформа vPro также включает ряд других программных и аппаратных компонентов:

  • Intel Wi-Fi 6E (Gig+) и Intel Connectivity Performance Suite обеспечивают беспроблемную работу в беспроводных сетях нового поколения, также облегчая и процесс подключения или перехода из одного сегмента сети в другой;
  • Поддержка ECC для рабочих станций базового уровня с vPro;
  • Thunderbolt 4 для подключение многофункциональных док-станций без потери производительности, включая мультимониторные конфигурации с разрешением 4К и одновременной зарядкой ноутбука на базе новых чипов Intel.
  • Технология Intel Treat Detection (TDT) — единственный в индустрии аппаратный детектор вирусов-шифровальщиков, работающий эффективнее и быстрее обнаруживающий новые угрозы;
  • Новая система определения угроз с элементами машинного обучения способна лучше определять возможную атаку при аномальном поведении программного обеспечения, и работает она в реальном времени.
  • Архитектурные особенности кремния новых процессоров уже поддерживают следующую волну операционных систем и новые способы виртуализации, одновременно защищая систему от попыток инъекции вредоносного кода.

На момент анонса партнёрами Intel представлено более 150 различных дизайнов вычислительных платформ, во всех форм-факторах. Все они должны быть доступны уже в этом году. Не забыта и сфера IoT, где процессоры Intel двенадцатого поколения в сочетании с vPro обеспечат высокую производительность и удобство удалённого управления. Новинки этого типа отлично впишутся в современную розничную торговлю, образование медицину, производственные и банковские процессы, экосистемы «умных городов» и т.д.

С точки зрения Cisco, одного из крупнейших производителей сетевого оборудования, в новой платформе очень важна поддержка Wi-Fi 6E, не просто обеспечивающая настоящий «гигабит по воздуху», но и позволяющая без проблем подключать больше беспроводных устройств к точкам доступа, большую надёжность, и предсказуемость поведения Wi-Fi в сценариях класса mission critical. Компания считает очень удачным сочетание систем Intel с поддержкой Wi-Fi 6E c новыми точками доступа Cisco Catalyst и Meraki.

Облако ждёт: к 2030 году Fujitsu откажется от мейнфреймов и UNIX-систем

Fujitsu подтвердила, что выпуску её мейнфреймов и серверных систем c Unix подходит конец. Согласно новым планам компании, она прекратит производство и продажу мейнфреймов к 2030 году, а выпуск серверных систем UNIX — к концу 2029 года. Сопровождение обоих продуктов продлится в течение ещё пяти лет и закончится в 2035 году и в 2034 году соответственно. Как надеется компания, к тому времени пользователи подобных систем окончательно перейдут в облако.

 Источник изображения: Fujitsu

Источник изображений: Fujitsu

Тем не менее, Fujitsu по-прежнему планирует выпустить в 2024 году новую модель в серии мейнфреймов GS21. Также планируется обновление семейства UNIX-серверов Fujitsu SPARC M12 в конце этого года и в 2026 году. Впрочем, это пока предварительные планы. Компания уже составила график перехода с мейнфреймов и UNIX-серверов в облако в рамках нового бизнес-бренда Fujitsu Uvance. Теперь у пользователей мейнфреймов Fujitsu есть чётко обозначенный срок, к которому они должны перенести свои приложения на другую платформу или воспользоваться возможностью создать их с нуля в рамках более современной инфраструктуры.

Сомнительной альтернативой может быть уход на платформу IBM z. Филип Доусон (Philip Dawson), вице-президент Gartner Research сообщил The Register, что отказ от UNIX пройдёт менее болезненно, так как рабочие нагрузки могут быть относительно легко перенесены на Linux: «По сути, Linux заменил UNIX. Но такой замены нет для мейнфреймов. Когда аппаратное обеспечение исчезнет, что вы будете делать с приложениями?». Фактически Fujitsu в наследство достались две разные серии мейнфреймов от Amdahl Corporation (GS21) и Siemens (BS2000), если не считать старые решения ICL.

Intel анонсировала процессоры Xeon D-1700 и D-2700: Ice Lake-SP + 100GbE

Концепция периферийных вычислений сравнительно молода и до недавнего времени зачастую её реализации были вынуждены обходиться стандартными процессорами, разработанными для применения в серверах, или даже в обычных ПК и ноутбуках. Intel, достаточно давно имеющая в своём арсенале серию процессоров Xeon D, обновила модельный ряд этих CPU, которые теперь специально предназначены для использования на периферии.

 Изображения: Intel

Изображения: Intel

Анонс выглядит очень своевременно, поскольку по оценкам Intel, к 2025 году более 50% всех данных будет обрабатываться вне традиционных ЦОД. Новые серии процессоров Xeon D-1700 и D-2700 обладают рядом свойств, востребованных именно на периферии — особенно на периферии нового поколения.

Новинки имеют следующие особенности:

  • Интегрированный 100GbE-контроллер (до 8 портов) с поддержкой RDMA iWARP и RoCE v2;
  • Интегрированный коммутатор и обработчик пакетов у Xeon D-2700;
  • До 32 линий PCI Express 4.0;
  • Поддержка Intel QAT, SGX и TME;
  • Поддержка AVX-512, в том числе VNNI/DL Boost;
  • Поддержка технологий TSN/TCC, критичных для систем реального времени.

Последний пункт ранее был реализован в процессорах серий Atom x6000E, Xeon W-1100E и некоторых процессорах Core 11-го поколения. Вкратце это технология, позволяющая координировать вычисления с точностью менее 200 мкс в режиме TCC за счёт точной синхронизации таймингов внутри платформы. И здесь у Xeon D, как у высокоинтегрированной SoC, есть преимущество в реализации подобного класса точности. Помогает этому и наличие специального планировщика для общего кеша L3, позволяющего добиться более консистентного доступа к кешу и памяти.

Это незаменимая возможность для систем, обслуживающих сверхточные промышленные процессы, тем более что Intel предлагает хорошо документированный набор API и средств разработки для извлечения из режима TCC всех возможностей. Важной также выглядит наличие поддержки пакета технологий Intel QuickAssist (QAT) для ускорения задач (де-)шифрования и (де-)компрессии.

Третье поколение QAT, доступное, правда, только в Xeon D-2700, в отличие от второго (и это случай D-1700), связано в новых SoC непосредственно с контроллером Ethernet и встроенным программируемым коммутатором. В частности, поддерживается, и IPSec-шифрование на лету (inline) на полной скорости, и классификация (QoS) трафика. Также реализована поддержка новых алгоритмов, таких, как Chacha20-Poly1305 и SM3/4, имеется собственный движок для публичных ключей, улучшены алгоритмы компрессии.

Но QAT может работать и совместно с CPU (lookaside-разгрузка), а можно и вовсе обойтись без него, воспользовавшись AES-NI. Поддержке безопасности помогает и полноценная поддержка защищённых вычислительных анклавов SGX, существенно ограничивающая векторы атак как со стороны ОС и программного обеспечения, так и со стороны гипервизора виртуальных машин. Это важно, поскольку на периферии уровень угрозы обычно выше, чем в контролируемом окружении в ЦОД, но для использования SGX требуется модификация ПО.

В целом, «ядерная» часть новых Xeon-D — это всё та же архитектура Ice Lake-SP. Так что Intel в очередной раз напомнила про поддержку DL Boost/VNNI для работы с форматами пониженной точности и возможности эффективного выполнения инференс-нагрузок — новинки почти в 2,5 раза превосходят Xeon D-1600. Есть и прочие стандартные для платформы функции вроде PFR или SST. Из важных дополнений можно отметить поддержку Intel Slim BootLoader.

Масштабируемость у новой платформы простирается от 2 до 10 (D-1700) или 20 (D-2700) ядер, а TDP составляет 25–90 и 65–129 Вт соответственно. В зависимости от модели поддерживается работа в расширенном диапазоне температур (до -40 °C). У обоих вариантов упаковка BGA, но с чуть отличными размерами — 45 × 45 мм против 45 × 52,5 мм. На этом различия не заканчиваются. У младших Xeon D-1700 поддержка памяти ограничена тремя каналами DDR4-2933, а вот у D-2700 четыре полноценных канала DDR4-3200.

Однако возможности работы с Optane PMem обе модели лишены, несмотря на то, что контроллер памяти их поддерживать должен. Представитель Intel отметил, что если будет спрос со стороны заказчиков, то возможен выпуск вариантов CPU с поддержкой PMem. Дело в том, что прошлые поколения Xeon-D использовались и для создания СХД, а наличие 100GbE-контроллера с RDMA делает новинки не менее интересными для этого сегмента.

Кроме того, есть и поддержка NTB, да и VROC с VMD вряд ли исчезли. Для подключения периферии у D-2700 доступно 32 линии PCIe 4.0, а у D-1700 — 16. У обоих серий CPU также есть 24 линии HSIO, которые на усмотрение производителя можно использовать для PCIe 3.0, SATA или USB 3.0. Впрочем, пока Intel предлагает использовать всё это разнообразие интерфейсов для подключения ускорителей и различных адаптеров.

Поскольку в качестве одной из основных задач для новых процессоров компания видит их работу в качестве контроллеров программно-определяемых сетей, включая 5G, она разработала для этой цели референсную платформу. В ней предусматривается отдельный модуль COM-HPC с процессором и DIMM-модулями, что позволяет легко модернизировать систему. А базовая плата предусматривает наличие радиотрансиверов, что актуально для сценария vRAN.

Поскольку речь идёт не столько о процессорах, сколько о полноценной платформе, Intel серьезное внимание уделила программной поддержке, причём, в основе лежат решения с открытым программным кодом. Это позволит заказчикам систем на базе новых Xeon D разворачивать новые точки и комплексы периферийных вычислений быстрее и проще. Многие производители серверного аппаратного обеспечения уже готовы представить свои решения на базе Xeon D-1700 и 2700.

«Сингулярность» планетарного масштаба: ИИ-инфраструктура Microsoft включает более 100 тыс. GPU, FPGA и ASIC

Microsoft неожиданно раскрыла подробности использования своей распределённой службы планирования «планетарного масштаба» Singularity, предназначенной для управления ИИ-нагрузками. В докладе компании целью Singularity названа помощь софтверному гиганту в контроле затрат путём обеспечения высокого коэффициента использования оборудования при выполнении задач, связанных с глубоким обучением.

Singularity удаётся добиться этого с помощью нового планировщика, способного обеспечить высокую загрузку ускорителей (в том числе FPGA и ASIC) без роста числа ошибок или снижения производительности. Singularity предлагает прозрачное выделение и эластичное масштабирование выделяемых каждой задаче вычислительных ресурсов. Фактически она играет роль своего рода «умной» прослойки между собственно аппаратным обеспечением и программной платформой для ИИ-нагрузок.

 Изображение: Microsoft

Изображение: Microsoft

Singularity позволяет разделять задачи, поручаемые ресурсам ускорителей. Если необходимо масштабирование, система не просто меняет число задействованных устройств, но и управляет распределением и выделением памяти, что крайне важно для ИИ-нагрузок. Правильное планирование позволяет не простаивать без нужды весьма дорогому «железу», благодаря чему и достигается положительный экономический эффект.

 NVIDIA DGX-2

NVIDIA DGX-2

В докладе также прямо говорится, что у Microsoft есть сотни тысяч GPU и других ИИ-ускорителей. В частности, упоминается, что Singularity используется на платформах NVIDIA DGX-2: два Xeon Platinum 8168 (по 20 ядер каждый), восемь ускорителей V100 с NVSwitch, 692 Гбайт RAM и интерконнект InfiniBand. Таким образом, ИИ-парк компании должен включать десятки тысяч узлов, поэтому эффективное управление им очень важно.

Atos анонсировала экзафлопсные суперкомпьютеры BullSequana XH3000 — гибридные и «зелёные»

Atos представила суперкомпьютерную платформу BullSequana XH3000, которая придёт на смену XH2000 и станет основой для машин экзафлопсного класса, ориентированных на такие требовательные к вычислениям области науки как климатология, фармакология и генетика.

Суперкомпьютер имеет гибридную архитектуру и на данный момент является самым мощным и энергоэффективным решением в арсенале Atos. Что немаловажно, новая система разработана в Европе и будет производиться на заводе Atos в городе Анже ( Франция). Начало коммерческих поставок запланировано на IV квартал 2022 года.

Наиболее интересной особенностью BullSequana XH3000, пожалуй, можно назвать действительно беспрецедентный уровень гибридизации архитектур «под одной крышей». В рамках одного кластера могут быть задействованы вычислительные архитектуры AMD, Intel, NVIDIA и даже чипы, разрабатываемые консорциумом EPI, в том числе SiPearl. А в будущем возможна интеграция квантовых систем. Такая гибкость позволяет компании-разработчику говорить о шестикратном превосходстве новинки над решениями предыдущего поколения.

Кроме того, Atos весьма серьёзное внимание уделяет проблеме энергоэффективности и экологичности. В BullSequana XH3000 используется последнее, четвёртое поколение систем жидкостного охлаждения с «прямым контактом», которое минимум на 50% эффективнее предыдущего поколения. К тому же, вся платформа спроектирована таким образом, чтобы весь её жизненный цикл, от добычи материалов и производства до демонтажа и утилизации, был как можно более «зелёным».

Новый суперкомпьютер изначально спроектирован как масштабируемое решение — будут доступны конфигурации производительностью от 1 Пфлопс до 1 Эфлопс, а к моменту появления ускорителей следующего поколения появятся и варианты с производительностью 10 Экзафлопс. Также разработчики обращают внимание на крайнюю гибкость BullSequana XH3000 по части интерконнекта — она будет совместима с фирменной фабрикой BXI, Ethernet, а также InfiniBand HDR/NDR.

Из-за неисправной IT-системы Horizon были неправомерно осуждены более 700 человек, а некоторые даже получили тюремные сроки

В понедельник, 14 февраля в Лондоне началось публичное расследование по поводу неправомерных приговоров сотням британских почтовых служащих, которые были несправедливо осуждены за кражу, мошенничество или искажение отчётности, хотя истинной причиной оказалась ошибка в IT-системе Horizon, построенной Fujitsu. В период с 2000 по 2014 год пострадало более 700 сотрудников, причём некоторые даже получили тюремные сроки.

Система Horizon разворачивалась в местных отделениях почты с 1999 года. Почтовая служба Великобритании в течение многих лет утверждала, что данные Horizon были надёжными, обвиняя менеджеров филиалов в нечестности, когда система ошибочно отражала недостачу. В апреле прошлого года Апелляционный суд отменил неправомерные приговоры 39 сотрудникам. Однако, как оказалось, это лишь верхушка айсберга. Пострадавших из-за неисправности компьютерной системы гораздо больше.

 Изображение: www.royalmail.com

Изображение: www.royalmail.com

Более того, в ходе расследования выяснилось, что государственная почтовая служба знала о ненадёжности Horizon, однако данные из системы всё равно использовались для обвинения почтмейстеров в составлении ложных отчётов и краже денежных средств. По предварительным оценкам, 706 судебных преследований могли быть основаны на данных неисправной компьютерной системы. К настоящему времени приговоры по уголовным делам 72 почтмейстеров были отменены, а другие апелляции находятся на рассмотрении суда.

В декабре Министерство по делам бизнеса, энергетики и промышленной стратегии Великобритании выделило почтовой службе £1,013 млрд на покрытие расходов, связанных со скандалом. Министерство выплатит компенсацию тем, чьи уголовные судимости были отменены, а также 2500 почтмейстерам, которые не были привлечены к уголовной ответственности, но которых обязали вернуть деньги почтовой службе в связи с тем, что на счетах возглавляемых ими отделений была выявлена недостача.

Глубоководное облако: Subsea Cloud предлагает размещать дата-центры на дне океана

Полку подводных дата-центров прибыло — стартап Subsea Cloud, в отличие от проектов Highlander и Microsoft Natick, предлагает размещать центры обработки данных (ЦОД) не на мелководье в прибрежных водах, а на морском или океанском дне на глубине до 3000 м. Делается это не только для снижения вредных выбросов, поскольку на охлаждение энергию тратить не придётся, но и для безопасности.

Именно физическая безопасность является одним из ключевых достоинств проекта Subsea Cloud, так как на такой глубине дата-центрам не страшны не то что дайверы, но и подводные лодки — абсолютный рекорд до сих принадлежит лодке К-278 «Комсомолец», погрузившейся в 1985 году на глубину чуть больше километра. А специализированных аппаратов, способных работать в таких условиях, единицы и незаметно провести с их помощью атаку вряд ли получится. Поэтому компания ориентирована на предоставление услуг для заказчиков в сфере здравоохранения и финансов, а также для вооружённых сил.

 Источник изображения: Subsea Cloud

Источник изображения: Subsea Cloud

Всех технических деталей Subsea Cloud пока не раскрывает. Например, не сообщается, как будут обслуживаться глубоководные ЦОД и будут ли вообще, хотя компания говорит, что уже испытала прототип новых ЦОД на надёжность и возможность работы на глубине 3 км, а часть оборудования внутри таких дата-центров будет иметь резервирование. Также упомянуто, что дата-центры будут вмещать до 800 серверов, а сами они сделаны из экологичных материалов, так что даже при разгерметизации они не навредят морской природе.

Основателем Subsea Cloud является Макси Рейнольдс (Maxie Reynolds), которая возглавляет техотдел компании Social Engineer LLC, работающей в сфере информационной безопасности. Ранее она занималась подводной робототехникой в Subsea 7 и даже успела побывать каскадёром. Как сообщает Data Centre Dynamics, в команду Subsea Cloud входят четыре специалиста по подводным технологиям, в том числе основатель Energy Subsea. Среди партнёров компании значатся Chevron, Laborde Marine и Oracle.

Дата-центр вместо леса: Microsoft вырубит более 2600 деревьев в Техасе, но потом высадит 833 новых и выплатит $1,5 млн

Городской муниципальный совет Сан-Антонио (Техас, США) выдал корпорации Microsoft разрешение на расчистку территории от деревьев для строительства нового центра обработки данных. Правда, в обмен редмондскому гиганту придётся внести денежный вклад в специальный фонд.

Как передаёт Datacenter Dynamics, речь идёт о вырубке 2642 деревьев на территории приблизительно 13,4 га, расположенной на западе Сан-Антонио. Эти насаждения защищены в соответствии с местным законодательством, поэтому их уничтожение требует особого разрешения. Как сообщается, в ходе принятия решения за выдачу разрешения Microsoft проголосовали восемь членов муниципального совета, против — трое. Таким образом, подтверждено декабрьское решение комиссии по планированию, когда голоса распределились в соотношении 6 к 1.

 Источник изображения: pixabay.com / Lars_Nissen

Источник изображения: pixabay.com / Lars_Nissen

В соответствии с решением, корпорация Microsoft должна внести $1,47 млн в фонд защиты деревьев. Кроме того, компания высадит 833 новых дерева вокруг будущего дата-центра. В соответствии с установленными нормами в ходе вырубки компании должны сохранять минимум 20 % деревьев с диаметром более 60 см и столько же деревьев с диаметром более 15 см. Microsoft же собирается сохранить соответственно 4,5 % и 3 % таких насаждений.

Впрочем, в корпорации заявляют, что те деревья, которые будут высажены, по состоянию здоровья значительно превзойдут существующие, а со временем они образуют и более качественный полог. Всего Microsoft, как сообщалось ранее, планирует потратить $1 млрд на постройку ЦОД в данной местности.

Майк Линч проиграл судебную тяжбу с HP на $5 млрд из-за Autonomy

Стало известно, что компания Hewlett Packard (теперь уже HPE) выиграла многомиллиардный иск против британского предпринимателя Майка Линча (Mike Lynch). Девятимесячный судебный процесс, который обошёлся в £40 млн, был одним из самых продолжительных и дорогостоящих в современной британской истории.

HP приобрела в 2011 году крупнейшую британскую софтверную компанию Autonomy, основанную Линчем, за $11 млрд, т.е. переплатив почти ⅔ от стоимости акций компании на момент сделки. А год спустя HP была вынуждена списать в убытки активы Autonomy в размере $8,8 млрд, отправив до этого инициатора покупки гендиректора Лео Апотекера (Leo Apotheker) в отставку.

HP обвинила Майка Линча в мошенничестве, утверждая, что он и финансовый директор Сушован Хуссейн (Sushovan Hussain) искусственно завышали заявленные доходы Autonomy, показатели роста доходов и валовую прибыль. HP утверждала, что ответчики искажали отчётность с помощью непрофильных продаж, фиктивных транзакций и махинаций с бухгалтерской отчётностью. Иск против Линча и Хуссейна был подан в 2015 году. Хуссейн в 2019 году уже был приговорен в США к 5 годам заключения.

 Источник: Bloomberg Quint

Источник: Bloomberg Quint

Судья Роберт Хилдъярд (Robert Hildyard) зачитал в пятницу решение суда, в котором отметил, что HP «склонили к покупке» Autonomy. Он сообщил, что продажа аппаратного обеспечения «позволила Autonomy покрыть недостающие доходы от продаж ПО», и это пришлось скрыть от рынка, чтобы получить одобрение сделки. «Намерения были нечестными — подсудимые прекрасно знали об этом», — подчеркнул судья. Судья также отметил, что сумма компенсации может быть существенно меньше $5 млрд, указанных в иске HP.

Адвокат Майка Линча, Келвин Николлс (Kelwin Nicholls) из Clifford Chance заявил, что его клиент намерен подать апелляцию, и назвал результаты слушаний «разочаровывающими». Сегодня же министром внутренних дел Великобритании была одобрена экстрадиции Линча в США, где он предстанет перед американским судом по ещё 17 обвинениям. Сейчас Линч совместно с супругой владеет 16 % компании DarkTrace, капитализация которой составляет около $3,6 млрд.

Arm выпустила прототип платы с процессором повышенной безопасности Morello

В современном мире процессоров уже никого не удивляет нахождение очередной уязвимости, а иногда тропинкой для злоумышленника становятся технологии, изначально призванные повысить уровень безопасности. Ряд исследователей небезосновательно считает, что «заплатками» отделаться не получится и надо менять глубинные принципы, лежащие в основе процессорных архитектур.

Один из таких проектов, развиваемый с 2010 года усилиями SRI International и Кембриджского университета — это CHERI. В 2019 к нему присоединилась Arm, недавно представившая первый прототип платы с процессором Morello, который базируется на двух ключевых принципах, заложенных в CHERI — масштабируемая компартментализация и тонко настраиваемая защита содержимого памяти. Оба принципа реализованы аппаратно и сами по себе не новы.

 Изображения: Arm

Изображения: Arm

По сути речь идёт о расширении стандартного набора инструкций, с помощью которого даже написанное с использованием языков, позволяющих относительно легко сделать ошибки при работе с памятью (а это обычно C/C++), ПО можно заставить работать без образования серьёзных дыр в защите. Тщательная компартментализация (т.е. разделение) кода ОС и приложений хотя и не исключает наличие уязвимостей, но серьёзно ограничивает область возможного нанесения вреда.

В частности, любая инструкция типа load/store и любая операция выборки должны быть авторизованы на аппаратном уровне со стороны процессора. Разумеется, это не высокоуровневая защита, а скорее набор базовых блоков для построения таковой. Принцип компартментализации ещё проще: если в классической архитектуре взломщик может получить контроль над всей системой, то в изолированных друг от друга ОС и приложениях, он лишь проникнет в одну из множества небольших «ячекк», а его действия послужат сигналом для защитных механизмов.

 Блок-схема Arm Morello

Блок-схема Arm Morello

Arm Morello — первый чип на базе CHERI. Текущая аппаратная реализация использует модифицированные ядра Neoverse N1 (ARMv8.2) с частотой 2,5 ГГц. Первые платы с новым процессором предназначены таким IT-гигантам как Google и Microsoft, а также заинтересованным партнёрам образовательным учреждениям. На текущий момент разработчики предлагают модифицированное ядро FreeBSD, часть стандартных UNIX-программ, а также некоторые другие приложения. С появлением готовых плат и процессоров процесс адаптации ПО должен значительно ускориться.

Morgan Stanley сэкономил $100 тыс. на утилизации жёстких дисков, а в результате потерял $120 млн

Американский банк Morgan Stanley заключил мировое соглашение и согласился выплатить компенсацию в размере $60 млн для урегулирования коллективного иска, поданного от имени 15 млн клиентов. Согласно иску, из-за ошибочных действий банка, произошли две утечки персональных данных его клиентов. Банк потенциальные утечки признал, разослав клиентам уведомления в июле 2020 года, но виноватым себя не считает.

В первом случае во время вывода из эксплуатации двух центров обработки данных (ЦОД) в 2016 году с жёстких дисков, возможно, не была стёрта вся информация, в том числе данные клиентов, которые попали в руки сторонних организаций. Во втором случае в ходе модернизации оборудования в одном из филиалов был утерян сервер с клиентскими данными, которые могли быть незашифрованными из-за программного бага. Эти данные тоже могли попасть в чужие руки.

 Фото: Pixabay/pastedo

Фото: Pixabay/pastedo

Из-за неспособности вывести должным образом из эксплуатации два ЦОД банк уже был оштрафован Управлением контролёра денежного обращения США (OCC) на $60 млн. Регулятор обвинил банк в том, что тот «не осуществлял надлежащего надзора». Из-за нарушения банк столкнулся с восемью судебными исками, которые были объединены в один коллективный иск. Банк обвинили в «игнорировании отраслевых стандартов» в отношении надлежащей утилизации ИТ-активов (ITAD).

Согласно документам, банк отказался от услуг IBM в пользу «неизвестного и неквалифицированного поставщика» для вывода из эксплуатации своего IT-оборудования в рамках «решений, ориентированных на получение прибыли», чтобы сэкономить $100 тыс. Затем Morgan Stanley заключил контракт с фирмой Triple Crown на демонтаж оборудования и утилизацию. Вместо утилизации Triple Crown продала это оборудование фирме AnythingIT, а банку сообщила, что оборудование утилизировано. В свою очередь, AnythingIT, не удалив данные с жёстких дисков, продала оборудование компании KruseCom.

Как поступила с ним KruseCom неизвестно — оборудование либо было продано ещё кому-то, либо уничтожено. Несмотря на признание того, что часть утерянного оборудования так и не была возвращена, банк продолжает настаивать на том, что клиентам не было причинено никакого вреда. Предварительное соглашение об урегулировании коллективного иска было подано в пятницу вечером в федеральный суд Манхэттена. Соглашение вступит в силу после одобрения окружным судьёй.

Серийное производство Эльбрус-16С и 2С3 начнётся в этом году

Российские процессоры Эльбрус, разрабатываемые компанией МЦСТ, вызывают немало споров вокруг самой архитектуры и доступности изделий на её основе. Но платформа продолжает жить и развиваться, несмотря на все трудности. Для всех процессоров разработан типовой ряд модулей и системных плат, от простых вариантов с одним CPU до высокоплотных четырёхсокетных. Есть решения и для обычных настольных ПК, а также модули для встраиваемых и терминальных систем.

В конце прошлого года на очередной партнёрской конференции МЦСТ были опубликованы новые доклады, в том числе, освещающие изменения в ситуации с доступностью процессоров и решений на их основе. А изменений этих немало. Во-первых, окончательно устаревшими можно признать чипы Эльбрус-8. Им на смену пришла усовершенствованная версия Эльбрус-8СВ. Крупная партия этих чипов в настоящее время уже получена и находится в процессе таможенного оформления. Этот чип, напомним, лишён целого ряда недостатков, присущих Эльбрус-8С.

Однако 28-нм техпроцесс себя исчерпал, и в 2022 году на смену придут 16-нм процессоры Эльбрус-16С, Эльбрус-12С и Эльбрус-2С3. В их основу легла новая, шестая версия VLIW-архитектуры МЦСТ. Она сопровождается отказом от уже устаревшей и медленной схемотехники подсистем ввода-вывода, реализованной в предыдущем поколении Эльбрус на базе моста КПИ-2 и переходом на интегрированный контроллер PCI Express.

Старший 16-ядерный вариант получил 8-канальный контроллер DDR4-3200, что вполне отвечает требованиям современности. Планка максимального объёма оперативной памяти поднята до 16 Тбайт в четырёхпроцессорной системе (4х4 Тбайт). Благодаря новому техпроцессу удалось удержать в приличных рамках теплопакет, выросший с 80 до 110 ватт при вдвое большем количестве ядер.

Современный серверный процессор немыслим без виртуализации, и в новых решениях МЦСТ её аппаратная поддержка реализована в полном объёме, в том числе, для кода x86. Появилась поддержка динамической компиляции, дополнительно оптимизирована работа с невыровненными данными. Но главное, что образцы Эльбрус-16С и 2С3 получены и успешно прошли тесты. Подготовлена вторая ревизия, данные по ней уже переданы контрактному производителю.

Младший Эльбрус-2С3 в дополнение к интегрированному GPU получил продвинутый набор аппаратных кодеков, который включает VP9 и H.264/H.265. Процессор пойти в серию в течение этого года, а рабочие прототипы систем на его базе уже есть. 12-ядерный Эльбрус-12С наиболее интересный, как платформа для рабочих станций разработки ПО для данной архитектуры, пока ждёт второй ревизии, которая должна быть готова в течение первой половины 2022 года.

Не забывает МЦСТ и о корнях — разработке архитектур на базе SPARC. Образцы процессора R2000+ также получены и прошли инженерные тесты. Это чип, ориентированный на сверхэкономичные системы — его теплопакет составляет всего 5 Ватт, но при этом он имеет встроенное графическое ядро с функциями 3D-ускорения.

Что касается приверженности самой архитектуре VLIW, то МЦСТ продолжает настаивать на преимуществах явного параллелизма команд, осознавая, разумеется, необходимость качественного компилятора. Интерес представляет диаграмма применимости архитектуры Эльбрус: она не очень подходит для веб-задач и скриптовых языков, а лучше всего, по мнению разработчиков, раскрывает себя в задачах HPC/Big Data, СУБД и ИИ-системах.

Что касается внедрения, то серверы на базе процессоров Эльбрус активно внедряются в государственных учреждениях: ЦОД для ГИС «Мир» содержит порядка 200 серверов, а МВД России недавно закупило более 400 серверов для автоматизированной системы фиксации нарушений. РЖД внедряет тонкие клиенты на базе Эльбрус, а также использует его в системах автоматики управления стрелочным хозяйством. Силами Ростелеком создано первое облако на базе Эльбрус-8С/СВ.

Но, пожалуй, наибольшего успеха в импортозамещении добились энергетики: удалось разработать и внедрить самый широкий спектр решений на базе Эльбрус, от систем автоматики для подстанций до полноценной АСУ ТП «ПАК МАРС» для компании Россети. В последнем случае Эльбрус используется во всех компонентах, от клиентских рабочих мест до серверов и СХД.

С точки зрения программной экосреды наиболее интересна система двоичной трансляции, позволяющая запускать ПО, разработанное для х86-64, которое затем постепенно можно оптимизировать и переводить в «родной режим». Начаты работы по внедрению механизмов динамической оптимизации на базе LCC и LLVM. Также стоит отметить появление поддержки LLVM 13-ой ветки и бета-версию систем виртуализации на базе KVM + QEMU + libvirt.

МЦСТ заботится о разработчиках: первые 100 экземпляров плат на базе Эльбрус-16С и 2С3 уже разосланы партнёрам для реализации пилотных проектов. Компания готовится сертифицировать дизайн-центры и контрактные производства, а также сообщает о том, что появились первые дистрибьюторы, работающие с продукцией на базе Эльбрус.

Весьма интересны как планы МЦСТ по выпуску новых процессоров на базе VLIW-архитектуры седьмого поколения, так и данные относительно нововведений в этой архитектуре. В планах создание процессора с числом ядер до 64 и с системой команд, включающей крипто- и нейропримитивы, продвинутыми средствами виртуализации и безопасных вычислений, и, что немаловажно, поддержкой прогрессивного универсального стандарта CXL 2.0.

Запланировано использование 6-нм техпроцесса, а также выпуск чипов с меньшим количеством ядер для рабочих станций и ноутбуков. Также рассматривается возможность создания гибридного процессора, сочетающего ядра Эльбрус и RISC-V. Такой чип с учётом поддержки бинарной трансляции сможет претендовать на звание самого универсального ЦП в мире.

Ознакомиться полнее с материалами конференции можно на сайте МЦСТ. В целом, архитектура Эльбрус выглядит живой и развивающейся, решения на базе уже освоенных 8-ядерных процессоров активно внедряются в России, а более новые 12 и 16-ядерные CPU гораздо лучше соответствуют современным требованиям. Что касается Эльбрус-32С, то это амбициозный проект, в котором сочетаются как новейшие технологии (DDR5 и CXL 2.0), так и уникальные архитектурные особенности.

Российский серверный процессор Baikal-S2 получит чиплетную компоновку, 128 ядер Armv9 с частотой 3 ГГц, 8 каналов DDR5, 192 линии PCIe 5.0 и CXL 2.0

На ежегодной итоговой конференции Байкал Электроникс состоялся анонс 128-ядерных серверных Arm-процессоров второго поколения Baikal-S2, были показаны результаты тестов 48-ядерных Baikal-S, анонсированы первые же российские серверы и СХД на их основе, а также было объявлено о заключении стратегических сделок и планах на будущее.

Если говорить о сделках, то можно смело сказать, что рамками только Arm Байкал себя уже не ограничивает: получение доли в CloudBEAR означает и получение основы для разработки собственных чипов с архитектурой RISC-V, и первым же проектом станет создание сертифицированной системы доверенной загрузки для процессоров Baikal-L и Baikal-S2. Но среди равноправных партнёров значатся не только российские разработчики — заключена сделка с Esperanto Technologies.

 Тестовая плата с процессором Baikal-S (Изображения: Байкал Электроникс)

Тестовая плата с процессором Baikal-S (Изображения: Байкал Электроникс)

Данная сделка позволит получить доступ к весьма серьёзным разработкам: напомним, Esperanto создала ET-SoC-1, мощнейший ИИ-ускоритель с более чем тысячью ядер RISC-V в составе. Связка из четырёх таких чипов развивает более 800 Топс в задачах инференса, потребляя всего 120 Вт. Надо ли говорить, насколько это важно в эпоху нейросетей, машинного обучения и разнообразных сопроцессоров-ускорителей.

Несмотря на то, что Baikal-S «старичком» назвать никак нельзя, компания анонсировала уже второе поколение чипов — Baikal-S2 базируется на новейшей архитектуре Neoverse-N2 (ARMv9). Процессор будет выполнен по 6-нм техпроцессу с использованием чиплетной компоновки и получит 128 ядер с частотой порядка 3 ГГц, 8 каналов DDR5 (возможно, будет и больше), 192 линии PCIe 5.0, поддержку CXL 2.0 и CCIX 2.0. Ожидается, что он станет аналогом AMD EPYC Milan. Разработку планируется закончить к 2025 году.

Что касается текущего поколения Baikal-S, то осенью этого года была получена первая партия чипов, а также было анонсировано несколько решений на его основе. Как теперь отрапортовали разработчики, первые чипы оказались очень удачными во всех отношениях, так что больших препятствий на пути их внедрения быть не должно. На конференции были представлены одно- и двухсокетные серверы и СХД от российских компаний 3Logic, Aquarius, ICL, iRU, Норси-Транс. Впоследствии появятся и четырёхпроцессорные системы.

Напомним, что Baikal-S содержит в своём составе 48 ядер Arm Cortex-A75 с частотой до 2,5 ГГц и имеет TDP 120 Вт. Шестиканальный контроллер памяти поддерживает до 768 Гбайт DDR4-3200. Современно выглядит и поддержка PCI Express 4.0 (80 линий), и наличие выделенного управляющего ядра для организации доверенных вычислений, и аппаратная виртуализация.

В синтетических тестах новинка показала результаты, сравнимые с Intel Xeon Gold 6148 или AMD EPYC 7351, а своему китайскому «коллеге» в лице HiSilicon Kunpeng 920 процессор уступил лишь в некоторых тестах. Разработчики уверены, что процессор получился универсальным и его можно использовать практически везде: в серверах любых профилей, СХД, суперкомпьютерах, устройствах сетевой безопасности и даже в базовых станциях 5G. Результаты тестов также доступны и на сайте Geekbench.

Ожидается, что SDK для новой платформы будет доступен уже в конце февраля следующего года. Весной появятся двухпроцессорные платы и первые 20 серверов попадут в центры тестирования, а к середине лета 200 с лишним серверов примут своё участие в пилотных проектах. Старт серийного производства CPU намечен на октябрь-ноябрь 2022 года — речь идёт примерно о 10 тыс. процессоров. В 2023 году этот объём будет утроен и при необходимости увеличен.

Таким образом, Байкал Электроникс доказала, что может создавать достойные серверные решения, не уступающие зарубежным, причём, как на базе x86-64, так и на базе Arm. Уже сейчас процессоры Baikal-S могут стать основой для производительных серверов российской разработки, а сделка с Esperanto сделает российские HPC-системы и комплексы машинного обучения по-настоящему мощными.

Российская компания Syntacore вошла в состав правления RISC-V International

RISC-V International сообщила о том, что российская компания Syntacore, подконтрольная российской же компании YADRO, получила статус премиального участника названной организации. При этом сооснователь и исполнительный директор Syntacore Александр Редькин вошёл состав правления RISC-V International.

Syntacore является отечественным разработчиком микропроцессорных ядер и специализированных инструментов на архитектуре RISC-V. Компания входит в число основателей открытого международного консорциума RISC-V. Его цель заключается в разработке и продвижение одноимённой открытой архитектуры.

 Изображение: Syntacore

Изображение: Syntacore

«Сегодняшний анонс ещё сильнее укрепляет наше лидирующее положение на рынке интеллектуальной собственности RISC-V в новом году и дальше. Вся наша интеллектуальная собственность полностью совместима с последней версией спецификации RISC-V», — отметил господин Редькин.

Компания Syntacore является одним из лидеров экосистемы RISC-V и лицензирует микропроцессорные технологии собственной разработки на базе данной архитектуры клиентам в России и за рубежом. Продукты на основе процессорных технологий компании разрабатываются по нормам от 180 до 7 нм.

Китайская Enflame выпустила новый ИИ-ускоритель Cloudblazer Yunsui i20

Компания Enflame, которая летом этого года представляла ускорители на базе второго поколения своих ИИ-чипов DTU, выпустила новый инференс-ускоритель Cloudblazer Yunsui i20 с чипом Suixi 2.5. Он изготовлен по 12-нм FinFET-техпроцессу GlobalFoundries и имеет обновлённую высокопроизводительную архитектуру вычислительных ядер GCU-CARE 2.0, благодаря чему, по словам создателей, удалось достичь эффективности, сопоставимой с массовыми 7-нм GPU.

В числе ключевых особенностей новинки компания отмечает возросшую вычислительную мощность, возможность исполнения тензорных, векторных и скалярных вычислений, API для C++ и Python, а также поддержку основных фреймворков и форматов моделей (TensorFlow, PyTorch, ONNX). Комплектное ПО предоставляет гибкие возможности для миграции с поддержкой технологий виртуализации, а также многопользовательских и многозадачных окружений с безопасной изоляцией процессов.

Yunsui i20 обладает 16 Гбайт памяти HBM2e с пропускной способностью до 819 Гбайт/c. Новинка поддерживает работу со всеми ключевыми форматами и предоставляет универсальную инференс-платформу, в том числе для облаков. Пиковая вычислительная FP32-производительность достигает 32 Тфлопс, TF32 (не уточняется, идёт ли речь о совместимости с NVIDIA) — 128 Тфлопс, FP16/BF16 — 128 Тфлопс, а INT8 достигает 256 Топс. По сравнению с первым поколением продуктов, Yunsui i20 увеличил FP-производительность в 1,8 раза, а INT-вычислений — в 3,6 раза.

Для сравнения — у PCIe-версии NVIDIA A100 производительность в расчётах FP32, TF32, FP16/BF16 и INT8 составляет 19,5, 156, 312 и 624 Тфлопс (Топс для INT), а объём и пропускная способность памяти равны 40/80 Гбайт и 1555/1935 Гбайт/с соответственно. У AMD MI100 объём HBM2-памяти равен 32 Гбайт (1,23 Тбайт/с), а производительность FP32, FP16 и BF16 равна 46,1, 184,6 и 92,3 Тфлопс соответственно. Все три ускорителя имеют интерфейс PCIe 4.0.

Значительный вклад в повышение производительности принесла оптимизация фирменного программного стека TopsRider, благодаря которой снизилась нагрузка на подсистему памяти. В результате средняя производительность исполнения моделей увеличилась в 3,5 раза, а эффективность использование вычислительной мощности — в среднем в 2 раза. Кроме того, новая модель программирования и технологии автоматизации позволяют ускорить эффективность разработки и снизить стоимость миграции моделей. В компании убеждены, что всё это сделает Yunsui i20 более конкурентноспособным решением.

Благодаря технологии виртуализации, Yunsui i20 можно разделить на 6 независимых, изолированных друг от друга доменов — такое ранее предлагала только NVIDIA. Вместе с другими продуктами, которые также полностью переведены на новое поколение ИИ-ускорителей, Enflame рассчитывает получить значимую долю рынка в таких инновационных секторах как умные города и цифровое правительство, а также в традиционных отраслях вроде финансов, транспорта и энергетики, где будут востребованы более совершенные решения на основе ИИ.

Несмотря на очевидные успехи, достигнутые командой Enflame и другими китайскими разработчиками — SoC от YITU Technology для глубокого обучения, IoT-чип Horizon Robotics Sunrise 2 с интегрированными ИИ-возможностями, Hanguang 800 от T-Head Semiconductor («дочка» Alibaba), серии Huawei Ascend и других — иностранные производители ИИ-чипов, по данным People's Daily, по-прежнему доминируют на китайском рынке с долей более 80%.

Восемь операторов нелегального ЦОД в бывшем бункере НАТО получили сроки

В Германии осудили восемь человек, участвовавших в работе дата-центра, использовавшегося для ведения нелегальной деятельности — от торговли наркотиками до сбыта порнографии. ЦОД располагался в бывшем бункере НАТО в городе Трабен-Трарбах — до продажи здесь работали серверы, принадлежавшие военным ведомствам.

Построенный в 1970-е западногерманскими военными бункер после объединения Германии использовался, в частности, Бундесвером, а затем был продан и с 2013 года принадлежал Герману-Йохану Ксеннту (Herman-Johan Xennt), заявившему при покупке, что будет использовать помещения для создания «гражданского» дата-центра.

 Источник: conner/pixabay.com

Источник: conner/pixabay.com

Считается, что оператором германского ЦОД выступал нелегальный хостинг-провайдер CyberBunker, ранее уже предоставлявший мощности для преступной деятельности, которые располагались в другом бывшем бункере НАТО на территории Нидерландов. «Соинвестором» предположительно стал Джордж «Пингвин» Митчелл (George 'The Penguin' Mitchell), некогда один из самых успешных ирландских импортёров наркотиков. Ксеннт также сдавал часть помещений в голландском дата-центра нарколаборатории, где в 2002 году произошёл пожар.

Хотя Ксеннту на тот момент не предъявили обвинений, его бизнес-лицензия была аннулирована и фактически его деятельность полностью перешла на нелегальное положение. История CyberBunker чрезвычайно заинтересовала прокуроров. К 2015 году к расследованию привлекли германское подразделение, занимающееся борьбой с киберпреступностью. Позже в том же году правоохранительные органы подключились к кабелям связи, ведущим из бункера.

В незашифрованных потоках информации были обнаружены сведения о торговле наркотиками, мошеннических действиях и прочих преступлениях. Как сообщает Data Centre Dynamics, в этом дата-центре нашли пристанище всевозможные нелегальные сервисы различного назначения, включая Cannabis Road, Fraudsters, Flugsvamp, Flight Vamp 2.0, orangechemicals и второй по величине в мире «наркомаркетплейс» Wall Street Market.

 Источник: reportyorym/pixabay.com

Источник: reportyorym/pixabay.com

Чтобы получить больше прямых доказательств, правоохранительные органы оплатили криптовалютой хостинг в CyberBunker и создали веб-сайт, похожий на площадку для проведения мошеннической лотереи, недвусмысленно давая понять владельцам дата-центра, что намерены заниматься незаконной деятельностью.

В сентябре 2019 года, собрав достаточно информации из различных источников, бункер штурмовали более 600 полицейских — они знали, что все сотрудники будут вне помещений, поскольку один из них праздновал получение наследства. Были изъяты 403 сервера, 412 жёстких дисков, 65 USB-накопителей, 61 компьютер (включая ноутбуки), а также 57 смартфонов и около €100 тыс. наличными.

Подозреваемых обвинили в создании и участии в преступном сообществе, при этом не удалось доказать их соучастие в совершении порядка 250 тыс. фактов нарушения закона, предположительно совершённых с помощью сайтов, которые размещались на серверах в бункере. В результате судебного разбирательства Ксеннт приговорён к пяти годам и девяти месяцам лишения свободы, семеро других фигурантов уголовного дела — к различным срокам, от четырёх лет и трёх месяцев в тюрьме до года условно.

СХД Huawei OceanStor Dorado V6: для тех, кто превыше всего ценит надёжность и скорость

Комплексные программно-аппаратные решения одного производителя практически всегда превосходят похожие по параметрам, но более разнородные системы. Высокая степень интеграции и продуманная многоуровневая оптимизация всех компонентов не только позволяют добиться более высоких технических показателей, но и существенно упрощают и удешевляют внедрение и поддержку такого оборудования. Компанию Huawei можно назвать лидером в области таких решений, и особенно ярко это проявилось в шестом поколении СХД OceanStor Dorado.

Их Huawei позиционирует как СХД высшего класса, обладающие не только высочайшей производительностью, но и надёжностью класса минимум «шесть девяток», то есть 99,9999%. Достаточно привести лишь один факт: Dorado 18000 V6 остаётся работоспособной при выходе семи контроллеров из восьми в каждой стойке, а также легко переживает одновременный выход из строя трёх накопителей в массиве. Для сравнения, классический RAID6 может пережить потерю лишь двух накопителей в массиве.

По результатам тестирования, проведённого Storage Performance Council в октябре 2020 года, СХД Huawei OceanStor Dorado 18000 V6 признана быстрейшим в мире флеш-хранилищем. На случайных операциях данное решение способно развивать 21 млн IOPS. Не удивительно, что разработками Huawei заинтересовались крупные финансовые организации, нуждающиеся не просто в надёжных, но и быстрых системах хранения данных. Уже 8 из 20 крупнейших мировых банков пользуются системами OceanStor Dorado и этот «клуб» будет только расти. Компания разместила на своём сайте подробный вебинар, посвящённый особенностям шестого поколения СХД OceanStor Dorado.

 OceanStor Dorado 18000 V6

Высочайший уровень производительности OceanStor Dorado 18000 V6 обуславливается монолитностью и отлаженностью платформы, которая целиком построена на высокинтегрированных между собой собственных разработках Huawei в области процессоров, ускорителей и сетевых контроллеров. «Умные технологии» в шестом поколении Dorado начинаются уже на уровне отдельного накопителя.

 Платформа Dorado V6 целиком базируется на собственных разработках Huawei

Платформа Dorado V6 целиком базируется на собственных разработках Huawei

Такие SSD сами следят за износом фонда ячеек NAND, используют продвинутые методы коррекции ошибок LDPC и SmartFSP 3.0 и обеспечивают базовый уровень надёжности, поскольку контроллер Hi1812e работает с NAND как с динамическим RAID-массивом. Такие накопители на 20% долговечнее обычных и на 50% отзывчивее в плане задержек.

В качестве основного процессора используется Kunpeng 920, 48-ядерный чип с архитектурой ARMv8.2, имеющий набор движков-ускорителей и собственные контроллеры SAS 3.0 и 100GbE (с RoCE, конечно). Четыре таких процессора умещаются в 1U-шасси. Им может помогать устанавливаемый дополнительно ИИ-ускоритель Ascend 310, отвечающий за обслуживание массива NVMe-накопителей и оптимизацию дисковых кешей.

 Унифицированная симметричная архитектура обеспечивает предсказуемый и постоянный уровень производительности

Унифицированная симметричная архитектура обеспечивает предсказуемый и постоянный уровень производительности

За сеть отвечает чип ASIC Hi1822, который полностью совместим с RoCE и NVMe-oF. Адаптеры на базе этого чипа могут иметь различную конфигурацию портов — от двух 25GbE SFP28 до двух 100GbE QSFP28 — и обеспечивают латентность всего лишь 80 мкс против 160 мкс у конкурентов. В дисковых полках Dorado 18000 V6 таких адаптеров несколько, заменять их можно без остановки системы.

Даже контроллер управления (BMC) у СХД Huawei свой, Hi1710. Высокая интеграция всех программмно-аппаратных компонентов системы (а кто ещё может лучше знать, как задействовать весь потенциал «железа», кроме самих разработчиков) обеспечивает не только высокую производительность и надёжность, но и быстрое восстановление системы при сбоях — десятки минут для OceanStor Dorado V6 против нескольких часов у обычных СХД.

 Распределённая архитектура OceanStor Dorado V6

Распределённая архитектура OceanStor Dorado V6

Архитектурно OceanStor Dorado 18000 V6 представляет собой симметричную распределённую меш-сеть, в которой на уровне стоек контроллеров все компоненты соединены со всеми, что и обеспечивает беспрецедентный уровень надёжности. Компания называет эту технологию SmartMatrix. С «умными» дисковыми полками бэкенды контроллеров общаются посредством NVMe-oF, а с внешней сетью — либо через NVMe-oF/RoCE (100 Гбит/с на порт), либо через NVMe-oF/FC 32G.

 У Dorado V6 нет привилегированных контроллеров, что упрощает балансировку нагрузки

У Dorado V6 нет привилегированных контроллеров, что упрощает балансировку нагрузки

Huawei вполне справедливо считает, что за сочетанием NVMe-oF и RoCE лежит будущее высокопроизводительных систем хранения данных. Данные технологии к настоящему моменту хорошо проработаны и полностью описываются стандартами, которые обеспечивают гибкость и взаимозаменяемость элементов инфраструктуры. Некоторые производители всё ещё поддерживают SAS, но время старых дисковых стандартов уходит.

 Технология Huawei FLASHLINK отвечает за распределение вычислительных ресурсов

Технология Huawei FLASHLINK отвечает за распределение вычислительных ресурсов

Симметрия архитектуры СХД данной серии выражена в том числе и в том, что все логические тома (LUN) не привязаны к главному контроллеру (ownership), вместо этого они «нарезаются» системой на сегменты (shards в терминологии Huawei), которые равномерно распределяются по всем активным в системе в настоящий момент контроллерам. Сами контроллеры работают с едиными пулами кеша и SSD, из которого и черпают необходимые ресурсы.

За распределение обработки сегментов по процессорным ядрам отвечает фирменная технология FLASHLINK, которая работает в динамическом режиме: высокоприоритетные задачи получают больше ядер из выделенной группы. При этом каждое ядро выполняет IO-запросы только своей назначенной задачи, чтобы избежать конфликтов.

 Глубокая интеграция ускорителей экономит процессорное время и ускоряет перестройку массивов

Глубокая интеграция ускорителей экономит процессорное время и ускоряет перестройку массивов

Дисковые полки Dorado V6 имеют свой «интеллект» и не загружают CPU контроллеров низкоуровневыми задачами, а это позволяет, по словам разработчиков, повысить производительность СХД на 30% по сравнению с классическими архитектурами с «глупыми» полками. Этот же подход существенно ускоряет процесс восстановления данных — Huawei говорит о двукратном превосходстве в скорости, при этом влияние этого процесса на производительность СХД минимально и не превышает 5% против десятков процентов у СХД классической архитектуры.

Более того, архитектура Dorado V6 такова, что производительность дисковых массивов в ней не зависит от типа используемого RAID и всегда одинаково высока как в простом режиме RAID10, так и в куда более сложных в плане нагрузки на контроллеры режимах RAID-6 или RAID-TP.

 Модельный ряд и позиционирование СХД Huawei OceanStor Dorado

Модельный ряд и позиционирование СХД Huawei OceanStor Dorado

Что касается более высокоуровневых программных компонентов, то в серии Dorado V6 все сложные процессы, от драйвера NVMe и управления пулом ресурсов до клиентских дополнений выполняются в пространстве пользователя (user space), что позволяет избежать лишних задержек, так как обращений в пространство ядра практически нет.

 За NVMe и RDMA over Converged Ethernet — будущее

За NVMe и RDMA over Converged Ethernet — будущее

В настоящее время Huawei предлагает заказчикам СХД нового поколения в двух вариациях: Dorado 8000 V6 и Dorado 18000 V6. Отличаются они только количеством модулей в максимальной комплектации (ну и габаритами, массой, количеством ядер в процессорах контроллера). 18000 V6 поддерживает до 32 контроллеров и до 32 Тбайт пула кеширования. Оба варианта могут работать с фронтендами 10/25/40/100GbE RoCE или FC-8/16/32G, поддерживая протоколы FC, iSCSI, NFS и CIFS.

Каждый блок контроллеров может иметь до 28 IO-модулей и до 96 сетевых портов. Максимальное количество SSD в системе также одинаково и составляет 6400. Они могут работать в разных режимах RAID, включая фирменный RAID-TP, способный вынести одновременный отказ трёх накопителей. Максимальный объём флеш-хранилища составляет 98,3 Пбайт для модели Dorado 8000 V6, а у Dorado 18000 V6 он достигает 196,6 Пбайт.

Поскольку речь идёт о комплексных системах, способных обеспечить доступностью класса «шесть девяток» (99,9999%) и производительность на уровне свыше 20 млн IOPS при непревзойдённом уровне надёжности, стоимость конечной реализации вырабатывается в процессе проработки сертифицированными партнёрами Huawei проекта, создаваемого под нужды конкретного заказчика. Ознакомиться с OceanStor Dorado 8000/18000 V6 можно на сайте Huawei, там же можно найти подходящего партнёра для разработки законченного решения с учётом нужд заказчика.

Аквариус T50 D224CF: надёжный и масштабируемый сервер для любых задач

Компания «Аквариус» работает на российском рынке с 1989 года, постоянно расширяя ассортимент производимой продукции. При этом она практически не использует оборудование ОЕМ-поставщиков, 94% из всего модельного ряда устройств «Аквариус» составляют системы собственной разработки. В этом году компания сообщила о разработке двадцати новых моделей серверов и преодолела рубеж в 250 тысяч произведенных серверных устройств. Юбилейной стала флагманская модель — Aquarius T50 D224CF.

Это сервер форм-фактора 2U, располагающий серьёзными возможностями: новая модель разработана с прицелом на максимальную гибкость конфигурирования и расширения, поэтому она одинаково хорошо подойдёт как для развёртывания среды виртуализации или работы с объемными базами данных, так и для создания современной высокопроизводительной системы хранения данных.

Базируется Аквариус T50 D224CF на хорошо известной и доказавшей свою надёжность платформе Intel® Xeon® Scalable (LGA 3647). Системная плата на базе чипсета Intel® C624 предусматривает установку процессоров Xeon® Scalable с этим разъёмом как первого (Skylake-SP), так и второго (Cascade Lake-SP/Refresh) поколения с теплопакетом вплоть до 205 Вт включительно. 24 слота для модулей памяти позволяют установить до 3 Тбайт оперативной памяти стандарта DDR4, а с использованием модулей Optane DCPMM этот показатель можно довести и до 6 Тбайт.

Но по-настоящему интересной данную модель делает её гибкость в конфигурировании. Во-первых, она имеет 24 дисковых корзины формата 2,5″ с поддержкой SAS-3/SATA-3 и NVMe (до 16 накопителей) и опционально может оснащаться ещё 4 такими отсеками на тыльной стороне (но уже без NVMe). А поддержка одновременной работы 16 NVMe SSD делает Aquarius T50 D224CF отличной платформой для создания высокопроизводительной СХД.

Во-вторых, новый сервер Аквариус может поставляться в двух конфигурациях в зависимости от адаптеров расширения:

  • «конфигурация А» предусматривает наличие четырёх слотов для полноразмерных PCIe плат (2х16 + 2х8 линий PCIe 3.0), двух слотов для плат половинной высоты (по 8 линий PCIe 3.0) и одного слота для низкопрофильных плат расширения (4 линии);
  • «Конфигурация Б» (для установки мощных GPU) имеет два полноразмерных слота двойной высоты и два слота половинной длины, причём все четыре слота используют по 16 линий PCIe 3.0. Дополнительно есть два слота для мезонинных плат OCP 2.0 и, как и в конфигурации А, имеется низкопрофильный слот PCIe 3.0 x4.

Оба варианта прекрасно работают с любыми картами расширения, включая ускорители, периферийные и сетевые адаптеры стандартов Ethernet, InfiniBand 10/40/100 Гбит/с, а также Fibre Channel. Сервер имеет развитую систему мониторинга и удалённого управления на основе популярного контроллера ASPEED AST2500, поддерживающего стандарты IPMI 2.0 и Redfish 1.1. Контроллер имеет свой выделенный порт 1GbE.

 Стапельная сборка сервера на производственном комплексе «Аквариус», город Шуя, Ивановская область

Стапельная сборка сервера на производственном комплексе «Аквариус», город Шуя, Ивановская область

Максимальная конфигурация сервера требует наличие высокоэффективной системы охлаждения, которая в данной модели состоит из 6-ти вентиляторов с ШИМ-управлением, имеющих вибропоглощающие крепления и поддерживающих горячую замену. Дополнительную отказоустойчивость системы охлаждения обеспечивает индикатор отказа. Заменять в горячем режиме можно и ряд других компонентов сервера, за исключением процессоров, что позволяет в случае неисправности сократить время простоя до минимума.

За питание отвечает пара (1+1) блоков, которые, в зависимости от конфигурации, могут иметь мощность от 800 до 2000 Ватт. Базовый вариант предполагает питание от стандартной сети, опционально «Аквариус» предлагает питание от сети постоянного тока 48 В, либо высоковольтной сети 380 В. Также доступен встроенный источник бесперебойного питания.

Гибкость и масштабируемость данного сервера делают его поистине универсальным решением: Аквариус T50 D224CF может применяться в облачных системах, кластерах HPC, комплексах виртуализации (в том числе для виртуальных рабочих мест, VDI), системах машинного обучения или как сервер веб-приложений. Он может стать частью комплекса ИИ, основой СХД или мощной сетевой инфраструктуры.

Компания-производитель гарантирует совместимость с широчайшим спектром операционных систем и программного обеспечения. В частности, модель сертифицирована для работы с ПО VMware, RedHat, SUSE, Microsoft Windows Server, а также протестирована на совместимость работы с ускорителями вычислений NVIDIA и российскими средствами защиты информации «Соболь» и «Аккорд». Более того, сервер может комплектоваться двумя микросхемами BIOS, предоставляя заказчику возможность переключаться между AMI BIOS и отечественной разработкой NUMA BIOS.

Аквариус T50 D224CF — это современный, высокопроизводительный сервер, который отличается гибкостью конфигурирования и широкоми возможностями расшириения системы. Именно гибкость и масштабируемость делают его действительно универсальной системой для поддержки самого широкого спектра нагрузок и формирования различных IT-систем.

Стоимость нового сервера варьируется в зависимости от конфигурации, цена базового варианта стартует от 400 000 рублей. При необходимости можно получить более точную информацию на сайте компании-производителя, либо по телефону +7 (495) 729-51-50.

ИИ-ускорители AWS Trainium: 55 млрд транзисторов, 3 ГГц, 512 Гбайт HBM и 840 Тфлопс в FP32

GPU давно применяются для ускорений вычислений и в последние годы обросли поддержкой специфических форматов данных, характерных для алгоритмов машинного обучения, попутно практически лишившись собственно графических блоков. Но в ближайшем будущем их по многим параметрам могут превзойти специализированные ИИ-процессоры, к числу которых относится и новая разработка AWS, чип Trainium.

На мероприятии AWS Re:Invent компания рассказала о прогрессе в области машинного обучения на примере своих инстансов P3dn (Nvidia V100) и P4 (Nvidia A100). Первый вариант дебютировал в 2018 году, когда модель BERT-Large была примером сложности, и благодаря 256 Гбайт памяти и сети класса 100GbE он продемонстрировал впечатляющие результаты. Однако каждый год сложность моделей машинного обучения растёт почти на порядок, а рост возможностей ИИ-ускорителей от этих темпов явно отстаёт.

 Рост сложности моделей машинного обучения будет лишь расти

Сложность моделей машинного обучения будет расти всё быстрее

Когда в прошлом году был представлен вариант P4d, его вычислительная мощность выросла в четыре раза, а объём памяти и вовсе на четверть, в то время как знаменитая модель GPT-3 превзошла по сложности BERT-Large в 500 раз. А теперь и 175 млрд параметров последней — уже ничто по сравнению с 10 трлн в новых моделях. Приходится наращивать и объём локальной памяти (у Trainium имеется 512 Гбайт HBM с суммарной пропускной способностью 13,1 Тбайт/с), и активнее использовать распределённое обучение.

Для последнего подхода узким местом стала сетевая подсистема, и при разработке стека Elastic Fabric Adapter (EFA) компания это учла, наделив новые инстансы Trn1 подключением со скоростью 800 Гбит/с (вдвое больше, чем у P4d) и с ультранизкими задержками, причём доступен и более оптимизированный вариант Trn1n, у которого пропускная способность вдвое выше и достигает 1,6 Тбит/с. Для связи между самими чипами внутри инстанса используется интерконнект NeuroLink со скоростью 768 Гбайт/с.

 Прогресс подсистем сети и памяти в ИИ-инстансах AWS

Прогресс подсистем сети и памяти в ИИ-инстансах AWS

Но дело не только в возможности обучить GPT-3 менее чем за две недели: важно и количество используемых для этого ресурсов. В случае P3d это потребовало бы 600 инстансов, работающих одновременно, и даже переход к архитектуре Ampere снизил бы это количество до 200. А вот обучение на базе чипов Trainium требует всего 130 инстансов Trn1. Благодаря оптимизациям, затраты на «общение» у новых инстансов составляют всего 7% против 14% у Ampere и целых 49% у Volta.

 Меньше инстансов, выше эффективность при равном времени обучения — вот что даст Trainium

Меньше инстансов, выше эффективность при равном времени обучения — вот что даст Trainium

Trainium опирается на систолический массив (Google использовала тот же подход для своих TPU), т.е. состоит из множества очень тесно связанных вычислительных блоков, которые независимо обрабатывают получаемые от соседей данные и передают результат следующему соседу. Этот подход, в частности, избавляет от многочисленных обращений к регистрам и памяти, что характерно для «классических» GPU, но лишает подобные ускорители гибкости.

В Trainium, по словам AWS, гибкость сохранена — ускоритель имеет 16 полностью программируемых (на С/С++) обработчиков. Есть и у него и другие оптимизации. Например, аппаратное ускорение стохастического округления, которое на сверхбольших моделях становится слишком «дорогим» из-за накладных расходов, хотя и позволяет повысить эффективность обучения со смешанной точностью. Всё это позволяет получить до 3,4 Пфлопс на вычислениях малой точности и до 840 Тфлопс в FP32-расчётах.

AWS постаралась сделать переход к Trainium максимально безболезненным для разработчиков, поскольку SDK AWS Neuron поддерживает популярные фреймворки машинного обучения. Впрочем, насильно загонять заказчиков на инстансы Trn1 компания не собирается и будет и далее предоставлять на выбор другие ускорители поскольку переход, например, с экосистемы CUDA может быть затруднён. Однако в вопросах машинного обучения для собственных нужд Amazon теперь полностью независима — у неё есть и современный CPU Graviton3, и инфереренс-ускоритель Inferentia.

Процессор Amazon Graviton3: 64 ядра Arm, 5-нм техпроцесс, чиплетная компоновка и DDR5 с PCIe 5.0

Анонсированный на днях Arm-процессор Graviton3, создававшийся специально для нужд Amazon и AWS, неожиданно оказался по ряду параметров на голову выше ещё даже не вышедших EPYC и Xeon следующего поколения. И это не самый хороший сигнал для AMD, Intel, Qualcomm и прочих производителей.

 Amazon Graviton3. Фото: Ian Colle

Amazon Graviton3. Фото: Ian Colle

Graviton3 — первый массовый (самой Amazon и рядом избранных клиентов он используется уже не один месяц) серверный процессор с поддержкой DDR5 и PCIe 5.0. CPU выполнен по 5-нм техпроцессу TSMC и содержит примерно 55 млрд транзисторов. Для удешевления он использует BGA-корпусировку и чиплетную компоновку из семи отдельных кристаллов — два PCIe-контроллера и четыре двухканальных контроллера DDR5 вынесены за пределы собственно CPU.

 Узел EC2 C7g. Здесь и ниже изображения Amazon AWS

Узел EC2 C7g. Здесь и ниже изображения Amazon AWS

Более того, их упаковка использует передовые решения с каналами длиной менее 55 мкм, что вдвое меньше, чем у других серверных CPU. Уменьшение длины проводников положительно сказывается на энергоэффективности, которая очень важна для любого гиперскейлера. Этим же объясняется и относительно небольшое по современным меркам число ядер (всего 64) и их частота (2,6 ГГц). Всё это позволило добиться энергопотребления примерно в 100 Вт.

Есть и ещё один важный плюс в сохранении числа ядер — переход на DDR5-4800 позволил не только достичь пиковой суммарной пропускной способности памяти в 300 Гбайт/с на чип, но и повысить реальную скорость работы с памятью каждого vCPU (фактически ядра) в полтора раза по сравнению с прошлым поколением. Та же ситуация и с PCIe 5.0 — для достижения той же пропускной способности, что ранее, нужно вдвое меньше линий.

Для удешевления используются готовые IP-блоки сторонних компаний и, судя по всему, ядра тоже несильно отличаются от референсов Arm. А вот какие именно, узнаем не сразу, поскольку Amazon явно не указала, будут ли это Neoverse V1 (Zeus) или N2 (Perseus). Вероятно, это всё же V1 (ARMv8.5-A), поскольку по описанию Graviton3 похожи именно на эту архитектуру. Новые ядра стали значительно «шире» прежних — они забирают 8 инструкций, декодируют от 5 до 8 из них и отправляют на исполнение сразу 15 инструкций. Соответственно и число исполнительных блоков по сравнению с Neoverse-N1 (Graviton2) практически удвоилось.

Кроме того, они обзавелись поддержкой 256-бит векторных инструкций SVE, что повысило не только скорость выполнения «классических» FP-операций (например, для задач медиакодирования и шифрования), но и благодаря поддержке bfloat16 позволило утверждать Amazon, что новые чипы годятся и для инференса. Среди упомянутых ранее мер защиты есть, например, принудительное шифрование оперативной памяти, изолированные кеши для каждого vCPU (ядра), аппаратная защита стека.

 В подписи второго столбца явная опечатка

В подписи второго столбца явная опечатка

В целом, средний прирост производительности Graviton3 по сравнению с Graviton2 составил 25 %, но в некоторых задачах он достигает 60 %. И всё это при сохранении того же уровня энергопотребления и тепловыделения. Всё это позволило уместить в одном 1U-узле с воздушным охлаждением сразу три процессора Graviton3. И они разительно отличаются от грядущих 128-ядерных процессоров Altra Max и EPYC Bergamo, которые Ampere и AMD позиционируют как решения для гиперскейлеров. Зато в чём-то похожи на Yitian 710 от Alibaba Cloud.

Но CPU — это лишь часть платформы, фундамент для которой несколько лет назад заложило появление чипов Nitro. Их сейчас стоило бы назвать DPU/IPU, хотя на момент их появления такого понятия, можно сказать, и не было. Nitro берёт на себя все задачи по обслуживанию гипервизора, обеспечению безопасности, работе с хранилищем и сетью и т.д., высвобождая, с одной стороны, все ресурсы CPU, памяти и SSD для обработки задачи клиента, а с другой — позволяя практически полностью дезагрегировать всю инфраструктуру.

 Узел с Nitro SSD

Узел с Nitro SSD

Впрочем, Amazon пошла ещё дальше — теперь она самостоятельно закупает NAND-чипы и производит SSD, тоже под управлением Nitro. То есть у компании под контролем практически полный стек современных аппаратных решений: CPU, DPU, SSD, ИИ-ускорители для обучения (Trainium) и инференса (Inferentia). Она активно переносит на него собственные сервисы и предлагает их клиентам. И именно это и должно обеспокоить крупных вендоров, поскольку их решения вряд ли позволят добиться такого же уровня TCO, а гиперскейлеров, желающих перейти на аналогичную модель, немало.

UPD 06.12.21: презентация новых процессоров стала доступна публично, поэтому в материал добавлены некоторые иллюстрации, а в галерее ниже приведены результаты тестов производительности.

Microsoft, Caterpillar и Ballard протестируют 1,5-МВт генератор на водородных топливных элементах

Microsoft объединила усилия с Caterpillar и Ballard Power Systems для тестирования резервных генераторов на водородных топливных элементах в своём дата-центре в Куинси (штат Вашингтон). Проект рассчитан на три года и нацелен на изучение возможности использования водородных топливных элементов в масштабе ЦОД. Проект частично финансируется Министерством энергетики США (DOE) в рамках инициативы H2@Scale.

Caterpillar станет генеральным подрядчиком, обеспечивающим общую интеграцию всех систем, работу силовой электроники и средств управления. Ballard предоставит водородный электрогенератор на топливных элементах ClearGen-II мощностью 1,5 МВт, а Национальная лаборатория возобновляемых источников энергии (NREL) выполнит анализ его безопасности, экологичности и технико-экономических аспектов эксплуатации.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Для успешной реализации проекта необходимо решить ряд проблем. Чтобы топливные элементы обеспечивали мощность 3 МВт в течение 48 часов, требуется около 68 м3 жидкого водорода, для хранения которого требуется намного больше места, чем для дизельного топлива. Для избегания утечек требуются специальные трубопроводы, а сам водород надо хранить при температуре ниже -253 °C. Ранее Microsoft успешно испытала водородные топливные ячейки мощностью 250 кВт от Power Innovations.


window-new
Soft
Hard
Тренды 🔥
OpenAI раскрыла масштабы популярности ChatGPT: каждый день бот получает 2,5 млрд запросов 4 ч.
Microsoft реализовала на ПК и консолях Xbox кроссплатформенную историю запущенных игр, но пока не для всех 4 ч.
Календарь релизов —21–27 июля: Killing Floor 3, Wuchang: Fallen Feathers и The King is Watching 5 ч.
Дуров призвал сообщать ему о вымогателях в Telegram, охотящихся за подарками — но это не бесплатно 5 ч.
Спустя два года после релиза в Avatar: Frontiers of Pandora всё-таки добавят функции, которые фанаты просили больше всего 6 ч.
Microsoft ускорила запуск приложений Office, но это может замедлить загрузку Windows 7 ч.
Цензура была не зря: Ready or Not продаётся на PS5, Xbox Series X и S в 10 раз быстрее, чем на ПК 7 ч.
X отказалась раскрывать рекомендательный алгоритм и данные о публикациях французской прокуратуре 8 ч.
Evolve от создателей Left 4 Dead могла получить продолжение — художник показал концепт-арты отменённой Evolve 2 9 ч.
MWS Cloud запустила платформу хранения больших данных для обучения ИИ 10 ч.
Новая статья: Система жидкостного охлаждения MSI MAG CoreLiquid A13 360: добавляем в закладки ещё одну 3 ч.
Амстердам и Франкфурт выбыли из первой двадцатки локаций гиперскейлеров 7 ч.
Ryzen Threadripper Pro 9995WX разогнали до 5 ГГц на всех 96 ядрах: 950 Вт потребления и 186 тыс. баллов в Cinebench R23 7 ч.
Tesla попытается остановить падение продаж электромобилей скидками, бесплатной зарядкой и другими бонусами 7 ч.
AMD обучила ноутбуки на Ryzen AI безоблачной генерации изображений в Stable Diffusion 7 ч.
Сегодня открылся ресторан Tesla Diner — среди сотрудников оказался робот Optimus 7 ч.
xAI ищет разработчиков кастомных чипов для ИИ-систем 8 ч.
Носовые волоски вдохновили инженеров на создание пылевого фильтра будущего со «слизистой» — внутри ПК станет чище 8 ч.
По стопам Nvidia: TSMC первой из азиатских компаний достигла капитализации в $1 трлн 9 ч.
Запущен самый мощный в Великобритании ИИ-суперкомпьютер — комплекс Isambard-AI 10 ч.