|
Опрос
|
реклама
Быстрый переход
HPE Synergy 12000 как гимн модульности: новая единая ИТ-инфраструктура для любых задач
04.10.2021 [10:00],
Алексей Степин
Синергия — эффект совместного действия двух и более факторов, превышающий простую сумму их действий. Слово это пришло к нам из древнегреческого, где означало «единое дело». Но в обычных ЦОД «старой школы» она проявляется далеко не всегда, и расширение, переконфигурирование или смена задачи может стать долгим, затратным предприятием. К тому же в облачную эпоху каждый час простоя инфраструктуры может обернуться серьёзными убытками. Создавая Synergy, HPE позаботилась о том, чтобы максимально унифицировать новую ЦОД-платформу, способную справиться с любым приложением. В основу легла модульно-лезвийная (blade) компоновка, компания называет её «компонуемой». Такая инфраструктура Synergy — это шаг вперёд от обычных гиперконвергентных систем в сторону большей оптимизации и аппаратных, и программных средств. ![]() Единая структура Synergy одинаково хорошо подойдет для любых типов нагрузок. За счёт использования программно определяемой логики, паттернов автоматизации и единой платформы управления OneView затраты на обслуживание ЦОД на базе новой платформы можно существенно снизить, направив высвободившиеся ресурсы на более важные для компании проекты и задачи. Не возникнет и проблем с совместимостью — все компоненты Synergy изначально созданы в рамках единого форм-фактора и являются взаимозаменяемыми. Имеется также задел на будущее: с появлением новых высокоскоростных технологий (фотоники) платформа не устареет, но может быть легко модернизирована. Основные узлы Synergy представляют собой компонуемые модули лезвийного типа Synergy 480 Gen10. Они полностью поддерживают возможность «горячей замены», но самое интересное скрыто внутри: компактная системная плата с двумя Intel Xeon Scalable в окружении 24 слотов DDR4. Поддерживаются все процессоры с теплопакетом до 205 Ватт включительно (до 3,8 ГГц), также поддерживаются модули Optane DCPMM. Имеется специальный слот для дискового контроллера. Само «лезвие» оснащено или двумя SFF-дисками, или четырьмя SSD формата uFF. ![]() Также к узлу можно подключать до трёх мезаниновых карт расширения с интерфейсом PCI Express x16, правда, только версии 3.0. Эти карты предельно компактны. Так, основой для сетевой инфраструктуры может служить адаптер Synergy 6810C, поддерживающий стандарты Ethernet со скоростями 25 и 50 Гбит/с. Он базируется на технологиях Mellanox и поддерживает RoCEv2. ![]() В конструкции изначально предусмотрена резервная батарея (BBU) для сохранения дисковых кешей, тогда как обычный RAID-контроллер не во всякой комплектации имеет BBU. Из прочего отметим наличие системы удалённого мониторинга и управления HPE iLO5 и продвинутую реализацию подключения к системе: за управление данными и питанием отвечает выделенный чип-контроллер. ![]() Есть в вариантах Synergy 480 Gen10 и модуль двойной ширины, предназначенный специально для установки графических или вычислительных ускорителей. Несмотря на скромные габариты, он может принять в себя шесть ускорителей в формате Multi MXM, либо две мощные видеокарты в классическом исполнении. Ещё более производительны модули HPE Synergy 660 Gen10. Они вдвое выше Synergy 480, так что внутри может размещаться уже восемь uFF-накопителей, либо четыре SFF и четыре M.2. Процессорных разъёмов четыре, а количество слотов памяти равно 48. Мезонинов тоже вдвое больше, то есть шесть. ![]() Для высокоплотного хранения данных предлагается использовать модуль Synergy D3940. В нём размещается до 40 накопителей общим объёмом 612 Тбайт, причём поддерживается любое сочетание дисков SAS и SATA. Реализованы операции как на файловом уровне, так и на блочном и даже объектном. Предусмотрено два адаптера ввода/вывода, которые при необходимости быстро заменяются. Сами накопители физически отделены от RAID-контроллеров и связаны с ними независимыми модулями коммутации. Модуль коммутации поддерживает 48 портов SAS, обслуживает до 40 SSD на модуль с производительностью до 50 тыс. IOPS на каждый SSD. Компания хорошо понимает, что за счёт совместимости с оборудованием других производителей охват рынка будет шире, поэтому Synergy легко интегрируется с системами хранения данных, разработанными вне стен HPE. Поддерживаются решения Fibre Channel, FC over Ethernet и iSCSI таких компаний, как Hitachi Data Systems, Net App, IBM и даже извечного конкурента HPE — Dell EMC. На программном уровне обеспечена совместимость с виртуальными SAN Scality, VMWare, Ceph и Microsoft. ![]() Для связи с SAN и LAN предлагаются различные коммутационные модули с портами вплоть до FC32 и 100GbE. Все эти модули объединяются в рамках 10U-шасси HPE Synergy 12000: до 12 вычислительных, 6 коммутационных и 5 модулей хранения данных. Новое шасси во всём лучше HPE Blade System c7000 прошлого поколения. Оно мощнее, лучше охлаждается, имеет более эффективную систему питания, а общая коммутационная плата для узлов поддерживает суммарную скорость передачи данных до 16 Тбит/с и изначально готова к переходу на использование высокоскоростной фотоники. ![]() Шасси позволяет сформировать шасси с оптимальным набором компонентов, и HPE предлагает типовые варианты конфигураций в зависимости от задачи: базы данных, виртуальные машины, платформы аналитики, максимально ёмкие СХД или платформа для вычислений на графических ускорителях. Все компоненты предельно унифицированы, все базовые функции являются программно-определяемыми и унифицированными. Даже кабели придётся подключить только во время установки. После этого систему можно «нарезать» на отдельные фабрики с нужным набором дискового пространства, числа ядер CPU и GPU, объёмом памяти и сетевых подключений. ![]() На уровне фабрик HPE позаботилась о резервировании и физическом разделении сетей управления и данных. Есть отдельное подключение к серверу образов для загрузки операционных систем и отдельные порты управления. Сетевые коммутаторы могут быть типов «Мастер» или «Спутник». Первый отвечает за весь сетевой трафик и обладает минимальными задержками, а второй является повторителем сигнала и содержит ретаймеры; задержка в передаче сетевого пакета не превышает 8 нс. Поддерживаются порты со скоростью 10 и 20 Гбит/с. Дирижёром всего этого оркестра является модуль компоновщика (composer). Он базируется на фирменном управляющем ПО HPE OneView. При необходимости настроить систему на месте в дело вступает модуль сети управления (frame link module), который имеет разъём Display Port для монитора и порт USB. Если обычная процедура ввода в строй нового сервера содержит множество пунктов, от установки его в стойку до настроек BIOS и установки ОС, то в Synergy достаточно установить новый модуль в шасси и применить нужный серверный профиль из шаблона. Остальное система сделает сама. ![]() Компоновщик поддерживает форматы виртуализации Hyper-V и ESXi, а фирменное ядро OneView работает с аппаратными и сетевыми компонентами, но наружу информация предоставляется посредством стандартного API RESTful. Предусмотрено управление как с помощью веб-интерфейса, так и с помощью различного ПО — CHEF, Microsoft PowerShell или System Center; имеется также и фирменное приложение HPE OneView для VMWare. Таким образом, перед нами действительно уникальная, инновационная технология. HPE Synergy образует совершенно новый класс систем, по-настоящему универсальных на всех уровнях построения и конфигурации. Образуемая этим «конструктором» инфраструктура подходит для выполнения любого класса задач, причём разворачивается она по меркам мира ИТ практически мгновенно, буквально одной строкой кода, и сразу в нужных заказчику масштабах, в том числе облачных. ![]() Простои практически исключены, все элементы унифицированы и легко заменяются, управление аппаратными серверами в облаке так же просто, как и традиционными виртуальными машинами. Использование HPE Synergy или модернизация ИТ-экосистемы этой новинкой означает сокращение как финансовых затрат, так и трудовых ресурсов, а единый API позволяет провести такую модернизацию постепенно, но в кратчайшие сроки за счёт совместимости с оборудованием СХД других поставщиков. Кому подойдёт HPE Synergy? Всем, но особенно крупным компаниям, специализирующимся на ресурсоёмких ИТ-задачах любого класса, включая телеком, CAD/CAM, VDI, 3D-моделирование, а также медицину. Более того, именно медикам новинка подойдёт особенно хорошо. Об этом хорошо рассказывает нижеприведённое видео: Сценариев развёртывания Synergy может быть множество, вот лишь некоторые из них: ![]() Сама HPE называет десять причин для выбора Synergy. Они просты и понятны:
При этом заказать Synergy весьма просто: компания готова как к немедленной отправке оплаченного оборудования со склада, так и к компоновке под заказ. В России поставкой систем HPE Synergy занимается компания OCS, авторизованный партнёр Hewlett Packard Enterprise с опытом работы более 25 лет. Системы могут поставляться во все регионы страны, партнёрам предоставляются дополнительные удобные сервисы. Также отметим, что 12 октября в 10:00 по московскому времени состоится веб-семинар, посвящённый новой модульной платформе HPE. Записаться на него можно здесь. Intel представила нейроморфный чип Loihi II — 128 ядер, 1 млн нейронов и техпроцесс Intel 4
30.09.2021 [19:00],
Игорь Осколков
Intel представила второе поколение нейроморфных чипов: Loihi II. Идейно и архитектурно новый чип, в целом, повторяет первое поколение, анонсированное четыре года назад, однако имеет целый ряд улучшений технического и программного характера. Но что более интересно, с выходом Loihi II, который всё ещё считается исследовательской разработкой, компания готова сделать первые шаги по ограниченной коммерциализации данного решения. ![]() В рамках нейромофорного подхода исследователи пытаются аппаратно воссоздать с той или иной степени точности механизмы, лежащие в основе мозга, которые на первый взгляд довольно просты: по густо провязанной и меняющейся со временем сети нейронов асинхронно и параллельно распространяются сигналы как ответ на внешние события. Попытки повторить это в рамках обычного «железа» можно считать достаточно успешными, ведь нейронными сетями сейчас никого не удивишь. Однако такие сети требуют затратного предварительного обучения на заранее размеченных данных, тогда как мозг учится «на лету». А с ростом сложности моделей остро встаёт вопрос энергоэффективности, причём не только обучения, но и исполнения. «Вершиной эволюции» классических ИИ-ускорителей на сегодняшний день можно считать Cerebras WSE-2: чип размером с кремниевую пластину содержит 850 тыс. ядер и потребляет 15 кВт. Но и этого мало — по словам самих разработчиков, только кластер из таких чипов способен работать с ИИ-моделями, сравнимыми по масштабу с человеческим мозгом. И все эти ограничения призваны устранить именно нейроморфные системы. ![]() Loihi II изготавливается по EUV-техпроцессу Intel 4, который всё ещё находится в стадии разработки. Чип имеет площадь 31 мм2 и содержит 2,3 млрд транзисторов, а площадь одного ядра составляет 0,21 мм2, то есть плотность по сравнению с первым поколением выросла практически вдвое. Чип всё так же содержит 128 нейронных ядер, но число доступных нейронов выросло со 128 тыс. до 1 млн. Объём памяти на ядро слегка уменьшился, с 208 до 192 Кбайт, однако теперь банки памяти можно более гибко распределять между нейронами и синапсами, а компрессия позволяет ещё более эффективно использовать имеющийся объём. Сами ядра тоже изменились. В первом поколении они были оптимизированы под конкретные импульсные нейронные сети, а теперь для каждого ядра есть собственный программируемый конвейер, а сами модели на уровне чипа задаются микрокодом. Кроме того, для состояния нейрона можно использовать до 4096 байт в зависимости от задач (ранее было только 24 байт). Число синапсов на чип уменьшилось со 128 до 12 млн, но они получили существенный апгрейд — для кодирования сигнала используется INT32-значение, а не бинарное (есть/нет). Всё вместе это позволяет задействовать обучение (в том числе на лету) с третьим фактором. Тем не менее, набор инструкций нейроморфных ядер остался по-прежнему простым. Он включает базовые арифметические операции, сдвиги, ветвление, работу с памятью/регистрами и импульсами. Сами ядра объединены быстрой mesh-сетью 8×16, а за конфигурацию сети, (де-)кодирование данных и управлением передачей импульсов отвечают ещё шесть выделенных ядер (ранее их было только три) с аппаратным ускорением соответствующих задач. Суммарный эффект от всех нововведений таков, что Loihi II быстрее Loihi первого поколения примерно на порядок. Более того, он получил улучшенные возможности масштабирования: до 1000 ядер на самом чипе, а также можно сформировать трёхмерную mesh-сеть из чипов благодаря шести выделенным I/O-контроллерам на каждом из них и вчетверо более быстрым линиям. А для связи с внешним миром теперь доступны стандартные интерфейсы SPI/AER, GPIO и 1/2.5/10GbE. ![]() Первым устройством на базе Loihi II стала одночиповая карта Oheo Gulch, предназначенная для разработки и отладки ПО. Она пока что доступна только избранным партнёрам Intel в облаке Neuromorphic Research Cloud. Следующим устройством станет компактная (4” × 4”) плата Kapoho Point, которая несёт на борту уже восемь чипов Loihi II и предоставляет Ethernet и GPIO, а также различные интерфейсы для сенсоров и актуаторов. Платы можно будет напрямую объединять между собой для простого наращивания вычислительной мощности. В дальнейшем возможна интеграция чипов в гибридные SoC для различных задач, а также появление решений для ЦОД. В целом, области применения и задачи новинок совпадают с теми, что сейчас обслуживают «классические» нейронные сети (с поправкой на энергоэффективность). Однако одного «железа» для распространения мало, поэтому Intel подготовила универсальный open source фреймворк LAVA, который позволит унифицировать разработку и подготовку моделей для практических любых аппаратных решений (не только нейроморфных) с учётом специфики конкретных архитектур. 128-ядерный Arm-процессор Ampere Altra Max оказался на треть дешевле флагманских Xeon и EPYC
30.09.2021 [16:15],
Сергей Карасёв
Ресурс Phoronix раскрыл стоимость многоядерных процессоров Ampere Altra Max, предназначенных для использования в высокопроизводительных серверах. Наблюдатели отмечают, что эти изделия, насчитывающие до 128 вычислительных ядер, предлагаются по цене ниже флагманских серверных чипов Intel Xeon и AMD EPYC. Arm-процессоры Ampere Altra Max M128-30 с частотой 3,0 ГГц изготавливаются по 7-нм технологии и предлагают 128 линий PCIe 4.0 и восемь каналов оперативной памяти DDR4-3200. Тесты Phoronix показывают, что в целом ряде задач чипы Ampere Altra Max M128-30 могут вполне конкурировать со старшими моделями Intel Xeon Ice Lake и AMD EPYC Milan. Итак, сообщается, что цена Ampere Altra Max M128-30 составляет $5800. Для сравнения: чип Intel Xeon Platinum 8380 сейчас предлагается за $8099, тогда как AMD EPYC 7763 стоит $8600. Процессор Ampere Altra Q80-30 с 80 вычислительными ядрами можно приобрести по цене $3950, а самая младшая 32-ядерная модель Ampere Altra Q32-17 стоит всего $800. Правда, надо учитывать, что всё это рекомендованные цены, а у AMD с Intel намного больше возможностей по их снижению для конечных заказчиков. На Аляске появился быстрый беспроводной интернет на базе Facebook✴ Terragraph
25.09.2021 [17:29],
Руслан Авдеев
Сложный рельеф и суровый климат Аляски создают серьёзные трудности при обеспечении пользователей стабильным быстрым интернетом-соединением. С распространением пандемии и переходом многих жителей на удалённую работу потребность в устойчивых соединениях только выросла. На помощь местным жителям пришёл провайдер Alaska Communications с беспроводной технологией Terragraph, разработанной Facebook✴✴ Connectivity. Провайдер использует оборудование компании Cambium Networks, получившего лицензию от Facebook✴✴ на использование Terragraph в своих решениях. Технология использует спектр 60 ГГц и позволяет наладить быструю связь значительно дешевле, чем обходится прокладка под землёй кабельных соединений. Многие интернет-провайдеры штата уже убедились, что в местных суровых условиях прокладывать кабели конечным потребителям не только дорого, но и долго. Если же возникает обрыв, установить его местонахождение и устранить поломку очень сложно, особенно зимой. Cambium Networks предоставляет беспроводные решения на основе Terragraph — от Пинанга в Малайзии до Пуэрто-Рико.
tech.fb.com Facebook✴✴ Connectivity разработала Terragraph, намереваясь расширить доступность стабильного беспроводного интернет-соединения в регионах с плохим или отсутствующим соединением. Лицензии на технологию выдаются партнёрам по всему миру — производители оборудования и провайдеры могут сосредоточить усилия на её внедрении вместо проведения собственных разработок. Первая фаза развёртывания на Аляске планируется с использованием клиентских узлов cnWave 60 ГГц производства Cambium Networks, обеспечивающих скорость передачи данных до 1 Гбит/с для 6500 локаций. «Доступный, надёжный высокоскоростной интернет сегодня отсутствует на рынке Аляски. Поэтому мы здесь — для того, чтобы обеспечить местным жителям связь с тем, что наиболее важно для них», — говорит вице-президент по маркетингу Alaska Communications Бет Барнс (Beth Barnes). Вместо использования кабельных соединений, Terragraph полагается на ячеистую mesh-топологию, в которой клиентские беспроводные узлы размером с книгу размещаются на уже существующих объектах вроде крыш или телефонных столбов. Отдельные узлы не только обеспечивают интернетом конкретные дома, но и передают сигнал другим аналогичным узлам, находящимся в зоне досягаемости. Структура mesh-сетей предусматривает многочисленные альтернативные пути соединения между узлами, поэтому связь в сети остаётся стабильной почти в любых условиях. Для сравнения, обрыв связи на «последней миле» кабельного соединения требует обязательного ремонта, иначе доступ к Интернету прервётся.
tech.fb.com Местные жители уже начали пользоваться преимуществами Terragraph. Даже тем, кому по роду деятельности приходится пересылать очень большие файлы, теперь доступны по-настоящему быстрые соединения. По данным некоторых пользователей, скорость соединения выросла почти в 100 раз в сравнении с проводными решениями, применявшимися прежде: на отправку файла чуть более 10 Гбайт уходит около 10 минут. Из-за низкой плотности населения на Аляске связь имеет ещё большее значение, чем в густонаселённых регионах. Например, Аляска в 2,5 раза больше Техаса или в 77 раз больше Нью-Джерси, при этом здесь приходится приблизительно по одному человеку на 2,5 км2. Если трудно предоставить высокоскоростное интернет-соединение даже населению городов вроде Анкориджа, то ещё труднее обеспечить связь за пределами городов. При этом в период пандемии критически важно оставаться на связи. До конца текущего года Terragraph намерены использовать в 6500 локациях по всему штату, а скоро в Alaska Communications планируется обеспечить и более широкое распространение технологии. В следующие несколько лет сервис появится в новых районах вблизи Анкориджа, а также Фэрбенксе, Джуно, на Кенайском полуострове. Итальянская IT-фирма построит дата-центр в древней шахте на Сардинии
14.09.2021 [10:10],
Руслан Авдеев
Компания Dauvea из города Кальяри на Сардинии превратит древнюю шахту на близлежащем небольшом острове Сант'Антиоко в новый дата-центр. Проект назван Digital Metalla или Digital Mine — «цифровая шахта». Впервые его анонсировали в январе, и по данным местной прессы, компания начинает строительные работы в этом месяце. Dauvea пока не обнародовала спецификации, но уже сообщила, что проект будет «энергоэффективным зелёным дата-центром». По данным основателя компании Сальваторе Пульвиренти (Salvatore Pulvirenti), в Осло (Норвегия) превратили в дата-центр бывший склад боеприпасов. Итальянская компания тоже намерена дать новую жизнь местным объектам на долгосрочную перспективу, создавать рабочие места, обеспечивать решения для новых трендов в цифровом мире, внедрять «настоящие инновации». Основанная в 2017 году Dauvea обеспечивает разнообразные IT-сервисы, включая проекты по обеспечению кибербезопасности и предоставление клиентам облачных хранилищ. Ранее Пульвиренти работал директором по информационным технологиям в итальянской телекоммуникационной компании Tiscali, а также занимал различные руководящие должности в Telecom Italia и сардинской исследовательской организации CRS4. Metalla — имя археологического памятника, расположенного на территории бывшего финикийского города Сульчи (Сульчис) на небольшом острове, расположенном к юго-востоку от самой Сардинии, в непосредственной близости от главного острова. На этой территории тысячи лет добывались свинцовые, серебряные, цинковые руды и уголь, а также другие минералы, шахты начали закрываться здесь только в 90-х годах прошлого века. Ранее подавалась заявка на включение территории в список Всемирного наследия ЮНЕСКО. Fujifilm и HPE представили ленточные картриджи LTO-9 ёмкостью 45 Тбайт
08.09.2021 [19:31],
Алексей Степин
Ленточные накопители и библиотеки остаются одним из самых популярных вариантов для «холодного» хранения больших объёмов данных, и новые технологии в этой сфере продолжают активно развиваться. Компании Fujifilm и HPE объявили о выпуске ленточных картриджей LTO-9 Ultrium, эффективная ёмкость которых достигает 45 Тбайт. Правда, эта цифра относится к режиму со сжатием данных, «чистая» же ёмкость LTO-9 составляет 18 Тбайт. Для сравнения, картриджи LTO-8 могут хранить до 12 и 30 Тбайт несжатых и сжатых данных соответственно, Хотя налицо паритет с традиционными HDD, темпы прироста ёмкости LTO замедлились: так, при переходе от седьмого поколения к восьмому «чистый» объём вырос вдвое (с 6 до 12 Тбайт), а сейчас мы видим лишь 50% прирост. Тем не менее, в будущем планируется вернуться к удвоению ёмкости в каждом новом поколении. Скорость передачи данных LTO-9 в сравнении c LTO-8 выросла, но ненамного: с 360/750 Мбайт/с до 440/1000 Мбайт/с в режимах без сжатия и со сжатием соответственно. ![]() В новых картриджах Fujifilm используется лента на основе феррита бария (BaFe), покрытие формируется с использованием фирменной технологии NANOCUBIC. Компания заявляет о 50 годах стабильного хранения данных с использованием новой ленты. HPE пока что ограничилась коротким сообщением о выходе RW- и WORM-картриджей. Quantum анонсировала приводы LTO-9, а IBM объявила о совместимости ПО Spectrum Archive с новым стандартом. Наконец, Spectra Logic сообщила о поддержке нового стандарта в своих ленточных библиотеках. Ленточные накопители, пожалуй, являются своеобразными патриархами в мире систем хранения данных — магнитная лента использовалась ещё в первых компьютерах IBM. Однако даже сегодня именно они могут похвастаться одной из самых больших ёмкостей в пересчёте на единицу носителя, а кроме того, имеют и ряд других достоинств, например, повышенную надёжность хранения данных за счёт «пассивного» характера хранения записанной информации.
В будущем темпы роста ёмкостей картриджей LTO будут восстановлены Также ленточные библиотеки могут похвастаться меньшей стоимостью владения, нежели HDD-фермы или облачные хранилища. Среди областей применения ленточных накопителей и библиотек называется сценарий защиты данных от «шифровальщиков» и вымогательства, поскольку при необходимости уцелевшую копию можно просто восстановить с картриджа. Однако при современных объёмах данных даже скорость 3,6 Тбайт/час может оказаться недостаточно быстрой.
Петабайтные ёмкости потребуют перехода от феррита бария к эпсилон-ферриту железа (ɛ-Fe2O3) Тем не менее, развитие LTO не останавливается. В экспериментальных устройствах ещё в конце 2020 года была достигнута ёмкость 580 Тбайт, а уже 2021 году было объявлено уже о разработке лент и накопителей, способных хранить до 2,5 Пбайт сжатых данных. Так что говорить о смерти ленточных накопителей не приходится, хотя пандемия и повлияла отрицательно на объёмы продаж оборудования LTO. IBM представила серверы E1080: 16 CPU POWER10, 240 ядер, 1920 потоков, 64 Тбайт RAM и 224 PCIe-слота в одной системе
08.09.2021 [17:40],
Владимир Мироненко
IBM объявила о выходе нового поколения серверов IBM POWER E1080 на базе 7-нм чипа POWER10. Это первая коммерческая система на новых процессорах IBM, представленных на прошлогодней конференции Hot Chips и использующих архитектуру POWER v3.1. IBM POWER E1080 предназначен для удовлетворения спроса на надёжные гибридные облачные среды. E1080 представляет собой четырёхсокетный сервер с процессорами POWER10. На текущий момент компания предлагает CPU c 10, 12 или 15 ядрами (ещё одно «запасное» ядро отключено), тогда как у POWER9 число ядер не превышало 12. На каждое ядро приходится 2 Мбайт L2-кеша и 8 Мбайт — L3 (до 120 Мбайт общего кеша на CPU). Для систем на базе E1080 поддерживается масштабирование до четырёх узлов, то есть можно получить 16 процессоров, 240 ядер, 1920 потоков, 64 Тбайт RAM и 224 PCIe-слота. Отличительной чертой новинок является поддержка SMT8, то есть обработка до 120 потоков на процессор. По сравнению с POWER9 производительность новых CPU выросла на 20% на поток и на 30% на ядро, а в пересчёте на Вт она выросла трёхкратно. А четыре 512-бит матричных движка и восемь 128-бит SIMD-блоков повысили скорость INT8-операций в 20 и более раз. ![]() Память тоже новая — буферизированная OMI DDR4 DDIMM, которая, по словам компании, отличается повышенной надёжностью и отказоустойчивостью в сравнении с традиционными DDIMM. На один сервер приходится 64 слота с поддержкой до 16 Тбайт RAM с поддержкой технологии прозрачного шифрования памяти (Transparent Secure Memory Encryption, TSME), которая в 2,5 раза быстрее по сравнению с IBM POWER9. Заявленная пропускная способность составляет 409 Гбайт/с на ядро. ![]() И для OMI, и для OpenCAPI используется шина PowerAXON (1 Тбайт/с), которая позволяет подключать к системе различные типы памяти (можно адресовать до 2048 Тбайт в рамках одного кластера), накопители, ускорители и т.д. Также в самой системе доступно четыре слота для NVMe SSD и 8 слотов PCIe 5.0. К E1080 можно подключить до четырёх полок расширения с 12 слотами PCIe 5.0 в каждой. По данным IBM, благодаря E1080 установлен «мировой рекорд производительности: это первая система, достигшая 955 000 SAPS (SAP Application Performance Standard, в стандартном тесте приложений SAP SD в восьмипроцессорной системе — значительно больше, чем у альтернативной архитектуры x86, 2x на сокет (и) до 4 раз больше возможностей на ядро с E1080 (по сравнению с Intel)». ![]() IBM заявила, что повышение производительности на ядро и увеличение количества ядер в системе означает значительное сокращение занимаемой серверами площади и энергопотребления. В тематическом исследовании неназванного клиента компания сообщила, что 126 серверов на чипах Intel, обслуживающих СУБД Oracle, были заменены тремя E980 на базе POWER9 и, по прогнозам, их можно будет заменить на два E1080. В результате потребляемая мощность упадёт со 102 до 20 кВт, а количество требуемых лицензий сократится с 891 (для системы Intel) до 263 (для E1080). Новинка имеет в 4,1 раза более высокую по сравнению с x86-серверами пропускную способность контейнеризированных приложений OpenShift, а также целостность архитектуры и гибкость в гибридной облачной среде для повышения универсальности и снижения расходов без рефакторинга приложений. А по сравнению с IBM POWER E980v рост производительности и масштабируемости составил до 50% с одновременным снижением энергопотребления. Кроме того, E1080 предлагает новые функции RAS для расширенного восстановления, самовосстановления и диагностики, а также усовершенствования для гибридного облака, включая первый в индустрии поминутный контроль использования ПО Red Hat, в том числе OpenShift и Red Hat Enterprise Linux. У IBM POWER E1080 также имеется возможность мгновенного масштабирования с помощью POWER Private Cloud with Dynamic Capacity, что позволит платить только за использованные ресурсы. Среди прочих преимуществ своего решения IBM отмечает наличие надёжной экосистемы независимых поставщиков ПО, бизнес-партнёров и поддержки для E1080. Кроме того, IBM анонсировала многоуровневый сервис POWER Expert Care, призванный обеспечить защиту от продвинутых киберугроз, а также согласованное функционирование аппаратного и программного обеспечения и более высокую эксплуатационную готовность систем. Ветераны индустрии основали стартап Ventana для создания чиплетных серверных процессоров RISC-V
01.09.2021 [23:58],
Андрей Галадей
Стартап Ventana Micro Systems, похоже, намерен перевернуть рынок серверов. Компания заявила о разработке высокопроизводительных процессоров на архитектуре RISC-V для центров обработки данных. Первые образцы фирменных CPU будут переданы клиентам во второй половине следующего года, а поставки начнутся в первой половине 2023 года. При этом процессоры получат чиплетную компоновку — различные модули и кристаллы на общей подложке. Основные процессорные ядра разработает сама Ventana, а вот остальные чиплеты будут создаваться под нужды определённых заказчиков. CPU-блоки будут иметь до 16 ядер, которые, как обещается, окажутся быстрее любых других реализаций RV64. Использование RISC-V позволит разрабатывать сверхмощные решения в рекордные сроки и без значительного бюджета. Ядра будут «выпекаться» на TSMC по 5-нм нормам, но для остальных блоков могут использовать другие техпроцессы и фабрики. ![]() Ventana будет следить за процессом их создания и упаковывать до полудюжины блоков в одну SoC. Для соединения ядер, кеша и других компонентов будет использоваться фирменная кеш-когерентная шина, которая обеспечит задержку порядка 8 нс и скорость передачи данных 16 Гбит/с на одну линию. Основными заказчиками, как ожидается, станут гиперскейлеры и крупные IT-игроки, которым часто требуется специализированное «железо» для ЦОД, 5G и т.д. Сегодня Ventana объявила о привлечении $38 млн в рамках раунда B. Общий же объём инвестиций составил $53 млн. Компания была основана в 2018 году. Однако это не совсем обычный стартап — и сами основатели, и команда являются настоящими ветеранами индустрии. Все они имеют многолетний опыт работы в Arm, AMD, Intel, Samsung, Xilinx и целом ряде других крупных компаний в области микроэлектроники. Часть из них уже имела собственные стартапы, которые были поглощены IT-гигантами. Судебная тяжба 18-летней давности между IBM и SCO закончена, но противостояние по поводу прав на Linux продолжается
31.08.2021 [00:56],
Владимир Мироненко
Похоже, что затянувшийся судебный спор между компаниями Santa Cruz Operation (SCO) и IBM по поводу прав на код ядра Linux может закончиться в ближайшее время. Суд США по делам о банкротстве округа Делавэр объявил, что TSG Group, которая представляет интересы должников обанкротившейся SCO, урегулировала все оставшиеся претензии с IBM. «В соответствии с Мировым соглашением стороны договорились разрешить все споры между собой по выплате Доверительному управляющему [TLD] от имени IBM в размере $14 250 000», — указано в постановлении суда. В свою очередь, TLD отказывается от всех прав и интересов по всем судебным искам, находящимся на рассмотрении или которые могут быть предъявлены в будущем против IBM и Red Hat, а также по любым обвинениям в том, что Linux нарушает интеллектуальную собственность SCO Unix или Unixware. Как пояснил представитель TLD, даже если бы SCO удалось доказать суду присяжных, что около 20 лет назад действительно были нарушены права и была нечестная конкуренция, размер ущерба всё было бы нельзя определить. И выплаты, вероятно, были бы значительно меньше, чем при мировом соглашении. Впрочем, речь идёт о завершении лишь части судебного противостояния, длящегося 18 лет. Дело в том, что Xinuos, которая купила продукты SCO Unix и её интеллектуальную собственность в 2011 году, подала в суд на IBM и Red Hat в связи с «незаконным копированием программного кода Xinuos для своих серверных операционных систем». Хотя во время сделки она обещала, что не намерена вести какие-либо судебные разбирательства, связанные с активами группы SCO. Во-первых, Xinuos утверждает, что IBM украла её интеллектуальную собственность, которую использовала для создания и продажи продукта, чтобы конкурировать с самой Xinuos. Во-вторых, по её мнению, IBM и Red Hat незаконно договорились разделить соответствующий рынок и использовать свои растущие силы на рынке для преследования конкурентов и подавления инноваций. И, наконец, в-третьих, по версии Xinuos, IBM приобрела Red Hat, чтобы укрепить положение на рынке и использовать незаконную схему на постоянной основе. Кластер суперчипов Cerebras WSE-2 позволит тренировать ИИ-модели, сопоставимые по масштабу с человеческим мозгом
28.08.2021 [00:16],
Владимир Агапов
В последние годы сложность ИИ-моделей удваивается в среднем каждые два месяца, и пока что эта тенденция сохраняется. Всего три года назад Google обучила «скромную» модель BERT с 340 млн параметров за 9 Пфлоп-дней. В 2020 году на обучение модели Micrsofot MSFT-1T с 1 трлн параметров понадобилось уже порядка 25-30 тыс. Пфлоп-дней. Процессорам и GPU общего назначения всё труднее управиться с такими задачами, поэтому разработкой специализированных ускорителей занимается целый ряд компаний: Google, Groq, Graphcore, SambaNova, Enflame и др. Особо выделятся компания Cerebras, избравшая особый путь масштабирования вычислительной мощности. Вместо того, чтобы печатать десятки чипов на большой пластине кремния, вырезать их из пластины, а затем соединять друг с другом — компания разработала в 2019 г. гигантский чип Wafer-Scale Engine 1 (WSE-1), занимающий практически всю пластину. 400 тыс. ядер, выполненных по 16-нм техпроцессу, потребляют 15 кВт, но в ряде задач они оказываются в сотни раз быстрее 450-кВт суперкомпьютера на базе ускорителей NVIDIA. В этом году компания выпустила второе поколение этих чипов — WSE-2, в котором благодаря переходу на 7-нм техпроцесс удалось повысить число тензорных ядер до 850 тыс., а объём L2-кеша довести до 40 Гбайт, что примерно в 1000 раз больше чем у любого GPU. Естественно, такой подход к производству понижает выход годных пластин и резко повышает себестоимость изделий, но Cerebras в сотрудничестве с TSMC удалось частично снизить остроту этой проблемы за счёт заложенной в конструкцию WSE избыточности. Благодаря идентичности всех ядер, даже при неисправности некоторых их них, изделие в целом сохраняет работоспособность. Тем не менее, себестоимость одной 7-нм 300-мм пластины составляет несколько тысяч долларов, в то время как стоимость чипа WSE оценивается в $2 млн. Зато система CS-1, построенная на таком процессоре, занимает всего треть стойки, имея при этом производительность минимум на порядок превышающую самые производительные GPU. Одна из причин такой разницы — это большой объём быстрой набортной памяти и скорость обмена данными между ядрами. Тем не менее, теперь далеко не каждая модель способна «поместиться» в один чип WSE, поэтому, по словам генерального директора Cerebras Эндрю Фельдмана (Andrew Feldman), сейчас в фокусе внимания компании — построение эффективных систем, составленных из многих чипов WSE. Скорость роста сложности моделей превышает возможности увеличения вычислительной мощности путём добавления новых ядер и памяти на пластину, поскольку это приводит к чрезмерному удорожанию и так недешёвой системы. Инженеры компании рассматривают дезагрегацию как единственный способ обеспечить необходимый уровень производительности и масштабируемости. Такой подход подразумевает разделение памяти и вычислительных блоков для того, чтобы иметь возможность масштабировать их независимо друг от друга — параметры модели помещаются в отдельное хранилище, а сама модель может быть разнесена на несколько вычислительных узлов CS, объединённых в кластер. На Hot Chips 33 компания представила особое хранилище под названием MemoryX, сочетающее DRAM и флеш-память суммарной емкостью 2,4 Пбайт, которое позволяет хранить до 120 трлн параметров. Это, по оценкам компании, делает возможным построение моделей близких по масштабу к человеческому мозгу, обладающему порядка 80 млрд. нейронов и 100 трлн. связей между ними. К слову, флеш-память размером с целую 300-мм пластину разрабатывает ещё и Kioxia. Для обеспечения масштабирования как на уровне WSE, так и уровне CS-кластера, Cerebras разработала технологию потоковой передачи весовых коэффициентов Weight Streaming. С помощью неё слой активации сверхкрупных моделей (которые скоро станут нормой) может храниться на WSE, а поток параметров поступает извне. Дезагрегация вычислений и хранения параметров устраняет проблемы задержки и узости пропускной способности памяти, с которыми сталкиваются большие кластеры процессоров. Это открывает широкие возможности независимого масштабирования размера и скорости кластера, позволяя хранить триллионы весов WSE-2 в MemoryX и использовать от 1 до 192 CS-2 без изменения ПО. В традиционных системах по мере добавления в кластер большего количества вычислительных узлов каждый из них вносит всё меньший вклад в решение задачи. Cerebras разработала интерконнект SwarmX, позволяющий подключать до 163 млн вычислительных ядер, сохраняя при этом линейность прироста производительности. Также, компания уделила внимание разрежённости, то есть исключения части незначимых для конечного результата весов. Исследования показали, что должная оптимизации модели позволяет достичь 10-кратного увеличения производительности при сохранении точности вычислений. В CS-2 доступна технология динамического изменения разрежённости Selectable Sparsity, позволяющая пользователям выбирать необходимый уровень «ужатия» модели для сокращение времени вычислений. «Крупные сети, такие как GPT-3, уже изменили отрасль машинной обработки естественного языка, сделав возможным то, что раньше было невозможно и представить. Индустрия перешла к моделям с 1 трлн параметров, а мы расширяем эту границу на два порядка, создавая нейронные сети со 120 трлн параметров, сравнимую по масштабу с мозгом» — отметил Фельдман. Huawei OceanProtect X8000 и X9000 — быстрые, ёмкие и надёжные All-Flash СХД для резервного копирования
26.08.2021 [13:00],
Илья Коваль
Перефразируя старую поговорку: люди делятся на тех, кто ещё не делает бэкапы, на тех, кто уже делает, и на тех, кто делает их правильно. Хотя, казалось бы, с начала пандемии первая категория должна стремительно уменьшаться, это происходит не везде, несмотря на совершенно неприличные для современной IT-индустрии — как по активности злоумышленников, так и по беспомощности жертв — атаки на бизнес любого размера. Впрочем, даже в тех индустриях, где резервное копирование делать привыкли, есть области с особыми требованиями. Это в первую очередь финансовые институты, энергетика, телекоммуникации, управление производством, ретейл и т.д. Во всех этих областях минута простоя обходится более чем $1 млн, а в случае финансовых учреждений эта цифра достигает почти $6,5 млн. По оценкам экспертов, отсутствие катастрофоустойчивости, важнейшим элементом которой является именно резервное копирование, в более чем половине случае приводит к банкротству в течение 2-3 лет после первого падения IT-систем. А причин такого падения масса — от природных бедствий и человеческого фактора до неумышленного (сбой оборудования) или умышленного (атака) вмешательства в работу систем. Вместе с тем в последние годы поменялись и сами данные, и требования к работе с ними. Никого уже не удивляет необходимость поддержки надёжности в семь «девяток», резкий рост объёмов «горячих» и «тёплых» данных и постепенный переход от петабайтных хранилищ к экзабайтным, а также изменение самой сути хранимой и обрабатываемой информации — структурированные данные становятся всё менее заметными на фоне растущих как снежный ком неструктурированных. Всё это кардинальным образом меняет требования и к «боевым» СХД, и в особенности к системам резервного копирования. Без бэкапа «тёплых» данных кое-где уже не обойтись, но такие СХД должны обладать уникальным набором характеристик: достаточно высокое быстродействие, причём не только на получение, но и на отдачу данных; повышенная надёжность; универсальность, то есть работа и с SAN, и с NAS; масштабируемость по ёмкости и производительности. Ровно те же требования предъявляются и к основным СХД, однако для задач бэкапа нужно соблюсти ещё два очень важных условия. Во-первых, доступное пространство должно значительно превышать ёмкость резервируемых СХД, чего, не раздувая размеры системы, можно добиться лишь правильным использованием дедупликации и компрессии, которые при этом должны происходить на лету и минимально влиять на производительность. Во-вторых, такая система должны быть выгоднее, чем просто установка дубля основной СХД. И у Huawei есть именно такое уникальное решение. Весной компания анонсировала новую серию СХД с говорящим названием OceanProtect. Наиболее интересными в ней являются модели X9000 и X8000, относящиеся к высокому и среднему сегменту соответственно. «Хитрость» в том, что основой для них является всё та же современная OceanStor Dorado, которую лишили части некритичных для задач резервного копирования функций и оснастили исключительно SAS SSD.
И, конечно, добавили ряд специфичных для работы с бэкапом оптимизаций. Например, в OceanProtect наряду с RAID-5/6 доступен и фирменный массив RAID-TP, сохраняющий работоспособность при потере до трёх накопителей сразу. Однако в данном случае данные агрегируются в длинные непрерывные блоки в кеше, сливаются воедино и записываются с использованием RoW (redirect-on-write) целыми страйпами. Такой подход отчасти связан с используемыми в OceanProtect алгоритмами дедупликации и компрессии, которые вместе позволяют достичь коэффициента сжатия вплоть до 55:1. Для этого используется несколько техник. В частности, мета✴✴-данные выявляются и отделяются от остальных, подвергаясь только компрессии. Для основных же данных используется динамически подстраиваемая системой дедупликация с сегментами переменной длины. После неё данные снова анализируются и делятся на те, которые хорошо подвергаются компрессии и для которых используются стандартные алгоритмы сжатия, и на те, которые просто так сжать не удастся. Для последних применяется фирменный алгоритм сжатия, который, к слову, является детищем российского подразделения исследований и разработок компании — Huawei регулярно проводит конкурс по созданию именно таких алгоритмов среди отечественных вузов, так что некоторые наработки попадают в столь заметные продукты. Сжатые данные побайтно выравниваются для компактности и отправляются на запись. Таким образом достигается и эффективное использование дискового пространства, и снижение нагрузки на накопители. Повышение надёжности СХД достигается несколькими механизмами на различных уровнях. Так, непосредственно внутри SSD из чипов памяти формируются массивы RAID 4. Сами SSD представляются системе не как «монолиты», а в виде групп RAID 2.0+ из блоков фиксированного размера. Это позволяет не только повысить надёжность без потери производительности, но и сбалансировать нагрузку, выровнять износ и значительно сократить время на пересборку массивов. Для подключения дисковых полок используются 4-портовые (Mini-SAS) интерфейсные модули SAS-3, для контроллеров — 25/100GbE с RDMA, а для хостов — модули FC8/16/32 и 10/25/40/100GbE с RDMA. Ethernet-контроллеры поддерживают разгрузку стека TCP/IP, избавляя CPU от лишней нагрузки. Посадочных мест для модулей достаточно для того, чтобы объединить контроллеры с резервированием подключения без использования внешнего коммутатора. Для SAN доступна поддержка Fibre Channel и iSCSI, а для NAS — NFSv3/4.1, SMB/CIFS 2.0/3.0 и NDMP. Дисковый бэкенд и IO-фронтенд подключаются к контроллерам по схеме «каждый-с-каждым» с дополнительным резервированием, да и сами контроллеры провязаны между собой по той же схеме. Таким образом формируется полноценная mesh-сеть из всех компонентов и линков. Это даёт всё те же отказоустойчивость, производительность и сбалансированность. Ну и поддержку горячей замены или обновления (что программного, что аппаратного) практически любого из компонентов системы без её остановки. На программном уровне доступны различные варианты репликации и работы со снапшотами, «умные» квоты и классы обслуживания (по скорости, IOPS и задержке), расширенная система мониторинга, прогнозная аналитика по состоянию системы в целом и отдельных её компонентов, в том числе по производительности и ёмкости. Для задач безопасности доступно шифрование на уровне дисков, безопасное затирание данных по международным стандартам, а также аппаратный RoT, формирующий цепочку доверия для всего ПО. Всё вышесказанное относится к обеим моделям, X8000 и X900. Но различия между ними, конечно, есть. У OceanProtect X9000 в отдельном 4U-шасси находятся четыре контроллера Active-Active, каждый из которых может иметь до четырёх CPU и до 1 Тбайт памяти для кеширования. Система сохраняет работоспособность при выходе из строя трёх из четырёх контроллеров. На шасси приходится 28 интерфейсных модулей и четыре БП, которые являются общими для всех. Можно объединить два шасси, то есть получить восемь контроллеров, связанных между собой 100GbE-подключениями. OceanProtect X8000 объединяет в 2U-шасси два контроллера Active-Active, 25 накопителей SAS-3 и два БП. Каждый контроллер имеет до 2 CPU, до 512 Гбайт памяти для кеширования и шесть интерфейсных модулей. Можно объединить два шасси (четыре контроллера) посредством 25GbE-подключений. Дисковые полки одинаковые для обеих моделей — 2U-шасси на 25 накопителей с четырьмя портами Mini-SAS и двумя БП. Пока что доступны только накопители объёмом 3,84 и 7,68 Тбайт, но в будущем появятся и более ёмкие модели. В серии OceanProtect есть и СХД попроще. Так, модель A8000 похожа на X8000, но имеет более скромные показатели производительности и предлагает только 10/25GbE-интерфейсы. А линейка Huawei DPA использует уже SATA-накопители и 1/10GbE-подключения. В будущем появится и серия оптических библиотек OceanArchive для «холодных» данных. Таким образом, продукты компании покроют все ключевые задачи в этом сегменте. Huawei ожидает, что рынок СХД для резервного копирования вырастет к 2025 году до $14,7 млрд и рассчитывает «отъесть» от него примерно половину. Получены первые образцы 1000-ядерного суперкомпьютера-на-чипе Esperanto ET-SoC-1
26.08.2021 [03:07],
Алексей Степин
Рекомендательные системы, активно используемые социальными сетями, рекламными платформами и т.д. имеют специфические особенности. От них требуется высокая скорость отклика, но вместе с тем их ИИ-модели весьма объёмны, порядка 100 Гбайт или более. А для их эффективной работы нужен ещё и довольно большой кеш. Для инференса чаще всего используется либо CPU (много памяти, но относительно низкая скорость) или GPU (высокая скорость, но мало памяти), но они не слишком эффективны для этой задачи. При этом существуют ещё и физические ограничения со стороны гиперскейлеров: в сервере не так много полноценных PCIe-слотов и свободного места + есть жёсткие ограничения по энергопотреблению и охлаждению (чаще всего воздушному). Всё это было учтено компанией Esperanto, чьей специализацией является разработка чипов на базе архитектуры RISC-V. На днях она получила первые образцы ИИ-ускорителя ET-SoC-1, который она сама называет суперкомпьютером-на-чипе (Supercomputer-on-Chip). ![]() Новинка предназначена для инференса рекомендательных систем, в том числе на периферии, где на первый план выходит экономичность. Компания поставила для себя непростую задачу — весь комплекс ускорителей с памятью и служебной обвязкой должен потреблять не более 120 Вт. Для решения этой задачи пришлось применить немало ухищрений. Самое первое и очевидное — создание относительно небольшого, но универсального чипа, который можно было бы объединять с другими такими же чипами с линейным ростом производительности. Для достижения высокой степени параллелизма основой такого чипа должны стать небольшие, но энергоэффективные ядра. Именно поэтому выбор пал на 64-бит ядра RISC-V, поскольку они «просты» не только с точки зрения ISA, но и по транзисторному бюджету. Чип ET-SoC-1 сочетает в себе два типа ядер RISC-V: классических «больших» ядер (ET-Maxion) с внеочередным выполнением у него всего 4, зато «малых» ядер (ET-Minion) с поддержкой тензорных и векторных вычислений — целых 1088. На комплекс ядер ET-Maxion возлагаются задачи общего назначения и в ИИ-вычислениях он напрямую не участвует, зато позволяет быть ET-SoC-1 полностью автономным, так как прямо на нём можно запустить Linux. Помогает ему в этом ещё один служебный RISC-V процессор для периферии. А вот ядра ET-Minion довольно простые: внеочередного исполнения инструкций в них нет, зато есть поддержка SMT2 и целый набор новых инструкций для INT- и FP-операций с векторами и тензорами. За каждый такт ядро ET-Minion способно выполнять 128 INT8-операций с сохранением INT32-результата, 16 FP32-операций или 32 — FP16. «Длинные» тензорные операции могут непрерывно исполняться в течение 512 циклов (до 64 тыс. операций), при этом целочисленные блоки в это время отключаются для экономии питания. Система кешей устроена несколько непривычным образом. На ядро приходится 4 банка памяти, которые можно использовать как L1-кеш для данных и как быструю универсальную память (scratchpad). Восемь ядер ET-Minion формируют «квартал» вокруг общего для них кеша инструкций, так как на таких задачах велика вероятность того, что инструкции для всех ядер действительно будут одни и те же. Кроме того, это энергоэффективнее, чем восемь индивидуальных кешей, и позволяет получать и отправлять данные большими блоками, снижая нагрузку на L2-кеш. Восемь «кварталов» формируют «микрорайон» с коммутатором и четырьмя банками SRAM объёмом по 1 Мбайт, которые можно использовать как приватный L2-кеш, как часть общего L3-кеша или как scratchpad. Посредством mesh-сети «микрорайоны» общаются между собой и с другими блоками: ET-Maxion, восемь двухканальных контроллеров памяти, два root-комплекса PCIe 4.0 x8, аппаратный RoT. Суммарно на чип приходится порядка 160 Мбайт SRAM. Контроллеры оперативной памяти поддерживают модули LPDDR4x-4267 ECC (256 бит, до 137 Гбайт/с). Тактовая частота ET-Minion варьируется в пределах от 500 МГц до 1,5 ГГц, а ET-Maxion — от 500 МГц до 2 ГГц. В рамках OCP-блока Glacier Point V2 компания объединила на одной плате шесть ET-SoC-1 (всего 6558 ядер RISC-V), снабдив их 192 Гбайт памяти (822 Гбайт/с) — это больше, нежели у NVIDIA A100 (80 Гбайт). Такая связка развивает более 800 Топс, требуя всего 120 Вт. В среднем же она составляет 100 ‒ 200 Топс на один чип с потреблением менее 20 Вт. Это позволяет создать компактный M.2-модуль или же наоборот масштабировать систему далее. Шасси Yosemite v2 может вместить 64 чипа, а стойка — уже 384 чипа. В тесте MLPerf для рекомендательных систем производительность указанной выше связки из шести чипов в пересчёте на Ватт оказалась в 123 раза выше, чем у Intel Xeon Platinum 8380H (250 Вт), и в два-три раза выше, чем у NVIDIA A10 (150 Вт) и T4 (70 Вт). В «неудобном» для чипа тесте ResNet-50 разница с CPU и ускорителем Habana Goya уже не так велика, а вот с решениями NVIDIA, напротив, более заметна. При этом о поддержке со стороны ПО разработчики также подумали: чипы Esperanto могут работать с широко распространёнными фреймворками PyTorch, TensorFlow, MXNet и Caffe2, а также принимать готовые ONNX-модели. Есть и SDK для C++, а также драйверы для x86-хостов. Опытные образцы изготовлены на TSMC по 7-нм техпроцессу. Кристалл площадью 570 мм2 содержит 24 млрд транзисторов. Чип имеет упаковку BGA2494 размерами 45 × 45 мм2. Энергопотребление (а вместе с ним и производительность) настраивается в диапазоне от 10 до 60+ Ватт. Потенциальным заказчикам тестовые чипы станут доступны до конца года. Компания также готова адаптировать ET-SoC-1 под другие техпроцессы и фабрики, но демо на базе OCP-платформы и сравнение с Cooper Lake — это недвусмысленный намёк для Facebook✴✴, что Esperanto будет рада видеть её в числе первых клиентов. IBM представила процессоры Telum: 8 ядер, 5+ ГГц, L2-кеш 256 Мбайт и ИИ-ускоритель
24.08.2021 [04:11],
Алексей Степин
Финансовые организации, системы бронирования и прочие операторы бизнес-критичных задач любят «большие машины» IBM за надёжность. Недаром литера z в названии систем означает Zero Downtime — нулевое время простоя. На конференции Hot Chips 33 компания представила новое поколение z-процессоров, впервые в истории получившее собственное имя Telum (дротик в переводе с латыни). «Оружейное» название выбрано неспроста: в новой архитектуре IBM внедрила и новые, ранее не использовавшиеся в System z решения, предназначенные, в частности, для борьбы с фродом. Одни из ключевых заказчиков IBM — крупные финансовые корпорации и банки — давно ждали встроенных ИИ-средств, поскольку их системы должны обрабатывать тысячи и тысячи транзакций в секунду, и делать это максимально надёжно. Одной из целей при разработке Telum было внедрение инференс-вычислений, происходящих в реальном времени прямо в процессе обработки транзакции и без отсылки каких-либо данных за пределы системы. Поэтому инференс-ускоритель в Telum соединён напрямую с подсистемой кешей и использует все механизмы защиты процессора и памяти z/Architecture. И сам он тоже несёт ряд характерных для z подходов. Так, управляет работой акселератора отдельная «прошивка» (firmware), которую можно менять для оптимизации задач конкретного клиента. Она выполняется на одном из ядер и собственно ускорителе, который общается с данным ядром, и отвечает за обращения к памяти и кешу, безопасность и целостность данных и управление собственно вычислениями. Акселератор включает два вида движков. Первый имеет 128 SIMD-блоков для MAC-операций с FP16-данными и нужен для перемножения и свёртки матриц. У второго всего 32 SIMD-блока, но он может работать с FP16/FP32-данными и оптимизирован для функций активации сети и других, более комплексных задач. Дополняет их блок сверхбыстрой памяти (scratchpad) и «умный» IO-движок, ответственный за перемещение и подготовку данных, который умеет переформатировать их на лету. Scratchpad подключён к блоку, который подкачивает данные из L2-кеша и отправляет обратно результаты вычислений. IBM отдельно подчёркивает, что наличие выделенного ИИ-ускорителя позволяет параллельно использовать и обычные SIMD-блоки в ядрах, явно намекая на AVX-512 VNNI. Впрочем, в Sapphire Rapids теперь тоже есть отдельный AMX-блок в ядре, который однако скромнее по функциональности. Доступ к ускорителю возможен из пространства пользователя, в том числе в виртуализированном окружении. Для работы с новым ускорителем компания предлагает IBM Deep Learning Compiler, который поможет оптимизировать импортируемые ONNX-модели. Также есть готовая поддержка TensorFlow, IBM Snap ML и целого ряда популярных средств разработки. На процессор приходится один ИИ-ускоритель производительностью более 6 Тфлопс FP16. На тестовой RNN-модели для защиты от фрода чип может выполнять 116 тыс. инференс-операций с задержкой в пределах 1,1 мс, а для системы из 32 процессоров этот показатель составляет уже 3,6 млн инференс-операций, а латентность при этом возрастает всего лишь до 1,2 мс. Помимо ИИ-акселератора также имеется общий для всех ядер ускоритель (де-)компрессии (gzip) + у каждого ядра есть ещё и движок для CSMP. Ну и ускорители для сортировки и шифрования тоже никуда не делись. За надёжность отвечают сотни различных механизмов проверки и перепроверки работоспособности. Так, например, регистры и кеш дублируются, позволяя в случае сбоя ядра сделать его полную перезагрузку и продолжить выполнение задач ровно с того места, где оно прервалось. А для оперативной памяти, которая в обязательном порядке шифруется, используется режим Redundant Array of Memory (RAIM), своего рода RAID-массив, где одна кеш-линия «размазывается» сразу между восемью модулями. Telum, унаследовав многое от своего предшественника z15, всё же кардинально отличается от него. Процессор содержит восемь ядер с поддержкой «умного» глубокого внеочередного исполнения и SMT2, работающих на частоте более 5 ГГц. Каждому ядру полагается 32 Мбайт L2-кеша, так что на его фоне другие современные CPU выглядят блекло. Но не всё так просто. Между собой кеши общаются посредством двунаправленной кольцевой шины с пропускной способностью более 320 Гбайт/с, формируя таким образом виртуальный L3-кеш объёмом 256 Мбайт и со средней задержкой в 12 нс. Каждый чип Telum может содержать один (SCM) или два (DCM) процессора. А в одном узле может быть до четырёх чипов, то есть до восьми CPU, объединённых по схеме каждый-с-каждым с той же скоростью 320 Гбайт/с. Таким образом, в рамках узла формируется виртуальный L4-кеш объёмом уже 2 Гбайт. Плоская топология кешей, по данным IBM, обеспечивает новым процессорам меньшую латентность в сравнении с z15. Масштабирование возможно до 32 процессоров, но отдельные узлы связаны несколькими подключениями со скоростью «всего» 45 Гбайт/с в каждую сторону. В целом, IBM говорит о 40% прироста производительности в сравнении с z15 в пересчёте на сокет. Telum содержит 22 млрд транзисторов и имеет TDP на уровне 400 Вт в нормальном режиме работы. Процессор будет производиться на мощностях Samsung с использованием 7-нм техпроцесса EUV. Он станет основной для мейнфреймов IBM z16 и LinuxNOW. Программной платформой всё так же будут как традиционная z/OS, так и Linux. Intel представила Xeon Sapphire Rapids: четырёхкристалльная SoC, HBM-память, новые инструкции и ускорители
19.08.2021 [16:00],
Игорь Осколков
В рамках Architecture Day компания Intel рассказала о грядущих серверных процессорах Sapphire Rapids, подтвердив большую часть опубликованной ранее информации и дополнив её некоторыми деталями. Intel позиционирует новинки как решение для более широкого круга задач и рабочих нагрузок, чем прежде, включая и популярные ныне микросервисы, контейнеризацию и виртуализацию. Компания обещает, что CPU будут сбалансированы с точки зрения вычислений, работой с памятью и I/O. Новые процессоры, наконец, получили чиплетную, или тайловую в терминологии Intel, компоновку — в состав SoC входят четыре «ядерных» тайла на техпроцессе Intel 7 (10 нм Enhanced SuperFIN). Каждый тайл объединён с соседом посредством EMIB. Их системные агенты, включающие общий на всех L3-кеш объём до 100+ Мбайт, образуют быструю mesh-сеть с задержкой порядка 4-8 нс в одну сторону. Со стороны процессор будет «казаться» монолитным. Каждые ядро или поток будут иметь свободный доступ ко всем ресурсам соседних тайлов, включая кеш, память, ускорители и IO-блоки. Потенциально такой подход более выгоден с точки зрения внутреннего обмена данными, чем в случае AMD с общим IO-блоком для всех чиплетов, которых в будущих EPYC будет уже 12. Но как оно будет на самом деле, мы узнаем только в следующем году — выход Sapphire Rapids запланирован на первый квартал 2022-го, а массовое производство будет уже во втором квартале. Ядра Sapphire Rapids базируются на микроархитектуре Golden Cove, которая стала шире, глубже и «умнее». Она же будет использована в высокопроизводительных ядрах Alder Lake, но в случае серверных процессоров есть некоторые отличия. Например, увеличенный до 2 Мбайт на ядро объём L2-кеша или новый набор инструкций AMX (Advanced Matrix Extension). Последний расширяет ИИ-функциональность CPU и позволяет проводить MAC-операции над матрицами, что характерно для такого рода нагрузок. Для AMX заведено восемь выделенных 2D-регистров объёмом по 1 Кбайт каждый (шестнадцать 64-байт строк). Отдельный аппаратный блок выполняет MAC-операции над тремя регистрами, причём делаться это может параллельно с исполнением других инструкций в остальной части ядра. Настройкой параметров и содержимого регистров, а также перемещением данных занимается ОС. Пока что в процессорах представлен только MAC-блок, но в будущем могут появиться блоки и для других, более сложных операций. В пике производительность AMX на INT8 составляет 2048 операций на цикл на ядро, что в восемь раз больше, чем при использовании традиционных инструкций AVX-512 (на двух FMA-портах). На BF16 производительность AMX вдвое ниже, но это всё равно существенный прирост по сравнению с прошлым поколением Xeon — Intel всё так же пытается создать универсальные ядра, которые справлялись бы не только с инференсом, но и с обучением ИИ-моделей. Тем не менее, компания говорит, что возможности AMX в CPU будут дополнять GPU, а не напрямую конкурировать с ними. К слову, именно Sapphire Rapids должен, наконец, сделать BF16 более массовым, поскольку Cooper Lake, где поддержка этого формата данных впервые появилась в CPU Intel, имеет довольно узкую нишу применения. Из прочих архитектурных обновлений можно отметить поддержку FP16 для AVX-512, инструкции для быстрого сложения (FADD) и более эффективного управления данными в иерархии кешей (CLDEMOTE), целый ряд новых инструкций и прерываний для работы с памятью и TLB для виртуальных машин (ВМ), расширенную телеметрию с микросекундными отсчётами и так далее. Последние пункты, в целом, нужны для более эффективного и интеллектуального управления ресурсами и QoS для процессов, контейнеров и ВМ — все они так или иначе снижают накладные расходы. Ещё больше ускоряют работу выделенные акселераторы. Пока упомянуты только два. Первый, DSA (Data Streaming Accelerator), ускоряет перемещение и передачу данных как в рамках одного хоста, так и между несколькими хостами. Это полезно при работе с памятью, хранилищем, сетевым трафиком и виртуализацией. Второй упомянутый ускоритель — это движок QAT (Quick Assist Engine), на который можно возложить операции или сразу цепочки операций (де-)компрессии (до 160 Гбит/с в обе стороны одновременно), хеширования и шифрования (до 400 Гбитс/с) в популярных алгоритмах: AES GCM/XTS, ChaChaPoly, DH, ECC и т.д. Теперь блок QAT стал частью самого процессора, тогда как прежде он был доступен в составе некоторых чипсетов или в виде отдельной карты расширения. Это позволило снизить задержки и увеличить производительность блока. Кроме того, QAT можно будет задействовать, например, для виртуализации или Intel Accelerator Interfacing Architecture (AiA). AiA — это ещё один новый набор инструкций, предназначенный для более эффективной работы с интегрированными и дискретными ускорителями. AiA помогает с управлением, синхронизацией и сигнализацией, что опять таки позволит снизить часть накладных расходов при взаимодействии с ускорителями из пространства пользователя. Подсистема памяти включает четыре двухканальных контроллера DDR5, по одному на каждый тайл. Надо полагать, что будут доступные четыре же NUMA-домена. Больше деталей, если не считать упомянутой поддержки следующего поколения Intel Optane PMem 300 (Crow Pass), предоставлено не было. Зато было официально подтверждено наличие моделей с набортной HBM, тоже по одному модулю на тайл. HBM может использоваться как в качестве кеша для DRAM, так и независимо. В некоторых случаях можно будет обойтись вообще без DRAM. Про PCIe 5.0 и CXL 1.1 (CXL.io, CXL.cache, CXL.memory) добавить нечего, хотя в рамках другого доклада Intel ясно дала понять, что делает ставку на CXL в качестве интерконнекта не только внутри одного узла, но и в перспективе на уровне стойки. Для объединения CPU (бесшовно вплоть до 8S) всё так же будет использоваться шина UPI, но уже второго поколения (16 ГТ/с на линию) — по 24 линии на каждый тайл. Конкретно для Sapphire Rapids Intel пока не приводит точные данные о росте IPC в сравнении с Ice Lake-SP, ограничиваясь лишь отдельными цифрами в некоторых задачах и областях. Также не был указан и ряд других важных параметров. Однако AMD EPYC Genoa, если верить последним утечкам, даже по чисто количественным характеристикам заметно опережает Sapphire Rapids. Intel анонсировала ускорители Xe HPC Ponte Vecchio: 100+ млрд транзисторов, микс 5/7/10-нм техпроцессов Intel и TSMC и FP32-производительность 45+ Тфлопс
19.08.2021 [16:00],
Игорь Осколков
Как и было обещано несколько лет назад, основным «строительным блоком» для графики и ускорителей Intel станут ядра Xe, которые можно будет гибко объединять и сочетать с другими аппаратными блоками для получения заданной производительности и функциональности. Компания уже анонсировала первые «настоящие» дискретные GPU серии Arc, а на Intel Architecture Day она поделилась подробностями о серверных ускорителях Xe HPC и Ponte Vecchio. Основой Xe HPC является вычислительное ядро Xe Core, которое включает по восемь векторных и матричных движков для данных шириной 512 и 4096 бит соответственно. Они делят между собой L1-кеш объёмом 512 Кбайт, с которым можно общаться на скорости 512 байт/такт. Заявленная производительность для векторного движка (бывший EU), ориентированного на «классические» вычисления, составляет 256 операций/такт для FP32 и FP64 или 512 — для FP16. Матричный движок нужен скорее для ИИ-нагрузок, поскольку работает только с данными TF32, FP16, BF16 и INT8 — 2048, 4096, 4096 и 8192 операций/такт соответственно. Данный движок работает с инструкциями XMX (Xe Matrix eXtensions), которые в чём-то схожи с AMX в Intel Xeon Sapphire Rapids. Отдельные ядра объединяются в «слайсы» (slice) — по 16 Xe-Core в каждом, которые дополнены 16 блоков аппаратной трассировки лучей. Именно слайс является базовым функциональным блоком. Он изготавливается на TSMC по 5-нм техпроцессу в рамках инициативы Intel IDM 2.0. Слайсы объединяются в стеки — по 4 шт. в каждом. Стек включает также базовую (Base) «подложку» (или тайл), четыре контроллерами памяти HBM2e (сама память вынесена в отдельные тайлы), общим L2-кешем объёмом 144 Мбайт, один медиа-движок с аппаратными кодеками, а также тайл Xe Link и контроллер PCIe 5. Base-тайл изготовлен по техпроцессу Intel 7 и использует EMIB для объединения всех блоков. Тайлы Xe Link, изготавливаемые по 7-нм техпроцессу TSMC, включают 8 интерфейсов для стеков/ускорителей вкупе с 8-портовыми коммутатором и используют SerDes-блоки класса 90G. Всё это позволяет объединить до 8 стеков по схеме каждый-с-каждым, что, в целом, напоминает подход NVIDIA, хотя у последней NVSwitch всё же (пока) является внешним компонентом. В самом ускорителе в зависимости от конфигурации стеков может быть один или два. В случае Ponte Vecchio их как раз два, и Intel приводит некоторые данные о его производительности: более 45 Тфлопс в FP32-вычислениях, более 5 Тбайт/с пропускной способности внутренней фабрики памяти и более 2 Тбайт/с — для внешних подключений. Для сравнения, у NVIDIA A100 заявленная FP32-производительность равняется 19,5 Тфлопс, а AMD Instinct MI100 — 23,1 Тфлопс. Также Intel показала результаты бенчмарка ResNet-50 в обучении и инференсе: 3400 и 43000 изображений в секунду соответственно. Эти результаты являются предварительными, поскольку получены не на финальной версии «кремния». Но надо учитывать, что Ponte Vecchio есть ещё одно преимущество — отдельный Rambo-тайл с дополнительным сверхбыстрым кешем, который, вероятно, можно рассматривать в качестве L3-кеша. В целом, Ponte Vecchio — это один из самых сложны чипов на сегодняшний день. Он объединяет с помощью EMIB и Foveros 47 тайлов, изготовленных по пяти разным техпроцессам, а общий транзисторный бюджет превышает 100 млрд. Данные ускорители будут доступны в форм-факторе OAM и виде готовых плат с четырьмя ускорителями на борту (на ум опять же приходит NVIDIA HGX). И именно такие платы в паре с двумя процессорами Sapphire Rapids войдут в состав узлов суперкомпьютера Aurora. Ещё одной машиной, использующей связку новых CPU и ускорителей Intel станет SuperMUC-NG (Phase 2). Официальный выход Ponte Vecchio запланирован на 2022 год, но и выход следующих поколений ускорителей AMD и NVIDIA, с которыми и надо будет сравнивать новинки, тоже не за горами. Пока что Intel занята не менее важным делом — развитием программной экосистемы, основой которой станет oneAPI, набор универсальных инструментов разработки приложений для гетерогенных (CPU, GPU, IPU, FPGA и т.д.) приложений, который совместим с оборудованием AMD и NVIDIA. Интернет-кабель 2Africa длиной 37 тыс. км и стоимостью $1 млрд расширил географию
17.08.2021 [12:57],
Сергей Карасёв
Консорциум 2Africa по прокладке одной из самых дорогостоящих в мире подводных волоконно-оптических линий сообщили о добавлении четырёх новых ветвей. Таким образом, в общей сложности инфраструктура подключений будет насчитывать 35 точек в 26 странах. В проект 2Africa входят China Mobile International, Facebook✴✴, MTN GlobalConnect, Orange, STC, Telecom Egypt, Vodafone и WIOCC. В рамках инициативы будет проложен кабель протяжённостью приблизительно 37 тыс. км, который свяжет Африку, Европу и Средний Восток. В число новых планируемых подключений вошли Сейшельские острова, Коморские острова, Ангола, а также точка на юго-востоке Нигерии. Не так давно было объявлено о включении в проект Канарских островов.
Первичный маршрут 2Africa О проекте 2Africa впервые стало известно в мае прошлого года. На сегодняшний день выполнена основная часть морских разведывательных работ; ведётся изготовление кабеля. Ввести линию в эксплуатацию планируется к 2024 году. Высокоскоростная магистраль, стоимость которой оценивается почти в $1 млрд, обеспечит скоростным доступом в интернет огромное количество пользователей, которые проживают в соответствующем регионе. Новая нефть: Норвегия намерена стать «фантастической площадкой» для размещения дата-центров
16.08.2021 [16:56],
Владимир Агапов
Концепция развития центров обработки данных (ЦОД) впервые оформилась в Норвегии в 2018 г., когда правительство задалось целью повысить привлекательность своей страны для представителей отрасли. C 2019 г. власти инвестировали в новые ЦОД порядка €255 млн, а также отменили налоги на имущество для производственного оборудования и установок на предприятиях и в других сферах, стимулировали создание оптоволоконных каналов связи и вели работу по информированию партнёров по всем необходимым для начала работы вопросам. Обновлённая стратегия развития ЦОД была представлена министром Линдой Хофстад Хеллеланд (Linda Hofstad Helleland). Она позиционирует Норвегию как оптимальную страну для строительства ЦОД и иностранных инвестиций. В число ключевых преимуществ входят понятные и стабильные правила игры, доступность возобновляемых источников энергии, широкополосной связи, квалифицированной рабочей силы и подключений с высокой безопасностью. Экологический аспект норвежской стратегии усилен требованием к объектам ЦОД о повторном использовании отработанного тепла.
Дата-центр DC1-Stavanger «Ожидается сильный рост экономики, основанной на данных, и здесь Норвегия может внести свой вклад, предлагая устойчивые решения в норвежских дата-центрах для служб социального обеспечения, индустрии аквакультуры и многого другого», — сказала Хеллеланд в предисловии к документу — «Мы должны работать над тем, чтобы в Норвегии стало больше центров обработки данных». Норвегия имеет сильную индустрию возобновляемых источников энергии, стабильность которой поддержана развитой гидроэнергетикой. Хотя страна всё ещё экспортирует нефть, Хеллеланд прогнозирует, что использование искусственного интеллекта и больших данных поможет удвоить темпы роста ВВП Норвегии к 2030 г. и важнейшим условием для этого является увеличение числа дата-центров. Сейчас в секторе ЦОД Норвегии занято всего 2400 человек, но Хеллеланд уверена, что в будущем их число значительно вырастет, поскольку в стране уже несколько лет наблюдается тенденция к росту использования компаниями облачных сервисов. По данным Статистического управления Норвегии, 64% компаний с числом сотрудников больше 10 покупали облачные услуги в 2020 г., что на 51% выше по сравнению с 2018 г. В 2021 г. одну или несколько услуг, предоставляемых из облака, использовали 92% государственных учреждений. Европейская комиссия ожидает рост объёма цифровой экономики в ЕС-27 с €301 млрд. в 2018г до €829 млрд. к 2025г. Ежегодный прирост этого сектора в Норвегии к 2030 г. может достигнуть €29 млрд., что представляет большие экономические возможности для норвежского бизнеса и промышленности, в том числе для игроков из сектора ЦОД.
Дата-центр DC2-Telemark «У нас в Норвегии фантастическая стартовая площадка с хорошим и надежным доступом к возобновляемым источникам энергии, прочной цифровой инфраструктурой, высокой компетентностью и стабильными рамочными условиями. Но конкуренция глобальна, и мы всегда должны становиться лучше. Важно также активно работать на благо местных жителей. Именно поэтому мы сейчас обновляем национальную стратегию создания центров обработки данных — всего через три года после первой инициативы», — добавила Хеллеланд. Конец эпохи: Intel окончательно прекратила поставки процессоров Itanium
30.07.2021 [21:05],
Алексей Степин
Первая попытка Intel покорить рынок массовых 64-бит систем окончилась неудачей — любопытная сама по себе архитектура Itanium (IA64) была несовместима со сложившейся экосистемой x86. Однако лишь сегодня в истории можно окончательно поставить точку: компания прекратила последние отгрузки процессоров Itanium. Сейчас поддержка 64-бит вычислений привычна и является частью любого достаточно современного процессора. Но так было не всегда: в конце 90-х и начале 2000-х ограничения, накладываемые 32-бит разрядностью хотя и были очевидны, рынок высокопроизводительных 64-бит процессоров для серверов и рабочих станций принадлежал компаниям Sun, Silicon Graphics, DEC и IBM. Все они имели RISC-архитектуру и не имели совместимости с x86.
Форм-фактор Itanium: нечто среднее между слотовыми Pentium II/III и привычным PGA/LGA Itanium, или IA64, совместная разработка Intel и Hewlett-Packard, должна была вернуть этим компаниям первенство в сфере мощных CPU. И ставка была сделана на уникальную архитектуру EPIC (разновидность VLIW) с явным параллелизмом команд. Сама по себе IA64 обладала рядом преимуществ, однако требовала тонкой проработки ПО на уровне компилятора, поскольку процессоры EPIC во многом полагаются именно на него, а не на аппаратный планировщик.
Itanium: радужные надежды и суровая реальность (красная линия) Отказ от последнего позволял потратить освободившийся транзисторный бюджет на более важные, по мнению Intel и HP, цели — например, на увеличение производительности вычислений с плавающей запятой. Но инфраструктура программного обеспечения к моменту анонса Itanium уже была весьма развитой. При этом новое, 64-бит ПО ещё надо было создать и, что гораздо важнее и сложнее, правильным образом оптимизировать, а уже имевшееся на новых CPU работало медленно из-за необходимости эмуляции x86. Компании пытались развивать IA64 до 2017 года, когда были представлены чипы Itanium Kittson с 8 ядрами и частотой до 2,66 ГГц, но то, что затея с новой архитектурой оказалась неудачной, было понятно уже после анонса первых процессоров AMD x86-64, полностью совместимых как с 32-бит, так и с 64-бит приложениями x86. В начале 2021 года Линус Торвальдс объявил о фактической смерти архитектуры и поддержка IA64 была исключена из новых ядер Linux. А сегодня можно говорить об окончательном завершении эры Itanium.
Раритет: Supermicro i2DML-iG2 в форм-факторе EATX с поддержкой Itanium 2. Найти такую плату почти невозможно Сама Intel ещё в 2019-ом официально поставила на Itanium крест, но из-за сложившейся экосистемы заказы на процессоры принимались вплоть до 30 января 2020 года. А вчера компания официально объявила о прекращении поставок последних партий Itanium. Теперь ещё одна процессорная архитектура стала достоянием истории, хотя HPE формально будет поддерживать её до 2025 года. Сами CPU нередко встречаются на онлайн-аукционах, например, на Ebay, но даже для энтузиастов они малоинтересны — найти подходящую системную плату невероятно сложно, а стоить она может намного дороже самих процессоров, да и форм-фактор имеет специфический. Yotta и Piql запустили сервис долгосрочного хранения данных на фотоплёнке
04.07.2021 [14:03],
Сергей Карасёв
Индийский оператор центров обработки данных Yotta в партнёрстве с норвежской фирмой Piql запустил сервис долгосрочного хранения информации на плёнке. Система под названием Yotta Preserve ориентирована на компании и организации, которым необходимо создание архивов разнородных сведений. Новая система использует проприетарную плёнку piqlFilm. Её заявленная долговечность составляет от 500 до 1000 лет.
Здесь и ниже изображения Piql «Yotta Preserve предлагает лучшее из двух миров: архивные данные могут быть защищены на физическом уровне и доступны в цифровом виде», — отмечает Yotta. Плёнка рассчитана на хранение аналоговой и цифровой информации, видео, аудиоматериалов, рукописных документов и «любого другого контента на планете». О том, где физически будет храниться плёнка в рамках сервиса Yotta Preserve и как планируется предоставлять доступ к системе, компании ничего не сообщают. ![]() Система piqlFilm предполагает преобразование данных в некое подобие QR-кодов, которые хранятся на 35-ммй плёнке. Дополнительно могут быть сохранены иллюстрации и рукописные инструкции, объясняющие, как можно расшифровать эти коды — на случай, если технология будет утрачена через несколько поколений. Piql известна тем, что отправила на длительное хранение в специально оборудованную шахту в условиях вечной мерзлоты на острове Шпицберген 21 Тбайт данных с GitHub. Не только омары: второй дата-центр Green Mountain обогреет форелевую ферму в Норвегии
30.06.2021 [22:59],
Владимир Агапов
С тех пор, как норвежская компания Green Mountain придумала направлять отработанное тепло своего ЦОД DC1-Stavenger на ферму по разведению омаров, концепция утилизации «мусорного» тепла получила дальнейшее развитие. Теперь оператор дата-центров хочет обогреть и крупнейшую в мире наземную форелевую ферму Hima Seafood. Ожидается, что предприятие сможет производить до 9000 т форели в год, а выбросы углекислого газа от его работы будут минимальными. Форелевое хозяйство разместится в 800 м от дата-центра DC2-Telemark в Рьюкане (Норвегия) и будет подключено системой трубопроводов к его контурам охлаждения. С помощью теплообменников Hima использует тепло ЦОД для получения нужной температуры в системе RAS и вернёт обратно остывшую воду, создав таким образом технологию замкнутого цикла.
Источник изображений: Green Mountain По словам генерального директора компании Hima, Джо МакЭлви (Joe McElwee), обеспечение постоянной и стабильной температуры воды является ключом ко всему производству рыбной продукции мирового уровня и возможность её получения от ЦОД является беспроигрышным решением для обеих сторон. Строительство начнётся в этом году, а ввод в эксплуатацию намечен на 2023 году. «Хотя наши дата-центры и работают на 100% возобновляемой гидроэнергии, мы не хотим, чтобы какая-либо её часть расходовалась впустую. Этот проект является примером циркулярной экономики, когда продукция одной компании может приносить не только экономическую, но и экологическую выгоду для другой. Мы стремимся к новым экологическим стандартам и надеемся, что наше совместное предприятие будет этому способствовать" — добавил генеральный директор Green Mountain Тор Кристиан Гюланд (Tor Kristian Gyland). Норвежский дата-центр Green Mountain направит «мусорное» тепло на обогрев омаров
23.06.2021 [00:20],
Владимир Агапов
Норвежский оператор дата-центров Green Mountain подписал договор с первой в мире наземной омаровой фермой Norwegian Lobster Farm на поставку отработанного тепла из ЦОД DC1-Stavanger. «С практической точки зрения это означает, что мы сможем увеличить масштабы производства, снизить технические риски и сэкономить как на капитальных, так и на эксплуатационных расходах, в дополнение к экологическим преимуществам, конечно» — отметил директор фермы Асбьерн Дренгстинг (Asbjørn Drengstig). Наземное разведение омаров является сложной задачей, но рыночные перспективы очень велики огромны. Особенно с учётом того, что популяция омаров в Европе сокращается. Поэтому технология наземного выращивания омаров разрабатывалась Norwegian Lobster Farm в течении нескольких лет при финансовой поддержке Европейского Союза по программе «Горизонт 2020». В итоге на её предприятиях используется технология рециркуляции аквакультуры (RAS), а также передовая робототехника, системы компьютерного зрения и автоматический непрерывный мониторинг каждого отдельного омара. Благодаря такой заботе омары вырастают размером с тарелку. Для оптимального роста омару необходима температура морской воды 20 °С, и как раз такая температура получается после охлаждения IT-оборудования ЦОД. Поэтому сточные воды СЖО можно направить непосредственно на ферму. Наибольшая эффективность может быть достигнута, если ферма будет построена в непосредственной близости от центра обработки данных. Отметим, что совместный прокет Green Mountain и Norwegian Lobster Farm весьма удачно вписывается в инициативу норвежских властей, которые планируют обязать дата-центры и другие промышленные предприятия отдавать «мусорное» тепло на общественные нужды. DC1-Stavanger использует для охлаждения морскую воду из фьорда с температурой 8 °С. После прохождения контуров охлаждения ЦОД нагретая вода сбрасывается обратно во фьорд. По словам генерального директора Green Mountain, Кристиана Гиланда ( Kristian Gyland), компания долгое время изучала различные способы повторного использования отработанного тепла, но большая часть из них не подходили из-за особенностей расположения дата-центра. Например, если дата-центры построены в городских жилых районах, вырабатываемое ими тепло можно использовать для обогрева домов. Однако расположение DC1-Stavanger в малонаселённом месте делает централизованное отопление бессмысленной затеей. С другой стороны, проект наземных омаровых ферм в этом случае подходит как нельзя лучше. «Мы надеемся, что сможем распространить эту и подобные концепции и на наши будущие объекты», — прокомментировал Гиланд. Сингапур и Facebook✴ разработают проект тропического дата-центра
18.06.2021 [13:31],
Владимир Агапов
В рамках проекта «Устойчивый тропический дата-центр» (STDC) будут протестированы новые методы охлаждения оборудования ЦОД с целью снижения нагрузки на сингапурскую электросеть. Необходимость в этом назрела, поскольку на Сингапур приходится около 60% центров обработки данных Юго-Восточной Азии и они потребляют уже 7% всей доступной стране электроэнергии. Несмотря на растущий спрос, властям пришлось наложить мораторий на строительство новых объектов. Тестовая площадка STDC, которая разместится на территории кампуса Kent Ridge Национального университета Сингапура (NUS). Она позволит испытать конструкцию теплообменника с влагопоглощающим покрытием и систему StatePoint, которую Facebook✴✴ и Nortek разработали для тропических районов. Также будет рассмотрен вариант гибридного охлаждения на уровне чипов и система динамического управления охлаждением на основе цифровых двойников и алгоритмов искусственного интеллекта (ИИ). Исследователи планируют выяснить, может ли теплообменник, покрытый адсорбентом, улучшить непрямое испарительное охлаждение в условиях тропического климата. Тестирование такой системы в реальных условиях эксплуатации необходимо для последующего безопасного внедрения на коммерческих объектах. А гибридное охлаждение чипов должно повысить надёжность, поскольку систему воздушного охлаждения можно использовать во время обслуживания водяного контура. Также будут исследованы возможности «Тропического ЦОД с воздушным охлаждением 2.0» — обновлённой версии системы, проектирование которой было начато в 2017 году. Она способна эффективно работать при повышенных температуре воздуха и влажности, что позволяет снизить энергопотребление оборудования воздухоподготовки. На уровне государства создание стенда для испытаний инновационных систем охлаждения поддержали национальный исследовательский фонд (NRF) и Агентство развития информационных технологий (IMDA). На реализацию проекта суммарно выделено $17 млн. Крупнейшим частным инвестором стала Facebook✴✴, которая ещё в 2018 году выбрала Сингапур для размещения крупного 11-этажного ЦОД мощностью 150 МВт. Энергию для него предоставят солнечные электростанции местной компании Sunseap, расположенные на крышах домов и воде. Энергоэффективность (PUE) объекта планируется на уровне 1,19. Для этого и нужна будет система жидкостного охлаждения StatePoint. Участники проекта надеются, что все эти технологии в совокупности помогут снизить энергопотребление в индустрии центров обработки данных на 40%, если они будут внедрены во всём тропическом регионе. Учитывая высокую долю ископаемого топлива в местной электроэнергетике, это позволит сократить выбросы парниковых газов на 25%. Google соединит Северную и Южную Америку уникальным подводным интернет-кабелем Firmina
09.06.2021 [23:00],
Илья Коваль
Google объявила о планах проложить новый подводный кабель Firmina, который протянется от восточного побережья США до Лас-Тонинаса в Аргентине. В южной части он получит дополнительные ответвления до Прайя-Гранде (Бразилия) и Пунта-дель-Эсте (Уругвай). Кабель назван в честь бразильской писательницы и аболиционистки XIX века Марии Фирмины дос Рейс (Maria Firmina dos Reis). Кабель будет включать 12 оптоволоконных пар (ёмкость пока не уточняется) и позволит южноамериканским пользователям получить быстрый доступ с малой задержкой к продуктам Google, включая поиск, Gmail, YouTube и облачные сервисы Google Cloud. Этот кабель станет 16-м по счёту, в постройку которого вложилась Google. Уникальным Firmina делает то, что он будет самым длинным кабелем в мире, способным работать от одного источника питания на любом из его концов. Даже если один из источников станет временно недоступным, второй сможет обеспечить полную работоспособность кабеля, что повышает устойчивость и надёжность связи. Достигается это за счёт подачи более высокого (+20%) напряжения, чем в аналогичных решениях. ![]() Обычным кабелям требуются дополнительные усилители, которые устанавливаются примерно через каждые 100 км. Для их питания необходимо высокое напряжение, которое подаётся с береговых станций. И если на коротких дистанциях можно организовать питание только с одного конца, то с увеличением длины кабеля и числа волокон это становится всё более трудной задачей. Nautilus превратит неработающую бумажную фабрику в ЦОД за $300 млн
06.06.2021 [22:07],
Владимир Агапов
Компания Nautilus Data Technologies, специализирующаяся на плавучих центрах обработки данных, объявила о том, что построит новый ЦОД на территории бывшей бумажной фабрики в Миллинокете (США, штат Мэн). Его энергетические потребности в 60 МВт полностью будут обеспечены местной гидроэлектростанцией. А система водяного охлаждения, питаемая из резервуара ГЭС, позволит сократить до 70% потребление энергии на охлаждение и до 30% выбросы CO2 в атмосферу. Запатентованная компанией двухконтурная система охлаждения позволит рециркулировать воду без загрязнения водоёма. А для достижения ещё более низкого показателя PUE, ЦОД разместится ниже водохранилища ГЭС, чтобы поток воды для охлаждения поступал под действием силы тяжести, а не требовал дополнительных насосов. Предприятие получит федеральные налоговые льготы, так как Миллинокет — один из экономически неблагополучных населённых пунктов. Для их преобразования в зоны «благоприятных возможностей» власти применяют финансовые стимулы, вплоть до освобождения от уплаты налогов компаний, инвестирующих в развитие общества. ЦОД Nautilus — первый, который будет построен в подобной зоне. Его клиентами станут местные предприятия: лаборатория Джексона и Торговая палата штата Мэн. Возможность создания большого кампуса ЦОД вкупе с недорогой электроэнергией, вероятно, привлечет также гиперскейлеров и облачных провайдеров. Местная оптоволоконная сеть Three-Ring Binder, построенная в 2012 году, сможет обеспечить с транзитом через Бостон подключение с низкой задержкой к другим крупным узлам, включая Нью-Йорк, Чикаго и Лондон. Компания Nautilus приобрела комплекс площадью 13 акров, расположенный на месте бывшей фабрики, в 99-летнюю аренду у местной некоммерческой организации Our Katahdin. Первый этап проекта стоимостью $300 млн, как ожидается, будет завершён к концу 2022 года. В спецификации NVMe 2.0 официально вошла поддержка HDD
04.06.2021 [02:43],
Владимир Агапов
Вчера был опубликован релиз спецификаций NVMe 2.0. Из скромного протокола для блочных устройств хранения данных, использующих PCI Express, NVMe эволюционирует в один из самых важных и универсальных протоколов для хранилищ практически любого типа. Новые спецификации будут способствовать развитию экосистемы устройств NVMe: SSD, карт памяти, ускорителей и даже HDD. Вместо базовой спецификации для типовых PCIe SSD и отдельной спецификации NVMe-over-Fabrics (NVMe-oF), версия 2.0 изначально разработана как модульная и включает целый ряд отдельных стандартов: базовый набор (NVMe Base), отдельные наборы команд (NVM, ZNS, KV), спецификации транспортного уровня (PCIe, Fibre Channel, RDMA, TCP) и спецификации интерфейса управления (NVMe Management Interface). Вместе они определяют то, как программное обеспечение хоста взаимодействует с накопителями и пулами хранения данных через интерфейсы PCI Express, RDMA и т.д. Базовая спецификация теперь охватывает и локальные устройства, и NVMe-oF, но является намного более абстрактной и не привязанной к реальному миру — было изъято столько всего, что её уже недостаточно для определения всей функциональности, необходимой для реализации даже простого SSD. Реальные устройства должны ссылаться ещё как минимум на одну спецификацию транспортного уровня и на одну спецификацию набора команд. В частности, для типовых SSD, к которым все привыкли, это означает использование спецификации транспорта PCIe и набора команд блочного хранилища. Три стандартизированных набора команд (блочный доступ, ZNS и Key-Value) охватывают области применения от простых твердотельных накопителей с «тонкими» абстракциями над базовой флеш-памятью до относительно сложных интеллектуальных накопителей, которые берут на себя часть задач по управлению хранением данных, традиционно выполнявшихся программным обеспечением на хост-системе. При этом различным пространствам имен, расположенным за одним контроллером, дозволено поддерживать разные наборы команд. В NVMe 2.0 также добавлен стандартный механизм управления пулами хранения данных, который позволяет более тонко управлять нагрузкой в зависимости от производительности, ёмкости и выносливости конкретных устройств. Иерархия пулов также была расширена ещё одним уровнем доменов, внутри которых теперь существуют группы, где, в свою очередь, находятся отдельные наборы NVM-устройств. Будущие наборы команд, например для вычислительных накопителей (computational storage), все еще находятся в стадии разработки и пока не готовы к стандартизации, но новый подход NVMe 2.0 позволит легко добавить их при необходимости. В принципе, в состав NVMe мог бы войти и стандарт Open Channel, но отрасль считает, что парадигма зонированного хранения обеспечивает более разумный баланс, и интерес к Open Channel SSD ослабевает в пользу ZNS-решений. Из прочих изенений в NVMe 2.0 можно отметить поддержку 32-бит и 64-бит CRC, новые правила безопасного отключения устройств в составе общих хранилищ (при доступе через несколько контроллеров), более тонкое управление правами доступа — можно разрешить чтение и запись, но запретить команды, меняющие настройки или состояние накопителя — и дополнительные протоколы, касающиеся обновления прошивок. Также в NVMe 2.0 появилась явная поддержка жёстких дисков. Хотя маловероятно, что HDD в ближайшее время перейдут на использование PCIe вместо SAS или SATA, поддержка таких носителей означает, что в будущем предприятия смогут унифицировать свои SAN c помощью NVMe-oF и отказаться от старых протоколов, таких как iSCSI. В целом, NVMe 2.0 приносит не та уж много новых функций, как это было с прошлыми версиями. Однако сама реорганизация спецификации поощряет итеративный подход и эксперименты с новыми функциями. Так что в ближайшие несколько лет, вероятно, обновления будут менее масштабными и станут выходить чаще. |
|||||||||||||||||||||||||||||||||||||||
|
✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»; |