Теги → sc19

Новая статья: Суперкомпьютеры на SC19: новая ARM’ия

Данные берутся из публикации Суперкомпьютеры на SC19: новая ARM’ия

Японский стартап Preferred Networks разработал ИИ-чип с производительностью 0,5 Петафлопс

На выставке, посвящённой конференции SC19, очень богато была представлена тема искусственного интеллекта и машинного обучения. Не только гиганты индустрии, но и молодые компании демонстрировали весьма интересные и заслуживающие внимания новинки.

Одной из таких новинок стал процессор MN-Core, разработанный силами японской компании Preferred Networks (PFN), основанной в 2014 году на средства корпорации Toyota. Этот чип является результатом усилий, сконцентрированных на создании ИИ-процессора для систем с низкой латентностью, включая комплексы IoT.

Суперкомпьютер Preferred Networks MN-2

Суперкомпьютер Preferred Networks MN-2

В создании MN-Core принимал участие профессор Токийского университета Кей Хираки (Kei Hiraki). Он рассказал, что компания PFN создала семейство частных суперкомпьютеров для того, чтобы ускорить собственные разработки в области глубокого машинного обучения. Первая такая система, MN-1, была запущена в 2017 году и показала мощность свыше 19 Петафлопс, заняв первое место в рейтинге японских суперкомпьютеров.

PFN MN-Core: 4 кристалла, 756 квадратных миллиметров, 500 Ватт тепловыделения

PFN MN-Core: 4 кристалла, 756 квадратных миллиметров, 500 Ватт тепловыделения

Первые системы PFN были классическим сочетанием процессоров общего назначения и ускорителей на базе GPU NVIDIA, но уже следующая машина должна будет использовать новый чип MN-Core, который, если верить обещаниям, превзойдет в энергоэффективности существующие решения. Разработчики замахнулись на процессор с теплопакетом 500 Ватт!

PFN MN-Core: основные технические характеристики

PFN MN-Core: основные технические характеристики

Производиться MN-Core будет с использованием 12-нм технологических норм на мощностях TSMC. Он не будет монолитным ‒ уже показанный на выставке образец даёт понять, что речь идёт о сборке из четырёх кристаллов в общем корпусе. Маркировка GRAPE-DR указывает на преемственность архитектуры, берущей своё начало в разработанном PFN ранее сопроцессоре физических вычислений. 

Чип довольно крупный, 85 × 85 миллиметров, общая площадь кристаллов составляет 756,7 мм2, проектная вычислительная мощность — 524 Тфлопс на вычислениях половинной точности (FP16), что даёт удельную производительность порядка 1 Тфлопс на ватт. 

PFN MN-Core: четыре блока вычислений + блок матричной арифметики в каждом ядре

Несмотря на то, что базовым режимом является FP16, доступны будут и более точные вычисления в форматах FP32/64 — ценой совместной работы вычислительных блоков и соответствующего снижения производительности. Ускоритель на базе MN-Core представляет собой классическую полноразмерную плату расширения с разъёмом PCI Express 3.0, которая, помимо процессора, будет нести на борту и 32 Гбайт памяти. Тип памяти и показатели ПСП пока неизвестны.

Дизайн будущих ускорителей MN-Core включает мощнейшую систему охлаждения

Дизайн будущих ускорителей MN-Core включает мощнейшую систему охлаждения

По словам профессора Хираки, главной проблемой разработчиков был высокий уровень тепловыделения, но им удалось создать воздушную систему охлаждения, способную справиться с энергопотреблением в районе 600 ватт. Каждый серверный узел будущего суперкомпьютера MN-3 будет иметь высоту 7U и включать в себя четыре ускорителя MN-Core. Это позволит достичь производительности почти 2,1 петафлопса на сервер.

Заявлено наличие двух разъёмов для ЦП общего назначения с теплопакетом до 200 Ватт. Вероятнее всего, речь идёт об Intel Xeon Scalable. Каждый сервер получит до 24 дисковых отсеков, из которых как минимум два будут поддерживать протокол NVMe.

Сервер PFN: строительный блок будущего суперкомпьютера

Сервер PFN: строительный блок будущего суперкомпьютера

Проектируемый сейчас суперкомпьютер MN-3 будет состоять из 4800 чипов MN-Core, но пока неясно, сколько стоек для этого потребуется; сама компания называет цифры в районе 300 единиц. Планируется достичь производительности свыше 2 Экзафлопс (1018 операций в секунду) при потреблении электроэнергии порядка 3,36 МВт. Для сравнения, суперкомпьютер Summit развивает 1,88 Экзафлопса, потребляя 13 МВт.

Примерные габариты MN-3. Видны 4 сервера с новыми ускорителями в каждой стойке

Примерные габариты MN-3. Видны 4 сервера с новыми ускорителями в каждой стойке

Компания планирует ввести MN-3 в строй уже в 2020 году, причём система будет использоваться исключительно для обеспечения вычислительными мощностями новых разработок Preferred Networks. Поставлять MN-Core другим разработчикам или производителям серверного оборудования PFN не планирует. Тем самым она идёт по стопам таких гигантов, как Google и Amazon, также разрабатывающих собственные ИИ-процессоры для своих облачных систем и кластеров.

Эксперты считают, что Intel теряет хватку в сегменте высокопроизводительных вычислений

На прошлой неделе корпорация Intel провела мероприятие для разработчиков в сфере высокопроизводительных вычислений, особое внимание уделялось планам по выпуску дискретных графических решений, которые будут применяться для ускорения вычислений. Экспертов KeyBanc, как отмечает ресурс Seeking Alpha, усилия Intel по подтверждению своей дееспособности в этом сегменте рынка впечатляют всё меньше и меньше.

Источник изображения: Intel

Источник изображения: Intel

По их словам, Intel давно не демонстрирует существенных инноваций, уровень конкурентоспособности её продуктов не так высок, чтобы оправдывать существующие цены. Зато экспозиция и доклады AMD и NVIDIA на SC19 авторов аналитической записки впечатлили гораздо больше. Если NVIDIA удерживает свои прочные позиции за счёт развитой экосистемы CUDA, то AMD активно наращивает своё присутствие в данном сегменте благодаря успеху своих процессоров EPYC.

Некоторые источники уже утверждали, что Intel была вынуждена несколько раз снизить цены на представленные во втором квартале серверные процессоры Cascade Lake, чтобы как-то противостоять натиску AMD. Последняя пытается усилить своё влияние через ускорители вычислений на основе собственных графических процессоров. Сделки с крупными клиентами, включая контракты на создание суперкомпьютеров, идут на пользу имиджу AMD, обеспечивая необходимый фундамент для дальнейшей экспансии.

В «нейроморфное» сообщество Intel вошли корпорации Accenture, Airbus, GE и Hitachi

Весной 2018 года Intel объявила об организации сообщества Intel Neuromorphic Research Community вокруг нейроморфных вычислений на базе фирменных платформ компании: процессоров Loihi, плат Nahuku с процессорами, а также готовых к эксплуатации USB-версий Kapoho Bay и 64-процессорных систем Pohoiki Beach. До лета этого года нейроморфные платформы Intel в основном были доступны через облачные сервисы компании. Поставки первых отдельных решений начались в июле, а к концу текущего года компания обещала начать поставки полочных систем и стоек Pohoiki Springs с 768 процессорами Loihi.

До сегодняшнего дня в сообщество Intel Neuromorphic Research Community (INRC) входили мало кому известные стартапы, небольшие компании и исследовательские учреждения по всему миру. Теперь Intel с гордостью заявляет, что в INRC впервые вошли компании из списка Fortune Global 500 крупнейших в мире корпораций. Созданием решений и инструментов с использованием нейроморфных платформ станут заниматься компании Accenture, Airbus, GE и Hitachi.

Нейроморфные вычисления обещают решить задачи, которые слабо подходят для решения с использованием традиционных технологий глубокого машинного обучения. Нейроморфная технология подражает адаптивному поведению естественных нейронных связей. Тем самым данные хранятся там же, где обрабатываются ― в кремниевом подобии сплетений искусственных нейронов и синапсов, что существенно повышает энергоэффективность таких расчётов. Нейроморфные вычисления могут стать основной ИИ, робототехники и даже интерфейса мозг-компьютер.

У каждой из четырёх корпораций, которая вошла в сообщество INRC, свои далеко идущие цели. Каждая из них внесёт свой вклад в развитие нейроморфных вычислений. Компания Accenture специализируется на консультациях для создания конкурентного преимущества клиентов в бизнесе. По её мнению, нейроморфные вычисления помогут обнаружить новые пути для роста компаний в самом широком спектре деятельности.

Платформа Pohoiki Beach (Intel)

Платформа Pohoiki Beach (Intel)

Компания Airbus известна своей позицией лидера в аэрокосмической отрасли. Но помощь от нейроморфных платформ она ждёт в смежной области: в сфере цифровой безопасности. Для Airbus представляется важным создать эффективные и малопотребляющие решения для постоянного мониторинга вредоносного вторжения в системы. Компания ожидает, что добавление возможностей обучения и масштабирования в режиме реального времени Loihi позволит как быстрее, так и точнее обнаруживать вредоносные программы, что является критической по времени проблемой.

Компания GE будет искать в нейроморфных платформах Intel средство для оптимизации производственных процессов. Нейроморфные платформы могут преобразить пограничные вычисления, что выльется в появление самообучающихся производственных линий. Также на пограничные вычисления с использованием нейроморфных процессоров рассчитывает компания Hitachi. Но у японцев несколько иная цель ― это оптимизация структур, обрабатывающих Большие Данные. Это вещи с подключением к Интернету, датчики, эксплуатация масштабных систем, умной городской инфраструктуры и «решение проблем» с социумом.

Плата Intel Nahuku с процессорами Loihi (Intel)

Плата Intel Nahuku с процессорами Loihi (Intel)

Как считают аналитики, если все или основные технические проблемы с нейроморфными платформами будут решены в ближайшие несколько лет, рынок нейроморфных вычислений может вырасти с $69 млн в 2024 году до $5 млрд в 2029 году и $21,3 млрд в 2034 году. Немного подробнее о процессорах Intel Loihi и решениях на нём можно прочесть в архиве наших новостей за 16 июля этого года.

SC19: Intel представила Ponte Vecchio — первый 7-нм GPU на архитектуре Xe, заточенный под HPC и ИИ

Как и ожидалось, в рамках конференции SC19 компания Intel представила свой первый графический процессор на архитектуре Intel Xe HPC, который получил кодовое название Ponte Vecchio, в часть средневекового моста Понте-Веккьо в итальянской Флоренции. Компания Intel называет новинку своим первым GPU для суперкомпьютеров экзафлопсного уровня. Об особенностях архитектуры новинки мы расскажем в отдельном материале

По словам Intel, Ponte Vecchio — это высокопроизводительный дискретный графический процессор общего назначения, который в первую очередь предназначен для различных высокопроизводительных вычислений (HPC) и машинного обучения. Отмечается, что архитектура Intel Xe в новом GPU была оптимизирована именно под эти задачи.

Архитектура Intel Xe будет доступна в различных версиях

Архитектура Intel Xe будет доступна в различных версиях

Также Intel отмечает, что графический процессор Ponte Vecchio будет производиться на 7-нм техпроцессу. Он будет состоять из нескольких кристаллов и использовать многослойную 3D-упаковку Intel Foveros. Для связи между кристаллами в рамках одной упаковки будут использоваться полупроводниковые мосты EMIB (Embedded Multi-Die Interconnect Bridge). Отмечается также использование скоростной памяти HBM (версия не уточняется) и скоростного интерконнекта CXL (Compute Express Link). На основе последнего будет создан интерфейс Xe Link для связи между GPU.

Вдаваться в подробности обо всех особенностях архитектуры новых графических процессоров компания Intel не стала. Впрочем, было отмечено, что решение будет использовать сразу несколько микроархитектур, оптимизированных под разные задачи. Это позволит создавать продукты для различных сегментов рынка и даст возможность лёгкого масштабирования. На основе  Xe будут сделаны и ультрамобильные карты, и ускорители для серверов. 

В частности, новые GPU для ЦОД будут обладать гибким механизмом параллельной обработки данных, высокой производительностью при работе с числами двойной точности (FP64) и ультравысокой пропускной способностью кеша и памяти. Они будут использованы в составе будущего суперкомпьютера Aurora, первой в США машины экзафлопсного класса. Каждый узел будет иметь два процессора Xeon Sapphire Rapids и шесть GPU Xe, соединённых шиной CXL, а также модули Optane DCPMM. Aurora получит суммарно 10 Пбайт памяти и хранилище ёмкостью более 230 Пбайт. 

window-new
Soft
Hard
Тренды 🔥