Теги → супервычисления
Быстрый переход

Программа DARPA приведёт к появлению в компьютерах оптических интерфейсов

Традиционные сигнальные интерфейсы с использованием проводных соединений продолжают хорошо себя проявлять на ближней дистанции — в виде токовых проводников в полупроводниковых чипах. На дальней дистанции — для передачи данных между чипами (процессорами, контроллерами и так далее) — проводные соединения становятся препятствием для дальнейшего наращивания параллелизма в вычислениях. Это проявляется не только в ограничении пропускной способности, но также ведёт к увеличению энергозатрат на передачу растущего потока данных. Очевидно, что с этим что-то надо делать. Например — переходить на оптические интерфейсы вместо электрических.

Для решения комплекса проблем, связанных с интеграцией оптических интерфейсов в полупроводниковые приборы и инфраструктуру, агентство DARPA учредило новую программу «PIPES». Аббревиатура PIPES расшифровывается как Photonics in the Package for Extreme Scalability (фотоника в упаковке для исключительного масштабирования). Действие программы будет касаться трёх областей разработок. Во-первых, необходимо создать технологии для интеграции оптических интерфейсов в состав чипов или многочиповых сборок (модулей). Предполагается интеграция оптических I/O-компонентов в интегральные схемы, ПЛИС, графические процессоры и заказные БИС (ASIC). В продолжение работ в этой области необходимо будет помочь в создании в США экосистемы для повсеместного внедрения данного вида разработок.

Второй областью разработок по программе «PIPES» станут поиски технологий и методов передачи данных оптическим способом между чипами и модулями. Иначе говоря, требуется создать интерфейс для передачи оптических сигналов между встроенными в чипы оптическими модулями. Третья область разработок, которая вытекает из первых двух — это необходимость управлять сотнями и тысячами узлов с оптическими интерфейсами. Напомним, всё идёт к увеличению параллелизма в вычислениях, так что сложность и запутанность систем будут расти завидными темпами.

В третью область исследований внесена разработка малопотребляющих и высокоплотных многоканальных и многопортовых оптических интерфейсов. Также к этой области относится разработка малопотребляющих оптических коммутаторов. Разработки во всех трёх областях программы «PIPES», уверяют в DARPA, найдут применение не только в области военного оборудования, но также на гражданке.

Ветеран Transmeta возвращается на рынок процессоров с архитектурой RISC-V

Итак, на поверхность всплыла новая компания — Esperanto Technologies. На седьмой конференции RISC-V Workshop, которая в этом году проходит с 28 по 30 ноября, Esperanto Technologies рассказала о собственных проектах и, в частности, подтвердила сотрудничество с компанией Western Digital, для которой (и совместно с которой) она будет создавать специализированные RISC-V-ускорители для обработки данных. Поскольку информации о совместном с WD проекте пока нет, данные о масштабной фирменной разработке Esperanto Technologies могут помочь составить представление, с какими архитектурными решениями мы можем столкнуться в ускорителях Western Digital.

Дэвид Дитцель на конференции RISC-V Workshop (PC Watch)

Дэвид Дитцель на конференции RISC-V Workshop (PC Watch)

Но начать следует с другого. Как мы уже отметили ранее, возглавил компанию Esperanto Technologies бывший главный технолог компании Transmeta Дэвид Дитцель (Dave Ditzel). Это крупнейший в мире специалист по процессорным архитектурам, на счету которого ряд основных патентов на системы команд RISC. В Transmeta Дэвид руководил разработкой VLIW-процессоров и не его вина, что Transmeta в итоге оказалась убыточной. Конкурировать с «WIntel» на их поле пока никому так и не удалось. В 2007 году Дитцель лишается поста CTO и вскоре покидает компанию. Потом он якобы участвовал в каком-то совместном проекте с Intel, но особенных подробностей об этом нет, пока сейчас он не оказался во главе новой компании с ориентиром на архитектуру RISC-V с открытым исходным кодом.

В процессе общения журналистов с Дэвидом на конференции из него мало что удалось выудить о новой компании. Тем не менее, он сообщил, что в коллектив разработчиков Esperanto входят специалисты из США и Европы (как минимум 27 из них приняли участие в конференции). К команде Esperanto присоединился Том Риордан (Tom Riodan), бывший дизайнер процессорных архитектур компаний Intel и MIPS, а также один из ведущих разработчиков процессорной архитектуры для консоли Sony PlayStation 3. Как вы можете помнить, эта приставка получила инновационный процессор Cell на кластерной архитектуре IBM Power. Сейчас PlayStation скатилась сами знаете во что, и специалист такого уровня Sony больше не нужен. Консультантом-наблюдателем Esperanto стал профессор Университета Беркли Дэвид Паттерсон (David Patterson), который в своё время вместе с Дитцелем разрабатывал микропроцессоры в компании Sun Microsystems. Другим консультантом стал Алан Юстас (Alan Eustace), бывший ведущий инженер компаний Google, HP и Digital Equipment.

Вся эта группа авторитетов ничтоже сумняшеся представила на суд публике процессор общего назначения на системе команд RISC-V (Risk Five). Процессор разработан с прицелом на выпуск на линиях компании TSMC с использованием 7-нм техпроцесса. Впрочем, пока цифровой проект носит статус концептуальной разработки и не имеет законченного цифрового проекта для передачи на производство. Смелость разработчиков Esperanto в том, что они первыми продвинули архитектуру RISC-V на уровень высокопроизводительных решений, тогда как все RISC-V проекты до сих пор ограничивались простенькими решениями на уровне микроконтроллеров.

Условное изображение RISC-V процессора компании Esperanto (PC Watch)

Условное изображение RISC-V процессора компании Esperanto (PC Watch)

Процессор компании Esperanto в максимальной на сегодня конфигурации содержит 16 ядер «ET-Maxion» и 4096 ядер «ET-Minion». Это гетерогенная архитектура с высокой степенью параллелизма и она очень напоминает по строению процессоры Cell для PlayStation 3. Ядра ET-Maxion представляют собой конвейеры с неупорядоченным выполнением команд и работают с данными с плавающей запятой (как и с целочисленными значениями, разрядность которых может быть меньше 16), а ядра ET-Minion — это конвейеры с последовательным выполнением команд и блоком с векторными вычислениями в каждом ядре. Систему векторных инструкций компания Esperanto обещает вскоре сделать открытой. Тем самым нетрудно понять, что ET-Maxion оптимизированы для максимальной обработки одиночных потоков, а ET-Minion — для параллельной обработки данных.

Основные характеристики обоих типов ядер процессора Esperanto (PC Watch)

Основные характеристики обоих типов ядер процессора Esperanto (PC Watch)

Кроме указанных выше ядер процессор Esperanto может нести специализированные блоки Domain Specific Extensions, например, для ускорения обработки графики. Дитцель утверждает, что процессор прекрасно справится с приложениями AR/VR, с решением задач с машинным обучением с ударением на принятие решений. Системы распознавания речи и образов также окажутся по плечу новому детищу ветеранов, что отсылает нас к рынку цифровых ассистентов. В случае надобности, заявляют разработчики, они смогут сконфигурировать процессор для решения любых специфических задач. Звучит интересно. Будем следить за проектом.

Western Digital включается в гонку за процессорными архитектурами

К началу седьмой по счёту конференции RISC-V Workshop компания Western Digital опубликовала сенсационный в некотором роде пресс-релиз. Без затей сообщается, что Western Digital приблизит будущее вычислительных архитектур нового поколения для обработки Больших Данных и создаст экосистему быстрого доступа к данным. Казалось бы, кто такая Western Digital в мире процессорных архитектур?

Тем не менее, покупка бизнеса компании SanDisk и доступ к энергонезависимой памяти во всех её проявлениях позволяет компании Western Digital мечтать о новых процессорных архитектурах. Предполагается, что в мире Больших Данных классические процессоры общего назначения себя изжили. Будущие архитектуры должны концентрироваться вокруг данных, поэтому процессоры (вычислительные ядра) могут быть встроены как в модули оперативной памяти, так и в SSD- и даже HDD-накопители. В простейшем случае вместо SRAM и всех кешей в процессоре может оказаться энергонезависимая память, хотя Western Digital предлагает идти дальше и кардинально изменить отношение к процессорным архитектурам.

В составе модулей памяти может появиться свой процессор для обработки данных (Upmem SAS)

В составе модулей памяти может появиться свой процессор для обработки данных (Upmem SAS)

В то же время не следует считать (по крайней мере, на текущем этапе), что Western Digital станет поставщиком SoC или процессоров. В первую очередь компания стремится обеспечить новыми решениями себя и свою основную продукцию — накопители на твердотельной памяти и жёсткие диски. По подсчётам Western Digital, она сама ежегодно сможет потреблять свыше одного миллиарда вычислительных ядер. И теперь мы переходим к самому главному — каких именно? Ставка делается на открытую архитектуру RISC-V. Компания Western Digital обещает повысить текущий статус процессорной архитектуры RISC-V с уровня микроконтроллеров до уровня высокопроизводительных решений.

Western Digital

Western Digital

Остаётся задаться вопросом, не слишком ли резво начала Western Digital? Возможно, что нет. Помочь с разработкой специализированных ядер RISC-V для накопителей и интерфейсов Western Digital берётся молодая компания Esperanto Technologies. За внешней молодостью Esperanto Technologies стоит колоссальный опыт плеяды ярчайших ветеранов отрасли, включая её исполнительного директора Дэвида Дитцеля (Dave Ditzel).

Дэвид Дитцель на конференции

Дэвид Дитцель на конференции RISC-V Workshop (ушки WD торчат отовсюду)

После завершения карьеры главного технолога компании Transmeta в 2007 году, Дитцель какое-то время посвятил работе в одних проектах с компанией Intel. Но в целом о его деятельности в последние годы было мало известно. Компания Esperanto Technologies стала его новым детищем и взяла на вооружение архитектуру RISC-V с открытым кодом. Если кто-то может создать процессорную архитектуру с нуля, то это точно будет Дэвид Дитцель. С таким партнёром компания Western Digital добиться может многого. Ждём подробностей.

NVIDIA готовит внешние видеокарты для ноутбуков

Начало выпуска графических процессоров AMD с интегрированной на подложку памятью HBM(2) привело к изменению формфактора производительных видеокарт. Достаточно мощные видеокарты начали выходить в «наноформатах», что позволяло устанавливать их в компактные компьютерные корпуса. Также на волне этой темы стали выходить внешние видеокарты для подключения к ноутбукам, благо теперь коробочки с графическими адаптерами стали ещё меньше. Другими факторами, которые подтолкнули производителей заняться внешними видеокартами, можно считать появление скоростных внешних интерфейсов USB 3.1 и Thunderbolt 3. Кстати, игровым видеокартам NVIDIA тоже нашлось место во внешних шасси, что справедливо для случаев, когда размер кейса не имеет значения.

Внешнее шасси PowerColor (TUL) Gaming Box

Внешнее шасси PowerColor (TUL) Gaming Box

Первые фирменные внешние GPU компании NVIDIA были представлены на днях на выставке SIGGRAPH 2017. Решения ориентированы на работу с ноутбуками. Десятки миллионов художников, дизайнеров и разработчиков ИИ смогут без какой-либо модернизации мобильных систем получить доступ к более мощным инструментам для редактирования видео, интерактивного рендеринга, создания VR-контента, разработки ИИ и других целей.

Внешние шасси будут поставляться с адаптерами NVIDIA TITAN Xp или NVIDIA Quadro, реализованными как внешние GPU (external GPU, eGPU). У компании NVIDIA нет решений, аналогичных AMD Fiji или Vega RX, поэтому внешние кейсы с видеокартами TITAN Xp или Quadro будут сравнительно громоздкими. В кафе с такими работать будет неудобно, но дома или на работе внешние видеокарты NVIDIA могут оказать помощь. Тем более, что на работе мощь внешнего адаптера в разное время можно выделять разным пользователям.

Внешний кейс NVIDIA

Внешний кейс NVIDIA

Для обеспечения высокой производительности в приложениях Autodesk Maya и Adobe Premier Pro на системах с внешними TITAN Xp компания NVIDIA выпускает новый драйвер. Внешнюю графику Quadro будут поставлять партнёры NVIDIA в лице компаний Bizon, One Stop Systems/Magma и Sonnet (у остальных она появится позднее). Партнёры отвечают за корректную работу комплектов при создании контента для анимации, цветокоррекцию и рендеринг, а также приложений для САПР и моделирования. Поставки комплектов начнутся с сентября.

NVIDIA Tesla D870

NVIDIA Tesla D870

Интересно отметить, что десять лет назад — в 20-х числах июня 2007 года — NVIDIA уже представляла нечто подобное под брендом Tesla. Тогда были выпущены внешние шасси Tesla D870 с двумя графическими адаптерами на борту (по два адаптера G80). Правда, системы Tesla D870 были ориентированы на неграфическое применение — они использовались для ускорения расчётов статистических и научных данных и поставлялись без видеопортов. Новое предложение NVIDIA охватывает оставшуюся часть рынка — работу с графикой.

ARM анонсировала новую архитектуру v8-A с набором Scalable Vector Extensions

Мощность суперкомпьютеров по всему миру растёт, но растут и требования к питанию. Современный суперкомпьютер легко может потребовать только для своей работы небольшой электростанции, вот почему разработчики вычислительных средств постоянно ищут способы увеличить экономичность процессоров, входящих в состав систем для супервычислений. Перспективной в этой отрасли выглядит архитектура ARM, особенно после того, как компания анонсировала новую версию архитектуры v8 с поддержкой расширений Scalable Vector Extensions. ARM всерьёз нацелена на завоевание серверного рынка, а также рынка облачных систем и суперкомпьютеров.

В задачах, которые решают такие машины, часто встречаются векторные вычисления, так что набор векторных расширений в новой архитектуре ARM придётся как нельзя более к месту, когда соответствующие процессоры доберутся до серийного производства. ARM v8-A с векторными расширениями пока не является полноценной лицензируемой архитектурой, но предназначена для компаний, создающих собственные процессоры на базе наработок ARM. Одной из первых компаний на рынке HPC, ставшей владельцем лицензии на ARM v8-A with Scalable Vector Extensions стала Fujitsu. Она планирует использовать эту архитектуру в суперкомпьютере Post-K RIKEN, который должен войти в строй в 2020 году. Набор векторных инструкций SVE является гибким дополнением к существующему набору инструкций ARM v8 и поддерживает вычисления с разрядностью от 128 до 2048 бит.

В названии не зря имеется слово «scalable» (масштабируемый) — вне зависимости от длины вызова, будь то 128, 512 или даже 2048 бит, планировщик распределяет вычисления так, чтобы наиболее полно загрузить имеющееся аппаратное обеспечение. Иными словами, если имеется 128-битное ядро, то 2048-битные вычисления будут выполняться по кускам и наоборот, 128-битные вычисления на 2048-битном ядре будут распараллелены, причём аппаратно. Это отличает новый набор инструкций от уже имеющегося NEON, способного работать только с 64 или 128-битными векторами. ARM вскоре выпустит обновления для компиляторов GCC и LLVM с поддержкой автоматического использования VSE. По данным компании-разработчика, использование SVE уже позволяет добиться существенного улучшения производительности, а по мере оптимизации программного обеспечения выигрыш станет ещё более существенным.

AMD выпустила двухпроцессорную карту для рынка HPC на базе Fiji

Буквально неделю назад, описывая новую версию профессионального ускорителя NVIDIA Quadro M6000, мы упомянули, что единственным его соперником может являться Radeon Pro Duo, и то с учётом в три раза меньшего объёма локальной памяти (8 Гбайт против 24 Гбайт у NVIDIA). Но вот в том, что Advanced Micro Devices не выпустит других профессиональных ускорителей на базе архитектуры Fiji, мы оказались неправы! Компания представила новинку, предназначенную для рынка супервычислений —  ускоритель FirePro S9300 X2 с пиковой производительностью 13,9 Тфлопс. Так что новинка является самым быстрым вычислительным ускорителем вычислений одинарной точности в мире.

Типичный серверный ускоритель полагается на общую систему охлаждения

Типичный серверный ускоритель полагается на общую систему охлаждения

Это, разумеется, не конкурент Quadro M6000 —  плата не только не имеет разъёмов для подключения каких-либо устройств, она даже в охлаждении полагается на систему сервера, например, такую, как в недавно описанном GIGABYTE G25N-G51, способном вместить до восьми вычислительных ускорителей. Для удержания теплопакета в приемлемых рамках частоты графических ядер S9300 X2 были снижены до 850 МГц. А вот с памятью, по понятным причинам, ничего поделать не удалось и её объём остался прежним —  8 Гбайт в сборках HBM, по четыре сборки ёмкостью 1 Гбайт на чип. Это базовое ограничение конструкции Fiji и преодолеть его нельзя никак, пока не будет развёрнуто производство HBM2. Но эту память унаследует лишь AMD Vega, и сравнительно нескоро. А для организации внешних кешей на базе обычной DRAM у Fiji, похоже, просто нет нужных выводов.

Технические параметры FirePro S9300 X2

Технические параметры FirePro S9300 X2

Новинка AMD явно нацелена на конкуренцию с NVIDIA Tesla M60: последний также является чисто вычислительным ускорителем, также имеет два графических процессора на борту (GM204) и превосходит решение AMD только в объёме локальной памяти: 16 против 8 Гбайт суммарно. M60 создавался с расчётом на использование в игровых системах с удалённым рендерингом, но, похоже, S9300 X2 подойдёт на эту роль гораздо лучше: если у решения NVIDIA пиковая производительность в FP32 составляет 7,4 терафлопса, то у карты AMD этот показатель почти вдвое выше при аналогичном теплопакете — 300 ватт под нагрузкой. FirePro S9300 явный чемпион в категории «производительность на ватт», где может похвастаться 46 гигафлопсами на ватт против 25 у Tesla M60. Иными словами, система на базе S9300 X2 сможет обслуживать больше игровых клиентов при равном уровне энергопотребления.

AMD собирается завоевать рынок супервычислений универсальностью

AMD собирается завоевать рынок супервычислений универсальностью

А вот ускорителям Tesla серии K FirePro S9300 X2 не конкурент — те рассчитаны на высокие показатели в режиме двойной точности (FP64) и предназначены для работы в совсем иных сферах. Так, Tesla K80 может выдавать до 2,91 Тфлопс FP64, в то время как FirePro S9300 X2 сможет выжать в этом режиме лишь жалкие 0,8 терафлопса. В этой категории новинка уступает даже собственному родственнику, ускорителю FirePro S9170, развивающему вполне серьёзные 2,6 терафлопса при двойной точности вычислений. Вот в чём новичку действительно нет равных, так это в пропускной способности памяти: решения NVIDIA пока не располагают даже HBM первого поколения, не говоря уже о более продвинутых типах памяти, а S9300 X2 уже сейчас легко может предложить 512 Гбайт/с, а в некоторых сценариях (CrossFire-подобных) — и 1024 Гбайт/с. Стоимость нового вычислительного ускорителя AMD вполне соответствует нише и составляет $5999, что заметно дороже NVIDIA Quadro M6000. Впрочем, цена впоследствии может быть снижена. Окно доступности новинки — второй квартал.

AMD анонсировала новые ускорители FirePro S7150 и S7150 X2

Несмотря на то, что производительность архитектуры NVIDIA Maxwell в режиме двойной точности (FP64) оказалась ничтожно малой, это не помешало выпустить компании профессиональные решения на базе новых чипов в профессиональной серии Tesla — однопроцессорный M6 и двухпроцессорный M60. Сейчас AMD нанесла своеобразный ответный удар, анонсировав два новых ускорителя в серии FirePro — S7150 и S7150 X2. Любопытно, что ответ, в некотором роде, получился симметричным, поскольку речь также идёт об одно- и двухпроцессорной карте. К сожалению, с мечтой о Fiji в FirePro пока придётся подождать; да и, скорее всего, в этой серии дебютирует какой-нибудь чип Polaris.

AMD FirePro S7150 получил полную версию ядра Tonga XT с 2048 активными процессорами GCN 1.2. Они снабжены 256-битной подсистемой памяти объёмом 8 Гбайт GDDR5 с поддержкой ECC. Тактовые частоты не сообщаются, но питается карта с помощью единственного восьмиконтактного разъёма PCI Express и имеет теплопакет 150 ватт. Это больше, чем у Tesla M6, но последний выполнен в виде модуля MXM и работает не в полной конфигурации GM204. Система охлаждения пассивна и полностью зависит от продувки корпуса сервера его штатными вентиляторами. Розничная цена новинки составляет $2399 — обычный уровень цен для продуктов такого рода. AMD FirePro S7150 X2 имеет те же характеристики, что и S7150, но помноженные на два. Он несёт на борту два процессора Tonga XT и два комплекта памяти GDDR5 ECC общим объёмом 16 Гбайт.

 

Это прямой конкурент NVIDIA Tesla M60 даже по количеству потоковых процессоров — их у соперничающих карт по 4096. Теплопакет здесь выше и составляет 265 ватт, но и конструктив у карты двухслотовый, а значит, она оснащена радиатором с большей площадью теплосброса, хотя и по-прежнему зависит от воздушных потоков в корпусе сервера. Стоимость двухпроцессорного FirePro составляет $3999. Обе модели рассчитаны на использование в системах виртуализации графики: первая способна поддерживать до 16 пользовательских сессий, а вторая вдвое больше, до 32. Новые ускорители AMD FirePro совместимы с гипервизором VMware ESXi 6.0 и практически всеми современными операционными системами, включая 32- и 64-битные версии Linux. Они поддерживают такие API, как DirectX 11, OpenGL 4.4 и OpenCL 2.0.

Разумеется, новые ускорители AMD FirePro можно использовать не только для создания рабочих мест с виртуальной ускоренной графикой, но и просто в качестве ускорителей в любых приложениях, поддерживающих стандарт OpenCL. О производительности новинок, хотя официально она и не опубликована, можно сделать довольно неплохо обоснованное предположение. Пиковая вычислительная мощность в режиме FP32 у Tonga XT на частоте 970 МГц составляет 3973,1 гигафлопса, то есть примерно 4 терафлопса. Если сделать скидку на пониженную частоту и ужатый теплопакет, то двухпроцессорная версия должна быть вполне конкурентоспособной с NVIDIA Tesla M60, чей пиковый показатель в аналогичном режиме составляет 7,4 терафлопса. Иными словами, AMD если и не удалось повергнуть соперника, то добиться паритета в сфере профессиональных ускорителей компания оказалась вполне в состоянии. В следующем раунде на ринг должны выйти настоящие сверхтяжеловесы — Pascal и Polaris.

Производительность NVIDIA Pascal в режиме FP64 превысит 4 терафлопса

Уже прошедшая Supercomputing Conference ’15 продолжает служить источником весьма интересной информации. На этот раз речь пойдёт об одном из самых амбициозных проектов NVIDIA — архитектуре Pascal и процессорах на её основе. Мы намеренно опускаем эпитет «графический», поскольку видеокарты на базе Pascal, конечно, будут выпущены, но станут лишь побочной ветвью, а основной целью NVIDIA является доминирование на рынке супервычислений (HPC), и с учётом этой цели Pascal и разрабатывается. Кроме того, компания поделилась информацией и о будущем наследнике Pascal, проекте Volta.

Уже известно, что процессоры Pascal будут выпускаться с использованием 16-нм технологических норм, и на SC15 NVIDIA подтвердила использование техпроцесса 16-нм FinFET+. О том, на какой именно фабрике будут производиться новые чипы, компания умолчала, но имя главного контрактного поставщика было названо — TSMC. Неудивительно, ведь первые образцы процессора GP100 были получены именно c помощью вышеупомянутого техпроцесса TSMC. Поэтому не исключен сценарий, в котором мы увидим анонс Pascal уже в первой половине 2016 года. Таким образом, ранние предсказания о том, что выпуском Pascal может заняться и Samsung, не оправдались.

Плотность упаковки транзисторов, как мы уже знаем, удвоена в сравнении с Maxwell GM200, так что Pascal будет состоять из примерно 16 ‒ 17 миллиардов активных элементов. В сравнении с технологией 20SoC, техпроцесс 16FF+ может обеспечить до 40 % прироста производительности и до 60 % выигрыша в уровне энергопотребления, что для таких монстров, как GP100, является очень важным фактором. Итак, пока мы знаем о GP100 следующие факты:

  • Поддержка возможностей DirectX 12 уровня 12_1 или выше;
  • Наследник GM200, будет использован в новых флагманских моделях видеокарт;
  • Производится с использованием техпроцесса TSMC 16-нм FinFET+;
  • Состоит из 16 ‒ 17 миллиардов транзисторов;
  • Впервые получен в кремнии ещё в июне 2015 года;
  • Получит 4 сборки HBM2 4-Hi, объём памяти — 16 Гбайт в потребительской версии, 32 Гбайт в профессиональном варианте;
  • Ширина интерфейса памяти 4096 бит;
  • Получит высокоскоростную шину NVLink;
  • Будет поддерживать вычислительные нагрузки смешанного характера: FP16, 32 и 64;
  • Производительность в режиме FP16 вдвое выше, нежели в режиме FP32, полноценная поддержка FP64;
  • Производительность в режиме FP64 свыше 4 терафлопс (см. вышеприведённую диаграмму);
  • Производительность в режиме FP32 свыше 10 терафлопс.

А в следующем поколении процессоров под кодовым названием Volta NVIDIA планирует достичь цифр в районе 7 терафлопс, что очень впечатляет: новейший 14-нм ускоритель Intel Knight’s Landing развивает в режиме FP64 лишь несколько более 3 терафлопс, а самый мощный на сегодня двухпроцессорный ускоритель NVIDIA Tesla K80 — всего 2,91 терафлопса, да и то в турборежиме.

Volta послужит основой для нового поколения сверхмощных суперкомпьютеров, таких, как Summit Supercomputer (Oak Ridge National Laboratory) и Sierra Supercomputer (Lawrence Livermore National Laboratory). Оба проекта рассчитываются на пиковую производительность более 100 петафлопс и будут включать в себя несколько тысяч узлов производительностью более 40 терафлопс каждый.

Несомненно, процессорам Pascal нужна по-настоящему быстрая шина для обмена данными между собой в многочисленных узлах суперкомпьютера или вычислительного кластера. Такую шину GP100 действительно получит. Первое поколение NVLink будет обладать пропускной способностью 80 Гбайт/с, в будущих реализациях NVIDIA надеется увеличить этот показатель до 200 Гбайт/с. Неплохое добавление к уже имеющимся 1 Тбайт/с в случае обмена данным с памятью HBM2. В NVLink будет воплощена концепция унифицированной виртуальной памяти (UVM) с произвольной адресацией. Поскольку пропускная способность NVLink в 5 ‒ 12 раз превысит аналогичный показатель PCI Express, реализация UVM не станет узким местом.

Даже в случае с обычными мощными видеокартами проблема энергопотребления и тепловыделения стоит довольно остро. Но для разработчиков суперкомпьютеров она, наверняка, является одной из тем ночных кошмаров. Быстрая память таким системам просто необходима, но HBM2 в Pascal и Volta при пропускной способности 1,2 Тбайт/с добавляет целых 60 ватт к энергопакету процессора. Даже HBM1, использующаяся в AMD Fiji, и то добавляет 25 ватт к потреблению ядра. В дальнейшем планируется достичь скоростей в районе 2 Тбайт/с, и тут-то и начинается ужас: пропускная способность HBM2 на уровне 2,5 Тбайт/с обойдётся в 120 ватт на процессор, а при повышении ПСП до 3 Тбайт/с этот показатель увеличится до 160 ватт. Умножьте это на количество процессоров в узле и на количество узлов в суперкомпьютере — и будет понятно, какую цену приходится платить за высокую производительность подсистемы памяти.

В ближней перспективе это приемлемо, поскольку HBM2 является на сегодня оптимальным типом памяти для решений такого рода. Но к 2020 году, с появлением новых, ещё более производительных процессорных архитектур, кризис энергопотребления многослойной памяти может обостриться до предела. NVIDIA это понимает, поэтому, по всей видимости, уже ведёт исследования в области создания новой, высокопроизводительной, но при этом экономичной архитектуры памяти. Какой она будет, сейчас сказать крайне сложно. Даже в общих чертах неясно, как сохранить скорости в районе единиц или даже десятков терабайт в секунду и удержать при этом уровень энергопотребления в мало-мальски приемлемых рамках.

Итак, новая архитектура Pascal и первый процессор на её основе, GP100, появится в 2016 году, что официально подтверждено NVIDIA. Насчёт первой половины года заявлений нет, но с учётом всех вышеперечисленных факторов вероятность раннего анонса Pascal довольно высока. Компания также заявила о поддержке широкого спектра платформ — x86, ARM и IBM Power. Для рынка HPC будут выпущены модули Pascal с поддержкой NVLink, в то время, как классические графические карты и серверные ускорители сохранят привычный форм-фактор PCI Express c пропускной способностью до 16 Гбайт/с. Посмотрим, каков будет ответ AMD: её новая «тяжёлая артиллерия» под кодовым названием Arctic Islands, базирующаяся на техпроцессе Global Foundries 14FF и новой версии архитектуры GCN, обещает стать серьёзным соперником Pascal.

Supercomputing Conference ’15: подробности об Intel Knight’s Landing

На прошедшей с 15 по 20 ноября конференции SC15, посвящённой проблемам и новинкам в области супервычислений довольно любопытные сведения поступили от двух производителей аппаратного обеспечения, которое активно используется в суперкомпьютерах, кластерных системах и других крупномасштабных IT-решения. Речь, разумеется, идёт об Intel и NVIDIA. Уже давно известно, что Intel готовит к выпуску новое поколение вычислительных ускорителей Xeon Phi под кодовым названием Knight’s Landing (для краткости KNL). На SC15 представитель компании продемонстрировал кремниевую пластину с этими чипами.


Новое поколение Xeon Phi уже получено в кремнии

Согласно имеющимся данным, площадь кристалла Knight’s Landing будет весьма солидной — порядка 683 квадратных миллиметров, что особенно внушительно выглядит на фоне используемого 14-нанометрового техпроцесса. Это заметно больше, нежели у самого сложного на сегодняшний день графического процессора, NVIDIA GM200, площадь которого составляет около 600 квадратных миллиметров.

Knight's Landing: основные данные об архитектуре и характеристиках

Knight's Landing: основные данные об архитектуре и характеристиках

Новинка будет выпускаться в двух вариантах: как в виде плат расширения с интерфейсом PCI Express, так и в конструктиве «под процессорный разъём». Предыдущая версия Xeon Phi имела на борту собственную операционную систему, в случае Knight’s Landing это необязательно — он сможет работать, как обычный процессор. В его распоряжении будут находиться 36 линий PCI Express, к которым может быть подключена пара плат сопроцессоров Knight’s Corner.

Кристалл впечатляет размерами, несмотря на 14-нанометровый техпроцесс

Кристалл впечатляет размерами, несмотря на 14-нанометровый техпроцесс

Основной Knight’s Landing станут ядра x86, базирующиеся на архитектуре Silvermont. Интересно, что этот продукт станет одним из первых массовых решений, предназначенных для сектора HPC, оснащённых многослойной памятью, подобно AMD Fiji, но последний всё-таки является графическим процессором, а не вычислительным ускорителем, и, соответственно, в счёт не идёт. Да и тип памяти будет другим — HMC, а не HBM.


Knight's Landing в двух различных вариантах

Но набортной многослойной памяти не может быть слишком много, так что Knight’s Landing будут оснащены дополнительными интерфейсами DDR4 с частотой 2 400 МГц. Память HMC не будет располагаться непосредственно на основном кристалле, а расположится рядом, будучи соединённой с ним посредством высокоскоростных параллельных 2,5D-соединений, разработанных альянсом Intel-Micron. По сути, это будет своеобразный кеш третьего уровня, но невиданного ранее объёма — 16 Гбайт.


Выступ с разъёмом справа, вероятно, является интерфейсом Omni-Path

Как уже упоминалось, KNL будет выпущен в двух вариантах — обычного хост-процессора, способного к загрузке ОС и сопроцессора в форм-факторе платы расширения PCIe. Шестиканальный контроллер DDR4 сможет адресовать до 384 Гбайт памяти, обеспечивая пропускную способность 90 Гбайт/с. Планируемая плотность размещения такова: три и более процессоров KNL в корпусе формата 1U. Новая платформа будет состоять из более чем 8 миллиардов транзисторов и получит до 72 ядер, каждое из которых будет иметь два векторных блока и способно исполнять четыре потока, что в сумме даёт 288 параллельно исполняемых потоков на один KNL.


Почти знакомый форм-фактор

Пиковая производительность Knight’s Landing в режиме двойной точности (FP64) составит свыше 3 терафлопс, а на вычислениях одинарной точности (FP32) превысит отметку 6 терафлопс. Производительность в пересчёте на один поток в три раза превысит аналогичный показатель Knight’s Corner. Общая пропускная способность подсистемы памяти достигнет 400 Гбайт/с. Относительно сроков появления новинки в коммерческих масштабах пока известно лишь то, что первые KNL будут доступны уже в конце этого года, а в более-менее существенных количествах новые процессоры появятся на рынке в первом квартале 2016 года. Наследником платформы Knight’s Landing станет платформа Knight’s Hill, которая будет базироваться на 10-нанометровом техпроцессе и использовать второе поколение межпроцессорного интерфейса Omni-Path, в то время, как в KNL реализован Omni-Path первого поколения.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

Корейский энтузиаст создал компактную рабочую станцию мощностью 10 терафлопс

Цифры производительности, выраженные в терафлопсах, давно перестали быть уделом громадных суперкомпьютеров, занимающих целые помещения. Сегодня собрать платформу с вычислительной мощностью порядка 10 терафлопс может практически любой энтузиаст, что и сделал корейский моддер, известный под позывным DGLee.

Он поставил себе задачу добиться максимальной производительности в форм-факторе Mini-ITX и преуспел в решении данной задачи, хотя в процессе создания системы ему и пришлось изготовить корпус самостоятельно.

Результат получился на удивление симпатичным, в лучших традициях таких производителей корпусов, как Lian Li или Fractal Design. Но самое интересное, разумеется, начинка: сердцем данного «суперкомпьютера» стала серверная системная плата ASRock EPC612D4I с разъёмом LGA 2011-3, в которую был установлен 18-ядерный процессор Intel Xeon E5-2699 v3 с 45 мегабайтами кеша и теплопакетом 145 ватт.

Его производительность оценивается на уровне 1324 гигафлопс. Остальная нагрузка легла на плечи AMD Radeon R9 Nano, способного развивать 8,19 терафлопс. К сожалению, планы по оснащению своего проекта двумя такими картами пришлось отложить — автор не смог найти подходящий разветвитель PCI Express.

Подсистема памяти представлена двумя модулями Micron Crucial DDR4 PC4-17000 ёмкостью по 8 Гбайт, а система хранения данных состоит из трёх накопителей Toshiba Q300 Pro, собранных в массив RAID0. За питание всей конструкции отвечает блок питания SilverStone SFX Series SX600-G мощностью 600 ватт.

Аэродинамика довольно продумана — за подачу холодного воздуха в систему отвечает тонкий вентилятор Thermalright TY-14013R со 140-миллиметровой крыльчаткой, а графическая карта расположена «под потолком» корпуса и забирает воздух снаружи через систему прорезей в верхней панели корпуса. Проделанная DGLee работа может служить примером того, что в наши дни обеспечить себя солидной вычислительной мощностью вполне можно своими силами.

Новые ускорители NVIDIA Tesla M60 и M6 будут использоваться в системе Grid 2.0

Компания NVIDIA, один из главных разработчиков мощных графических и вычислительных решений, анонсировала новую версию инфраструктуры VDI (Virtual Desktop Infrastructure) под названием Grid 2.0, обеспечивающую возможность «облачной» работы с профессиональными 3D-приложениями и требовательными современными играми. Первая версия Grid была представлена ещё в 2013 году и базировалась на архитектуре Kepler, новая же версия использует более прогрессивную архитектуру Maxwell.

Анонс состоялся на конференции VMworld 2015, посвящённой различным аспектам и решениям виртуализации, а также облачным вычислениям, которая проходила в Сан-Франциско и сегодня завершает свою работу. Новой платформе понадобились и новые аппаратные решения — и они также были анонсированы. Речь идёт о новых ускорителях серии Tesla — M60 и M6. Первый является идейным наследником Grid K2, но если последний использовал два процессора GK104 (1536 ядер CUDA на чип), то новая модель получила два чипа GM204 (2048 ядер CUDA на чип). Каждый процессор имеет свой банк памяти объёмом 8 Гбайт, теплопакет варьируется в пределах от 225 до 300 ватт.

Tesla M60 представляет собой двухслотовую полноразмерную карту расширения для установки в соответствующие корпуса. Тактовые частоты графических процессоров и памяти оптимизированы для бесперебойной работы в режиме 24/7. Это первое двухпроцессорное решение NVIDIA на базе архитектуры Maxwell. Оно поддерживает одновременную работу до 32 пользователей и может отдавать 36 видеопотоков H.264 в разрешении 1920 × 1080 при частоте кадров 30 FPS. По всей видимости, компания выпустит и игровой вариант на базе двух процессоров Maxwell, но будут ли это GM204 или более мощные GM200 — пока неизвестно; ввиду грядущего анонса AMD Radeon R9 Fury X2 более вероятен второй вариант.

Вторая анонсированная модель, ускоритель Tesla M6 также представляет существенный интерес. В нём используется один чип GM204 с усечённой до 1536 ядер CUDA конфигурацией. Но самое интересное, что это мобильное решение, выполненное в форм-факторе MXM. Такой подход позволит повысить плотность размещения графических процессоров в blade-серверах, а кроме того, возможно создание и соответствующих мобильных рабочих станций с поддержкой Grid 2.0. Теплопакет Tesla M6 лежит в рамках 75‒100 ватт. По сути, перед нами версия GeForce GTX 980M, но частоты Tesla M6 также оптимизированы для постоянной нагрузки и они, вероятнее всего, несколько меньше. Карта поддерживает до 16 пользователей и 18 видеопотоков H.264 в разрешении 1920 × 1080 при частоте кадров 30 FPS. Цены пока не оглашены, сами карты будут доступны, начиная с 15 сентября у партнёров NVIDIA, таких, как HP, Dell и Cisco.

Ускорители серии Tesla рассчитаны на интеграцию в серверные системы охлаждения

Ускорители серии Tesla рассчитаны на интеграцию в серверные системы охлаждения

Что касается преимуществ новой версии инфраструктуры NVIDIA Grid, то они очевидны: вдвое увеличено количество пользователей на один сервер, теперь их может быть до 128. Вдвое выросла и производительность, появилась поддержка компактных blade-решений, а значит, возросла плотность упаковки графических чипов в пересчёте на стойку. Поскольку в серверной среде и в сфере HPC широко используется операционная система Linux, NVIDIA внедрила поддержку этой ОС в Grid 2.0. Виртуальное окружение Linux теперь работает с ускорением трёхмерной графики как в Citrix, так и в VMware. Кроме того, появилась поддержка высоких разрешений, в частности, мониторов формата 4K.

Учёные США построят собственную высокоскоростную сеть

Сверхвысокоскоростные оптоволоконные кабели объединят кластер лабораторий Университета Западного побережья и суперкомпьютерные центры в единую сеть. Такая сеть получит имя Тихоокеанской исследовательской платформы и будет построена в рамках пятимиллионного гранта, выделенного Национальным научным фондом.

NY Times

NY Times

Уникальная сеть позволит передавать огромные массивы данных для поддержки разнообразных объёмных вычислений в таких отраслях как физика, астрономия, генетика и другие. Она не будет иметь подключения к Интернету, но зато скорость обмена данными между десятью кампусами Калифорнийского университета сможет достигать 100 Гбит/с.

fastsms.biz

fastsms.biz

Привычная Всемирная сеть изначально предназначалась для перемещения небольших порций данных, поэтому использование её для научных приложений имеет существенные ограничения. Традиционное современное соединение с номинальной пропускной способностью 10 Гбит/с на практике позволяет передавать данные с гораздо меньшей скоростью. При этом суперкомпьютеры вышли на уровень петафлопсного масштаба, и таких каналов для полноценной работы им уже мало. Например, Паломарская обсерватория в Южной Калифорнии периодически сканирует тёмное небо в поисках феноменов и захватывает около 30 Тбайт данных за ночь.

Помимо скоростных достоинств, новая сеть также разработана с учётом высоких требований к безопасности. Один из серверов Калифорнийского университета всего за один день зафиксировал 35 тысяч попыток несанкционированного входа в систему, поэтому подсистема безопасности также должна быть на высоте. Новая сеть является расширением существующей инициативы по созданию «островков» высокоскоростного соединения для научных исследователей. 

IBM делает кремниевую фотонику на шаг ближе

Увеличение вычислительной мощности отдельных компонентов компьютерных систем автоматически повышает требования к ширине каналов для передачи данных на межпроцессорном (межчиповом) уровне. Однако на близких дистанциях — в пределах материнской платы и даже отдельной стойки — повышать пропускную способность становится всё труднее и труднее. По мере повышение несущей частоты медные соединения начинают «буксовать» — затухания сигнала становятся слишком велики, а паразитные наводки растут. Проблему с расширением каналов могут решить оптические каналы связи, но современные методы сопряжения оптических линий с электронными компонентами слишком дороги, чтобы использовать их на малых и сверхмалых расстояниях. Решить весь комплекс проблем может помочь кремниевая фотоника — интеграция оптических и электронных компонентов на одном кусочке кремния, когда процессор или контроллер может одновременно принять и обработать световой импульс (поток фотонов) и чистый поток электронов.

Стопка кремниевых подложек с оптико-электронными четырёхканальными мультиплексорами IBM

Стопка кремниевых подложек с оптико-электронными четырёхканальными мультиплексорами IBM

К конференции Lasers and Electro Optics 2015, которая на днях стартовала в Сан-Хосе, компания IBM подготовила анонс и демонстрацию первого в индустрии готового к коммерческому внедрению монолитного КМОП-чипа с полностью интегрированными модулями для одновременной работы с оптическими и электрическими сигналами. Разработка представляет собой блок с функциями оптического мультиплексора и демультиплексора. Чип имеет четыре входящих и четыре исходящих оптических канала с пропускной способностью 25 Гбит/с. Решение способно создать один полнодуплексный канал с простым одномодовым оптоволокном с пропускной способностью 100 Гбит/с. В компании IBM испытали разработку на дальности до 2 км. Подобные модули могут сопрягаться на уровне чипов без каких-либо дополнительных разъёмов, что значительно упростит внедрение кремниевой фотоники.

Размещение интегрированных элементов на кристалле одного оптико-электронного мультиплексора IBM

Размещение интегрированных элементов на кристалле одного оптико-электронного мультиплексора IBM

Одновременно с началом производства интегрированных модулей компания IBM представила набор для разработчиков. Вскоре сторонние компании смогут интегрировать оптико-электронные блоки в собственные разработки. Подобным предложением наверняка воспользуются в компаниях Google и NVIDIA, которые одними из первых стали участниками альянса OpenPOWER. Следует ожидать, что со временем подобный интерфейс появится в составе процессоров IBM Power. Пока же компания планирует заменить в собственных ЦОД штатные повторители на решения на базе представленных оптических мультиплексоров. Следует подчеркнуть, что пока в состав решений не вошли полупроводниковые лазеры. Эти элементы всё ещё дискретные и выполняются отдельно. Интеграция лазеров в состав чипов будет проведена на следующем этапе по мере создания новых технологий с использованием материалов из III-V групп периодической системы Менделеева.

AMD считает ускорители FirePro лучшими в своём классе

Когда речь идёт о профессиональных графических картах, многие автоматически вспоминают NVIDIA Qudro, однако в арсенале AMD есть не менее производительные и многофункциональные решения аналогичного класса. Поскольку компания испытывает ряд затруднений в секторе центральных процессоров и представит решения нового поколения не ранее 2016 года, ей, как неоднократно упоминалось, приходится активно маневрировать на других рынках. Не исключение и рынок профессиональных графических карт. Не так давно AMD опубликовала слайды, на которых сравниваются её профессиональные решения FirePro с решениями конкурента.

Как видите, Advanced Micro Devices не без оснований полагает, что её решения выгоднее, причём, речь идёт не только о чистой стоимости, но, как настаивает компания, и о производительности в пересчёте на доллар. Всё это так, но необходимо отметить, что AMD в данном случае умалчивает о ещё одном, не менее важном параметре, а именно — об уровне энергопотребления и тепловыделения, а мы знаем, что графические процессоры AMD текущего поколения имеют весьма горячий нрав. В итоге, выгода от оснащения мощных вычислительных кластеров ускорителями AMD может оказаться не столь уж высокой, если учитывать стоимость потребляемой электроэнергии и затраты на охлаждение. В случае с небольшими системами и рабочими станциями, впрочем, вопрос стоит не столь остро.

Также стоит упомянуть, что, говоря о решениях конкурента, AMD имеет в виду только те, в основе которых лежит новая архитектура Maxwell, а это, в профессиональном сегменте на сегодняшний день практически наверняка означает чип GM107. К примеру, в списке отсутствует флагманская Quadro K6000, которая построена на базе архитектуры Kepler, а также двухпроцессорный Tesla K80, да и FirePro W9100 почему-то не упоминается. Тем не менее, надо признать, что на рынке профессиональных ускорителей дела у AMD идут действительно неплохо — в частности, первое место в рейтинге энергоэффективных суперкомьютеров Green500 на данный момент принадлежит системе L-CSС, установленной центре по изучению тяжёлых ионов имени Гельмгольца (GSI Helmholtz Center), а она построена на базе ускорителей AMD FirePro S9150. Следовательно, энергоэффективность решений AMD FirePro достаточно высока. И это хорошо, поскольку компании сейчас важна каждая победа на любом из фронтов войны разработчиков процессоров и GPU.

window-new
Soft
Hard
Тренды 🔥