Теги → gpgpu
Быстрый переход

Ещё немного, и игровые видеокарты станут для NVIDIA второстепенным бизнесом

После публикации квартального отчёта акции NVIDIA в конце прошлой недели обновили исторический максимум. Инвесторов вдохновили темпы роста выручки на серверном направлении — на 80 % за год. Впервые сумма выручки в этом сегменте превысила $1 млрд. Такими темпами игровой бизнес NVIDIA сможет отойти на второй план очень скоро.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

В игровом сегменте NVIDIA выручила $1,34 млрд, в серверном — $1,14 млрд, но в последнем случае ещё не учитывалась выручка Mellanox. Уже во втором квартале доля выручки NVIDIA в серверном сегменте может приблизиться к 50 %, поскольку по этой статье будут учитываться и поступления от реализации продукции Mellanox. Если верить слухам, игровые новинки NVIDIA ранее конца третьего квартала не появятся, поэтому ждать всплеска спроса на игровом направлении во втором квартале не приходится. У серверного сегмента есть все шансы выйти на первое место среди источников дохода компании.

Источник изображения: The Motley Fool

Источник изображения: The Motley Fool

По прогнозам Mordor Intelligence, в период с 2019 по 2024 год ёмкость рынка графических процессоров возрастёт с $21 до более чем $100 млрд. Такой скачок будет возможен только с учётом активного использования графических процессоров для ускорения вычислений в серверных системах различного ранга. Представители Gartner ожидают, что рынок серверной инфраструктуры в период с 2019 по 2025 год вырастет с $155 до $230 млрд. Очевидно, что на долю GPU в этом сегменте придётся немалая часть выручки. При таких темпах роста спроса NVIDIA запросто может занять одну из лидирующих позиций, а выручка от продаж игровых видеокарт станет для неё второстепенной на долгосрочной основе.

Становится понятным и стремление Intel вернуться на рынок дискретной графики. Активно обсуждаемое дискретное графическое решение DG1, которое выйдет на рынок в этом году, закрепится в начальном диапазоне мобильного сегмента. Все ставки сделаны на ускорители вычислений Ponte Vecchio, которые в конце 2021 года предложат и 7-нм техпроцесс, и сложные компоновочные решения, и хорошо масштабируемую архитектуру. NVIDIA и AMD не останутся единственными игроками рынка серверных ускорителей на базе графических процессоров. Последняя даже выделила вычислительные архитектуры GPU в самостоятельное семейство CDNA. Конкуренция обещает быть нешуточной.

Adobe обещает в Premiere Pro кратный прирост скорости кодирования видео благодаря аппаратному ускорению

На этой неделе Adobe выпустит свежее обновление Premiere Pro 14.2, которое включает новые оптимизации с более активным использованием аппаратного ускорения видеокарт NVIDIA и AMD. Обновление среди прочего включает кодирование видео с применением аппаратных блоков NVIDIA для видеокарт Quadro и GeForce. Adobe и NVIDIA обещают, что видеоредактор сможет экспортировать видео высокого разрешения до 5 раз быстрее, чем при использовании исключительно ЦП. Ускорение при помощи ГП коснётся также Adobe Media Encoder, After Effects и Audition.

Tom Warren / The Verge

Tom Warren / The Verge

Premiere Pro уже давно поддерживает OpenCL и CUDA для ускорения видеоэффектов и даже сокращения времени экспорта, но последнее обновление расширяет возможности и оптимизирует приложение для использования отдельного аппаратного кодировщика. Это позволит сократить время экспорта для кодеков H.264 или H.265/HEVC.

«Эти улучшения являются результатом многолетнего сотрудничества между NVIDIA и Adobe для предоставления пользователям высококачественных приложений и инструментов, — заявил старший технический менеджер Adobe Маниш Кулкарни (Manish Kulkarni). — Благодаря поддержке новых графических процессоров NVIDIA под Windows, экспорт видео ускоряется с помощью аппаратных блоков ГП, что делает Premiere Pro более мощным, а создателей видео — более эффективными».

Последние обновления Adobe также включают поддержку формата Apple ProRes RAW в Premiere Pro и After Effects. Это означает, что видеоредакторы, использующие Windows, теперь могут импортировать файлы ProRes RAW без необходимости их перекодирования. Работа с ними также использует аппаратное ускорение с помощью видеокарт AMD и NVIDIA.

И Adobe, и NVIDIA обещают существенное уменьшение времени кодирования с помощью новой функции. Согласно внутренним замерам NVIDIA, перекодирование видео в 4K на ускорителе GeForce RTX 2060 занимает 4 минуты 45 секунд против 11 минут 43 секунд на процессоре Intel Core i9-9750H. А в случае использования эффектов, ускоряемых с помощью ГП, разница получается 5-кратная.

Intel показала прототип своего высокопроизводительного GPU

В декабре прошлого года Раджа Кодури (Raja Koduri) заявил, что коллективу исследовательского центра Intel в Индии удалось существенно продвинуться в разработке некоего графического решения семейства Intel Xe с крупным кристаллом. Теперь Intel демонстрирует некий новый продукт, конструктивно напоминающий крупный процессор в исполнении LGA.

Источник изображения: Twitter, Intel Graphics

Источник изображения: Twitter, Intel Graphics

Известно, что Intel делает большие ставки на семейство графических процессоров Xe, которые предложат унифицированную архитектуру почти во всех рыночных сегментах, от интегрированной в массовые процессоры графики до суперкомпьютеров. Курировать разработки в этой области поручено Радже Кодури — бывшему руководителю графического подразделения AMD. Прервав длительное молчание, Кодури на этой неделе прокомментировал выложенные пресс-службой Intel фотографии, которые сопровождались аннотацией о сложностях разработки полупроводниковых кристаллов с десятками миллиардов транзисторов в условиях самоизоляции. На второстепенных снимках известный разработчик процессорных архитектур Джим Келлер (Jim Keller) и сам Раджа Кодури предстали в защитных масках, косвенно подтверждая свежесть фотографий.

Источник изображения: Twitter, Intel Graphics

Источник изображения: Twitter, Intel Graphics

Главным откровением стало изображение двух экземпляров одного и того же процессора в исполнении LGA, который демонстрировался одновременно с обеих сторон. В качестве «масштабной линейки» выступал стандартный элемент питания типа АА. Кодури недвусмысленно намекнул, что подобный продукт будет хорош как в ускорении работы систем искусственного интеллекта, так и в «полевых баталиях» — играх, если понимать эти слова буквально.

Конечно, если речь идёт о флагманском графическом процессоре, то вряд ли он будет применяться в серийных продуктах именно в таком конструктивном исполнении. Скорее всего, на стадии прототипа он приблизился к центральным процессорам в исполнении LGA ради удобства испытаний и отладки.

Напомним, что к концу 2021 года Intel рассчитывает представить ускоритель вычислений Ponte Vecchio, который будет сочетать подложку EMIB, пространственную компоновку Foveros, 7-нм технологию изготовления и память типа HBM актуального поколения. Демонстрируемый сейчас продукт может не иметь к нему никакого отношения, кроме архитектурного родства. На одном из февральских снимков Кодури позировал с какой-то кремниевой пластиной в руках. Возможно, это был отчёт об одном из этапов разработки соответствующего графического процессора, который теперь демонстрируется в более высокой степени готовности.

Представлен OpenCL 3.0: без прошлого нет будущего

Khronos Group представила предварительные спецификации стандарта вычислений общего назначения с использованием графических и иных процессоров — OpenCL 3.0. Консорциум отметил, что новая версия стандарта призвана обеспечить новые запрашиваемые разработчиками аппаратные функции, а также повысить гибкость развёртывания в целевых средах. Задачи во многом противоположные, так что без компромиссов не обойтись.

Последние 15 лет можно смело назвать эпохой роста вычислений общего назначения на ГП. Сегодня прогресс мощности ЦП сильно замедлился, а высокопараллельные расчёты становятся всё более общим явлением. Самые мощные в мире суперкомпьютеры теперь обязательно включают в себя ГП. В это время развивался и стандарт OpenCL — открытая среда программирования ГП и других ускорителей вычислений. Изначально созданная Apple и получившая широкое признание в отрасли, OpenCL была первой (и до сих пор наиболее последовательной) попыткой создания общего открытого API для параллельного программирования. OpenCL был адаптирован для всего: от энергоэффективных встраиваемых процессоров и DSP до графических ускорителей, потребляющих полкиловатта.

Сегодня OpenCL не только поддерживается на широком спектре оборудования, но и невероятно актуален даже для текущих событий: это API-интерфейс, используемый в проекте Folding@Home, самом мощном вычислительном кластере в мире, который интенсивно применяется для исследования вариантов борьбы с COVID-19. В то же время эволюция рынка параллельных вычислений не всегда шла в соответствии с планами для Khronos и рабочей группы OpenCL. На ПК стандарт всё ещё находится в подвешенном состоянии. Интерес NVIDIA сдерживается продвижением собственного весьма успешного API CUDA, драйверы AMD OpenCL оставляют желать лучшего, Apple отказывается от OpenCL и переходит на собственный API Metal. Единственным поставщиком, которого, кажется, всерьёз интересует OpenCL, выступает Intel. На мобильных устройствах OpenCL тоже никогда не был широко распространён, несмотря на поддержку большинством мобильных ГП и другими блоками параллельной обработки данных.

Поэтому Khronos решила сделать в некоторой степени большой шаг назад и перезапустить экосистему. OpenCL 3.0, последняя версия вычислительного API, делает выводы из прошлого и по сути превращает основной API в форк OpenCL 1.2. В результате всё, что разработано в рамках OpenCL 2.x, теперь стало необязательным: поставщики могут (и, как правило, будут) поддерживать эти функции, но оно больше не требуются для соответствия основной спецификации. Вместо того чтобы поддерживать каждую функцию OpenCL, независимо от её полезности или бесполезности для конкретной платформы теперь поставщики будут сами решать, какие продвинутые функции они хотели бы поддерживать помимо основных спецификаций, основанных на OpenCL 1.2.

Здесь нужно понять некоторую специфику. Дело в том, что Khronos не имеет собственной реальной власти и не может навязать технологические изменения, являясь отраслевым консорциумом, в который входит множество компаний. Проблема совместного подхода заключается в том, что он требует определенной степени согласия между основными участниками. Если не может быть достигнуто соглашение о будущем, проект не может двигаться вперёд. А если никто не доволен результатом, продукт может не получить достаточно широкой поддержки и умереть в зародыше. Нечто подобное произошло с OpenCL 2.2, который был выпущен ещё в 2017 году. Основным новшеством стала поддержка OpenCL C++ в качестве языка ядра — более современного и объектно-ориентированного, чем использовавшийся ранее C. Однако три года спустя никто не принялся активно продвигать OpenCL 2.2: ни NVIDIA, ни AMD, ни Intel, ни, конечно, ни один производитель однокристальных систем. В результате это вредит стандарту.

Что делать, если OpenCL 2.x в значительной степени игнорируется? Khronos и рабочая группа OpenCL нашли ответ, решив вернуться к тому, что хорошо работало, и это был OpenCL 1.2, представленный впервые в 2011 году и ставший последней версией OpenCL 1.x. По современным стандартам API очень прост: он основан на чистом C и не поддерживает такие вещи, как общая виртуальная память или язык промежуточного представления SPIR-V. Но в то же время это последняя версия API, не включающая в себя массу второстепенных и бесполезных для многих участников рынка возможностей. Это чистый, довольно низкоуровневый API для параллельных вычислений во всём спектре: от мобильных решений до самых мощных видеокарт.

В конечном итоге рабочая группа OpenCL смогла договориться о том, что OpenCL 1.2 должен стать базовой спецификацией OpenCL 3.0 — всё остальное, несмотря на полезность для определённых задач, становится необязательным. Ранее жёсткая, монолитная природа стандарта одновременно препятствовала его развитию. Если поставщика удовлетворял OpenCL 1.2, но при этом ему хотелось реализовать пару дополнительных функций из OpenCL 2.1, то приходилось реализовать всю базовую спецификацию 2.1. В OpenCL 1.x / 2.x не было механизма частичного соответствия — только всё или ничего, и ряд компаний выбрали второе.

Теперь OpenCL 3.0 специально структурирован так, чтобы поставщики могли использовать только те части, которые им нужны, не пытаясь поддерживать всё остальное. Теперь ядром является OpenCL 1.2 с поддержкой запросов дополнительных функций, а также некоторыми дополнениями, призванными обеспечить совместимость. Все функции OpenCL 2.x, а также новые функции OpenCL 3.0, являются необязательными, позволяя поставщикам платформ самим решать, какие именно дополнительные возможности им нужны, и нужны ли вообще.

Например, производитель однокристальных систем для смартфонов может обеспечить OpenCL 1.2, и затем использовать несколько новых функций вроде асинхронных расширений DMA или разделяемой виртуальной памяти. В то же время крупный производитель видеокарт может поддержать бо́льшую часть функций OpenCL 2.x, но исключить поддержку разделяемой виртуальной памяти, что малополезно для дискретного ускорителя. В конечном счёте OpenCL 3.0 даёт поставщикам платформ возможность выбирать те функции, которые необходимы именно им, по сути, приспосабливая OpenCL к конкретным задачам.

Это очень похоже на подход Khronos к Vulkan, который оказался гораздо более успешным API в последние годы. Предоставление поставщикам некоторой гибкости в реализации функций API позволило Vulkan распространиться как на мобильных устройствах, так и на настольных ПК. Подобный успех хотела бы повторить и рабочая группа OpenCL.

В конечном счёте, как считает Khronos, последние годы развития OpenCL показали, что сложно сделать стандарт угодным сразу всем, сохранив его абсолютную монолитность. У производителей SoC нужды одни, у ЦП со встроенной графикой — другие, у дискретных видеокарт — третьи. А ведь есть ещё такие вещи, как FPGA и другие более экзотические варианты использования OpenCL. Таким образом, необходимо уйти от монолитности ради высокой адаптируемости к самому широкому спектру устройств и сред.

Несмотря на значительные изменения в философии разработки, OpenCL 3.0 создан так, чтобы оставаться обратно совместимым и логичным. Для разработчиков и пользователей благодаря ядру OpenCL 1.2 приложения 1.2 будут работать без изменений на любом устройстве OpenCL 3.0. В то же время приложения для OpenCL 2.x тоже будут работать без изменений на устройствах с OpenCL 3.0, если эти устройства поддерживают соответствующие функции 2.x. То есть на ПК уже созданное с применением OpenCL 2.1 ПО будет продолжать работать, а, например, на смартфонах — нет. Драйверы OpenCL 1.2 и 2.x действительно нуждаются в некоторых изменениях для соответствия требованиям 3.x, но в основном это касается поддержки запросов новых функций OpenCL. Таким образом, производители смогут выпустить драйверы 3.0 довольно быстро.

В дальнейшем разработчикам приложений предстоит правильно использовать функциональные запросы. Поскольку возможности OpenCL 2.x теперь необязательны, всем приложениям, задействующим дополнительные возможности 2.x/3.0, настоятельно рекомендуется использовать запросы функций, чтобы убедиться в наличии их аппаратной поддержки. Поэтому разработчикам приложений OpenCL 2.x рекомендуется обновить своё ПО для выполнения запросов функциональности.

OpenCL 3.0, помимо взгляда назад, делает и шаги вперёд. Главными среди них являются асинхронные расширения DMA, которые должны стать наиболее интересны тем поставщикам платформ, которые до сих пор придерживают OpenCL 1.2. Эта функция позволяет выполнять транзакции DMA одновременно с вычислительными ядрами, в отличие от синхронных операций, которые обычно могут исполняться только между другими операциями вычислительного ядра. Эта особенность примечательна тем, что позволяет передавать сложные структуры памяти, которые являются более продвинутыми, чем простые линейные. Наиболее это полезно для изображений и подобных данных, которые изначально являются 2D/3D структурами.

OpenCL 3.0 также вводит поддержку языка SPIR-V 1.3 (последняя версия SPIR-V — 1.5). Именно версия 1.3 на данный момент является частью спецификации Vulkan 1.1, что должно играть важную роль в улучшении взаимодействия между Vulkan и OpenCL, делая последний более эффективным в графических задачах.

Впрочем, стоит помнить, что OpenCL 3.0 всё ещё является предварительным стандартом и перед утверждением передаётся на обсуждение и знакомство разработчикам и широкой общественности. Впрочем, Khronos надеется, что уже через несколько месяцев они смогут получить ратификацию стандарта.

В светлое облачное будущее Huawei рассчитывает въехать на собственных GPU

Взятый Huawei курс на самодостаточность является отчасти вынужденной мерой, поскольку китайскую компанию регулярно притесняют американские власти. Южнокорейские источники теперь сообщают, что в недрах нового подразделения Huawei вызревают планы по созданию собственных графических процессоров.

Источник изображения: Reuters

Источник изображения: Reuters

Впрочем, речь пока не идёт о выходе на потребительский рынок. Графические процессоры нужны Huawei для развития платформ искусственного интеллекта и ускорения масштабных вычислений. Как сообщает корейское издание The Elec, местное представительство Huawei Technologies в этом году сформирует новое подразделение Cloud and AI Business Group, входящее в состав дивизиона по работе с корпоративными клиентами. В дальнейшем новое подразделение обретёт независимость и расширится.

Сейчас Huawei уже охотится за бывшими и действующими специалистами NVIDIA, а также руководящим составом американской компании, чтобы переманить на работу людей с опытом создания графических процессоров. В августе 2019 года Huawei представила процессоры Ascend 910, ориентированные на работу в системах искусственного интеллекта. В январе текущего года были представлены процессоры Kunpeng 920, которые сочетают архитектуру ARMv8 и наличие 64 ядер: они будут применяться в серверных системах. Для полного «ансамбля» Huawei не хватает только ускорителей вычислений на базе графических процессоров, и теперь компания надеется их создать силами нового подразделения.

Флагманский 7-нм графический процессор NVIDIA может представить в конце марта

На мероприятии CES 2020, открывшем деловой год в сфере микроэлектроники, NVIDIA не особо привлекала к себе внимание, но это не помешало отраслевым аналитикам сформировать прогнозы на развитие её бизнеса в ближайшие месяцы. Не забывая о потенциале компании в игровой сфере, эксперты в один голос говорят о перспективах существенного роста выручки NVIDIA от реализации серверных компонентов. Некоторые аналитики ожидают, что на конец марта намечен анонс флагманского графического процессора поколения Ampere, который будет выпускаться по 7-нм технологии.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

В течение прошлого года риторика представителей NVIDIA относительно возможности анонса 7-нм продуктов постепенно менялась. Сперва основатель компании при любом удобном случае говорил, что сам по себе техпроцесс ничего не значит, и что существующие графические решения NVIDIA превосходят 7-нм изделия конкурента по всем статьям. Под конец 2019 года финансовый директор NVIDIA призналась, что продукты нового поколения разрабатываются, но из их анонса компания хотела бы сделать сюрприз. Кроме того, недавно стало известно, что для выпуска процессоров Tegra поколения Orin компания задействует производственные мощности Samsung и 8-нм техпроцесс.

Теперь эксперты Citi высказывают предположение, что формальный анонс флагманского графического процессора Ampere состоится на мероприятии GTC 2020, которое NVIDIA проводит с 23 по 26 марта этого года. Первенец семейства, по мнению авторов прогноза, будет ориентирован на применение в серверном сегменте. Специалисты Bank of America Securities хоть и не берутся предсказывать сроки анонса Ampere, рассчитывают на заметный рост выручки NVIDIA от реализации серверных компонентов — он может достигать 30 %, превышая темпы оживления рынка в целом. Подобный оптимизм аналитики испытывают после встречи с представителями NVIDIA. Курс акций компании, по их мнению, может вырасти до $300 за штуку. Сейчас эти ценные бумаги торгуются возле отметки $244.

Аналитики единодушны по поводу неизбежности анонса 7-нм продуктов NVIDIA

В пятницу появится финансовая статистика третьего фискального квартала NVIDIA, который в календаре компании завершился только в конце октября. Стоит отметить, что в первые дни после публикации квартальной отчётности Intel курс акций NVIDIA пошёл вверх, поскольку инвесторы экстраполировали положительную динамику продаж в серверном сегменте, о которой отчиталась Intel, на будущую квартальную отчётность NVIDIA.

Источник изображения: NVIDIA

Вообще, если ориентироваться на комментарии отраслевых аналитиков, которыми делится ресурс Seeking Alpha, общий положительный фон усиливается ожиданием анонса 7-нм графических процессоров NVIDIA, которые должны найти применение в серверном сегменте. Многие эксперты, судя по всему, убеждены в появлении в следующем полугодии 7-нм графических процессоров поколения Ampere. Руководство NVIDIA, тем не менее, на предыдущей квартальной отчётной конференции демонстрировало равнодушие к данной тематике, предрекая архитектуре Volta сохранение актуальности вплоть до конца следующего года.

Специалисты Susquehanna, например, убеждены в оправданности ожиданий рынка относительно итогов третьего квартала NVIDIA. Они считают, что бизнес компании будет расти во всех ключевых сегментах, а в краткосрочной перспективе особые надежды возлагаются на анонс 7-нм продуктов.

Оптимизм коллег разделяют и представители UBS, которые конкретно указывают на близость анонса 7-нм графического процессора для серверного применения. По словам источника, эти ожидания уже заложены в собственные планы крупнейшими клиентами NVIDIA вроде Google, но только в привязке к 2020 календарному году. Кроме того, авторы аналитической записки убеждены, что в следующем году поддержка трассировки лучей на аппаратном уровне станет неотъемлемым свойством каждого нового игрового продукта NVIDIA.

Первый 7-нм продукт NVIDIA выйдет не ранее следующего полугодия

Недавнее знакомство с актуальными слухами о возможных характеристиках 7-нм графических процессоров NVIDIA поколения Ampere носило весьма общий характер, а сроки их дебюта были привязаны к неопределённому периоду 2020 года. Между тем давно известно, что NVIDIA старается самые дорогие и передовые технологические решения отрабатывать в сегменте ускорителей вычислений, поскольку они там окупаются лучше, а фактическое доминирование компании в данном сегменте рынка позволяет ей смелее экспериментировать.

Источник изображения: Twitter, NVIDIA

Источник изображения: Twitter, NVIDIA

Аналитики Raymond James убеждены, что в этом году NVIDIA не выпустит свой первый 7-нм графический процессор, хотя ранее такая вероятность допускалась. Теперь дебют ускорителя вычислений, который будет основан на 7-нм графическом процессоре, намечен на первую половину 2020 года. По большому счёту, формальный анонс может состояться и в первом квартале, поскольку начать год с соответствующего заявления для NVIDIA было бы выгодно.

Если обратиться к истории официальных упоминаний о планах NVIDIA по выпуску преемника Volta, то особых сигналов, говорящих о близости анонса Ampere, представители компании до сих пор не давали. Южнокорейское представительство NVIDIA сообщило местным СМИ, что в следующем году компания будет сотрудничать с Samsung в рамках выпуска 7-нм продукции. Основатель NVIDIA Дженсен Хуанг (Jen-Hsun Huang) позднее заявил на квартальном мероприятии, что архитектура Volta будет весьма востребована в серверном сегменте вплоть до конца следующего года, и причин срочно выпускать преемника он не видит. Даже недавние признания руководства Intel в готовности выпустить серверный 7-нм графический процессор в конце 2021 года вряд ли могут мотивировать NVIDIA соответствующим образом — время в запасе ещё есть.

Специалисты Raymond James поясняют, что по состоянию на конец прошлого квартала партнёры NVIDIA не демонстрировали никакой активности, типичной для периода подготовки к анонсу важного продукта нового поколения. Это и позволяет экспертам сделать вывод, что дебют 7-нм изделий данной марки намечен на первый или даже второй квартал следующего года. На квартальной отчётности ближайших периодов такой график скажется отрицательно, но в долгосрочной перспективе потенциал NVIDIA в серверном сегменте он не ослабит, как считают авторы аналитической записки.

Intel представит первый 7-нм продукт в 2021 году

  • Этим продуктом будет графический процессор, предназначенный для ускорения вычислений в серверных системах.
  • Производительность в пересчёте на ватт вырастет на 20 %, плотность размещения транзисторов должна возрасти вдвое.
  • В 2020 году Intel успеет выпустить 10-нм графический процессор.
  • До 2023 года сменится три поколения 7-нм техпроцесса.

Корпорация Intel только что провела мероприятие для инвесторов, которое было призвано вселить в их холодный рассудительный разум уверенность в технологическом и финансовом потенциале этого разработчика центральных и графических процессоров. Да-да, последнему типу компонентов в своих докладах представители Intel уделяли ничуть не меньше внимания, чем центральным процессорам.

В погоне за TSMC

Исполнительный директор Роберт Свон (Robert Swan) рассказывал инвесторам об общем направлении развития и трансформации Intel, но и он счёл нужным заявить, что корпорация будет вкладывать серьёзные ресурсы в сохранение лидерства по литографическим технологиям. На полном серьёзе прогресс Intel в этой сфере сопоставлялся с успехами TSMC. Первые 10-нм процессоры Ice Lake для ноутбуков будут представлены в июне, серверные процессоры Ice Lake-SP появятся в первой половине 2020 года, когда TSMC будет активно снабжать своих клиентов 7-нм продуктами. Ну, а в 2021 году Intel рассчитывает выпустить свои первые 7-нм продукты — к тому времени TSMC будет производить 5-нм изделия.

В целом же, основное повествование о достижениях Intel в области освоения 7-нм техпроцесса вёл вице-президент Венката Рендучинтала (Venkata Renduchintala). Но сперва он пояснил, что 10-н техпроцесс в своём развитии преодолеет три поколения. Первое дебютирует в текущем году (это если не считать предыдущую попытку в лице Cannon Lake), второе получит путёвку в жизнь в 2020 году, а третье уже будет существовать параллельно с 7-нм техпроцессом в 2021 году.

Непосредственно 7-нм техпроцесс первого поколения обеспечит увеличение плотности размещения транзисторов в два раза по сравнению с 10-нм техпроцессом, повышение быстродействия транзисторов на 20 % по соотношению производительности на потребляемый ватт энергии, упрощение процесса проектирования в четыре раза. Впервые Intel будет использовать литографию со сверхжёстким ультрафиолетовым излучением именно в рамках 7-нм технологии. Кроме того, на этом же этапе будут внедрены разнородная компоновка Foveros и подложка EMIB нового поколения.

Сам 7-нм техпроцесс, если верить презентации Intel, тоже пройдёт в своём развитии через три фазы, каждый год будет появляться новая, вплоть до 2023 года включительно. В полной мере в рамках 7-нм технологии будет использоваться компоновка, позволяющая объединять разнородные кристаллы на одной подложке — так называемые «чиплеты».

Первенцем на 7-нм техпроцессе станет дискретное графическое решение

Первый продукт, выпускаемый по 7-нм технологии, должен быть представлен в 2021 году. Уже сейчас известно, что это будет графический процессор общего назначения, который найдёт применение в центрах обработки данных и системах искусственного интеллекта. Хотя ранее представители Intel всячески противились тому, чтобы называть «Intel Xe» архитектурой, в презентации для инвесторов они именно это и делают. Важно отметить, что 7-нм первенец будет собран из разнородных кристаллов и возьмёт на вооружение продвинутые методы компоновки.

Intel особо подчёркивает, что до этого в 2020 году выйдет дискретный графический процессор, который будет производиться по 10-нм технологии. Вполне возможно, что он ограничит сферу своего применения потребительским сегментом, а 7-нм вариант Intel прибережёт для серверного сегмента. Как уже отмечалось ранее, дискретные графические процессоры Intel будут использовать архитектуру, унаследованную от интегрированных графических ядер. Предшественником этих продуктов будет графика поколения Gen11, которую Intel будет встраивать во многие свои 10-нм изделия.

Когда очередь дошла до нового финансового директора Intel Джорджа Дэвиса (George Davis), он поспешил заявить, что в погоне за улучшением потребительских качеств продуктов при переходе с 10-нм на 7-нм техпроцесс компания постарается рачительно подходить к расходованию средств. Ну, а после освоения 7-нм техпроцесса выпуск продуктов новых поколений должен обеспечить повышение удельного дохода инвесторов в расчёте на одну акцию.

AMD и Valve объявили о сотрудничестве в деле продвижения TrueAudio Next

На момент анонса технология аппаратных расчётов объёмного звука AMD TrueAudio казалась весьма перспективной и заманчивой для будущих игр. Однако прошедшие годы показали, что не всё так радужно: её поддержка ограничилась лишь относительно небольшим количеством проектов (самый известный, пожалуй, — Thief), а в последнее время о ней ничего не было слышно.

Но AMD не отказалась от идеи ускорения звуковых эффектов. С запуском 400-й серии видеокарт Radeon была представлена технология TrueAudio Next (TAN), в которой вместо аппаратного блока DSP обработка звука перекладывается на шейдерные ALU графического процессора. Новая технология была построена поверх движка AMD Radeon Rays на основе метода бросания лучей (ray-casting).

С одной стороны, TrueAudio стала потреблять некоторую часть вычислительных ресурсов GPU, но с другой получила бо́льшую гибкость и была оптимизирована для виртуальной реальности. Чуть позже AMD пошла ещё дальше и сделала TrueAudio Next открытой бесплатной технологией, добавив её исходный код в репозиторий GPUOpen.

Но даже после этого об аппаратном ускорении звука по технологии AMD мы почти ничего не слышали. Оказывается, компания не сидела сложа руки и не оставила идею, призванную сделать звуки в играх гораздо более реалистичными и соответствующими физическим законам распространения волн в пространстве: недавно AMD и Valve объявили о совместной работе по поддержке технологий AMD TrueAudio Next в рамках Steam Audio. Выпущена 13-я бета-версия Steam Audio 2.0, в которую добавлена поддержка TAN.

Поддержка аппаратного ускорения TAN со стороны лидирующей на ПК платформы цифровой дистрибуции Steam — это большой шаг вперёд, за которым может последовать появление заметного количества игр, использующих сцены повышенной акустической сложности и детализации, в том числе в виртуальной реальности.

AMD напоминает, что TAN отличается двумя важными возможностями. Первая — это Resource Reservation, которая позволяет разработчикам выделить определённую часть блоков GPU (например, 20 или 25 вычислительных модулей) исключительно для звуковых расчётов, чтобы избежать возможных проблем или задержек. Также функция резервирования ресурсов может включаться и отключаться автоматически, в зависимости от сцены.

Вторая называется GPU Compute Convolution Algorithms. Эти алгоритмы позволяют разработчикам повысить реалистичность в VR-приложениях, увеличив сложность звука и детализацию с помощью сверхточной реверберации (convolution reverb). Она помогает моделировать акустические эффекты под широким набором углов, создавая более глубокое чувство присутствия, и может в перспективе стать обязательным элементом для полноценного погружения в виртуальную реальность.

TAN даёт возможность наращивать количество источников звука, использовать непрямые звуки, модулировать импульсные характеристики объектов (Impulse Response) и так далее. При этом за счёт аппаратного ускорения высвобождаются ресурсы CPU для других задач вроде расчётов физики, искусственного интеллекта персонажей или обеспечения бесперебойной нагрузки конвейера GPU. AMD также утверждает, что TrueAudio Next снижает или даже полностью устраняет нежелательные щелчки, треск и сбои аудио.

Valve назвала две основные причины, которые подвигли её поддержать TrueAudio Next в Steam Audio:

  • TAN даёт разработчикам больше гибкости в распределении рабочей нагрузки обработки звука на ПК пользователя. Создатели игр могут выбирать, как процессор и графический ускоритель будут взаимодействовать, чтобы обеспечить впечатляющий звук;
  • разработчики получают возможность использовать дополнительный уровень детализации звука на достаточно мощных ПК, не меняя при этом контент. С помощью Steam Audio они могут просто задать более высокие настройки, которые будут использоваться, если на ПК пользователя установлен GPU с поддержкой TAN. Разработчикам не нужно повторно создавать какие-либо материалы.

Поддержка TAN не ограничивается лишь приложениями, которые используют напрямую Steam Audio C API. Отныне разработчики любого проекта на движке Unity с дополнением Steam Audio могут добавить соответствующие настройки, в том числе резервирования блоков GPU — в отсутствие аппаратного ускорения задачи звуковых расчётов будут автоматически переданы CPU и установлены на стандартные значения. TAN также поддерживается в дополнении Steam Audio FMOD Studio для Unity.

Выпущено и дополнение к другому популярному игровому движку, от компании Epic Games — для использования TAN в Unreal Engine 4 нужно просто соответствующим образом настроить дополнение Steam Audio. Более подробной информацией для разработчиков Valve поделилась в своём блоге.

В настоящее время TrueAudio Next работает на ускорителях Radeon RX 470, RX 480, RX 570, RX 580, R9 Fury, R9 Fury X, Pro Duo, RX Vega 56 и RX Vega 64. Также среди системных требований указано наличие драйвера AMD Radeon Software Crimson 16.7.3 или более позднего, ОС Microsoft Windows 7, 8.1 или 10. Учитывая, что речь идёт об открытом стандарте, не исключено, что в перспективе NVIDIA может реализовать его поддержку видеокартами GeForce, если TAN станет достаточно популярным.

NVIDIA начала выпускать драйверы GeForce с защитой от уязвимости Spectre

Как выяснилось, проблема уязвимостей, связанных со спекулятивным исполнением команд, затрагивает не только центральные, но и косвенно — графические процессоры. Ускорители NVIDIA не имеют алгоритма предсказания ветвлений, но драйверы исполняются на CPU и, соответственно, тоже подвержены атакам, которые были выявлены специалистами по безопасности в прошлом году, а на днях стали известны публике и, как следствие, злоумышленникам.

Итак, напомним: имеется три основных варианта уязвимостей. CVE-2017-5754, для удобства названная Meltdown, затрагивает наиболее фундаментальное разделение между пользовательскими процессами и ядром операционной системы. Она относительно проста в применении, но и успешно закрывается заплатками. NVIDIA сообщает, что её GPU-драйвер не подвержен этой уязвимости.

С «призрачной» и более сложной в применении Spectre всё сложнее: на данный момент надёжного способа полностью защититься от неё нет. Но производители выпускают обновления, уменьшающие вероятность успешной атаки. Согласно анализу специалистов NVIDIA, её драйверы могут быть потенциально подвержены варианту Spectre CVE-2017-5715, но пока исправлений нет — компания работает над проблемой с другими партнёрами из экосистемы.

А вот для варианта Spectre CVE-2017-5753 производитель ускорителей GeForce уже начал вносить в свои драйверы первые коррективы (в будущем обещаны и другие, более надёжные). Для Windows-систем выпущен драйвер 390.65: для продуктов серий Quadro, NVS — GeForce и Tesla начнут получать аналогичные драйверы в ближайшие дни. Для Linux компания уже представила драйверы 390.12 и 384.111: для ускорителей GeForce, Quadro, NVS — Tesla получат исправленные драйверы в ближайшее время.

Стоит отметить, что заплатки могут повлиять на исполнение вычислительных инструкций CPU за такт и несколько снизить эффективность работы драйвера. Но насколько это отразится на реальной производительности видеокарт в играх или приложениях, активно использующих преимущества GPGPU, ещё предстоит выяснить. Вполне возможно, ощутимых «проседаний» не будет.

Adobe с NVIDIA работает над реалистичной 3D-симуляцией масляной живописи

Художники используют планшеты для создания рисунков уже много лет, а благодаря распространению шлемов виртуальной реальности и ПО вроде Google Tilt Brush получили возможность рисовать и в 3D-пространстве. Хотя с помощью обоих методов можно создать прекрасные картины, оба они не могут обеспечить ощущения работы с настоящей кистью и холстом.

Существуют приложения, имитирующие живопись маслом (например, Corel Painter), но проект Wetbrush команды Adobe Research замахнулся на большее. NVIDIA, которая вместе с Adobe разрабатывает ПО, описывает проект как первую в мире симуляцию в реальном времени 3D-базированной системы рисования со взаимодействием на уровне отдельных ворсинок кисти. Приложение позволяет рисовать на 2D-поверхностях, создавая виртуальную 3D-картину.

Разработчики Project Wetbrush постарались сделать так, чтобы рисунок имел толщину, вязкость и другие параметры настоящей масляной живописи. С помощью цифрового пера художник наносит мазки на виртуальный холст, как в существующих 2D-приложениях, а программное обеспечение Adobe Research в реальном времени проводит симуляцию поведения масляной краски, оставляя текстуры, наращивая толщину нанесённой краски и создавая впечатление реального холста. Симуляция учитывает скорость мазков, наклон кисти и даже время.

К сожалению, для работы столь точной симуляции требуется графический ускоритель высокого класса. Мощная игровая система — недешёвая замена обычному недорогому холсту и масляным краскам, но зато цифровой редактор позволяет сэкономить время и существенно упростить процесс подбора нужных цветов.

Apple A9X под микроскопом: два ядра ARMv8, огромный GPU и 128-битный контроллер памяти

Высокоинтегрированная система на кристалле (system-on-chip, SoC) Apple A9X для планшета iPad Pro, по данным разработчика, может предложить производительность, сравнимую с тем, что предлагают процессоры Intel. Apple не раскрывает большого количества подробностей о своей самой мощной SoC, однако снимки ядра A9X, сделанные компанией Chipworks при помощи растрового электронного микроскопа (РЭМ, англ. scanning electron microscope, SEM), приоткрывают некоторые подробности об устройстве.

Apple A9X: гигантская SoC для большого планшета

Согласно измерениям Chipworks, микросхема Apple A9X огромна по меркам процессоров для мобильных устройств. Площадь A9X cоставляет 147 мм², она на 40 % больше, чем площадь Apple A9, выпускаемой по технологическому процессу CLN16FF компанией Taiwan Semiconductor Manufacturing Co. Для сравнения: четырёхъядерный Intel Skylake с графическим процессором класса GT2 имеет площадь ядра в 122 мм², а двухъядерный Intel Haswell с графическим ядром GT3 имеет размер в 177 мм². Типично системы на кристалле для мобильных устройств имеют площадь существенно меньше 100 мм².

Apple A9X

Apple A9X

Как видно, Apple не стала экономить на микросхеме для своего самого мощного планшета. Однако, в отличие от некоторых современных мобильных SoC, в Apple A9X нет десятка ядер общего назначения или огромных кешей, призванных увеличить производительность в однопоточных приложениях. Вместо этого, судя по всему, Apple планирует положиться на гетерогенные вычисления.

Всего два ядра общего назначения

Apple A9X экипирован двумя ARMv8-A-совместимыми ядрами общего назначения Twister, в разработке которых принимал участие легендарный Джим Келлер (Jim Keller). Микропроцессорные ядра (отмечены зелёным на схеме) имеют общий кеш второго уровня объёмом 3 Мбайт и могут работать на тактовой частоте до 2,26 ГГц.

Принимая во внимание, что все 64-разрядные микроархитектуры Apple типично умели декодировать и одновременно исполнять больше ARMv8-инструкций, чем ядра, разработанные ARM, наличие всего двух ядер общего назначения не должно казаться недостатком. К сожалению, достоверных данных об архитектуре Twister нет, и сложно сказать, как производительность пары новых ядер Apple соотносится с конкурирующими изделиями. Тем не менее, высокая тактовая частота и, предположительно, очень эффективная архитектура позволят микросхеме демонстрировать отличный уровень производительности в большинстве приложений.

Мощный GPU и гетерогенные вычисления

Вместо того, чтобы интегрировать большое количество ядер общего назначения, Apple встроила в A9X очень мощный графический процессор. GPU базируется на архитектуре Imagination Technologies PowerVR Series7XT и имеет двенадцать кластеров (отмечены синим на схеме), организованные как шесть блоков с некоторой общей логикой. Данная архитектура не только очень эффективна для обработки графики, но и поддерживает возможности таких интерфейсов программирования приложений, как OpenGL 4.3, OpenCL 1.2 и даже DirectX 11.2 (неактуально для Apple и скорее всего не реализовано на аппаратном уровне).

Графический процессор PowerVR Series7XT

Графический процессор PowerVR Series7XT

Примечательно, что официально Imagination предлагает решения PowerVR Series7XT с восемью или шестнадцатью кластерами, однако Apple приняла решение использовать конфигурацию из двенадцати кластеров (Imagination называет кластерами блоки unified shading cluster, USC, c 64–128 потоковыми процессорами в каждом). Иными словами, разработчики Apple самостоятельно построили графический процессор на базе архитектуры PowerVR Series7XT, что случалось и раньше, позволяя продуктам Apple иметь лучшую производительность по сравнению с конкурентами в приложениях, требующих вычислительной мощность GPU.

Вычислительный кластер PowerVR Series7XT

Вычислительный кластер PowerVR Series7XT

Судя по всему, инженеры Apple максимизировали количество потоковых графических процессоров у GPU чипа Apple A9X ради того, чтобы увеличить вычислительные способности системы на кристалле. По-видимому, Apple планирует использовать технологии GPU-ускорения для приложений, которые требуют серьёзной математической мощности. Принимая во внимание очень высокую эффективность параллельных расчётов на графических процессорах, подобный подход имеет смысл. При должной оптимизации программного обеспечения дополнительные GPU-кластеры внутри SoC обеспечат бóльшую производительность, чем дополнительное ядро общего назначения.

Новая подсистема памяти и отсутствие L3

Процессор Apple A9X — первая микросхема компании с восьмиканальным контроллером памяти LPDDR4 (восемь характерных 16-битных интерфейсов заметны внизу и по бокам SoC). Благодаря 128-разрядному доступу к памяти и её тактовой частоте в 3200 МГц, пропускная способность подсистемы памяти A9X составляет 51,2 Гбайт/с, что вдвое больше, чем у других микросхем Apple. Учитывая мощный GPU и высокое разрешение у экрана Apple iPad Pro (2732 × 2048 точек), высокая пропускная способность памяти крайне важна для описываемой системы на кристалле.

Apple iPad Pro

Apple iPad Pro

Примечательно, что в отличие от A9 и предшественников (A7, A8, A8X), A9X не имеет кеша третьего уровня для ядер общего назначения и GPU. Решение отказаться от кеша можно объяснить возросшей пропускной способностью подсистемы памяти, а также тем фактом, что Apple хотела бы использовать в первую очередь GPU-ускорение для требовательных приложений. Учитывая скромные размеры кеша третьего уровня, едва ли Apple смогла сэкономить существенные деньги на производстве микросхемы, отказавшись от него в A9X. Кроме того, большие кеши зачастую дают возможность экономить электроэнергию, минимизировав использование оперативной памяти. Таким образом, отказ от L3 — весьма спорное решение проектировщиков SoC.

Помимо мощных CPU, GPU и полностью перепроектированной подсистемы памяти, процессоры Apple A9X включает в себя множество специализированных блоков, производительность которых серьёзно влияет на общую работу устройства. Во-первых, Apple A9X имеет полностью новый контроллер NAND флеш-памяти, что увеличит производительность встроенного накопителя данных. Во-вторых, SoC имеет полностью переработанный контроллер дисплея, позволяя последнему работать с переменной частотой обновления. В-третьих, новый чип имеет новые контроллеры сенсоров и целый набор специфических ускорителей. К сожалению, определить всё вышеперечисленное на фото подобного качества не представляется возможным. Тем не менее, подобные «мелочи» занимают существенную — не менее четверти — площадь ядра A9X.

Взгляд в будущее

Судя по архитектурным решениям в A9X, вероятно, Apple планирует полагаться на гетерогенные вычисления не только для профессионального ПО, которое будет запускаться на iPad Pro, но и для типичных приложений. По-видимому, в будущем мы увидим дальнейшее увеличение количества GPU-кластеров во всех SoC компании при неизменном количестве ядер общего назначения в ближайшие годы. Во всяком случае, до перехода на 10-нм технологический процесс в конце 2017 года микросхемы Apple продолжат включать в себя два ядра, но мощные современные GPU.

Apple iPad и iPhone

Apple iPad и iPhone

Что касается 128-битного доступа к памяти, то он, вероятно, останется эксклюзивной возможностью A9X или A10X. Интерфейсы памяти требуют места на микросхемах и в случае с чипами для смартфонов «широкий» доступ к LPDDR4 невозможно обеспечить физически. Как следствие, можно ожидать, что будущие SoC компании продолжат использовать кеш третьего уровня для максимизации пропускной способности памяти, если только Apple не решит применять технологии вроде Wide I/O.

Более ста суперкомпьютеров из Top 500 используют ускорители вычислений

Не секрет, что всё больше суперкомпьютеров используют вычислительные ускорители на базе графических процессоров, или же специальные сопроцессоры, чтобы достигнуть невиданной мощности при относительно небольшом энергопотреблении. Согласно данным из нового списка пятисот самых мощных суперкомпьютеров в мире, более сотни уже использует GPU-ускорители. Карты NVIDIA Tesla продолжают оставаться самыми популярными ускорителями для высокопроизводительных вычислений (high-performance computing, HPC).

Рост производительности суперкомпьютеров замедляется

Согласно обновлённому списку Top 500, опубликованному на этой неделе, общая вычислительная мощность всех самых мощных суперкомпьютеров в мире выросла до 420 квадриллионов операций с плавающей запятой в секунду (420 петафлопс – PetaFLOPS [floating point operations per second]) с 361 петафлопс год назад. 80 HPC-систем имеют производительность в один петафлопс, по сравнению с 67 машинами в июле этого года года. Наименее мощный суперкомпьютер из Top 500 может выполнять 204,3 триллионов операций в секунду (терафлопс), тогда как ранее мощность самой медленной Top 500 системы в мире была 164 терафлопс.

Суперкопьютер Cray XK7

Суперкопьютер Cray XK7

Авторы рейтинга Top 500 отмечают, что рост производительности самых быстрых суперкомпьютеров замедляется. Во многом это происходит вследствие замедления роста производительности центральных процессоров, а также некоторых задержек с выходом в свет новейших ускорителей и сопроцессоров для супервычислений.

Количество GPU в суперкомпьютерах растёт

В общей сложности 104 системы в списке пятисот самых мощных суперкомпьютеров в мире используют вычислительные ускорители AMD FirePro S, NVIDIA Tesla или сопроцессоры Intel Xeon Phi. А еще в июле этого года лишь 90 систем использовали подобные устройства. 66 систем из 104 использует NVIDIA Tesla, 27 используют Intel Xeon Phi и три используют AMD FirePro. Четыре системы используют комбинацию из NVIDIA Tesla и Intel Xeon Phi. NVIDIA продолжает доминировать на рынке суперкомпьютерных ускорителей, однако успех Intel Xeon Phi налицо. Примечательно, что, по данным NVIDIA, 23 из 24 новых GPU-ускоренных систем в списке построенным на базе Tesla.

NVIDIA Tesla K80

NVIDIA Tesla K80

«Я верю, что в один прекрасный день GPU-ускорение будет доступно у всех суперкомпьютеров мира», — сказал Дженсен Хуанг (Jen-Hsun Huang), соучредитель и генеральный директор NVIDIA. «К GPU-ускоряемым вычислениям уже обратились ведущие суперкомпьютерные центры мира, что нашло отражение в актуальной версии списка TOP500. Учитывая, что темп научных открытий растет и ученые все чаще обращаются к вычислениям, машинному обучению и визуализации, в будущем эта тенденция только усилится». 

Intel Xeon Phi в составе Tianhe 2

Intel Xeon Phi в составе Tianhe 2

Согласно данным последнего исследования компании Intersect360 Research, почти 70 % из 50 самых популярных HPC-приложений — и 90% из 10 ведущих — поддерживают GPU-ускоренные вычисления. Таким образом, всё указывает на то, что доля графических процессоров в суперкомпьютерах продолжит расти в ближайшие годы.

«Ландшафт индустрии HPC сегодня серьезно изменился, и произошло это благодаря графическим процессорам NVIDIA Tesla», — отметил Эддисон Снелл (Addison Snell), один из авторов исследования, генеральный директор Intersect360 Research. «Применение ускорителей и число GPU-ускоренных версий ведущих HPC кодов неуклонно растет».

Tianhe 2 остаётся самым мощным суперкомпьютером

В верхней части нового списка из пятисот самых мощных суперкомпьютеров в мире, который был выпущен на этой неделе, не произошло существенных изменений.

Самым мощным суперкомпьютером на планете по-прежнему является китайский Tianhe 2, спроектированный оборонным научно-техническим университетом народно-освободительной армии Китайской Народной Республики и компанией Inspur. Он способен выполнять 33,86 квадриллионов операций с плавающей запятой в секунду (33,86 петафлопс). Данная система базируется на процессорах Intel Xeon E5-2692v2 (двенадцать ядер, тактовая частота 2,2 ГГц), а также использует 48 тысяч сопроцессоров Xeon Phi Intel 31S1P. В общей сложности, Tianhe 2 располагает 3,12 миллионами x86-ядер.

Tianhe 2

Суперкомпьютер Tianhe 2

На втором месте находится суперкомпьютер Titan, который установлен в национальной лаборатории Ок-Ридж (Oak Ridge) министерства энергетики США, и обладает мощностью 17,59 петафлопс. Данная система представляет собой кластер Cray XK7 c шестнадцатиядерными AMD Opteron и ускорителями NVIDIA Tesla K20X.

Третья по мощности HPC-система в мире — Sequoia — может выполнять 17,173 квадриллионов операций с плавающей запятой в секунду и принадлежит Ливерморской национальной лаборатории министерства энергетики США имени Э. Лоуренса (Lawrence Livermore National Laboratory, LLNL). Система использует 98 304 процессора IBM Power BQC (шестнадцать ядер, частота 1,60 ГГц) и была построена IBM.

Суперкомпьютер Ломоносов 2

Суперкомпьютер Ломоносов 2

Самым мощным суперкомпьютером в России остался Ломоносов 2, который имеет мощность 1,849 петафлопс (36 место в рейтинге). Данная система была построена компанией T-Platforms для МГУ имени М.В. Ломоносова на базе процессоров Intel Xeon E5-2697v3 (14 ядер, 2,60 ГГц) и ускорителей NVIDIA Tesla K40m.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

window-new
Soft
Hard
Тренды 🔥