Теги → opencl
Быстрый переход

NVIDIA CUDA можно использовать на ускорителях Intel, но пока лишь в Geekbench

Использование графических ускорителей для задач, выходящих за рамки простого рендеринга 3D-графики — та отрасль, которая принесла NVIDIA миллиарды в секторе центров обработки данных (а теперь — и в майнинге). Её собственная платформа CUDA и API с самого начала были эксклюзивными для видеокарт компании. Но теперь технология доступна и на ускорителях Intel.

Конечно, и раньше существовали инструменты для переноса приложений CUDA на широко поддерживаемые языки вроде OpenCL. Однако даже полуавтоматические инструменты, такие как HIPCL, требовали вмешательства разработчика. А вот новая библиотека ZLUDA обещает запускать приложения CUDA непосредственно на графических процессорах Intel без каких-либо изменений. ZLUDA использует Intel oneAPI Level Zero для трансляции или эмуляции команд CUDA.

Разработчики ZLUDA описывают своё детище как прямую замену CUDA на системах с графическими процессорами Intel, используемыми в процессорах Skylake и более поздних. Новейшая версия поддерживает как Windows, так и Linux с графикой 9-го поколения или более новой. По словам разработчиков, ZLUDA способна достигать почти той же производительности, как если бы код был скомпилирован напрямую. Но пока есть и большие ограничения: поддерживаемая функциональность существенно ограничена. По сути, в настоящее время библиотека реально работает только в Geekbench, а потенциальных пользователей предупреждают, что не следует полагаться на неё при разработке важного ПО.

Использование ZLUDA в Windows кажется достаточно простым. Для этого нужно загрузить последнюю сборку со страницы ZLUDA в GitHub. Скачанный архив включает в себя «оболочку» для запуска любого приложения с поддержкой CUDA и необходимую библиотеку. Затем следует просто запустить оболочку из командной строки с приложением в качестве аргумента (zluda_with -- geekbench5 --compute CUDA). Впрочем, у журналистов Hot Hardware этот способ выдал ошибку.

В Linux автор ZLUDA смог прогнать тесты для Core i5-8700K, набрав 6333 балла с CUDA с использованием встроенной графики UHD 630 против 6482 баллов при исполнении через OpenCL. Это небольшое общее снижение производительности, но есть любопытные нюансы. Некоторые тесты Geekbench оказались значительно медленнее, но, например, тест Stereo Matching был примерно на 50 % быстрее с использованием ZLUDA, чем с OpenCL.

Сравнение результатов тестов в Geekbench через ZLUDA и OpenCL

Сравнение результатов тестов в Geekbench через ZLUDA и OpenCL

Другими словами, у создателей ZLUDA впереди ещё долгий путь — библиотека прошла только через выход второй крупной сборки. Тем не менее, это интересный проект. Видеокарты Intel DG1 уже выпущены для OEM-производителей, и кажется, что более быстрые DG2 не за горами. Хотя интегрированная графика служит интересным доказательством концепции, нет никаких сомнений в том, что дискретная графика Intel куда интереснее в перспективе для ZLUDA.

GeForce RTX 3060 Ti почти догнала Radeon RX 6800 в тесте Geekbench OpenCL

Сайт Geekbench обновил рейтинг производительности графических ускорителей в среде OpenCL, что обычно происходит примерно в то же время, когда анонсируются новые видеокарты. База данных пополнилась моделью GeForce RTX 3060 Ti, запуск которой состоится через пару дней.

Ранее стало известно, что NVIDIA рассматривает GeForce RTX 3060 Ti в качестве более производительной альтернативы GeForce RTX 2080 Super, что было отражено на утёкшем в Сеть графике компании. Эти данные в свою очередь недавно были подтверждены синтетическими бенчмарками 3DMark TimeSpy и Firestrike. Кроме того, GeForce RTX 3060 Ti оказалась чуть быстрее в игровом тесте Ashes of the Singularity.

Команда Geekbench пока не обновила рейтинги производительности CUDA и Vulkan, поэтому сравнение проводится только в тесте OpenCL. Согласно свежим данным, модель Radeon RX 6800 от AMD на базе GPU Navi 21 XL всего 0,6 % быстрее GeForce RTX 3060 Ti. Такую разницу можно списать на погрешность и, вероятнее всего, она изменится вскоре после того, как начнут появляться первые официальные обзоры на новую видеокарту NVIDIA и пользователей смогут её приобрести.

О производительности GeForce RTX 3060 Ti в Geekbench сообщалось ещё на прошлой неделе. Тогда результат мало чем отличался от текущего официально заявленного базой данных Geekbench. Однако официальный Geekbench всегда строится как минимум на пяти независимых тестах графического ускорителя, а не на одном, как было в прошлой утечке.

Обзоры на модель GeForce RTX 3060 Ti в эталонном исполнении Founders Edition начнут публиковаться уже завтра. На нереференсные образцы появятся на день позже. Новинке по-прежнему прогнозируют рекомендованную стоимость в $399.

Microsoft выпустила пакет совместимости OpenCL и OpenGL для Windows 10 ARM

Первые обзоры MacBook и Mac Mini на базе чипа Apple M1 с архитектурой ARM показали превосходство над прежними компьютерами тех же семейств на основе чипов Intel x86. С другой стороны, несмотря на более ранний выпуск продуктов вроде Surface Pro X, компания Microsoft всё ещё не добилась достаточно широкого распространения Windows 10 ARM. Но теперь шаги в этом направлении будут наверняка решительнее.

Самая важная проблема для Windows 10 ARM — совместимость приложений (например, до сих пор эмуляция поддерживает только 32-бит ПО x86). Вдобавок до последнего времени Windows 10 ARM не поддерживала OpenCL и OpenGL. К счастью, это уходит в прошлое: недавно вместе с Collabora компания Microsoft представила свои слои совместимости (mapping layers) DirectX 12 для открытых API, для которых нет полноценной поддержки со стороны драйверов.

Согласно блогу разработчиков Microsoft, пакет совместимости для Windows 10 ARM наконец-то доступен для пользователей и разработчиков. В частности, представленная недавно бета-версия Adobe Photoshop, скомпилированная под архитектуру ARM, использует именно этот режим совместимости DirectX 12 для исполнения кода OpenCL и OpenGL под Windows 10 ARM.

Пакет совместимости доступен для загрузки через магазин приложений Microsoft любому, кто использует Windows 10 ARM. Его необходимо установить вместе с драйвером Qualcomm DirectX 12, чтобы версия Photoshop для ARM запускалась и могла использовать такое аппаратное ускорение ряда эффектов с помощью графического процессора.

В настоящее время пакет совместимости OpenCL и OpenGL используется только в бета-версии Photoshop, но пользователи программы предварительной оценки Windows могут загрузить тестовую версию пакета совместимости. Она позволяет запускать любые приложения, разработанные для OpenCL 1.2, OpenGL 3.3 и более ранних версий этих API. Наличие последней версии Windows 10 ARM обязательно.

Google: благодаря OpenCL механизм логического вывода в TensorFlow ускорится вдвое

Google выпустила для своей платформы TensorFlow на Android новый механизм логического вывода, работающий на мобильных ускорителях через OpenCL. Он доступен в последней версии библиотеки TensorFlow Lite, и компания утверждает, что движок обеспечивает двукратное превосходство по скорости по сравнению с существующим модулем на основе OpenGL при исполнении моделей ИИ «разумного размера».

Khari Johnson / VentureBeat

Khari Johnson / VentureBeat

OpenGL развивается уже три десятилетия как не привязанный к платформе API для рендеринга 2D и 3D. Вычислительные шейдеры были добавлены в версии OpenGL ES 3.1, но команда TensorFlow заявила, что из-за обратной совместимости этот API не позволяет реализовать в полной мере потенциал графических процессоров. С другой стороны, OpenCL с самого начала разрабатывался как стандарт для вычислений с использованием различных ускорителей и лучше подходит для реализации механизма логического вывода на мобильных ускорителях. Это заставило команду TensorFlow провести исследование и в конечном итоге перейти на движок на основе OpenCL.

Скорость логического вывода при исполнении модели MNASNet 1.3 на некоторых устройствах Android (ЦП, ГП через OpenGL и ГП через OpenCL)

Скорость логического вывода при исполнении модели MNASNet 1.3 на некоторых устройствах Android (ЦП, OpenGL и OpenCL)

Благодаря поддержке FP16 и других особенностей ГП в новом механизме логического вывода TensorFlow некоторые старые ускорители вроде Adreno 305 2012 года теперь смогут работать в полную силу. В некоторых случаях прирост оказывается более чем двукратным. Например, при работе поисковой нейронной системы MNASNet 1.3 через новую библиотеку TensorFlow задержки были уменьшены со 100 мс на Vivo Z3 с движком на основе OpenGL до 25 мс с новой версией на базе OpenCL. В другом тесте с алгоритмом обнаружения объектов SSD MobileNet v3 на Huawei Mate 20 также сократил задержки с почти 100 мс до менее чем 25 мс.

Скорость логического вывода при исполнении модели SSD MobileNet v3 на некоторых устройствах Android (ЦП, ГП через OpenGL и ГП через OpenCL)

Скорость логического вывода при исполнении модели SSD MobileNet v3 на некоторых устройствах Android (ЦП, OpenGL и OpenCL)

Google отметила, что OpenCL не является частью стандартного дистрибутива Android, что делает новую библиотеку недоступной для некоторых пользователей. В качестве временной меры TensorFlow Lite теперь проверяет наличие OpenCL и, если API недоступен, переключается на движок на базе OpenGL.

Представлен OpenCL 3.0: без прошлого нет будущего

Khronos Group представила предварительные спецификации стандарта вычислений общего назначения с использованием графических и иных процессоров — OpenCL 3.0. Консорциум отметил, что новая версия стандарта призвана обеспечить новые запрашиваемые разработчиками аппаратные функции, а также повысить гибкость развёртывания в целевых средах. Задачи во многом противоположные, так что без компромиссов не обойтись.

Последние 15 лет можно смело назвать эпохой роста вычислений общего назначения на ГП. Сегодня прогресс мощности ЦП сильно замедлился, а высокопараллельные расчёты становятся всё более общим явлением. Самые мощные в мире суперкомпьютеры теперь обязательно включают в себя ГП. В это время развивался и стандарт OpenCL — открытая среда программирования ГП и других ускорителей вычислений. Изначально созданная Apple и получившая широкое признание в отрасли, OpenCL была первой (и до сих пор наиболее последовательной) попыткой создания общего открытого API для параллельного программирования. OpenCL был адаптирован для всего: от энергоэффективных встраиваемых процессоров и DSP до графических ускорителей, потребляющих полкиловатта.

Сегодня OpenCL не только поддерживается на широком спектре оборудования, но и невероятно актуален даже для текущих событий: это API-интерфейс, используемый в проекте [email protected], самом мощном вычислительном кластере в мире, который интенсивно применяется для исследования вариантов борьбы с COVID-19. В то же время эволюция рынка параллельных вычислений не всегда шла в соответствии с планами для Khronos и рабочей группы OpenCL. На ПК стандарт всё ещё находится в подвешенном состоянии. Интерес NVIDIA сдерживается продвижением собственного весьма успешного API CUDA, драйверы AMD OpenCL оставляют желать лучшего, Apple отказывается от OpenCL и переходит на собственный API Metal. Единственным поставщиком, которого, кажется, всерьёз интересует OpenCL, выступает Intel. На мобильных устройствах OpenCL тоже никогда не был широко распространён, несмотря на поддержку большинством мобильных ГП и другими блоками параллельной обработки данных.

Поэтому Khronos решила сделать в некоторой степени большой шаг назад и перезапустить экосистему. OpenCL 3.0, последняя версия вычислительного API, делает выводы из прошлого и по сути превращает основной API в форк OpenCL 1.2. В результате всё, что разработано в рамках OpenCL 2.x, теперь стало необязательным: поставщики могут (и, как правило, будут) поддерживать эти функции, но оно больше не требуются для соответствия основной спецификации. Вместо того чтобы поддерживать каждую функцию OpenCL, независимо от её полезности или бесполезности для конкретной платформы теперь поставщики будут сами решать, какие продвинутые функции они хотели бы поддерживать помимо основных спецификаций, основанных на OpenCL 1.2.

Здесь нужно понять некоторую специфику. Дело в том, что Khronos не имеет собственной реальной власти и не может навязать технологические изменения, являясь отраслевым консорциумом, в который входит множество компаний. Проблема совместного подхода заключается в том, что он требует определенной степени согласия между основными участниками. Если не может быть достигнуто соглашение о будущем, проект не может двигаться вперёд. А если никто не доволен результатом, продукт может не получить достаточно широкой поддержки и умереть в зародыше. Нечто подобное произошло с OpenCL 2.2, который был выпущен ещё в 2017 году. Основным новшеством стала поддержка OpenCL C++ в качестве языка ядра — более современного и объектно-ориентированного, чем использовавшийся ранее C. Однако три года спустя никто не принялся активно продвигать OpenCL 2.2: ни NVIDIA, ни AMD, ни Intel, ни, конечно, ни один производитель однокристальных систем. В результате это вредит стандарту.

Что делать, если OpenCL 2.x в значительной степени игнорируется? Khronos и рабочая группа OpenCL нашли ответ, решив вернуться к тому, что хорошо работало, и это был OpenCL 1.2, представленный впервые в 2011 году и ставший последней версией OpenCL 1.x. По современным стандартам API очень прост: он основан на чистом C и не поддерживает такие вещи, как общая виртуальная память или язык промежуточного представления SPIR-V. Но в то же время это последняя версия API, не включающая в себя массу второстепенных и бесполезных для многих участников рынка возможностей. Это чистый, довольно низкоуровневый API для параллельных вычислений во всём спектре: от мобильных решений до самых мощных видеокарт.

В конечном итоге рабочая группа OpenCL смогла договориться о том, что OpenCL 1.2 должен стать базовой спецификацией OpenCL 3.0 — всё остальное, несмотря на полезность для определённых задач, становится необязательным. Ранее жёсткая, монолитная природа стандарта одновременно препятствовала его развитию. Если поставщика удовлетворял OpenCL 1.2, но при этом ему хотелось реализовать пару дополнительных функций из OpenCL 2.1, то приходилось реализовать всю базовую спецификацию 2.1. В OpenCL 1.x / 2.x не было механизма частичного соответствия — только всё или ничего, и ряд компаний выбрали второе.

Теперь OpenCL 3.0 специально структурирован так, чтобы поставщики могли использовать только те части, которые им нужны, не пытаясь поддерживать всё остальное. Теперь ядром является OpenCL 1.2 с поддержкой запросов дополнительных функций, а также некоторыми дополнениями, призванными обеспечить совместимость. Все функции OpenCL 2.x, а также новые функции OpenCL 3.0, являются необязательными, позволяя поставщикам платформ самим решать, какие именно дополнительные возможности им нужны, и нужны ли вообще.

Например, производитель однокристальных систем для смартфонов может обеспечить OpenCL 1.2, и затем использовать несколько новых функций вроде асинхронных расширений DMA или разделяемой виртуальной памяти. В то же время крупный производитель видеокарт может поддержать бо́льшую часть функций OpenCL 2.x, но исключить поддержку разделяемой виртуальной памяти, что малополезно для дискретного ускорителя. В конечном счёте OpenCL 3.0 даёт поставщикам платформ возможность выбирать те функции, которые необходимы именно им, по сути, приспосабливая OpenCL к конкретным задачам.

Это очень похоже на подход Khronos к Vulkan, который оказался гораздо более успешным API в последние годы. Предоставление поставщикам некоторой гибкости в реализации функций API позволило Vulkan распространиться как на мобильных устройствах, так и на настольных ПК. Подобный успех хотела бы повторить и рабочая группа OpenCL.

В конечном счёте, как считает Khronos, последние годы развития OpenCL показали, что сложно сделать стандарт угодным сразу всем, сохранив его абсолютную монолитность. У производителей SoC нужды одни, у ЦП со встроенной графикой — другие, у дискретных видеокарт — третьи. А ведь есть ещё такие вещи, как FPGA и другие более экзотические варианты использования OpenCL. Таким образом, необходимо уйти от монолитности ради высокой адаптируемости к самому широкому спектру устройств и сред.

Несмотря на значительные изменения в философии разработки, OpenCL 3.0 создан так, чтобы оставаться обратно совместимым и логичным. Для разработчиков и пользователей благодаря ядру OpenCL 1.2 приложения 1.2 будут работать без изменений на любом устройстве OpenCL 3.0. В то же время приложения для OpenCL 2.x тоже будут работать без изменений на устройствах с OpenCL 3.0, если эти устройства поддерживают соответствующие функции 2.x. То есть на ПК уже созданное с применением OpenCL 2.1 ПО будет продолжать работать, а, например, на смартфонах — нет. Драйверы OpenCL 1.2 и 2.x действительно нуждаются в некоторых изменениях для соответствия требованиям 3.x, но в основном это касается поддержки запросов новых функций OpenCL. Таким образом, производители смогут выпустить драйверы 3.0 довольно быстро.

В дальнейшем разработчикам приложений предстоит правильно использовать функциональные запросы. Поскольку возможности OpenCL 2.x теперь необязательны, всем приложениям, задействующим дополнительные возможности 2.x/3.0, настоятельно рекомендуется использовать запросы функций, чтобы убедиться в наличии их аппаратной поддержки. Поэтому разработчикам приложений OpenCL 2.x рекомендуется обновить своё ПО для выполнения запросов функциональности.

OpenCL 3.0, помимо взгляда назад, делает и шаги вперёд. Главными среди них являются асинхронные расширения DMA, которые должны стать наиболее интересны тем поставщикам платформ, которые до сих пор придерживают OpenCL 1.2. Эта функция позволяет выполнять транзакции DMA одновременно с вычислительными ядрами, в отличие от синхронных операций, которые обычно могут исполняться только между другими операциями вычислительного ядра. Эта особенность примечательна тем, что позволяет передавать сложные структуры памяти, которые являются более продвинутыми, чем простые линейные. Наиболее это полезно для изображений и подобных данных, которые изначально являются 2D/3D структурами.

OpenCL 3.0 также вводит поддержку языка SPIR-V 1.3 (последняя версия SPIR-V — 1.5). Именно версия 1.3 на данный момент является частью спецификации Vulkan 1.1, что должно играть важную роль в улучшении взаимодействия между Vulkan и OpenCL, делая последний более эффективным в графических задачах.

Впрочем, стоит помнить, что OpenCL 3.0 всё ещё является предварительным стандартом и перед утверждением передаётся на обсуждение и знакомство разработчикам и широкой общественности. Впрочем, Khronos надеется, что уже через несколько месяцев они смогут получить ратификацию стандарта.

Intel Xe DG1 протестирована в Geekbench 5: результаты озадачивают

Ранее в этом году компания Intel начала распространять образцы своих дискретных видеокарт Intel Xe DG1 среди разработчиков программного обеспечения, а потому нет ничего удивительного, что они время от времени стали встречаться в базах данных различных тестов. Теперь вот была обнаружена первая запись о тестировании Intel Xe DG1 в бенчмарке Geekbench 5 OpenCL.

Напомним, распространённая среди разработчиков видеокарта Intel Xe DG1 является графическим ускорителем начального уровня, который построен на графическом процессоре с архитектурой 12-го поколения и 96 исполнительными блоками (Execution units, EU). Это подтверждает и тест Geekbench. Компания Intel планирует выпустить графические ускорители самых различных уровней: от «затычек», которые лишь слегка превосходят встроенную графику, до высокопроизводительных профессиональных ускорителей вычислений.

Согласно данным Geekbench 5, протестированная система с графикой Intel была построена на материнской плате Gigabyte Z390 Aorus Pro Wi-Fi с процессором Intel Core i7-9700 и с 16 Гбайт встроенной памяти. Тест определил видеокарту как «Мобильный графический контроллер Intel 12-го поколения». Тактовая частота GPU составила 1,5 ГГц, и он был оснащён 3 или 4 Гбайт памяти (тест определил 2,88 Гбайт).

Производительность видеокарты Intel Xe DG1 составила 12 427 баллов в тесте OpenCL. И это — отнюдь не радужный для Intel результат. Для сравнения, результаты мобильных видеокарт GeForce MX150 и MX250 в этом же тесте равны 10 500 баллов, а сопоставимые 12 500 баллов набирает, например, мобильная Radeon Pro 550X. Конечно, это всего лишь один бенчмарк, и по нему судить о производительности новинки явно не стоит. Но и прежние тесты указывали на то, что в нынешнем виде первая дискретная видеокарта Intel выглядит не слишком конкурентоспособной.

Чип AMD Polaris 12 засветился в базе данных CompuBench

Совсем недавно мы рассказывали нашим читателям о будущей серии карт AMD Radeon RX 500, среди которых не так много интересного, как хотелось бы — в основном, они будут являть собой перемаркированные решения серии Radeon RX 400, разве что Polaris 11 сменится более совершенным Polaris 12, который будет выпускаться с использованием техпроцесса 14-нм FinFET LPP (Low Power Plus) Samsung/GlobalFoundries.

А самый младший чип в серии, скорее всего, получит имя Polaris 12. Решение с похожими характеристиками засветилось в базе данных CompuBenech. В ней оно фигурирует под именами gfx804 и AMD Radeon RX 500 Series. У этого решения будут активны 10 вычислительных модулей, что в сумме даст 640 процессоров GCN. С учётом применения экономичного техпроцесса это сделает новый чип отличным решением для недорогих игровых ноутбуков. Решение на его основе, по логике вещей, получит название Radeon RX 550.

Разрядность шины памяти сохранится и составит 128 бит, тактовая частота потоковых процессоров достигнет достаточно высокого для серии Polaris значения, составляющего 1302 МГц. Карты на базе Polaris 12 будут комплектоваться 4 Гбайт видеопамяти GDDR5 и, вероятно, таковой же останется конфигурация этой подсистемы в случае использования чипа в качестве дискретной графики в ноутбуке. Стоимость новинки ожидается весьма демократичной, ниже установленных на RX460 99 долларов США.

AMD выпустила двухпроцессорную карту для рынка HPC на базе Fiji

Буквально неделю назад, описывая новую версию профессионального ускорителя NVIDIA Quadro M6000, мы упомянули, что единственным его соперником может являться Radeon Pro Duo, и то с учётом в три раза меньшего объёма локальной памяти (8 Гбайт против 24 Гбайт у NVIDIA). Но вот в том, что Advanced Micro Devices не выпустит других профессиональных ускорителей на базе архитектуры Fiji, мы оказались неправы! Компания представила новинку, предназначенную для рынка супервычислений —  ускоритель FirePro S9300 X2 с пиковой производительностью 13,9 Тфлопс. Так что новинка является самым быстрым вычислительным ускорителем вычислений одинарной точности в мире.

Типичный серверный ускоритель полагается на общую систему охлаждения

Типичный серверный ускоритель полагается на общую систему охлаждения

Это, разумеется, не конкурент Quadro M6000 —  плата не только не имеет разъёмов для подключения каких-либо устройств, она даже в охлаждении полагается на систему сервера, например, такую, как в недавно описанном GIGABYTE G25N-G51, способном вместить до восьми вычислительных ускорителей. Для удержания теплопакета в приемлемых рамках частоты графических ядер S9300 X2 были снижены до 850 МГц. А вот с памятью, по понятным причинам, ничего поделать не удалось и её объём остался прежним —  8 Гбайт в сборках HBM, по четыре сборки ёмкостью 1 Гбайт на чип. Это базовое ограничение конструкции Fiji и преодолеть его нельзя никак, пока не будет развёрнуто производство HBM2. Но эту память унаследует лишь AMD Vega, и сравнительно нескоро. А для организации внешних кешей на базе обычной DRAM у Fiji, похоже, просто нет нужных выводов.

Технические параметры FirePro S9300 X2

Технические параметры FirePro S9300 X2

Новинка AMD явно нацелена на конкуренцию с NVIDIA Tesla M60: последний также является чисто вычислительным ускорителем, также имеет два графических процессора на борту (GM204) и превосходит решение AMD только в объёме локальной памяти: 16 против 8 Гбайт суммарно. M60 создавался с расчётом на использование в игровых системах с удалённым рендерингом, но, похоже, S9300 X2 подойдёт на эту роль гораздо лучше: если у решения NVIDIA пиковая производительность в FP32 составляет 7,4 терафлопса, то у карты AMD этот показатель почти вдвое выше при аналогичном теплопакете — 300 ватт под нагрузкой. FirePro S9300 явный чемпион в категории «производительность на ватт», где может похвастаться 46 гигафлопсами на ватт против 25 у Tesla M60. Иными словами, система на базе S9300 X2 сможет обслуживать больше игровых клиентов при равном уровне энергопотребления.

AMD собирается завоевать рынок супервычислений универсальностью

AMD собирается завоевать рынок супервычислений универсальностью

А вот ускорителям Tesla серии K FirePro S9300 X2 не конкурент — те рассчитаны на высокие показатели в режиме двойной точности (FP64) и предназначены для работы в совсем иных сферах. Так, Tesla K80 может выдавать до 2,91 Тфлопс FP64, в то время как FirePro S9300 X2 сможет выжать в этом режиме лишь жалкие 0,8 терафлопса. В этой категории новинка уступает даже собственному родственнику, ускорителю FirePro S9170, развивающему вполне серьёзные 2,6 терафлопса при двойной точности вычислений. Вот в чём новичку действительно нет равных, так это в пропускной способности памяти: решения NVIDIA пока не располагают даже HBM первого поколения, не говоря уже о более продвинутых типах памяти, а S9300 X2 уже сейчас легко может предложить 512 Гбайт/с, а в некоторых сценариях (CrossFire-подобных) — и 1024 Гбайт/с. Стоимость нового вычислительного ускорителя AMD вполне соответствует нише и составляет $5999, что заметно дороже NVIDIA Quadro M6000. Впрочем, цена впоследствии может быть снижена. Окно доступности новинки — второй квартал.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

Специальный адаптер включит видеоускоритель в Mac Mini

Несмотря на свои скромные габариты, серия устройств Apple Mac Mini представляет собой полноценные бюджетные ПК. Однако некоторые пользователи предпочитают использовать их в другом качестве, к примеру, как мультимедийный сервер. Но в этом случае перестаёт работать графическое ядро, отвечающее не только за вывод информации на монитор, но и для ускорения ряда других операций.

Проблему может решить адаптер NewerTech HDMI Headless Video Accelerator. Он очень похож с виду на обычный USB-брелок, но имеет разъём HDMI. При подключении его в соответствующий порт на корпусе Mac Mini система распознает адаптер как подключённый монитор, загружает соответствующий драйвер и активирует графическое ядро.

Поддерживаются модели Mac Mini 2010 (v4.1), 2011 (v5.1/5.2/5.3), 2012 (v6.1/6.2) и 2014 (v7.1) годов выпуска. Для правильного функционирования адаптера требуется установленная операционная система OS X версии не ниже 10.6.8. Данное решение позволяет использовать без монитора программное обеспечение, рассчитанное на ускорение OpenCL и прочие решения класса GPGPU, а также сделает более комфортной работу в случае использования удалённого доступа к рабочему столу. Стоит адаптер NewerTech $39, что довольно немало для достаточно простого устройства.

NVIDIA начинает добавлять поддержку графических процессоров Pascal и Volta в драйверы

Корпорация NVIDIA начала добавлять поддержку графических процессоров на базе архитектур следующих поколений в свои драйверы. Судя по всему, компания хочет, чтобы разработчики, занятые в создании программного обеспечения для суперкомпьютеров, начинали писать приложения с учётом возможностей архитектур Pascal и Volta. Готовность ПО позволит партнёрам компании начать использовать GPU на базе новых архитектур, как только они появятся на рынке.

Драйверы NVIDIA GeForce версии 358.66 содержат среду выполнения (runtime) OpenCL с поддержкой графических процессоров NVIDIA с унифицированной архитектурой шестого (Pascal) и седьмого (Volta) поколений. Для графических процессоров Pascal поддерживаются три набора вычислительных возможностей — D__CUDA_ARCH__=600, -D__CUDA_ARCH__=610 и -D__CUDA_ARCH__=620 — что говорит о том, что разные GPU данного поколения будут поддерживать разную функциональность. Для графических чипов на базе архитектуры Volta пока включена поддержка базового набора возможностей — -D__CUDA_ARCH__=700.

Кроме того, эти же драйверы содержат среду выполнения для интерфейса программирования приложений (application programming interface, API) Vulkan — nv-vk32.dll — согласно данным сайта Laptopvideo2Go, известного своими исследованиями в области драйверов.

Обновлённый перспективный план NVIDIA

Обновлённый перспективный план NVIDIA

Учитывая, что поддержка определённой функциональности графических процессоров на базе архитектур Pascal и Volta пока упоминается только в среде выполнения OpenCL, очевидно, что NVIDIA хочет, чтобы разработчики ПО в первую очередь задействовали новые вычислительные возможности упомянутых GPU. Последнее очень полезно для программистов, создающих приложения для суперкомпьютеров. При наличии у создателей ПО средств для разработки с поддержкой Pascal и Volta, они могут уже сейчас создавать приложения, которые будут учитывать возможности новых архитектур NVIDIA.

В настоящее время область высокопроизводительных вычислений (high-performance computing, HPC) является крайне важным рынком сбыта для мощных графических процессоров. AMD, Intel и NVIDIA ежегодно продают сотни тысяч ускорителей FirePro, Tesla и Xeon Phi для HPC. По планам NVIDIA, ускорители на основе Pascal и Volta будут использованы в суперкомпьютерах Summit и Sierra с производительностью в 150–300 квадриллионов (Пфлопс, PetaFLOPS) операций с плавающей запятой в секунду (floating-point operations per second, FLOPS).

Нововведения NVIDIA Pascal

Нововведения NVIDIA Pascal

Согласно неофициальной информации, NVIDIA уже располагает работающими образцами графических карт на основе GP100 — первого и самого мощного GPU на базе архитектуры Pascal первого поколения. Как ожидается, данный процессор станет основной для будущих графических ускорителей семейств GeForce GTX Titan/GTX Ti и Quadro P5000/P6000. Кроме того, GP100 и его специализированные версии будут использованы для ускорителей Tesla следующих поколений. Среди ключевых инноваций Pascal — полностью новая вычислительная архитектура с поддержкой разной точности вычислений (FP16, FP32, FP64); поддержка многослойной памяти HBM (high-bandwidth memory); новая функциональность в области работы с графикой; интеграция шины NVLink, которая ускорит работу ускорителей Tesla в составе суперкомпьютеров, а также графических подсистем из нескольких GPU. NVIDIA GP100 будет производиться компанией Taiwan Semiconductor Manufacturing Co. при помощи технологии 16 нм FinFET+ (CLN16FF+).

Графические процессоры NVIDIA на базе архитектуры Volta попадут на рынок в 2018 году, согласно недавно опубликованному перспективному плану компании. Ожидается, что новые GPU будут производится с использованием технологии 10 нм, а также обладать более совершенной функциональностью и высокой производительностью по сравнению с Pascal.

NVIDIA GeForce GTX

NVIDIA GeForce GTX

Драйверы NVIDIA GeForce версии 358.66 недоступны от NVIDIA, но их можно скачать c сервиса Windows Update. Сборка драйвера GeForce версии 358.66 датирована 14 октября, что говорит о том, что компания начала добавление поддержки Pascal, Volta и Vulkan в программное обеспечение, доступное партнёрам, относительно недавно. Поскольку появившийся драйвер рассчитан на 32-разрядные операционные системы Microsoft Windows, едва ли он представляет серьёзный интерес для энтузиастов высокопроизводительных ПК, которые уже давно использует 64-разрядные ОС.

Драйвер NVIDIA GeForce 350.05 Hotfix: поддержка OpenCL 1.2 и исправления

Вместе с запуском мощного ускорителя GeForce GTX Titan X калифорнийская NVIDIA представила и новый драйвер. Прошло не так много времени, а компания уже решила выпустить новую бета-сборку GeForce 350.05, призванную преимущественно исправить выявленные ошибки. Прежде всего, речь идёт об исправлении сбоев в играх на движке DICE Frostbite — Battlefield Hardline и Dragon Age: Inquisition.

Интереснее то, что GeForce 350.05 открывает собой новую ветку R349, что весьма редко случается с драйверами, выходящими под маркировкой Hotfix. Речь идёт о предварительной бета-сборке, так что детально новшества R349 не прописаны. На системах с Windows 10 ветка R349, распространяемая через Windows Update, приносит поддержку драйверной модели WDDM 2.0. Однако эта сборка предназначена для систем Windows 7 и 8, так что WDDM 2.0 отключена. Как сообщается, ключевое новшество GeForce 350.05 — OpenCL 1.2.

Впервые представленный в конце 2011 года OpenCL 1.2 является небольшим обновлением открытого стандарта вычислений общего назначения на GPU, приносящим несколько новых (но потенциально важных) функций. Однако NVIDIA до последнего времени отказывалась поддерживать OpenCL 1.2, предпочитая вкладывать силы в собственную экосистему CUDA. Поддержка OpenCL 1.2 в настоящее время — настоящий сюрприз. Надеемся, что это можно расценивать как желание NVIDIA активнее поддерживать открытые стандарты, включая SPIR/SPIR-V и OpenCL 2.x.

Так или иначе, пока речь не идёт об официальном бета-релизе — драйверы доступны только через канал поддержки пользователей NVIDIA. Компания опубликовала GeForce 350.05 Hotfix для 32- и 64-битных систем для настольных ПК и ноутбуков. Сборка должна поддерживать все карты NVIDIA, начиная с поколения Fermi.

В бета-программе Mantle от AMD зарегистрировались почти 100 команд разработчиков

Графический API Mantle, как известно, позволяет на системах со слабыми CPU обеспечить существенный прирост производительности за счёт низкоуровневого доступа к оборудованию и меньшей зависимости от драйвера, даёт разработчикам возможность без лишних трудностей переносить консольные оптимизации на ПК, а также предоставляет доступ к последним графическим технологиям. Пока Mantle является закрытым API и поддерживает только ускорители Radeon под ОС Windows, но в перспективе AMD планирует сделать технологию открытой и кроссплатформенной.

Так или иначе, но вместе с официальным анонсом драйвера Catalyst Omega AMD поделилась некоторыми своими достижениями в деле распространения API. Производитель ускорителей Radeon сообщил, что в настоящее время в бета-программе Mantle участвует уже почти 100 разработчиков ПК-игр. Публично сообщили о поддержке стандарта более 10 разработчиков. 4 игровых движка уже официально поддерживают Mantle: Frostbite 3, CryEngine, Nitrous, Asura (также стоит добавить недавний анонс о поддержке стандарта в движке Panta-Rhei).

Среди уже вышедших или выходящих в ближайшее время игр с поддержкой Mantle можно перечислить Battlefield 4, Battlefield: Hardline, Thief, Star Citizen, Sid Meier’s Civilization: Beyond Earth, Dragon Age: Inquisition, Sniper Elite 3. Всего же вышло или готовится к выходу свыше 20 проектов. Кроме того, недавно стало известно, что и следующие версии популярных тестовых пакетов PCMark и 3DMark от Futuremark также обзаведутся поддержкой Mantle наряду с DirectX 12.

Также AMD сообщила о новой версии открытой технологии симуляции волос TressFX Hair 3.0 (первую версию мы видели в перезапуске Tomb Raider), которая обзавелась поддержкой реалистичной визуализации шерсти и новыми возможностями рендеринга для оптимальной масштабируемости. Заинтересованные разработчики могут получить библиотеки, исходные коды для чтения и визуализации файлов в формате TressFX. Создавать и изменять файлы в таком формате можно при помощи дополнения к Maya.

Наконец, AMD активно поддерживает открытый стандарт вычислений общего назначения на GPU, APU и CPU — OpenCL. Компания в полной мере обеспечила поддержку стандарта OpenCL 2.0 и выпустила набор инструментов разработчика OpenCL 2.0 SDK.

AMD выпустила специальное ПО для систем на базе APU

Компания Advanced Micro Devices активно рекламирует и продвигает в жизнь идею переноса ряда задач, традиционно нагружающих центральный процессор, на графическое ядро. Для своих процессоров, оснащённых интегрированной графикой Radeon, она даже придумала новое название — APU (Accelerated Processing Unit). Cмысл в этом есть, и немалый, поскольку современные графические процессоры давно превосходят по чистой вычислительной мощности обычные центральные, но загвоздка кроется в поддержке со стороны программного обеспечения. Точнее, в отсутствии массовой поддержки.

Для более наглядной демонстрации возможностей APU компания буквально на днях сделала доступным пакет программного обеспечения Elite Experiences. К сожалению, он предназначен пока только для мобильных систем, поскольку настольные системы, даже будучи оснащёнными процессорами Kaveri, часто не обладают нужной периферией, которая есть практически в любом ноутбуке — веб-камерой, микрофоном или адаптерами Wi-Fi/Bluetooth.

В список технологий, предлагаемых новым пакетом ПО, входят Face Login, Gesture Control, Quick Stream, Wireless Display и Perfect Picture. Их названия говорят сами за себя, например, Face Login позволяет осуществлять вход в систему по распознаванию лица пользователя, что уже довольно интересно — не все любят запоминать многочисленные пароли, а современные массовые сканеры отпечатков пальцев не слишком надёжны. Gesture Control впечатляет ещё сильнее: можно вспомнить проект Leap Motion, который для управления жестами требовал приобретения специального контроллера для шины USB 3.0, да ещё и изрядно загружал центральный процессор системы. Версия этой технологии, предлагаемая AMD, использует встроенную веб-камеру и вычислительные возможности графической части APU. Гораздо более элегантное решение, не требующее, к тому же, дополнительных денежных трат.

AMD Wireless Display и Quick Stream позволяют передавать звук в формате 5.1 и изображение с разрешением 1080p на любую телевизионную панель или проектор, поддерживающие технологию Miracast. Для минимизации задержек и более полного использования полосы пропускания используется прямое соединение по Wi-Fi, без участия маршрутизатора. Поддержка этой технологии встроена в Windows 8.1, достаточно заглянуть в раздел «Устройства» (Devices) и использовать опцию «добавить беспроводной дисплей» (Add a wireless display). Поддерживается проигрывание форматов, защищённых DRM. К этой же области относится и технология Perfect Picture, расширяющая возможности по воспроизведению видео высокого разрешения.

Неплохое начало, на наш взгляд. Остаётся надеяться, что инициатива AMD будет поддержана партнёрами компании как в области разработки аппаратного обеспечения, так и программных средств. А благодаря совместимости APU с современными стандартами GPGPU, такими как DirectCompute и OpenCL, к разработке могут подключиться и те, кто исторически привержен процессорам Intel и графическим решениям NVIDIA. Загрузить пакет AMD Elite Experiences можно с официального веб-сайта компании.

AMD сообщила об ускорении ряда новых эффектов в Photoshop CC

После запуска пакета Adobe Creative Suite 2014 компания AMD поспешила сообщить, что её гибридные процессоры и видеокарты позволяют ускорять ряд новых возможностей Adobe Photoshop CC благодаря расширенной поддержке механизма Mercury Graphics Engine, с помощью которого некоторые высокопараллельные расчёты перекладываются с CPU на GPU.

AMD и Adobe ранее уже несколько лет сотрудничают в области ускорения различных инструментов и эффектов программ из пакета Creative Cloud (ранее — Creative Suite). Например, в январе этого года компании сообщили об ускорении фильтра повышения резкости Smart Sharpen, инструмента искажения перспективы Perspective Warp, а также об улучшенной визуализации моделей при 3D-печати. GPU-ускорение используется не только в Photoshop, но также в Premiere Pro CC, Adobe SpeedGrade CC, Adobe Media Encoder CC и Adobe Prelude CC.

Среди новых ускоренных эффектов и инструментов Adobe Photoshop CC можно перечислить следующие:

  • новые фильтры размытия в движении: круговой и по заданной траектории.
  • «Маска областей фокусировки» — позволяет ускорить выделение резких объектов на фотографии (удобно при работе с макрофотографиями, портретами и другими изображениями с невысокой глубиной резкости).
  • Интеллектуальное повышение разрешения изображений работает до 15 раз быстрее благодаря Mercury Graphics Engine — инструмент позволяет по возможности наиболее качественно масштабировать изображение с низким разрешением (например, для печати рекламного щита или афиши).

Также AMD сообщает, что более десятка новых функций, использующих преимущества OpenCL (вычислений общего назначения с помощью GPU), добавлены в различные инструменты работы с видео в пакете Adobe Creative Cloud (прежде всего, в программы Premiere Pro, After Effects, SpeedGrade, Media Encoder).

window-new
Soft
Hard
Тренды 🔥
Видео: основные персонажи и обновлённая графика в релизном трейлере сборника The Great Ace Attorney Chronicles 2 ч.
Ролевой экшен NEO: The World Ends With You поступил в продажу для консолей и получил первые оценки 3 ч.
Instagram защитит детей до 16 лет, сделав их аккаунты закрытыми по умолчанию 3 ч.
Последнее обновление iOS, вероятно, закрыло уязвимость, которую использовало шпионское ПО Pegasus 3 ч.
Владельцы оригинальной Dark Souls в Steam скоро лишатся 50-процентной скидки на ремастер 4 ч.
Видео: сражения, необычные костюмы персонажей и строительство деревни в релизном трейлере Tribes of Midgard 5 ч.
200 тыс. игроков одновременно отметились в закрытой «бете» New World на этих выходных 5 ч.
Facebook собрала команду для реализации идеи Цукерберга о сетевой «метавселенной» 6 ч.
Ох уж эти тизеры: Норман Ридус выложил видео с кроликом из Silent Hill 6 ч.
Видео: драка в лесной чаще в отрывке из анимационного фильма Mortal Kombat Legends: Battle of the Realms 6 ч.
Электрическое аэротакси Joby Aviation преодолело 240 км на одном заряде — это самый дальний полёт электротранспорта 7 мин.
ZTE представила беспроводные наушники ZTE Buds и ZTE LiveBuds Pro стоимостью от $26 13 мин.
Lucasfilm наняла блогера, который создаёт очень качественные дипфейки 17 мин.
Facebook отзовёт около 4 миллионов VR-гарнитур Oculus Quest 2 — они вызывали раздражение у пользователей 2 ч.
SK Hynix запустит массовое производство памяти DDR5 в ближайшие месяцы 2 ч.
Представлена Sony ZV-E10 — камера со сменным объективом для видеоблогеров 2 ч.
Флагманский процессор Qualcomm следующего поколения получит ядро Cortex-X2 с частотой выше 3 ГГц 3 ч.
Tesla отложила выпуск электрических тягача Semi и пикапа Cybertruck до следующего года 3 ч.
Легендарный компьютер MITS Altair 8800 возродился в IoT-облаке Azure Sphere 4 ч.
Беспроводные наушники Nothing Ear (1) с необычным дизайном за $99 поступят в продажу 17 августа 5 ч.