Теги → opencl
Быстрый переход

Представлен OpenCL 3.0: без прошлого нет будущего

Khronos Group представила предварительные спецификации стандарта вычислений общего назначения с использованием графических и иных процессоров — OpenCL 3.0. Консорциум отметил, что новая версия стандарта призвана обеспечить новые запрашиваемые разработчиками аппаратные функции, а также повысить гибкость развёртывания в целевых средах. Задачи во многом противоположные, так что без компромиссов не обойтись.

Последние 15 лет можно смело назвать эпохой роста вычислений общего назначения на ГП. Сегодня прогресс мощности ЦП сильно замедлился, а высокопараллельные расчёты становятся всё более общим явлением. Самые мощные в мире суперкомпьютеры теперь обязательно включают в себя ГП. В это время развивался и стандарт OpenCL — открытая среда программирования ГП и других ускорителей вычислений. Изначально созданная Apple и получившая широкое признание в отрасли, OpenCL была первой (и до сих пор наиболее последовательной) попыткой создания общего открытого API для параллельного программирования. OpenCL был адаптирован для всего: от энергоэффективных встраиваемых процессоров и DSP до графических ускорителей, потребляющих полкиловатта.

Сегодня OpenCL не только поддерживается на широком спектре оборудования, но и невероятно актуален даже для текущих событий: это API-интерфейс, используемый в проекте Folding@Home, самом мощном вычислительном кластере в мире, который интенсивно применяется для исследования вариантов борьбы с COVID-19. В то же время эволюция рынка параллельных вычислений не всегда шла в соответствии с планами для Khronos и рабочей группы OpenCL. На ПК стандарт всё ещё находится в подвешенном состоянии. Интерес NVIDIA сдерживается продвижением собственного весьма успешного API CUDA, драйверы AMD OpenCL оставляют желать лучшего, Apple отказывается от OpenCL и переходит на собственный API Metal. Единственным поставщиком, которого, кажется, всерьёз интересует OpenCL, выступает Intel. На мобильных устройствах OpenCL тоже никогда не был широко распространён, несмотря на поддержку большинством мобильных ГП и другими блоками параллельной обработки данных.

Поэтому Khronos решила сделать в некоторой степени большой шаг назад и перезапустить экосистему. OpenCL 3.0, последняя версия вычислительного API, делает выводы из прошлого и по сути превращает основной API в форк OpenCL 1.2. В результате всё, что разработано в рамках OpenCL 2.x, теперь стало необязательным: поставщики могут (и, как правило, будут) поддерживать эти функции, но оно больше не требуются для соответствия основной спецификации. Вместо того чтобы поддерживать каждую функцию OpenCL, независимо от её полезности или бесполезности для конкретной платформы теперь поставщики будут сами решать, какие продвинутые функции они хотели бы поддерживать помимо основных спецификаций, основанных на OpenCL 1.2.

Здесь нужно понять некоторую специфику. Дело в том, что Khronos не имеет собственной реальной власти и не может навязать технологические изменения, являясь отраслевым консорциумом, в который входит множество компаний. Проблема совместного подхода заключается в том, что он требует определенной степени согласия между основными участниками. Если не может быть достигнуто соглашение о будущем, проект не может двигаться вперёд. А если никто не доволен результатом, продукт может не получить достаточно широкой поддержки и умереть в зародыше. Нечто подобное произошло с OpenCL 2.2, который был выпущен ещё в 2017 году. Основным новшеством стала поддержка OpenCL C++ в качестве языка ядра — более современного и объектно-ориентированного, чем использовавшийся ранее C. Однако три года спустя никто не принялся активно продвигать OpenCL 2.2: ни NVIDIA, ни AMD, ни Intel, ни, конечно, ни один производитель однокристальных систем. В результате это вредит стандарту.

Что делать, если OpenCL 2.x в значительной степени игнорируется? Khronos и рабочая группа OpenCL нашли ответ, решив вернуться к тому, что хорошо работало, и это был OpenCL 1.2, представленный впервые в 2011 году и ставший последней версией OpenCL 1.x. По современным стандартам API очень прост: он основан на чистом C и не поддерживает такие вещи, как общая виртуальная память или язык промежуточного представления SPIR-V. Но в то же время это последняя версия API, не включающая в себя массу второстепенных и бесполезных для многих участников рынка возможностей. Это чистый, довольно низкоуровневый API для параллельных вычислений во всём спектре: от мобильных решений до самых мощных видеокарт.

В конечном итоге рабочая группа OpenCL смогла договориться о том, что OpenCL 1.2 должен стать базовой спецификацией OpenCL 3.0 — всё остальное, несмотря на полезность для определённых задач, становится необязательным. Ранее жёсткая, монолитная природа стандарта одновременно препятствовала его развитию. Если поставщика удовлетворял OpenCL 1.2, но при этом ему хотелось реализовать пару дополнительных функций из OpenCL 2.1, то приходилось реализовать всю базовую спецификацию 2.1. В OpenCL 1.x / 2.x не было механизма частичного соответствия — только всё или ничего, и ряд компаний выбрали второе.

Теперь OpenCL 3.0 специально структурирован так, чтобы поставщики могли использовать только те части, которые им нужны, не пытаясь поддерживать всё остальное. Теперь ядром является OpenCL 1.2 с поддержкой запросов дополнительных функций, а также некоторыми дополнениями, призванными обеспечить совместимость. Все функции OpenCL 2.x, а также новые функции OpenCL 3.0, являются необязательными, позволяя поставщикам платформ самим решать, какие именно дополнительные возможности им нужны, и нужны ли вообще.

Например, производитель однокристальных систем для смартфонов может обеспечить OpenCL 1.2, и затем использовать несколько новых функций вроде асинхронных расширений DMA или разделяемой виртуальной памяти. В то же время крупный производитель видеокарт может поддержать бо́льшую часть функций OpenCL 2.x, но исключить поддержку разделяемой виртуальной памяти, что малополезно для дискретного ускорителя. В конечном счёте OpenCL 3.0 даёт поставщикам платформ возможность выбирать те функции, которые необходимы именно им, по сути, приспосабливая OpenCL к конкретным задачам.

Это очень похоже на подход Khronos к Vulkan, который оказался гораздо более успешным API в последние годы. Предоставление поставщикам некоторой гибкости в реализации функций API позволило Vulkan распространиться как на мобильных устройствах, так и на настольных ПК. Подобный успех хотела бы повторить и рабочая группа OpenCL.

В конечном счёте, как считает Khronos, последние годы развития OpenCL показали, что сложно сделать стандарт угодным сразу всем, сохранив его абсолютную монолитность. У производителей SoC нужды одни, у ЦП со встроенной графикой — другие, у дискретных видеокарт — третьи. А ведь есть ещё такие вещи, как FPGA и другие более экзотические варианты использования OpenCL. Таким образом, необходимо уйти от монолитности ради высокой адаптируемости к самому широкому спектру устройств и сред.

Несмотря на значительные изменения в философии разработки, OpenCL 3.0 создан так, чтобы оставаться обратно совместимым и логичным. Для разработчиков и пользователей благодаря ядру OpenCL 1.2 приложения 1.2 будут работать без изменений на любом устройстве OpenCL 3.0. В то же время приложения для OpenCL 2.x тоже будут работать без изменений на устройствах с OpenCL 3.0, если эти устройства поддерживают соответствующие функции 2.x. То есть на ПК уже созданное с применением OpenCL 2.1 ПО будет продолжать работать, а, например, на смартфонах — нет. Драйверы OpenCL 1.2 и 2.x действительно нуждаются в некоторых изменениях для соответствия требованиям 3.x, но в основном это касается поддержки запросов новых функций OpenCL. Таким образом, производители смогут выпустить драйверы 3.0 довольно быстро.

В дальнейшем разработчикам приложений предстоит правильно использовать функциональные запросы. Поскольку возможности OpenCL 2.x теперь необязательны, всем приложениям, задействующим дополнительные возможности 2.x/3.0, настоятельно рекомендуется использовать запросы функций, чтобы убедиться в наличии их аппаратной поддержки. Поэтому разработчикам приложений OpenCL 2.x рекомендуется обновить своё ПО для выполнения запросов функциональности.

OpenCL 3.0, помимо взгляда назад, делает и шаги вперёд. Главными среди них являются асинхронные расширения DMA, которые должны стать наиболее интересны тем поставщикам платформ, которые до сих пор придерживают OpenCL 1.2. Эта функция позволяет выполнять транзакции DMA одновременно с вычислительными ядрами, в отличие от синхронных операций, которые обычно могут исполняться только между другими операциями вычислительного ядра. Эта особенность примечательна тем, что позволяет передавать сложные структуры памяти, которые являются более продвинутыми, чем простые линейные. Наиболее это полезно для изображений и подобных данных, которые изначально являются 2D/3D структурами.

OpenCL 3.0 также вводит поддержку языка SPIR-V 1.3 (последняя версия SPIR-V — 1.5). Именно версия 1.3 на данный момент является частью спецификации Vulkan 1.1, что должно играть важную роль в улучшении взаимодействия между Vulkan и OpenCL, делая последний более эффективным в графических задачах.

Впрочем, стоит помнить, что OpenCL 3.0 всё ещё является предварительным стандартом и перед утверждением передаётся на обсуждение и знакомство разработчикам и широкой общественности. Впрочем, Khronos надеется, что уже через несколько месяцев они смогут получить ратификацию стандарта.

Intel Xe DG1 протестирована в Geekbench 5: результаты озадачивают

Ранее в этом году компания Intel начала распространять образцы своих дискретных видеокарт Intel Xe DG1 среди разработчиков программного обеспечения, а потому нет ничего удивительного, что они время от времени стали встречаться в базах данных различных тестов. Теперь вот была обнаружена первая запись о тестировании Intel Xe DG1 в бенчмарке Geekbench 5 OpenCL.

Напомним, распространённая среди разработчиков видеокарта Intel Xe DG1 является графическим ускорителем начального уровня, который построен на графическом процессоре с архитектурой 12-го поколения и 96 исполнительными блоками (Execution units, EU). Это подтверждает и тест Geekbench. Компания Intel планирует выпустить графические ускорители самых различных уровней: от «затычек», которые лишь слегка превосходят встроенную графику, до высокопроизводительных профессиональных ускорителей вычислений.

Согласно данным Geekbench 5, протестированная система с графикой Intel была построена на материнской плате Gigabyte Z390 Aorus Pro Wi-Fi с процессором Intel Core i7-9700 и с 16 Гбайт встроенной памяти. Тест определил видеокарту как «Мобильный графический контроллер Intel 12-го поколения». Тактовая частота GPU составила 1,5 ГГц, и он был оснащён 3 или 4 Гбайт памяти (тест определил 2,88 Гбайт).

Производительность видеокарты Intel Xe DG1 составила 12 427 баллов в тесте OpenCL. И это — отнюдь не радужный для Intel результат. Для сравнения, результаты мобильных видеокарт GeForce MX150 и MX250 в этом же тесте равны 10 500 баллов, а сопоставимые 12 500 баллов набирает, например, мобильная Radeon Pro 550X. Конечно, это всего лишь один бенчмарк, и по нему судить о производительности новинки явно не стоит. Но и прежние тесты указывали на то, что в нынешнем виде первая дискретная видеокарта Intel выглядит не слишком конкурентоспособной.

Чип AMD Polaris 12 засветился в базе данных CompuBench

Совсем недавно мы рассказывали нашим читателям о будущей серии карт AMD Radeon RX 500, среди которых не так много интересного, как хотелось бы — в основном, они будут являть собой перемаркированные решения серии Radeon RX 400, разве что Polaris 11 сменится более совершенным Polaris 12, который будет выпускаться с использованием техпроцесса 14-нм FinFET LPP (Low Power Plus) Samsung/GlobalFoundries.

А самый младший чип в серии, скорее всего, получит имя Polaris 12. Решение с похожими характеристиками засветилось в базе данных CompuBenech. В ней оно фигурирует под именами gfx804 и AMD Radeon RX 500 Series. У этого решения будут активны 10 вычислительных модулей, что в сумме даст 640 процессоров GCN. С учётом применения экономичного техпроцесса это сделает новый чип отличным решением для недорогих игровых ноутбуков. Решение на его основе, по логике вещей, получит название Radeon RX 550.

Разрядность шины памяти сохранится и составит 128 бит, тактовая частота потоковых процессоров достигнет достаточно высокого для серии Polaris значения, составляющего 1302 МГц. Карты на базе Polaris 12 будут комплектоваться 4 Гбайт видеопамяти GDDR5 и, вероятно, таковой же останется конфигурация этой подсистемы в случае использования чипа в качестве дискретной графики в ноутбуке. Стоимость новинки ожидается весьма демократичной, ниже установленных на RX460 99 долларов США.

AMD выпустила двухпроцессорную карту для рынка HPC на базе Fiji

Буквально неделю назад, описывая новую версию профессионального ускорителя NVIDIA Quadro M6000, мы упомянули, что единственным его соперником может являться Radeon Pro Duo, и то с учётом в три раза меньшего объёма локальной памяти (8 Гбайт против 24 Гбайт у NVIDIA). Но вот в том, что Advanced Micro Devices не выпустит других профессиональных ускорителей на базе архитектуры Fiji, мы оказались неправы! Компания представила новинку, предназначенную для рынка супервычислений —  ускоритель FirePro S9300 X2 с пиковой производительностью 13,9 Тфлопс. Так что новинка является самым быстрым вычислительным ускорителем вычислений одинарной точности в мире.

Типичный серверный ускоритель полагается на общую систему охлаждения

Типичный серверный ускоритель полагается на общую систему охлаждения

Это, разумеется, не конкурент Quadro M6000 —  плата не только не имеет разъёмов для подключения каких-либо устройств, она даже в охлаждении полагается на систему сервера, например, такую, как в недавно описанном GIGABYTE G25N-G51, способном вместить до восьми вычислительных ускорителей. Для удержания теплопакета в приемлемых рамках частоты графических ядер S9300 X2 были снижены до 850 МГц. А вот с памятью, по понятным причинам, ничего поделать не удалось и её объём остался прежним —  8 Гбайт в сборках HBM, по четыре сборки ёмкостью 1 Гбайт на чип. Это базовое ограничение конструкции Fiji и преодолеть его нельзя никак, пока не будет развёрнуто производство HBM2. Но эту память унаследует лишь AMD Vega, и сравнительно нескоро. А для организации внешних кешей на базе обычной DRAM у Fiji, похоже, просто нет нужных выводов.

Технические параметры FirePro S9300 X2

Технические параметры FirePro S9300 X2

Новинка AMD явно нацелена на конкуренцию с NVIDIA Tesla M60: последний также является чисто вычислительным ускорителем, также имеет два графических процессора на борту (GM204) и превосходит решение AMD только в объёме локальной памяти: 16 против 8 Гбайт суммарно. M60 создавался с расчётом на использование в игровых системах с удалённым рендерингом, но, похоже, S9300 X2 подойдёт на эту роль гораздо лучше: если у решения NVIDIA пиковая производительность в FP32 составляет 7,4 терафлопса, то у карты AMD этот показатель почти вдвое выше при аналогичном теплопакете — 300 ватт под нагрузкой. FirePro S9300 явный чемпион в категории «производительность на ватт», где может похвастаться 46 гигафлопсами на ватт против 25 у Tesla M60. Иными словами, система на базе S9300 X2 сможет обслуживать больше игровых клиентов при равном уровне энергопотребления.

AMD собирается завоевать рынок супервычислений универсальностью

AMD собирается завоевать рынок супервычислений универсальностью

А вот ускорителям Tesla серии K FirePro S9300 X2 не конкурент — те рассчитаны на высокие показатели в режиме двойной точности (FP64) и предназначены для работы в совсем иных сферах. Так, Tesla K80 может выдавать до 2,91 Тфлопс FP64, в то время как FirePro S9300 X2 сможет выжать в этом режиме лишь жалкие 0,8 терафлопса. В этой категории новинка уступает даже собственному родственнику, ускорителю FirePro S9170, развивающему вполне серьёзные 2,6 терафлопса при двойной точности вычислений. Вот в чём новичку действительно нет равных, так это в пропускной способности памяти: решения NVIDIA пока не располагают даже HBM первого поколения, не говоря уже о более продвинутых типах памяти, а S9300 X2 уже сейчас легко может предложить 512 Гбайт/с, а в некоторых сценариях (CrossFire-подобных) — и 1024 Гбайт/с. Стоимость нового вычислительного ускорителя AMD вполне соответствует нише и составляет $5999, что заметно дороже NVIDIA Quadro M6000. Впрочем, цена впоследствии может быть снижена. Окно доступности новинки — второй квартал.

AMD работает над совместимостью с NVIDIA CUDA

Закрытые стандарты в перспективе проигрывают открытым. Ситуация может быть иной только в том случае, если создатель стандарта является фактическим монополистом на рынке. К числу закрытых стандартов относится и технология вычислений на GPU NVIDIA CUDA, появившаяся на рынке в 2007 году с анонсом первого в мире унифицированного графического процессора G80. Открытый стандарт OpenCL появился позже, лишь в 2009 году, поэтому CUDA успела завоевать определённую популярность в нише GPGPU и суперкомпьютеров. Но, похоже, что эксклюзивности CUDA приходит конец, как и монополии NVIDIA на эту технологию.

Как известно, Advanced Micro Devices является рьяным приверженцем OpenCL и тратит немало сил на продвижение этого стандарта, в том числе, и в рамках инициативы гетерогенных вычислений — технология HSA применяется в процессорах AMD класса APU. Недавно компания представила новый компилятор HCC (Heterogeneous Compute Compiler), а затем реализовала для него слой совместимости (compatibility layer) с NVIDIA CUDA. Соответствующий анонс был опубликован 16 ноября. Как сообщают разработчики AMD, новая функция HIP (Heterogeneous Compute Interface for Portability) в ряде случаев позволяет автоматически конвертировать до 90 % кода, написанного в рамках CUDA в стандартную модель C++.

Это не означает немедленной и прямой конверсии кода CUDA в OpenCL, либо прямого запуска CUDA-программ на графических чипах AMD, поскольку компания все еще не имеет необходимых лицензий NVIDIA, хотя последняя и открыла лицензирование в 2013 году. Но технология HIP позволяет программисту GPGPU работать в рамках удобной ему парадигмы, а последующая конверсия в стандарт C++ позволит другим программистам оптимизировать код с учётом нужд заказчика, к примеру, планирующего запуск суперкомпьютера на основе ускорителей AMD FirePro с поддержкой OpenCL. Новая инициатива AMD позволит укрепить позиции компании на рынке супервычислений (HPC), который сам по себе довольно консервативен и склонен к использованию CUDA, стандарта, появившегося первым и хорошо освоенного за прошедшее время.

Специальный адаптер включит видеоускоритель в Mac Mini

Несмотря на свои скромные габариты, серия устройств Apple Mac Mini представляет собой полноценные бюджетные ПК. Однако некоторые пользователи предпочитают использовать их в другом качестве, к примеру, как мультимедийный сервер. Но в этом случае перестаёт работать графическое ядро, отвечающее не только за вывод информации на монитор, но и для ускорения ряда других операций.

Проблему может решить адаптер NewerTech HDMI Headless Video Accelerator. Он очень похож с виду на обычный USB-брелок, но имеет разъём HDMI. При подключении его в соответствующий порт на корпусе Mac Mini система распознает адаптер как подключённый монитор, загружает соответствующий драйвер и активирует графическое ядро.

Поддерживаются модели Mac Mini 2010 (v4.1), 2011 (v5.1/5.2/5.3), 2012 (v6.1/6.2) и 2014 (v7.1) годов выпуска. Для правильного функционирования адаптера требуется установленная операционная система OS X версии не ниже 10.6.8. Данное решение позволяет использовать без монитора программное обеспечение, рассчитанное на ускорение OpenCL и прочие решения класса GPGPU, а также сделает более комфортной работу в случае использования удалённого доступа к рабочему столу. Стоит адаптер NewerTech $39, что довольно немало для достаточно простого устройства.

NVIDIA начинает добавлять поддержку графических процессоров Pascal и Volta в драйверы

Корпорация NVIDIA начала добавлять поддержку графических процессоров на базе архитектур следующих поколений в свои драйверы. Судя по всему, компания хочет, чтобы разработчики, занятые в создании программного обеспечения для суперкомпьютеров, начинали писать приложения с учётом возможностей архитектур Pascal и Volta. Готовность ПО позволит партнёрам компании начать использовать GPU на базе новых архитектур, как только они появятся на рынке.

Драйверы NVIDIA GeForce версии 358.66 содержат среду выполнения (runtime) OpenCL с поддержкой графических процессоров NVIDIA с унифицированной архитектурой шестого (Pascal) и седьмого (Volta) поколений. Для графических процессоров Pascal поддерживаются три набора вычислительных возможностей — D__CUDA_ARCH__=600, -D__CUDA_ARCH__=610 и -D__CUDA_ARCH__=620 — что говорит о том, что разные GPU данного поколения будут поддерживать разную функциональность. Для графических чипов на базе архитектуры Volta пока включена поддержка базового набора возможностей — -D__CUDA_ARCH__=700.

Кроме того, эти же драйверы содержат среду выполнения для интерфейса программирования приложений (application programming interface, API) Vulkan — nv-vk32.dll — согласно данным сайта Laptopvideo2Go, известного своими исследованиями в области драйверов.

Обновлённый перспективный план NVIDIA

Обновлённый перспективный план NVIDIA

Учитывая, что поддержка определённой функциональности графических процессоров на базе архитектур Pascal и Volta пока упоминается только в среде выполнения OpenCL, очевидно, что NVIDIA хочет, чтобы разработчики ПО в первую очередь задействовали новые вычислительные возможности упомянутых GPU. Последнее очень полезно для программистов, создающих приложения для суперкомпьютеров. При наличии у создателей ПО средств для разработки с поддержкой Pascal и Volta, они могут уже сейчас создавать приложения, которые будут учитывать возможности новых архитектур NVIDIA.

В настоящее время область высокопроизводительных вычислений (high-performance computing, HPC) является крайне важным рынком сбыта для мощных графических процессоров. AMD, Intel и NVIDIA ежегодно продают сотни тысяч ускорителей FirePro, Tesla и Xeon Phi для HPC. По планам NVIDIA, ускорители на основе Pascal и Volta будут использованы в суперкомпьютерах Summit и Sierra с производительностью в 150–300 квадриллионов (Пфлопс, PetaFLOPS) операций с плавающей запятой в секунду (floating-point operations per second, FLOPS).

Нововведения NVIDIA Pascal

Нововведения NVIDIA Pascal

Согласно неофициальной информации, NVIDIA уже располагает работающими образцами графических карт на основе GP100 — первого и самого мощного GPU на базе архитектуры Pascal первого поколения. Как ожидается, данный процессор станет основной для будущих графических ускорителей семейств GeForce GTX Titan/GTX Ti и Quadro P5000/P6000. Кроме того, GP100 и его специализированные версии будут использованы для ускорителей Tesla следующих поколений. Среди ключевых инноваций Pascal — полностью новая вычислительная архитектура с поддержкой разной точности вычислений (FP16, FP32, FP64); поддержка многослойной памяти HBM (high-bandwidth memory); новая функциональность в области работы с графикой; интеграция шины NVLink, которая ускорит работу ускорителей Tesla в составе суперкомпьютеров, а также графических подсистем из нескольких GPU. NVIDIA GP100 будет производиться компанией Taiwan Semiconductor Manufacturing Co. при помощи технологии 16 нм FinFET+ (CLN16FF+).

Графические процессоры NVIDIA на базе архитектуры Volta попадут на рынок в 2018 году, согласно недавно опубликованному перспективному плану компании. Ожидается, что новые GPU будут производится с использованием технологии 10 нм, а также обладать более совершенной функциональностью и высокой производительностью по сравнению с Pascal.

NVIDIA GeForce GTX

NVIDIA GeForce GTX

Драйверы NVIDIA GeForce версии 358.66 недоступны от NVIDIA, но их можно скачать c сервиса Windows Update. Сборка драйвера GeForce версии 358.66 датирована 14 октября, что говорит о том, что компания начала добавление поддержки Pascal, Volta и Vulkan в программное обеспечение, доступное партнёрам, относительно недавно. Поскольку появившийся драйвер рассчитан на 32-разрядные операционные системы Microsoft Windows, едва ли он представляет серьёзный интерес для энтузиастов высокопроизводительных ПК, которые уже давно использует 64-разрядные ОС.

Драйвер NVIDIA GeForce 350.05 Hotfix: поддержка OpenCL 1.2 и исправления

Вместе с запуском мощного ускорителя GeForce GTX Titan X калифорнийская NVIDIA представила и новый драйвер. Прошло не так много времени, а компания уже решила выпустить новую бета-сборку GeForce 350.05, призванную преимущественно исправить выявленные ошибки. Прежде всего, речь идёт об исправлении сбоев в играх на движке DICE Frostbite — Battlefield Hardline и Dragon Age: Inquisition.

Интереснее то, что GeForce 350.05 открывает собой новую ветку R349, что весьма редко случается с драйверами, выходящими под маркировкой Hotfix. Речь идёт о предварительной бета-сборке, так что детально новшества R349 не прописаны. На системах с Windows 10 ветка R349, распространяемая через Windows Update, приносит поддержку драйверной модели WDDM 2.0. Однако эта сборка предназначена для систем Windows 7 и 8, так что WDDM 2.0 отключена. Как сообщается, ключевое новшество GeForce 350.05 — OpenCL 1.2.

Впервые представленный в конце 2011 года OpenCL 1.2 является небольшим обновлением открытого стандарта вычислений общего назначения на GPU, приносящим несколько новых (но потенциально важных) функций. Однако NVIDIA до последнего времени отказывалась поддерживать OpenCL 1.2, предпочитая вкладывать силы в собственную экосистему CUDA. Поддержка OpenCL 1.2 в настоящее время — настоящий сюрприз. Надеемся, что это можно расценивать как желание NVIDIA активнее поддерживать открытые стандарты, включая SPIR/SPIR-V и OpenCL 2.x.

Так или иначе, пока речь не идёт об официальном бета-релизе — драйверы доступны только через канал поддержки пользователей NVIDIA. Компания опубликовала GeForce 350.05 Hotfix для 32- и 64-битных систем для настольных ПК и ноутбуков. Сборка должна поддерживать все карты NVIDIA, начиная с поколения Fermi.

В бета-программе Mantle от AMD зарегистрировались почти 100 команд разработчиков

Графический API Mantle, как известно, позволяет на системах со слабыми CPU обеспечить существенный прирост производительности за счёт низкоуровневого доступа к оборудованию и меньшей зависимости от драйвера, даёт разработчикам возможность без лишних трудностей переносить консольные оптимизации на ПК, а также предоставляет доступ к последним графическим технологиям. Пока Mantle является закрытым API и поддерживает только ускорители Radeon под ОС Windows, но в перспективе AMD планирует сделать технологию открытой и кроссплатформенной.

Так или иначе, но вместе с официальным анонсом драйвера Catalyst Omega AMD поделилась некоторыми своими достижениями в деле распространения API. Производитель ускорителей Radeon сообщил, что в настоящее время в бета-программе Mantle участвует уже почти 100 разработчиков ПК-игр. Публично сообщили о поддержке стандарта более 10 разработчиков. 4 игровых движка уже официально поддерживают Mantle: Frostbite 3, CryEngine, Nitrous, Asura (также стоит добавить недавний анонс о поддержке стандарта в движке Panta-Rhei).

Среди уже вышедших или выходящих в ближайшее время игр с поддержкой Mantle можно перечислить Battlefield 4, Battlefield: Hardline, Thief, Star Citizen, Sid Meier’s Civilization: Beyond Earth, Dragon Age: Inquisition, Sniper Elite 3. Всего же вышло или готовится к выходу свыше 20 проектов. Кроме того, недавно стало известно, что и следующие версии популярных тестовых пакетов PCMark и 3DMark от Futuremark также обзаведутся поддержкой Mantle наряду с DirectX 12.

Также AMD сообщила о новой версии открытой технологии симуляции волос TressFX Hair 3.0 (первую версию мы видели в перезапуске Tomb Raider), которая обзавелась поддержкой реалистичной визуализации шерсти и новыми возможностями рендеринга для оптимальной масштабируемости. Заинтересованные разработчики могут получить библиотеки, исходные коды для чтения и визуализации файлов в формате TressFX. Создавать и изменять файлы в таком формате можно при помощи дополнения к Maya.

Наконец, AMD активно поддерживает открытый стандарт вычислений общего назначения на GPU, APU и CPU — OpenCL. Компания в полной мере обеспечила поддержку стандарта OpenCL 2.0 и выпустила набор инструментов разработчика OpenCL 2.0 SDK.

AMD выпустила специальное ПО для систем на базе APU

Компания Advanced Micro Devices активно рекламирует и продвигает в жизнь идею переноса ряда задач, традиционно нагружающих центральный процессор, на графическое ядро. Для своих процессоров, оснащённых интегрированной графикой Radeon, она даже придумала новое название — APU (Accelerated Processing Unit). Cмысл в этом есть, и немалый, поскольку современные графические процессоры давно превосходят по чистой вычислительной мощности обычные центральные, но загвоздка кроется в поддержке со стороны программного обеспечения. Точнее, в отсутствии массовой поддержки.

Для более наглядной демонстрации возможностей APU компания буквально на днях сделала доступным пакет программного обеспечения Elite Experiences. К сожалению, он предназначен пока только для мобильных систем, поскольку настольные системы, даже будучи оснащёнными процессорами Kaveri, часто не обладают нужной периферией, которая есть практически в любом ноутбуке — веб-камерой, микрофоном или адаптерами Wi-Fi/Bluetooth.

В список технологий, предлагаемых новым пакетом ПО, входят Face Login, Gesture Control, Quick Stream, Wireless Display и Perfect Picture. Их названия говорят сами за себя, например, Face Login позволяет осуществлять вход в систему по распознаванию лица пользователя, что уже довольно интересно — не все любят запоминать многочисленные пароли, а современные массовые сканеры отпечатков пальцев не слишком надёжны. Gesture Control впечатляет ещё сильнее: можно вспомнить проект Leap Motion, который для управления жестами требовал приобретения специального контроллера для шины USB 3.0, да ещё и изрядно загружал центральный процессор системы. Версия этой технологии, предлагаемая AMD, использует встроенную веб-камеру и вычислительные возможности графической части APU. Гораздо более элегантное решение, не требующее, к тому же, дополнительных денежных трат.

AMD Wireless Display и Quick Stream позволяют передавать звук в формате 5.1 и изображение с разрешением 1080p на любую телевизионную панель или проектор, поддерживающие технологию Miracast. Для минимизации задержек и более полного использования полосы пропускания используется прямое соединение по Wi-Fi, без участия маршрутизатора. Поддержка этой технологии встроена в Windows 8.1, достаточно заглянуть в раздел «Устройства» (Devices) и использовать опцию «добавить беспроводной дисплей» (Add a wireless display). Поддерживается проигрывание форматов, защищённых DRM. К этой же области относится и технология Perfect Picture, расширяющая возможности по воспроизведению видео высокого разрешения.

Неплохое начало, на наш взгляд. Остаётся надеяться, что инициатива AMD будет поддержана партнёрами компании как в области разработки аппаратного обеспечения, так и программных средств. А благодаря совместимости APU с современными стандартами GPGPU, такими как DirectCompute и OpenCL, к разработке могут подключиться и те, кто исторически привержен процессорам Intel и графическим решениям NVIDIA. Загрузить пакет AMD Elite Experiences можно с официального веб-сайта компании.

AMD сообщила об ускорении ряда новых эффектов в Photoshop CC

После запуска пакета Adobe Creative Suite 2014 компания AMD поспешила сообщить, что её гибридные процессоры и видеокарты позволяют ускорять ряд новых возможностей Adobe Photoshop CC благодаря расширенной поддержке механизма Mercury Graphics Engine, с помощью которого некоторые высокопараллельные расчёты перекладываются с CPU на GPU.

AMD и Adobe ранее уже несколько лет сотрудничают в области ускорения различных инструментов и эффектов программ из пакета Creative Cloud (ранее — Creative Suite). Например, в январе этого года компании сообщили об ускорении фильтра повышения резкости Smart Sharpen, инструмента искажения перспективы Perspective Warp, а также об улучшенной визуализации моделей при 3D-печати. GPU-ускорение используется не только в Photoshop, но также в Premiere Pro CC, Adobe SpeedGrade CC, Adobe Media Encoder CC и Adobe Prelude CC.

Среди новых ускоренных эффектов и инструментов Adobe Photoshop CC можно перечислить следующие:

  • новые фильтры размытия в движении: круговой и по заданной траектории.
  • «Маска областей фокусировки» — позволяет ускорить выделение резких объектов на фотографии (удобно при работе с макрофотографиями, портретами и другими изображениями с невысокой глубиной резкости).
  • Интеллектуальное повышение разрешения изображений работает до 15 раз быстрее благодаря Mercury Graphics Engine — инструмент позволяет по возможности наиболее качественно масштабировать изображение с низким разрешением (например, для печати рекламного щита или афиши).

Также AMD сообщает, что более десятка новых функций, использующих преимущества OpenCL (вычислений общего назначения с помощью GPU), добавлены в различные инструменты работы с видео в пакете Adobe Creative Cloud (прежде всего, в программы Premiere Pro, After Effects, SpeedGrade, Media Encoder).

AMD и Adobe представили несколько новых GPU-оптимизаций для Photoshop CC

AMD сообщила о появлении в последней версии Adobe Photoshop CC новых оптимизаций, использующих мощности графики FirePro, Radeon и гибридах процессоров AMD посредством открытых стандартов OpenCL и OpenGL. Благодаря оптимизациям значительно увеличено быстродействие фильтра повышения резкости Smart Sharpen, окружения 3D-печати и преобразований вроде Perspective Warp.

Как ранее возможности OpenCL были использованы в Blur Gallery, так теперь Adobe Systems использовала стандарт для ускорения Smart Sharpen. Были ускорены все аспекты фильтра — параметры уровня, радиуса и подавления шумов, а также выбор алгоритма. Сообщается, что ускорение на некоторых системах может достигать 11 раз по сравнению с версией без OpenCL.

Также при помощи OpenGL в Photoshop CC улучшены следующие инструменты:

  • Perspective Warp — отклик на действия пользователя при искажениях перспективы происходит практически мгновенно;
  • 3D-печать — производительность новых инструментов 3D-печати в Photoshop стала принципиально боле высокой: модели стали качественнее и точнее, появился предварительный WYSIWYG-просмотр и так далее.

AMD не первый раз помогает ускорить производительность Photoshop с помощью открытых стандартов — в настоящее время в популярном графическом редакторе реализованы десятки инструментов, использующих вычислительные возможности графики наряду с CPU.

В PCMark 8 была добавлена поддержка Windows 8.1 и другие новшества

Компания Futuremark обновила свой тестовый пакет PCMark 8 до версии 1.1.111. Основное новшество — внедрение совместимости с грядущим обновлением Windows 8.1 и с браузером Internet Explorer 11. Также с целью упростить задачу выбора настроек во время тестов разработчики внесли два режима тестирования OpenCL в тесты Home и Creative.

В стандартом режиме преимущества OpenCL не используются — так работает большая часть современных приложений. При выборе же ускоренного режима включается поддержка OpenCL и программы начинают использовать ресурсы GPU — этот режим отражает возможности, которые будут всё более широко распространяться в будущих программах.

Из-за изменения принципа тестирования OpenCL полученные с помощью новой версии PCMark 8 очки в тестах Home и Creative нельзя напрямую сравнивать с результатами в старых версий. Результаты других тестов PCMark 8 (Work, Storage и Applications) не затронуты. Также Futuremark внесла в бенчмарк целый ряд более мелких улучшений и исправлений.

Пакет PCMark 8 был выпущен в июне и получил пять основных тестов, покрывающих различные сценарии от домашнего использования ПК до бизнес-нужд. Появились отдельные тесты подсистемы хранения данных (SSD и HDD), а также тесты приложений, использующие Microsoft Office и Adobe Creative Suite. В PCMark 8 появились и инструменты тестирования времени автономной работы устройств. Futuremark обещает в ближайшие недели выпустить два издания PCMark 8 для конечных пользователей — Basic и Advanced (тогда же, вероятно, пакет появится и в Steam).

Adobe расширила поддержку ускорителей AMD в своём ПО для обработки видео

На днях AMD сообщила о новом этапе сотрудничества с Adobe, в рамках которого программное обеспечение последней будет ускорено благодаря использованию мощи графических процессоров AMD Radeon и AMD FirePro посредством стандарта OpenCL. Новые функции появятся в Adobe Premiere Pro CC, Adobe SpeedGrade CC и Adobe Media Encoder CC.

Компании сообщили, что в движке Adobe Mercury Playback Engine улучшена поддержка OpenCL, благодаря чему профессионалы, работающие с видео, получили возможность улучшить взаимодействие с Premiere Pro CC за счёт наложения эффектов в реальном времени, ускоренному применению цветокоррекции, работы с несколькими форматами и композитинга.

В Adobe SpeedGrade CC появился новый цветовой конвейер Direct Link, позволяющий открывать проекты Adobe Premiere Pro CC напрямую в SpeedGrade для цветокоррекции и затем снова продолжать работу в Adobe Premiere Pro CC. Новый цветовой движок Lumetri также теперь использует OpenCL, что позволяет проводить операции в SpeedGrade в реальном времени.

Наконец, OpenCL даёт возможность пользователям Adobe Media Encoder CC задействовать движок Mercury Playback независимо от Adobe Premiere Pro CC и использовать GPU-ускорение AMD для снижения нагрузки на CPU и ускоренного перекодирования медиаформатов. Появились и новые возможности вроде наложения цветокоррекции прямо из Adobe Media Encoder CC.

Adobe и AMD внедрили GPU-ускорение в Premiere Pro для Windows

В прошлом году пакет для профессионального редактирования и монтажа видео Adobe Premiere Pro в версии для компьютеров Mac обзавёлся поддержкой GPU-ускорения с помощью стандарта OpenCL. Теперь Adobe и AMD объявили о результатах проведённой работы по внедрению той же функциональности в Windows-версию программы, в дополнение к CUDA.

AMD отмечает, что данная возможность будет доступна не только владельцам видеокарт Radeon и FirePro, но и гибридных процессоров серии A. OpenCL-ускорение позволяет осуществлять в реальном времени редактирование, применять множество эффектов, использовать движок для глубокой работы с цветом Lumetri, исполнение многопоточных задач обработки смешанных форматов файлов. Поддерживается технология вывода на несколько мониторов AMD Eyefinity и видеоформаты в разрешении до Ultra HD 4K.

Если говорить об уровне ускорения выполнения операций, то применительно к флагманскому 4-ядерному процессору A10-6800K @4,1/4,4 ГГц (Piledriver) с интегрированной графикой Radeon HD 8670D цифры демонстрируют 4,3-кратный прирост скорости наложения фильтра трёхсторонней коррекции цвета на видео 1080p с экспортом в формат для iOS-устройств.

Также AMD приводит некоторые сравнительные данные по профессиональному графическому ускорителю FirePro: прирост до 6-крат по сравнению с чисто процессорными вычислениями, а также на 27% быстрее по сравнению CUDA-вычислениями на NVIDIA Quadro благодаря более эффективному использованию GPU.

 

 

 

 

Стоит отметить, что тестирование производилось на предфинальной версии следующего Adobe Premiere CS, выход которого, вероятно, произойдёт в апреле—мае. Таким образом, для использования преимуществ OpenCL-ускорения потребуется обновление до новой версии пакета.

Материалы по теме:

Источник:

window-new
Soft
Hard
Тренды 🔥