Теги → gpgpu
Быстрый переход

Ускорители вычислений на графических процессорах Intel будут использовать СЖО

Немецкий ресурс Igor’s LAB поделился информацией о компоновке карт Open Accelerator Module (OAM) на базе ускорителей вычислений Intel Ponte Vecchio с установленной системой охлаждения. Подобный форм-фактор распространён в центрах обработки данных. Портал VideoCardz поделился фотографией тестовой системы на базе Ponte Vecchio в сборе.

О том, что Intel планирует использовать для своих новых серверных ускорителей вычислений Ponte Vecchio на собственных GPU конструктивное исполнение OAM, стало известно ещё в конце марта. В распоряжении портала Igor’sLAB оказалась документация Intel, описывающая особенности OAM-модуля с GPU компании Intel.

Платформа Ponte Vecchio, в которой используются как 3D-компоновка Foveros, так и соединения EMIB, имеет плиточный дизайн с 47 элементами. В основе платформы применяются разнородные кристаллы на базе 7-нм и 10-нм техпроцессов Intel Enhanced SuperFin, а также на 7-нм и 5-нм техпроцессов компании TSMC. Как указывает портал Igor’sLAB, подобная комбинация в теории может генерировать до 600 Вт тепла (или даже больше). Таким образом устройство потребует очень мощной и эффективной системы охлаждения. Опубликованные Igor’sLAB подтверждают, что ускорители будут использовать СЖО.

На самом деле Intel ещё в марте указывала на необходимости использования с Ponte Vecchio СЖО. Дело в том, что стандартная система охлаждения модуля OAM подразумевает наличие воздушного охладителя башенной компоновки, через радиаторы которого корпусными вентиляторами сервера прогоняется воздух. Подобная конструкция позволяет отводить только до 450 Вт тепла, а при значении в 600 Вт без жидкостного охлаждения не обойтись.

Китайский 7-нм графический процессор Big Island «почти готов» к массовому производству

Китайская компания Shanghai Tianshu Zhixin Semiconductor Co., Ltd. (Tianshu Zhixin) в минувшую среду заявила, что близка к началу «массового производства и продажам» графических процессоров Big Island собственной разработки для использования в составе центров обработки данных. Чипы построены на основе 7-нм техпроцесса.

О последнем факте стало известно ещё в январе, когда Tianshu Zhixin сообщила, что графический процессор Big Island (BI) общего назначения (GPGPU) основывается на 7-нм технологическом процессе производства и использует упаковку 2.5D CoWoS. На днях компания подтвердила, что производством чипов занимается тайваньская компания TSMC.

Китайская компания ещё раз напомнила, чего следует ожидать от продуктов на базе чипов Big Island. На изображении ниже показан пиковый уровень производительности в вычислениях с числами разных форматов.

По словам Tianshu Zhixin, Big Island сможет обеспечить «почти в два раза более высокий уровень производительности по сравнению с аналогичными решениями крупнейших мировых производителей». При этом китайская разработка обладает более низким уровнем энергопотребления и в то же время готова предложить более привлекательное соотношение цены к уровню производительности. В заявлении китайской компании также говорится, что «прогресс в разработке продукта и его потенциал коммерческого применения на 1–2 года опережают возможности отечественных аналогов».

Tianshu Zhixin поделилась изображениями первых продуктов на базе графических процессоров Big Island.

Информацию о точной дате старта продаж, а также о ценах на продукты на основе Big Island компания не сообщила.

При уровне TDP в 600 Вт ускорители Intel Ponte Vecchio потребуют жидкостного охлаждения

Недавние откровения представителей Intel по поводу компоновки ускорителей вычислений Ponte Vecchio позволили понять, из каких кристаллов они будут состоять и где производиться, но о внешнем виде готовых изделий в сочетании с системой охлаждения ничего не сказали. Документация Intel содержит упоминания об использовании жидкостного охлаждения.

Источник изображения: Intel

Источник изображения: Intel

Японские блогеры добрались до описания некоторых технических характеристик Ponte Vecchio на сайте Intel, и хотя они доступны только разработчикам, краткие аннотации к этим документам позволяют определить, что готовые ускорители этого семейства будут иметь исполнение OAM, знакомое по серверам и суперкомпьютерам. Уровень TDP достигнет 600 Вт, по этой причине Intel прямо указывает на необходимость использования жидкостного охлаждения.

Источник изображения: Twitter, Komachi_Ensaka

Источник изображения: Twitter, Komachi_Ensaka

Дело в том, что стандартная система охлаждения модуля OAM подразумевает наличие воздушного охладителя башенной компоновки, через радиаторы которого корпусными вентиляторами сервера прогоняется воздух. Подобная конструкция позволяет отводить до 450 Вт тепла, а при значении в 600 Вт без жидкостного охлаждения не обойтись. Пока сложно понять, будет ли Intel предлагать ускорители Ponte Vecchio в более экономичном варианте с воздушным охлаждением, но для старшей модели точно предусмотрено жидкостное.

Источник изображения: Serve The Home

Источник изображения: Serve The Home

Для суперкомпьютера это не такая уж проблема, поскольку конструкция соответствующих серверных систем всегда адаптируется под требования заказчика. В суперкомпьютере Aurora, например, каждый узел с двумя процессорами Intel Xeon семейства Sapphire Rapids будет соседствовать с шестью ускорителями Ponte Vecchio. При такой компоновке реализовать жидкостное охлаждение не составит большого труда.

Инженерам Intel удалось создать ускоритель вычислений с 41 чиплетом

Как давно известно, ускорители вычислений семейства Ponte Vecchio должны стать самыми продвинутыми с точки зрения компоновочных решений и технологии изготовления, даже если отдельные кристаллы в их составе компания Intel будет получать от сторонних производителей. Похоже, один из прототипов получил 41 кристалл в одной упаковке.

Источник изображения: Twitter, Raja Koduri

Источник изображения: Twitter, Raja Koduri

Во всяком случае, именно так можно истолковать новую публикацию Раджи Кодури (Raja Koduri), который продолжает курировать в Intel направление графических решений и родственных ускорителей вычислений. Образец серверного чипа с несколькими кристаллами на одной подложке он уже демонстрировал в конце января, а теперь в качестве иллюстрации выступило абстрактное изображение с графическим представлением множества Мандельброта. По словам Кодури, сейчас прототип ускорителя с 41 чиплетом пробует свои силы в определении площади этого множества и решении сопутствующих математических задач.

Он даже сравнил эти действия с выводом на дисплей фразы «hello, world» в результате работы тестирующей программы. Раджа Кодури отметил, что данное вычислительное решение хоть и будет использоваться в сегменте высокопроизводительных систем, несомненно обрадует и многих любителей компьютерной графики. Если учесть, что январское фото демонстрировало присутствие более десятка чипов в одной упаковке, то готовый ускоритель вычислений может объединять до четырёх подобных процессоров на одной плате.

В Китае создали ещё один GPU, который угрожает NVIDIA и AMD в центрах обработки данных

На рынке графических процессоров становится тесно. Речь пока не идёт о видеокартах для ПК, хотя китайцы уже сделали заявку на вытеснение GPU NVIDIA и AMD из начального сегмента. «Покушение» произошло на рынок ускорителей для центров обработки данных, где GPU NVIDIA и AMD присутствуют давно и успешно. Китайская компания неожиданно представила GPGPU собственной разработки, построенный на самом передовом 7-нм техпроцессе.

GPGPU Big Island (BI). Источник изображения: Tianshu Zhixin

GPGPU Big Island (BI). Источник изображения: Tianshu Zhixin

Сообщается, что графический процессор Big Island (BI) общего назначения (GPGPU) разработан компанией Shanghai Tianshu Zhixin Semiconductor Co., Ltd. Проект стартовал в 2018 году и опирается исключительно на оригинальную графическую архитектуру. Производством чипа, очевидно, занимается компания TSMC, поскольку решение использует упаковку 2.5D CoWoS, которую практикует этот тайваньский контрактник.

Цифровой проект GPGPU Big Island был готов в мае прошлого года. В кремнии решение с 24 млрд транзисторов появилось в декабре и с тех пор всесторонне испытывается. Компания не раскрывает всех спецификаций новинки, но заявляет, например, что для операций FP16 производительность Big Island достигает 147 TFLOPS. Для сравнения, в аналогичных условиях GPU NVIDIA A100 показывает 77,97 TFLOPS, а AMD Instinct MI100 — 184,6 TFLOPS.

Кроме операций с FP16 GPGPU Big Island поддерживает множество других форматов вычислений, включая FP32, BF16, INT32, INT16 и INT8. Тем самым китайская новинка для ЦОД может предложить очень привлекательное соотношение производительности и стоимости. Прежде всего, как мы видим из списка поддерживаемых форматов, речь идёт о машинном обучении (тренировка) и задачах, связанных с искусственным интеллектом. Похоже, у «Скайнета» родным будет китайский.

Intel скоро получит первые образцы компонентов ускорителей вычислений Ponte Vecchio

Долгое время руководство Intel продвигало ускорители Ponte Vecchio в качестве первых серийных 7-нм продуктов компании, но задержка с освоением этой технологии вынудила её расширить участие подрядчиков в производстве соответствующих компонентов. На этой неделе представители Intel признались, что первый кремний для Ponte Vecchio скоро будет выпущен.

Источник изображения: Intel

Источник изображения: Intel

Поскольку Раджа Кодури (Raja Koduri) был одним из вдохновителей создания Ponte Vecchio, ему в ходе онлайн-мероприятия на сайте Intel была доверена честь рассказать о статусе разработки этого продукта для серверного применения, формально относящегося к семейству Xe-HPC. Даже кодовое обозначение для этого ускорителя Раджа Кодури выбирал с прицелом на презентацию в Венеции, которая позволит ему полакомиться местными десертами. По крайней мере, в тот период, когда он вынашивал такие мысли, пандемия ещё не ограничивала перемещения сотрудников Intel по планете.

О том, что Intel уже располагает рабочими образцами игровой графики Xe-HPG в своих лабораториях, представители компании сообщили ещё на квартальной отчётной конференции в прошлом месяце. Теперь Раджа Кодури добавил, что и серверные ускорители вычислений Xe-HP поставляются в виде образцов, хотя и это сложно назвать новостью, поскольку он сам демонстрировал их на страницах Twitter в конце прошлого полугодия.

Главным откровением со стороны Кодури стала информация о завершении разработки первой ревизии чипов, которые войдут в состав ускорителей Ponte Vecchio. Они уже «отданы в печать», и скоро компания получит реальные образцы для начала тестирования. Напомним, что ранее Intel рассчитывала выпустить Ponte Vecchio к концу 2021 года, но потом возникла заминка с освоением 7-нм техпроцесса, после чего глава компании Роберт Свон (Robert Swan) вынужден был заявить, что некоторые из 7-нм продуктов задержатся на полгода, а из состава Ponte Vecchio на сторонних производственных мощностях будет выпускаться уже не один кристалл, как планировалось ранее, а большее количество. Это позволит не так сильно задерживать анонс данного продукта, как тогда утверждалось.

Источник изображения: Intel

Источник изображения: Intel

Если ориентироваться на материалы августовской презентации Intel, то при создании Ponte Vecchio компания должна опираться на возможности подрядчиков при производстве как минимум двух полупроводниковых компонентов. Возможно, через несколько недель Intel уже будет располагать всеми «деталями», необходимыми для запуска ускорителей Ponte Vecchio в своих лабораториях. Будет ли среди этих компонентов собственный 7-нм кристалл Intel, наверняка сказать сложно, но на недавней отчётной конференции Роберт Свон подтвердил, что проблемы, вызвавшие задержку с освоением 7-нм технологии, удалось устранить. Ускорители Ponte Vecchio будут иметь сложную пространственную компоновку с разнородными кристаллами, поэтому для создания работоспособных образцов нужно располагать всеми необходимыми компонентами уже в самое ближайшее время.

Доходы AMD от реализации GPU в серверном сегменте сократились в два раза

Представив ускоритель вычислений A100 в середине мая, компания NVIDIA уже смогла увеличить его долю в собственной структуре поставок до 25 %. Сторонние источники утверждают, что AMD подобной динамикой похвастать не может, а потому во втором квартале её выручка от реализации графических процессоров в серверном сегменте сократилась вдвое по сравнению с аналогичным периодом прошлого года.

Источник изображения: Nikkei Asian Review

Источник изображения: Nikkei Asian Review

Соответствующие заявления сделал представитель BMO Capital Markets Амбриш Сривастава (Ambrish Srivastava), который на этой неделе выступал в роли ведущего онлайн-мероприятия Virtual Technology Summit. Со стороны NVIDIA в нём приняла участие финансовый директор Колетт Кресс (Colette Kress), а AMD своих представителей принять участие в трансляции не направляла. Это не помешало Сриваставе сделать вывод, что во втором квартале NVIDIA увеличила выручку от реализации графических процессоров в серверном сегменте на 89 % до $1,24 млрд.

AMD подобными успехами, по мнению аналитика, похвастать не может. Мало того, что во втором квартале она выручила от реализации GPU в серверном сегменте не более $30 млн, так и эта сумма уменьшилась в два раза по сравнению с аналогичным периодом прошлого года. Напомним, что компания решительно настроена покорять серверный рынок своими графическими процессорами, поскольку до конца года должны выйти носители новой архитектуры CDNA, которая является эволюционным ответвлением RDNA, учитывающим специфику серверного сегмента.

Представитель BMO Capital Markets попутно подчёркивает, что объёмы продаж игровых графических процессоров NVIDIA во втором квартале увеличились на двузначную величину в процентах, хотя традиционно этот период года нельзя назвать активным с точки зрения спроса в игровом сегменте. Как уже отмечалось, на изменение тенденций повлияла самоизоляция, которая оставила многих пользователей в мире наедине с компьютерными играми.

NVIDIA отгрузила более миллиарда GPU с поддержкой CUDA

Одним из главных достижений минувшего квартала, по словам представителей NVIDIA, стало превышение серверной выручкой денежных поступлений от игровых продуктов. Оно символизирует эволюционную трансформацию бизнес-модели компании, хотя третий квартал и должен вернуть игровой бизнес на вершину на какое-то время. В серверном сегменте ставка делается на Ampere.

Источник изображения: YouTube, NVIDIA

Источник изображения: YouTube, NVIDIA

Финансовый директор Колетт Кресс (Colette Kress) в подготовленной части доклада заявила, что NVIDIA отгрузила более миллиарда графических процессоров с поддержкой CUDA, а количество разработчиков приложений в этой среде программирования достигло двух миллионов. Чтобы разменять первый миллион, базе разработчиков потребовалось более десяти лет, а второй миллион был набран менее чем за два года.

По словам главы NVIDIA Дженсена Хуанга (Jensen Huang), уже сейчас графические процессоры семейства Ampere формируют около четверти выручки на направлении компонентов для центров обработки данных. Облачные гиганты, по прогнозам NVIDIA, в третьем квартале будут активно закупать ускорители вычислений на основе архитектуры Ampere. Её глава называет гигантским прорывом и обещает, что жизненный цикл платформы Ampere растянется на несколько лет. Умеренную динамику выручки на серверном направлении в третьем квартале будет отчасти компенсировать активная экспансия продуктов с архитектурой Ampere, как ожидает руководство компании.

Intel раскрыла четыре версии GPU, в том числе производительный вариант для геймеров

На мероприятии, посвящённом архитектурным новшествам изделий Intel, представители компании рассказали об основных путях развития графических решений марки на ближайшие годы. Четыре группы дискретной графики охватят бюджетный, серверный, производительный сегменты, а также решения для суперкомпьютеров.

Источник изображения: Intel

Источник изображения: Intel

Разумеется, наименьшей интригой может похвастаться серия графических решений Xe-LP, в состав которой войдёт и дискретная DG1, несколько месяцев подряд распространяемая среди разработчиков в виде прототипов. Количество исполнительных блоков такой графики не превысит 96 штук, зато объём кеш-памяти третьего уровня может достигать 16 Мбайт. Особое внимание будет уделяться работе с видеоконтентом, предусматривается аппаратное декодирование AV1 и кодирование HEVC, вывод изображения на дисплей в разрешениях 4K и 8K, поддержка HDR и Dolby Vision.

Даже графические решения Intel начального уровня обеспечат поддержку до четырёх дисплеев одновременно, будут поддерживаться частоты обновления до 360 Гц и функция Adaptive Sync, перечень интерфейсов тоже впечатляет: DisplayPort 1.4, HDMI 2.0, Thunderbolt 4 и USB 4.0 Type-C.

Источник изображения: Intel

Источник изображения: Intel

Графика класса Xe-LP впервые пропишется в составе 10-нм мобильных процессоров Intel Tiger Lake, она же будет предлагаться и в дискретной форме. Серийный вариант DG1 будет применяться в ноутбуках — утверждается, что он привлечёт внимание представителей творческих профессий. Для серверного сегмента Xe-LP будет предложена в форме дискретной графики SG1, она объединит на одной плате сразу четыре кристалла DG1. Сфера применения SG1 — это системы облачного гейминга и потоковой трансляции игр. Поставки SG1 начнутся до конца текущего года. Родственная DG1 в серию пойдёт в сопоставимые сроки.

Если DG1 и SG1 можно отнести к двум наиболее экономичным версиям дискретной графики Intel, то семейство Xe-HP должно найти применение в серверном сегменте более широкого профиля. Секрет масштабируемости Xe-HP будет заключаться в многокристальной компоновке. На одной подложке могут быть объединены два или четыре кристалла, но дело может ограничиться и одним. Одиночный кристалл в рамках демонстрации Intel справлялся с перекодированием десяти потоков видео в разрешении 4K со скоростью 60 кадров в секунду. Первые представители семейства Xe-HP выйдут на рынок в следующем году, но разработчики могут получить доступ к их ресурсам уже в этом году через облачную среду DevCloud.

Источник изображения: Intel

Источник изображения: Intel

Компоновочно изделия серии Xe-HP будут использовать подложку EMIB для объединения нескольких кристаллов, а выпускать сами кристаллы Intel рассчитывает собственными силами с применением версии 10-нм техпроцесса, получившей модное название Enhanced SuperFin. Это будет следующая ступень 10-нм технологии по сравнению с той, что используется сейчас для производства мобильных процессоров Tiger Lake. Текущая вариация носит обозначение SuperFin, а для производства дискретной графики будет применяться её улучшенная версия. К слову, по базовой версии технологии SuperFin будут выпускаться и дискретные графические решения DG1/SG1.

Наконец, самой долгожданной для энтузиастов премьерой в следующем году станет семейство игровых графических решений Intel Xe-HPG. Как можно понять из названия, оно сочетает энергоэффективные компоненты Xe-LP с масштабируемостью Xe-HP и производительностью Xe-HPC. Это семейство дискретной графики ориентировано именно на нужды любителей компьютерных игр. Обещана поддержка памяти типа GDDR6 и аппаратного ускорения трассировки лучей. Примечательно, что выпуском графических процессоров этой серии займётся сторонний подрядчик. Поставки начнутся в следующем году.

Источник изображения: Intel

Источник изображения: Intel

О компоновке флагманского ускорителя Ponte Vecchio, который относится к сегменту графики Xe-HPC для серверных и суперкомпьютерных систем, компания Intel в ходе презентации тоже поведала некоторые дополнительные подробности. Как уже известно, этот продукт будет сочетать как пространственную компоновку Foveros, так и применение подложки EMIB. До сих пор считалось, что Ponte Vecchio станет первым серийным 7-нм продуктом Intel.

Откровения компании позволяют понять, что четыре базовых компонента Ponte Vecchio будут выпускаться по разным технологиям разными компаниями. Базовые кристаллы Intel будет выпускать сама по 10-нм технологии поколения SuperFin — той же самой, что и в случае с Tiger Lake, DG1 или SG1. Кристаллы с вычислительными ядрами будут производиться как компанией Intel, так и её подрядчиками, но уже с применением техпроцесса следующего поколения. По всей видимости, именно эти компоненты будут производиться по 7-нм технологии, с освоением которой собственными силами у Intel возникла задержка.  Интерфейсный блок будет поручен стороннему производителю. Наконец, кеш-память с условным обозначением Rambo Cache будет производиться Intel самостоятельно, но уже по 10-нм технологии поколения Enhanced SuperFin, которая породнит её с Xe-HP.

AMD Radeon Instinct MI100 станет первым представителем архитектуры CDNA в следующем полугодии

Неофициальные источники упоминают кодовое обозначение «Arcturus» очень давно, и только в феврале стало понятно, что под ним скрывается ускоритель вычислений Radeon Instinct MI100, сочетающий родственную с Navi архитектуру с памятью типа HBM2. Теперь планы по выходу ускорителя в следующем полугодии подтверждает технический директор AMD.

Источник изображения: AMD

Источник изображения: AMD

Как отмечает сайт WCCFTech, Марку Пейпермастеру (Mark Papermaster) на вопрос о сроках дебюта Radeon Instinct MI100 пришлось отвечать во время трансляции с мероприятия Dell EMC. Как уже известно из презентаций AMD, ускорители вычислений на базе графических процессоров марки в своём развитии пойдут отдельным от видеокарт эволюционным путём, получив архитектуру CDNA. Первенец семейства получит 7-нм технологию изготовления, интерфейс AMD Infinity второго поколения, а также до 32 Гбайт памяти типа HBM2.

Источник изображения: AMD

Источник изображения: AMD

Ориентировочные технические характеристики Radeon Instinct MI100 уже обсуждались ранее. Количество потоковых процессоров по сравнению с предшественниками может быть увеличено, до 8192 штук. Прирост быстродействия будет двукратным. Графический процессор с архитектурой CDNA будет работать на частотах от 1090 до 1333 МГц, частота памяти может достичь 1000 МГц. Важно, что уровень TDP будет снижен до 200 Вт, это наверняка позволит оснащать платы ускорителей Radeon Instinct MI100 пассивными радиаторами, которые в серверных шасси будут обдуваться мощными корпусными вентиляторами.

Ещё немного, и игровые видеокарты станут для NVIDIA второстепенным бизнесом

После публикации квартального отчёта акции NVIDIA в конце прошлой недели обновили исторический максимум. Инвесторов вдохновили темпы роста выручки на серверном направлении — на 80 % за год. Впервые сумма выручки в этом сегменте превысила $1 млрд. Такими темпами игровой бизнес NVIDIA сможет отойти на второй план очень скоро.

Источник изображения: NVIDIA

Источник изображения: NVIDIA

В игровом сегменте NVIDIA выручила $1,34 млрд, в серверном — $1,14 млрд, но в последнем случае ещё не учитывалась выручка Mellanox. Уже во втором квартале доля выручки NVIDIA в серверном сегменте может приблизиться к 50 %, поскольку по этой статье будут учитываться и поступления от реализации продукции Mellanox. Если верить слухам, игровые новинки NVIDIA ранее конца третьего квартала не появятся, поэтому ждать всплеска спроса на игровом направлении во втором квартале не приходится. У серверного сегмента есть все шансы выйти на первое место среди источников дохода компании.

Источник изображения: The Motley Fool

Источник изображения: The Motley Fool

По прогнозам Mordor Intelligence, в период с 2019 по 2024 год ёмкость рынка графических процессоров возрастёт с $21 до более чем $100 млрд. Такой скачок будет возможен только с учётом активного использования графических процессоров для ускорения вычислений в серверных системах различного ранга. Представители Gartner ожидают, что рынок серверной инфраструктуры в период с 2019 по 2025 год вырастет с $155 до $230 млрд. Очевидно, что на долю GPU в этом сегменте придётся немалая часть выручки. При таких темпах роста спроса NVIDIA запросто может занять одну из лидирующих позиций, а выручка от продаж игровых видеокарт станет для неё второстепенной на долгосрочной основе.

Становится понятным и стремление Intel вернуться на рынок дискретной графики. Активно обсуждаемое дискретное графическое решение DG1, которое выйдет на рынок в этом году, закрепится в начальном диапазоне мобильного сегмента. Все ставки сделаны на ускорители вычислений Ponte Vecchio, которые в конце 2021 года предложат и 7-нм техпроцесс, и сложные компоновочные решения, и хорошо масштабируемую архитектуру. NVIDIA и AMD не останутся единственными игроками рынка серверных ускорителей на базе графических процессоров. Последняя даже выделила вычислительные архитектуры GPU в самостоятельное семейство CDNA. Конкуренция обещает быть нешуточной.

Adobe обещает в Premiere Pro кратный прирост скорости кодирования видео благодаря аппаратному ускорению

На этой неделе Adobe выпустит свежее обновление Premiere Pro 14.2, которое включает новые оптимизации с более активным использованием аппаратного ускорения видеокарт NVIDIA и AMD. Обновление среди прочего включает кодирование видео с применением аппаратных блоков NVIDIA для видеокарт Quadro и GeForce. Adobe и NVIDIA обещают, что видеоредактор сможет экспортировать видео высокого разрешения до 5 раз быстрее, чем при использовании исключительно ЦП. Ускорение при помощи ГП коснётся также Adobe Media Encoder, After Effects и Audition.

Tom Warren / The Verge

Tom Warren / The Verge

Premiere Pro уже давно поддерживает OpenCL и CUDA для ускорения видеоэффектов и даже сокращения времени экспорта, но последнее обновление расширяет возможности и оптимизирует приложение для использования отдельного аппаратного кодировщика. Это позволит сократить время экспорта для кодеков H.264 или H.265/HEVC.

«Эти улучшения являются результатом многолетнего сотрудничества между NVIDIA и Adobe для предоставления пользователям высококачественных приложений и инструментов, — заявил старший технический менеджер Adobe Маниш Кулкарни (Manish Kulkarni). — Благодаря поддержке новых графических процессоров NVIDIA под Windows, экспорт видео ускоряется с помощью аппаратных блоков ГП, что делает Premiere Pro более мощным, а создателей видео — более эффективными».

Последние обновления Adobe также включают поддержку формата Apple ProRes RAW в Premiere Pro и After Effects. Это означает, что видеоредакторы, использующие Windows, теперь могут импортировать файлы ProRes RAW без необходимости их перекодирования. Работа с ними также использует аппаратное ускорение с помощью видеокарт AMD и NVIDIA.

И Adobe, и NVIDIA обещают существенное уменьшение времени кодирования с помощью новой функции. Согласно внутренним замерам NVIDIA, перекодирование видео в 4K на ускорителе GeForce RTX 2060 занимает 4 минуты 45 секунд против 11 минут 43 секунд на процессоре Intel Core i9-9750H. А в случае использования эффектов, ускоряемых с помощью ГП, разница получается 5-кратная.

Intel показала прототип своего высокопроизводительного GPU

В декабре прошлого года Раджа Кодури (Raja Koduri) заявил, что коллективу исследовательского центра Intel в Индии удалось существенно продвинуться в разработке некоего графического решения семейства Intel Xe с крупным кристаллом. Теперь Intel демонстрирует некий новый продукт, конструктивно напоминающий крупный процессор в исполнении LGA.

Источник изображения: Twitter, Intel Graphics

Источник изображения: Twitter, Intel Graphics

Известно, что Intel делает большие ставки на семейство графических процессоров Xe, которые предложат унифицированную архитектуру почти во всех рыночных сегментах, от интегрированной в массовые процессоры графики до суперкомпьютеров. Курировать разработки в этой области поручено Радже Кодури — бывшему руководителю графического подразделения AMD. Прервав длительное молчание, Кодури на этой неделе прокомментировал выложенные пресс-службой Intel фотографии, которые сопровождались аннотацией о сложностях разработки полупроводниковых кристаллов с десятками миллиардов транзисторов в условиях самоизоляции. На второстепенных снимках известный разработчик процессорных архитектур Джим Келлер (Jim Keller) и сам Раджа Кодури предстали в защитных масках, косвенно подтверждая свежесть фотографий.

Источник изображения: Twitter, Intel Graphics

Источник изображения: Twitter, Intel Graphics

Главным откровением стало изображение двух экземпляров одного и того же процессора в исполнении LGA, который демонстрировался одновременно с обеих сторон. В качестве «масштабной линейки» выступал стандартный элемент питания типа АА. Кодури недвусмысленно намекнул, что подобный продукт будет хорош как в ускорении работы систем искусственного интеллекта, так и в «полевых баталиях» — играх, если понимать эти слова буквально.

Конечно, если речь идёт о флагманском графическом процессоре, то вряд ли он будет применяться в серийных продуктах именно в таком конструктивном исполнении. Скорее всего, на стадии прототипа он приблизился к центральным процессорам в исполнении LGA ради удобства испытаний и отладки.

Напомним, что к концу 2021 года Intel рассчитывает представить ускоритель вычислений Ponte Vecchio, который будет сочетать подложку EMIB, пространственную компоновку Foveros, 7-нм технологию изготовления и память типа HBM актуального поколения. Демонстрируемый сейчас продукт может не иметь к нему никакого отношения, кроме архитектурного родства. На одном из февральских снимков Кодури позировал с какой-то кремниевой пластиной в руках. Возможно, это был отчёт об одном из этапов разработки соответствующего графического процессора, который теперь демонстрируется в более высокой степени готовности.

Представлен OpenCL 3.0: без прошлого нет будущего

Khronos Group представила предварительные спецификации стандарта вычислений общего назначения с использованием графических и иных процессоров — OpenCL 3.0. Консорциум отметил, что новая версия стандарта призвана обеспечить новые запрашиваемые разработчиками аппаратные функции, а также повысить гибкость развёртывания в целевых средах. Задачи во многом противоположные, так что без компромиссов не обойтись.

Последние 15 лет можно смело назвать эпохой роста вычислений общего назначения на ГП. Сегодня прогресс мощности ЦП сильно замедлился, а высокопараллельные расчёты становятся всё более общим явлением. Самые мощные в мире суперкомпьютеры теперь обязательно включают в себя ГП. В это время развивался и стандарт OpenCL — открытая среда программирования ГП и других ускорителей вычислений. Изначально созданная Apple и получившая широкое признание в отрасли, OpenCL была первой (и до сих пор наиболее последовательной) попыткой создания общего открытого API для параллельного программирования. OpenCL был адаптирован для всего: от энергоэффективных встраиваемых процессоров и DSP до графических ускорителей, потребляющих полкиловатта.

Сегодня OpenCL не только поддерживается на широком спектре оборудования, но и невероятно актуален даже для текущих событий: это API-интерфейс, используемый в проекте [email protected], самом мощном вычислительном кластере в мире, который интенсивно применяется для исследования вариантов борьбы с COVID-19. В то же время эволюция рынка параллельных вычислений не всегда шла в соответствии с планами для Khronos и рабочей группы OpenCL. На ПК стандарт всё ещё находится в подвешенном состоянии. Интерес NVIDIA сдерживается продвижением собственного весьма успешного API CUDA, драйверы AMD OpenCL оставляют желать лучшего, Apple отказывается от OpenCL и переходит на собственный API Metal. Единственным поставщиком, которого, кажется, всерьёз интересует OpenCL, выступает Intel. На мобильных устройствах OpenCL тоже никогда не был широко распространён, несмотря на поддержку большинством мобильных ГП и другими блоками параллельной обработки данных.

Поэтому Khronos решила сделать в некоторой степени большой шаг назад и перезапустить экосистему. OpenCL 3.0, последняя версия вычислительного API, делает выводы из прошлого и по сути превращает основной API в форк OpenCL 1.2. В результате всё, что разработано в рамках OpenCL 2.x, теперь стало необязательным: поставщики могут (и, как правило, будут) поддерживать эти функции, но оно больше не требуются для соответствия основной спецификации. Вместо того чтобы поддерживать каждую функцию OpenCL, независимо от её полезности или бесполезности для конкретной платформы теперь поставщики будут сами решать, какие продвинутые функции они хотели бы поддерживать помимо основных спецификаций, основанных на OpenCL 1.2.

Здесь нужно понять некоторую специфику. Дело в том, что Khronos не имеет собственной реальной власти и не может навязать технологические изменения, являясь отраслевым консорциумом, в который входит множество компаний. Проблема совместного подхода заключается в том, что он требует определенной степени согласия между основными участниками. Если не может быть достигнуто соглашение о будущем, проект не может двигаться вперёд. А если никто не доволен результатом, продукт может не получить достаточно широкой поддержки и умереть в зародыше. Нечто подобное произошло с OpenCL 2.2, который был выпущен ещё в 2017 году. Основным новшеством стала поддержка OpenCL C++ в качестве языка ядра — более современного и объектно-ориентированного, чем использовавшийся ранее C. Однако три года спустя никто не принялся активно продвигать OpenCL 2.2: ни NVIDIA, ни AMD, ни Intel, ни, конечно, ни один производитель однокристальных систем. В результате это вредит стандарту.

Что делать, если OpenCL 2.x в значительной степени игнорируется? Khronos и рабочая группа OpenCL нашли ответ, решив вернуться к тому, что хорошо работало, и это был OpenCL 1.2, представленный впервые в 2011 году и ставший последней версией OpenCL 1.x. По современным стандартам API очень прост: он основан на чистом C и не поддерживает такие вещи, как общая виртуальная память или язык промежуточного представления SPIR-V. Но в то же время это последняя версия API, не включающая в себя массу второстепенных и бесполезных для многих участников рынка возможностей. Это чистый, довольно низкоуровневый API для параллельных вычислений во всём спектре: от мобильных решений до самых мощных видеокарт.

В конечном итоге рабочая группа OpenCL смогла договориться о том, что OpenCL 1.2 должен стать базовой спецификацией OpenCL 3.0 — всё остальное, несмотря на полезность для определённых задач, становится необязательным. Ранее жёсткая, монолитная природа стандарта одновременно препятствовала его развитию. Если поставщика удовлетворял OpenCL 1.2, но при этом ему хотелось реализовать пару дополнительных функций из OpenCL 2.1, то приходилось реализовать всю базовую спецификацию 2.1. В OpenCL 1.x / 2.x не было механизма частичного соответствия — только всё или ничего, и ряд компаний выбрали второе.

Теперь OpenCL 3.0 специально структурирован так, чтобы поставщики могли использовать только те части, которые им нужны, не пытаясь поддерживать всё остальное. Теперь ядром является OpenCL 1.2 с поддержкой запросов дополнительных функций, а также некоторыми дополнениями, призванными обеспечить совместимость. Все функции OpenCL 2.x, а также новые функции OpenCL 3.0, являются необязательными, позволяя поставщикам платформ самим решать, какие именно дополнительные возможности им нужны, и нужны ли вообще.

Например, производитель однокристальных систем для смартфонов может обеспечить OpenCL 1.2, и затем использовать несколько новых функций вроде асинхронных расширений DMA или разделяемой виртуальной памяти. В то же время крупный производитель видеокарт может поддержать бо́льшую часть функций OpenCL 2.x, но исключить поддержку разделяемой виртуальной памяти, что малополезно для дискретного ускорителя. В конечном счёте OpenCL 3.0 даёт поставщикам платформ возможность выбирать те функции, которые необходимы именно им, по сути, приспосабливая OpenCL к конкретным задачам.

Это очень похоже на подход Khronos к Vulkan, который оказался гораздо более успешным API в последние годы. Предоставление поставщикам некоторой гибкости в реализации функций API позволило Vulkan распространиться как на мобильных устройствах, так и на настольных ПК. Подобный успех хотела бы повторить и рабочая группа OpenCL.

В конечном счёте, как считает Khronos, последние годы развития OpenCL показали, что сложно сделать стандарт угодным сразу всем, сохранив его абсолютную монолитность. У производителей SoC нужды одни, у ЦП со встроенной графикой — другие, у дискретных видеокарт — третьи. А ведь есть ещё такие вещи, как FPGA и другие более экзотические варианты использования OpenCL. Таким образом, необходимо уйти от монолитности ради высокой адаптируемости к самому широкому спектру устройств и сред.

Несмотря на значительные изменения в философии разработки, OpenCL 3.0 создан так, чтобы оставаться обратно совместимым и логичным. Для разработчиков и пользователей благодаря ядру OpenCL 1.2 приложения 1.2 будут работать без изменений на любом устройстве OpenCL 3.0. В то же время приложения для OpenCL 2.x тоже будут работать без изменений на устройствах с OpenCL 3.0, если эти устройства поддерживают соответствующие функции 2.x. То есть на ПК уже созданное с применением OpenCL 2.1 ПО будет продолжать работать, а, например, на смартфонах — нет. Драйверы OpenCL 1.2 и 2.x действительно нуждаются в некоторых изменениях для соответствия требованиям 3.x, но в основном это касается поддержки запросов новых функций OpenCL. Таким образом, производители смогут выпустить драйверы 3.0 довольно быстро.

В дальнейшем разработчикам приложений предстоит правильно использовать функциональные запросы. Поскольку возможности OpenCL 2.x теперь необязательны, всем приложениям, задействующим дополнительные возможности 2.x/3.0, настоятельно рекомендуется использовать запросы функций, чтобы убедиться в наличии их аппаратной поддержки. Поэтому разработчикам приложений OpenCL 2.x рекомендуется обновить своё ПО для выполнения запросов функциональности.

OpenCL 3.0, помимо взгляда назад, делает и шаги вперёд. Главными среди них являются асинхронные расширения DMA, которые должны стать наиболее интересны тем поставщикам платформ, которые до сих пор придерживают OpenCL 1.2. Эта функция позволяет выполнять транзакции DMA одновременно с вычислительными ядрами, в отличие от синхронных операций, которые обычно могут исполняться только между другими операциями вычислительного ядра. Эта особенность примечательна тем, что позволяет передавать сложные структуры памяти, которые являются более продвинутыми, чем простые линейные. Наиболее это полезно для изображений и подобных данных, которые изначально являются 2D/3D структурами.

OpenCL 3.0 также вводит поддержку языка SPIR-V 1.3 (последняя версия SPIR-V — 1.5). Именно версия 1.3 на данный момент является частью спецификации Vulkan 1.1, что должно играть важную роль в улучшении взаимодействия между Vulkan и OpenCL, делая последний более эффективным в графических задачах.

Впрочем, стоит помнить, что OpenCL 3.0 всё ещё является предварительным стандартом и перед утверждением передаётся на обсуждение и знакомство разработчикам и широкой общественности. Впрочем, Khronos надеется, что уже через несколько месяцев они смогут получить ратификацию стандарта.

В светлое облачное будущее Huawei рассчитывает въехать на собственных GPU

Взятый Huawei курс на самодостаточность является отчасти вынужденной мерой, поскольку китайскую компанию регулярно притесняют американские власти. Южнокорейские источники теперь сообщают, что в недрах нового подразделения Huawei вызревают планы по созданию собственных графических процессоров.

Источник изображения: Reuters

Источник изображения: Reuters

Впрочем, речь пока не идёт о выходе на потребительский рынок. Графические процессоры нужны Huawei для развития платформ искусственного интеллекта и ускорения масштабных вычислений. Как сообщает корейское издание The Elec, местное представительство Huawei Technologies в этом году сформирует новое подразделение Cloud and AI Business Group, входящее в состав дивизиона по работе с корпоративными клиентами. В дальнейшем новое подразделение обретёт независимость и расширится.

Сейчас Huawei уже охотится за бывшими и действующими специалистами NVIDIA, а также руководящим составом американской компании, чтобы переманить на работу людей с опытом создания графических процессоров. В августе 2019 года Huawei представила процессоры Ascend 910, ориентированные на работу в системах искусственного интеллекта. В январе текущего года были представлены процессоры Kunpeng 920, которые сочетают архитектуру ARMv8 и наличие 64 ядер: они будут применяться в серверных системах. Для полного «ансамбля» Huawei не хватает только ускорителей вычислений на базе графических процессоров, и теперь компания надеется их создать силами нового подразделения.

window-new
Soft
Hard
Тренды 🔥
Shadow Warrior 3 выйдет в этом году, точную дату назовут в августе 18 мин.
Разработчик Ghost of Tsushima объяснил, почему обновление игры до версии для PS5 сделали платным 36 мин.
В EGS раздаются Mothergunship и Train Sim World 2, на очереди — A Plague Tale и Speed Brawl 50 мин.
Количество пользователей Huawei HarmonyOS по всему миру достигло 40 млн 2 ч.
Симулятор птички-скейтера SkateBIRD задержится на месяц, чтобы выйти одновременно на всех целевых платформах 2 ч.
Разработчики кошачьего приключения Stray показали новый геймплей и объявили о переносе игры на 2022 год 3 ч.
Приключенческий экшен-платформер Solar Ash от создателей Hyper Light Drifter получил дату релиза 3 ч.
Интерактивная поэма A Memoir Blue расскажет о всепоглощающей любви матери и дочери 3 ч.
Книжная головоломка-долгострой Storyteller выйдет на PC и Switch уже «скоро» 3 ч.
К Outer Wilds действительно выпустят дополнение Echoes of the Eye, а Switch-версия выйдет позже обещанного 3 ч.