Ноутбуки и ПК

Какой ноутбук нужен для фото, видеомонтажа и 3D-рендеринга?

⇣ Содержание

#Adobe Photoshop Lightroom Classic CC 2019

Список тестовых задач открывает, пожалуй, самый легковесный из сегодняшних бенчмарков в доступном и простом для освоения, но от того отнюдь не ограниченном в возможностях пакете обработки фотографий Photoshop Lightroom. Ускорение расчетов силами графического процессора — совсем не новость для программ Adobe. Как «большой» Photoshop, так и Lightroom применяют GPU для рендеринга и редактирования изображений, но в актуальной версии пакета видеокарта помогает решать еще одну задачу, неразрывно связанную с обработкой фотографий в RAW-формате — т. н. «дебайеринг».

Матрица цифровой фотокамеры представляет собой мозаику фоточувствительных элементов, каждый из которых накрыт светофильтром одного из основных цветов (красного, зеленого или синего), а распределение светофильтров по поверхности матрицы и пропорция площади, принадлежащей основным цветам, подчиняется алгоритму Байера, соответствующему особенностям человеческого восприятия. В связи с этим отдельный элемент получает лишь, условно, одну треть всей информации о цвете проецируемого оптикой участка изображения, а фотография в RAW-формате является, по сути, черно-белым изображением сверхвысокого разрешения. Для того, чтобы превратить картинку в цветную, и требуется процедура «дебайеринга» (или demosaicing), в основе которой лежит интерполяция яркости группы соседних субпикселов.

Хотя интерполяцию способен выполнить процессор цифровой камеры, а вычислительная мощность чипов и ПО непрерывно совершенствуются, настольный компьютер или ноутбук с Lightroom вооружен для этой цели намного лучше. Последним дополнением к процедуре «дебайеринга» стали нейронные сети, а в результате — возможность извлечь из сырого кадра больше деталей, чем позволяет прямая интерполяция субпикселов. Функция Enhance Details в Lightroom использует для этого шейдерные ALU графического процессора, а в случае видеокарт NVIDIA на старших чипах Turing — тензорные ядра. Примечательно, что в качестве API для связи с графическим процессором Adobe выбрала библиотеки машинного обучения, встроенные в свежие издания Windows 10 и macOS — WinML и CoreML соответственно. Это едва ли не первый пример внедрения WinML и CoreML в программу столь высокого калибра, как Lightroom, и мы рассчитываем, что коллеги Adobe по индустрии последуют ее примеру. Ведь, в отличие от CUDA, эти API не привязаны к GPU определенной архитектуры и совместимы в равной мере с чипами NVDIA, AMD, а также интегрированной графикой Intel.

Заданием для теста в Lightroom является обработка фильтром Enhance Details шести RAW-кадров, а оценкой быстродействия — общее время операции. В связи с тем, что пакет фотографий очень небольшой, все участвующие в сравнении лэптопы выполнили работу быстро, за несколько минут. Но относительные результаты могут сказать о быстродействии систем намного больше. Так, между разными модификациями встроенной графики Intel возник практически двухкратный разрыв по быстродействию, а дискретный игровой видеоадаптер начального уровня — GeForce GTX 1050 — на поверку оказался не лучше, чем Intel Iris Plus Graphics 645 с кешем eDRAM. Хотя, разумеется, дело тут не только в графике, но и в количестве ядер центрального процессора, которое гораздо лучше коррелирует с полученными результатами.

А вот настолько крупный отрыв по времени от догоняющих участников, тестирования, который показал GeForce RTX 2060, на CPU не спишешь. Тензорные ядра все-таки чрезвычайно эффективно действуют в обработке данных нейросетями.

#Adobe Photoshop CC 2019

В поиске более широких тестов быстродействия при обработке фотографий мы переходим от Lightroom к его большому брату. Photoshop является слишком разносторонним инструментом, чтобы вынести справедливую оценку производительности ПК на основании изолированной задачи — такой, как популярные тесты пакетной конвертации изображений. Вместо этого мы воспользовались набором скриптов Puget Systems, воспроизводящих ряд последовательных операций: декодирование RAW-файлов, масштабирование, ретушь и корректировка геометрии, применение фильтров, комбинация панорамы и т. д.

Бенчмарк Puget Systems позволяет сравнивать устройства в каждом из перечисленных аспектов быстродействия, но абсолютные числа отдельных тестов (в виде длительности операций) сами по себе не слишком информативны по сравнению с тремя интегральными оценками: скорость фильтров, скорость сборки панорамных снимков и отдельный балл для операций, зависимых от быстродействия GPU. Результаты получены на материале с цветовым разрешением 8 бит/канал: скрипты могут работать и с 48-битными снимками, но для этого рекомендуется иметь в системе от 32 Гбайт оперативной памяти, чем ни один участник тестирования похвастаться не может. На интегрированной графике Intel тесты прошли под управлением API OpenCL, на чипах NVIDIA — CUDA.

Но Photoshop, как ни крути, завязан на производительность центрального процессора: системы выстроились на графиках в общем соответствии с количеством ядер CPU, и даже в тестах пакета Puget Systems, целенаправленно загружающих графический процессор, размах результатов не настолько велик, как можно предположить исходя из характеристик сравниваемых чипов. Складывается впечатление, что дискретная графика здесь, безусловно, идет на пользу рабочему процессу, но определяющего значения в Photoshop производительность GPU не имеет — в отличие от центрального процессора.

#Adobe Premiere Pro CC 2019

Хотя программы для видеомонтажа любят мощные многоядерные CPU, это одна из тех задач в сфере обработки цифрового контента, которые могут превратить слабый графический процессор в узкое бутылочное горлышко всей системы, невзирая на производительность остальных компонентов. Причем проблема заключается не только и не столько в продолжительности экспорта файлов, сколько в отзывчивости программы при живом воспроизведении и перемотке материала. Выброшенные кадры и в целом низкий FPS в процессе монтажа — вот сигнал к апгрейду видеокарты.

К счастью, еще один пакет скриптов Puget Systems дает возможность оценить производительность системы в обоих ключевых измерениях — живом воспроизведении и чистовом рендеринге. Бенчмарк содержит множество разновидностей сырого тестового материала — по разрешению, частоте кадров и кодеку, — но для оценки быстродействия ноутбучной графики и CPU мы ограничились базовым составом тестов, включающим исходники стандартов H.264 10 бит, RED и ProRes 422. Весь видеоматериал имеет разрешение 4К и кадровую частоту 59,94 FPS. Premiere Pro, как и другие основные приложения Adobe, поддерживает два API для связи с графическим процессором в среде Windows и macOS: CUDA для чипов NVIDIA и OpenCL для Intel и AMD.

Для приблизительного сравнения устройств между собой достаточно двух интегральных показателей бенчмарка в баллах — рейтинг живого воспроизведения и рейтинг экспорта, — однако результаты отдельных тестов и сами по себе наглядно демонстрируют, насколько хорошо подходит та или иная сборка для обработки тяжелых видеофайлов.

Premiere Pro (как и другие инструменты обработки видео в тестовой обойме) более чутко реагирует на различия в конфигурации железа, чем Photoshop, и это особенно заметно по отзывчивости программы в процессе монтажа. Пока выполняется чистовой рендеринг видео, можно подождать и заняться чем-нибудь еще, но если частота смены кадров при живом воспроизведении 4K-исходников составляет единицы FPS — как получилось в тестах с интегрированным интеловским GPU — то на работе можно ставить крест.

К сожалению, даже ноутбук RTX Studio с графикой GeForce RTX 2060 не позволит без заеданий монтировать 4К в полном разрешении, но в таком случае половинное разрешение выглядит как более чем приемлемый компромисс между быстродействием и точностью.

#Blackmagic Design DaVinci Resolve 16

DaVinci Resolve является прямым конкурентом Premiere Pro среди программ для обработки видео, но имеет ряд отличий от последнего в интересующей нас сфере быстродействия железа. В частности, для тестов GPU нам пригодятся специфические функции 16-й версии пакета, связанные с машинным обучением, у которых пока нет аналогов в Premiere Pro. DaVinci Resolve 16 использует нейросети для таких операций, как распознавание и отслеживание лиц, имитация замедленной съемки, масштабирование и автоматическая цветокоррекция.

Мы использовали два проекта DaVinci Resolve на основе исходных материалов в формате Blackmagic RAW и H.264. Первый представляет собой тест цветокоррекции и задействует опцию отслеживания лиц для наложения изолированных эффектов. Задача второго — выполнить замедление исходника с интерполяцией промежуточных кадров. Для оценки быстродействия оба тестовых проекта были экспортированы в формате H.264 с разрешением 4К и кадровой частотой ~24 FPS, а результаты на диаграммах отражают время чистового рендеринга видеороликов продолжительностью 1 мин. Отметим еще один нюанс тестовой методики: DaVinci Resolve совместим с API CUDA и OpenCL в среде Windows, а в macOS поддерживает «родной» низкоуровневый интерфейс Metal — как для дискретной, так и для интегрированной графики. Apple намерена со временем полностью отказаться от OpenCL в пользу собственного API, и можно только порадоваться, что некоторые разработчики заранее готовы к этому повороту.

Из результатов бенчмарков DaVinci Resolve можно сделать один безошибочный вывод: экспорт видео со множественными эффектами силами встроенной интеловской графики — весьма неблагодарное занятие, даже при том, что тест обходит стороной не менее важный аспект рабочего процесса, живое воспроизведение и отзывчивость системы в ходе монтажа. Количество ядер CPU в таких условиях не имеет решающего значения. Как выяснилось, некоторые операции и вовсе невозможно выполнить без дискретной графики (по крайней мере, в данной комбинации железа и ПО): рендеринг второй последовательности, с замедлением исходника, просто не дошел до конца ни на одном из чипов Intel.

В то же время даже игровой ускоритель начального уровня существенно облегчает задачу, пусть экспорт все равно требует в два-шесть раз больше времени, чем длительность финального ролика. Конкретный результат зависит от сложности эффектов, и среди двух тестовых последовательностей замедление исходника дается слабому GPU труднее всего. Только существенно более производительная видеокарта смогла преодолеть эту тенденцию, а первый тест она и вовсе завершила быстрее воспроизведения в реальном времени. Причем разрыв между с системами с GeForce GTX 1050 и RTX 2060 в данном случае слишком велик, чтобы можно было объяснить его конфигурацией центрального процессора.

#REDCINE-X PRO

Последний тест в списке приложений для обработки видео, представляет собой пакетное декодирование RAW-файлов формата R3D, записанных на камеру RED высокого разрешения. Работа с исходниками в RAW дает такие же преимущества в процессе видеомонтажа, как и в статичной фотографии, но требования к вычислительной мощности компьютера оказываются несопоставимо более высокими, особенно когда речь идет о файлах с разрешением от 4К и выше. Процедура интерполяции субпикселов, которой мы коснулись в разделе Adobe Lightroom, с частотой 24 FPS вызывает серьезную нагрузку и едва ли может обойтись без достаточно производительного GPU.

Как «родной» видеоредактор RED — REDCINE-X PRO, — так и компоненты SDK, интегрированные в Premiere Pro и DaVinci Resolve, поддерживают «дебайеринг» на чипах NVIDIA посредством API CUDA, однако в дополнение к интерполяции обработка сырых видеозаписей ставит перед компьютером еще одну ресурсоемкую задачу. R3D является форматом с компрессией, и в предыдущих итерациях программных инструментов RED распаковкой данных на лету приходилось заниматься центральному процессору. Это фактически исключает возможность монтажа R3D в полном разрешении с приемлемой кадровой частотой на большинстве мобильных компьютеров. К счастью, актуальная версия редактора REDCINE-X PRO научилась декодировать файлы силами графических процессоров NVIDIA, пусть на компоненты SDK в сторонних приложениях эта функция еще не распространяется.

Наш бенчмарк REDCINE-X PRO включает пакетное декодирование нескольких файлов R3D с разрешением 4К, 6К и 8К, а результат отражает среднюю частоту смены кадров в каждом случае.

Хотя помимо CUDA, REDCINE-X знаком с универсальным графическими API OpenCL, компьютерам без дискретного GPU все равно пришлось выполнить работу силами центрального процессора (графикой Intel редактор пользоваться не умеет). Когда речь идет о ноутбучных CPU с двумя и четырьмя ядрами, отсутствие аппаратного ускорения сильно бьет по быстродействию, и это хорошо заметно в результатах теста. Причем если сменить четырехъядерник на двухъядерный процессор, скорость падает лавинообразно, а абсолютные значения кадровой частоты уже лишаются практического смысла. Другой неутешительный факт заключается в том, что игровой ускоритель начального уровня GeForce GTX 1050 не имеет никаких ощутимых преимуществ в декодировании R3D перед четырехъядерным мобильным CPU: ни то, ни другое не годится для монтажа исходников в полном разрешении. А вот GeForce RTX 2060 в работе с 4К-материалами почти достиг кадровой частоты 60 FPS, а в 8К остановился на 25. Если учесть, какую дорогую технику выпускает RED, это, пожалуй, одно из самых ярких достижений мобильной рабочей станции RTX Studio, которая в сравнении с иными «красными» видеокамерами стоит сущие копейки.

#Blender 2.8 (Cycles)

Следующий блок тестов посвящен инструментам трехмерного моделирования и оценивает быстродействие системы в нескольких популярных средах разработки и графических движках — начиная с бесплатного пакета Blender и встроенного в него рендерера Cycles. Демо Classroom, доступное на сайте Blender, содержит сцену достаточно высокой сложности для CPU и GPU мобильных компьютеров.

На чипах NVIDIA рендеринг был выполнен посредством API CUDA. В свою очередь, интегрированная графика Intel в Cycles работает под OpenCL, но особенности определенных комбинаций приложения, операционной системы и железа вновь дали о себе знать. Из актуальной версии Blender (2.8) пропала поддержка OpenCL в Cycles на платформе macOS (так Blender Foundation решила сэкономить силы разработчиков в свете грядущего отказа Apple от OpenCL), а совместимость с Metal еще даже не планируется. Ну а официальной поддержки встроенной интеловской графики в Cycles не было изначально.

Последняя причина вынудила оба «Мака» приступить к рендерингу сцены на CPU без помощи графического чипа, и на оценке быстродействия это сказалось самым плачевным образом. Четырехъядерный ноутбучный процессор потратил на работу больше 20 минут, а двухъядерный — целый час, в то время как GeForce RTX 2060 хватило около шести минут. Но это, согласитесь, слишком очевидный и довольно бесполезный вывод. Более информативный результат происходит из сравнения RTX 2060 не только с CPU, но и с дискретной графикой прошлого поколения. Оказалось, что мобильная версия GeForce GTX 1050 не так уж сильно превосходит четырехъядерный процессор по производительности в Blender и в то же время оказалась в 4–5 раз слабее по сравнению с RTX 2060. Разумеется, свой вклад в разброс показателей между GTX 1050 и RTX 2060 внесла и конфигурация оперативной памяти, доступной GPU. 6 Гбайт у нового ускорители — это уже довольно ограниченный объем, а 4 Гбайт тем более.

#MAXON Cinema 4D Studio R20 (Radeon ProRender)

В MAXON Cinema 4D интегрирован open source-движок Radeon ProRender на основе OpenCL. Этот пакет, причем именно версия R20 вместо свежей R21, лучше всего подходит для тестов ProRender, нежели, к примеру, Blender с соответствующим плагином — все благодаря щедрой библиотеке обучающих проектов, доступной для R20. Из нее мы выбрали две сцены различной сложности — простая Bamboo и весьма ресурсоемкая Coffee Beans.

К сожалению, движок ProRender, хоть и пользуется универсальным API OpenCL, не поддерживает аппаратное ускорение силами интегрированной графики Intel, и это хорошо заметно по длительности рендеринга на компактных ноутбуках без дискретных GPU. Даже на легкую сцену Bamboo двухъядерный и четырехъядерный процессоры затратили по 10–25 минут, а на сложную Coffee Beans — уже не меньше 1,5 часов. Дискретная графика, пусть и довольно неповоротливая, как, например, GeForce GTX 1050, снижает время рендеринга в несколько, а то и несколько десятков раз, а RTX 2060, в свою очередь, еще раз повторяет эту операцию. Заметим, что в бенчмарках Cinema 4D соотношение результатов между GTX 1050 и RTX 2060 вполне соответствует разнице в их вычислительной мощности, а значит объем оперативной памяти видеокарты не так сильно ограничивает младший ускоритель, как в тесте Blender.

#Autodesk Maya 2019 (Arnold)

Уже тогда, когда NVIDIA представила первые GPU с выделенными блоками трассировки лучей, не было ни малейших сомнений в том, что эта функция будет оценена под достоинству в профессиональных приложениях для 3D-рендеринга. В данный момент RT-ядра чипов Turing может задействовать бета-версия рендерера Arnold. Этот движок широко используется в киноиндустрии для чистового рендеринга анимаций и распространяется в виде плагинов для графических пакетов Maya, 3ds Max, Cinema 4D, Katana и Houdini. Кроме того, в среде Maya и 3ds Max он служит в качестве встроенного интерактивного рендерера для отрисовки viewport’а — именно так мы и проверили быстродействие Arnold на различных системах.

К сожалению, поддержка потребительского железа мало волнует разработчиков движка: даже функция рендеринга на GPU как таковая появилась в Arnold сравнительно недавно, и пока только через CUDA. Как следствие, чипы AMD и встроенная графика Intel остались в тесте Maya не у дел вне зависимости от операционной системы, а двух- и четырехъядерные ноутбучные CPU вынуждены вновь тратить на черновую отрисовку сцены время, сравнимое с высококачественным финальным рендерингом на GPU. Тем не менее, не всякий дискретный ускоритель решает задачу эффективно. Даже при том, что речь идет об упрощенном интерактивном рендеринге, GeForce RTX 1050 в итоге потребовалось ненамного меньше времени, нежели четырехъядерному CPU. Все дело, разумеется, в скромном объеме видеопамяти, ну и, к тому же, поддержка GPU в Arnold еще не вышла из статуса бета-версии, так что о безупречной оптимизации рендерера говорить преждевременно. Ну а GeForce RTX 2060, как и следовало ожидать, продемонстрировал эталонный результат, уложившись в одну минуту — все благодаря аппаратной трассировке лучей. Что и говорить, без специализированных RT-блоков такое быстродействие требует намного более мощного железа.

#OTOY RTX Octanebench 2019

OctaneRender, еще один движок трассировки лучей, поставляется в виде отдельного приложения или расширений для распространенных графических пакетов. Однако у OctaneRender есть и собственный бенчмарк, существенно упрощающий тестирование железа. В отличие от тех инструментов 3D-моделирования, которые мы изучили выше, OctaneRender не работает на CPU без помощи графического процессора, причем процессора NVIDIA, т. к. интеграции OpenCL в нем отродясь не было, а совместимость с Vulkan OTOY только планирует ввести в грядущих выпусках.

Зато актуальная версия рендерера, как и Arnold, обзавелась поддержкой RT-блоков чипов Turing, а бенчмарк позволяет оценить не только разные чипы NVIDIA, но один и тот же GPU при работе с активированными RT-ядрами и без них. Как выяснилось, GeForce RTX 2060 сам по себе в разы быстрее по сравнению с GeForce GTX 1050, но аппаратное ускорение трассировки лучей способно радикально увеличить его производительность. RT-блоки наиболее эффективны при построении инфо-каналов, свободных от тяжелых шейдерных расчетов, а в ключевых метриках теста — прямом и непрямом освещении — оценка Octanebench возросла втрое.

#Выводы

Результаты, которые нам удалось получить, сравнив мобильные компьютеры в десятке требовательных профессиональных приложений, на первый взгляд могут показаться тривиальными: шесть ядер центрального процессора лучше, чем четыре, а дискретная графика быстрее интегрированной, и что с того? Но в данном случае не менее, а подчас и более важно обратить внимание на абсолютные показатели тестов, тем более что большинство бенчмарков измеряет быстродействие системы не в абстрактных баллах, а в практически существенных и интуитивно понятных величинах — времени рендеринга и частоте смены кадров. Для столь обобщенных вопросов, на которые должно ответить это исследование, необходим именно такой подход. Ведь мы собирались узнать, какие рабочие задачи современные лэптопы научились выполнять играючи, какие им по-прежнему даются с трудом, и какая часть системы становится бутылочным горлышком в том или ином случае. Это нам вполне удалось, и вот вердикт.

Можно с уверенностью утверждать, что когда речь идет о приложениях для создания визуального контента, главным фактором, сдерживающим производительность компьютера, является не центральный процессор (при условии, что это хотя бы четырехъядерник с SMT), а видеокарта. Только софт для редактирования фотографий по-прежнему упирается в CPU и следует обратному правилу: неплохой интегрированной графики или дискретного GPU начального уровня хватит, чтобы с комфортом работать в Photoshop. Это, в действительности, серьезное достижение для компактных ультрабуков, будь то «Маки» или PC, но на этом их достоинства в контексте профессионального ПО заканчиваются.

Другие задачи — видеомонтаж или, тем более, 3D-моделирование, перекладывают львиную долю нагрузки на GPU, и что самое интересное, в них очень легко провести границу между чипами, которые либо обеспечивают приемлемый уровень быстродействия для работы на результат, либо попросту никуда не годятся. Например, в видеоредакторах ключевым показателем является кадровая частота при живом воспроизведении, а в 3D-моделировании — отзывчивость viewport’а и время чернового рендеринга, чтобы можно было оперативно оценить результаты изменений сцены. Как выяснилось, игровые ускорители бюджетной категории для этих целей совершенно не подходят (иной раз даже софтверный рендеринг на четырехъядерном CPU занимает сопоставимое время), а вот те системы, которые получили от NVIDIA сертификат RTX Studio, в самом деле оправдывают свои амбиции.

Для тестов в рабочих приложениях нам достался лэптоп ASUS ZenBook Pro Duo, по всем признакам принадлежащий к начальному уровню в программе Studio, и его производительности аккурат достаточно для таких сценариев использования. Но главное — это потенциал на будущее, который заложен в чипах Turing. Пусть сегодня далеко не каждая рабочая программа может задействовать аппаратную трассировку лучей и нейросети, но первые видеоредакторы и пакеты 3D-ренедринга, в которых появились эти функции, уже добились действительно впечатляющего, многократного увеличения производительности. Однако нет предела совершенству. В каталоге RTX Studio есть значительно более мощные системы — насколько велико их преимущество, и в каких сценариях использования, нам еще предстоит выяснить в будущем, ведь мы рано или поздно доберемся и до более высоких этажей этой программы.

 
← Предыдущая страница
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
⇣ Комментарии
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...
window-new
Soft
Hard
Тренды 🔥