Оригинал материала: https://3dnews.ru/912174

Эксперимент: 12-ядерный процессор в десктопе

Описание

В недалёком прошлом основной характеристикой центральных процессоров для настольных компьютеров, адекватно отражающей их уровень производительности, была тактовая частота. Некоторые наши читатели наверняка даже помнят те времена, когда именно эта величина, а не абстрактный процессорный номер занимала центральное место в маркировке CPU. Однако с тех пор всё сильно изменилось. Оказалось, что увеличение частоты процессоров выше 3-4 ГГц вызывает серьёзные проблемы с тепловыделением, и потому прогресс в частоте прекратился, вместо этого производители начали увеличивать количество ядер. Высокая производительность в таких чипах обеспечивается не столько способностью выполнять инструкции с высоким темпом, сколько наличием в процессоре нескольких равноправных вычислительных ядер, предлагающих возможности параллельной обработки.

Однако и развитие концепции многоядерности требует серьёзных технологических усилий — увеличение количества ядер приводит к кратному росту транзисторного бюджета и потому оказывается возможным лишь во время серьёзных прорывов в миниатюризации норм производственного процесса. Так что сегодня мы пришли к ситуации, когда разница в скорости работы флагманских процессоров разных поколений стала определяться по большей части лишь изменениями в их микроархитектуре. Действительно, никакого ощутимого прогресса в частоте мы не видим примерно с 2003 года, а количество ядер у старших моделей десктопных процессоров не растёт где-то с 2009-го. Если же к этому прибавить тот факт, что новые микроархитектуры в последнее время делают лишь робкие шаги в сторону улучшения удельной производительности, то вырисовывается достаточно унылая картина: состояние рынка процессоров для настольных систем можно охарактеризовать как явно застойное.

К счастью, понимают это не только потребители, но и сами разработчики. Поэтому, например, последний высокопроизводительный CPU компании Intel, Core i7-5960X, получил не стандартные по меркам продуктов такого класса шесть вычислительных ядер, а уже целых восемь. В ряде случаев это действительно позволило поднять быстродействие десктопных систем верхней ценовой категории на принципиально новый уровень. Однако расширение набора вычислительных ресурсов на одну треть некоторым энтузиастам может показаться недостаточной мерой, тем более что на самом деле Intel умеет делать чипы и со значительно большим числом ядер. В десктопы они не попадают, но для серверного рынка у компании есть предложения с 10, 12, 14, 15, а с первого квартала этого года – с 16 и даже с 18 ядрами. Поэтому совершенно неудивительно, что существует небольшая прослойка пользователей, которая не обращает внимания на формальное позиционирование и строит свои настольные компьютеры на базе таких монструозных многоядерных процессоров. Более того, конфигурации с подобными чипами существуют среди серийно выпускаемых компьютеров: например, 12-ядерным CPU класса Xeon может быть укомплектован один из вариантов рабочей станции Mac Pro.

Но какой бы соблазнительной ни выглядела затея создания настольной системы с многоядерным процессором, следует понимать, что уровень её реального быстродействия может оказаться существенно ниже ожидаемого. Дело в том, что выигрыш от возможности глубокого распараллеливания вычислений по ядрам могут получать далеко не все алгоритмы, и существует целый пласт реальных задач, для которых разница между CPU с восемью и, например, с двенадцатью вычислительными ядрами окажется несущественной. Не стоит забывать и о том, что сосредоточение в процессорном кристалле большего числа ядер увеличивает тепловыделение, заставляя дополнительно ограничивать частоты многоядерных CPU. В результате использование таких чипов в ряде ситуаций может оказаться не только не полезным, но и даже вредным.

Учитывая сказанное, мы решили провести эксперимент и посмотреть, доросли ли общеупотребительные десктопные нагрузки до возможностей, которые им могут предоставить современные процессоры с числом ядер больше восьми. По случаю в нашей редакции оказался 12-ядерный процессор Xeon E5 v3 нового поколения, основанный на дизайне Haswell-EP. Мы решили попробовать собрать с его участием настольную систему, похожую на флагманские платформы со старшими Haswell-E, и посмотреть на практике, будет ли от этого какой-нибудь прок.

#Процессорные ядра и масштабируемость производительности

Прежде чем заняться тестами, необходимо несколько слов сказать и о том, что эффект от увеличения числа ядер в процессоре можно оценить и без проведения практических испытаний. Совершенно очевидно, что чипы с высоким числом вычислительных ядер эффективны лишь в тех случаях, когда решаемые на компьютере задачи могут быть распараллелены. Поэтому, прежде чем воплощать в жизнь формулу «мне нужно больше ядер», нужно убедиться, что все ресурсы такого процессора действительно могут быть загружены полезной работой – только в этом случае можно будет говорить о положительном масштабировании производительности. Например, если используемые вами приложения не могут создавать более четырёх параллельных потоков, то процессор с числом ядер более четырёх будет полезен лишь в том случае, если вы будете запускать две или большее число копий таких программ одновременно.

Впрочем, даже в случае приложений с неограниченной многопоточностью прирост производительности может оказаться не впечатляющим. Дело в том, что любые, даже самые хорошо распараллеливаемые алгоритмы содержат части, которые нуждаются в последовательном выполнении. Этот фактор встаёт на пути кратной масштабируемости быстродействия и описывается в так называемом законе Амдала. Сформулированный американским математиком Джином Амдалом ещё в 1969 году принцип гласит: «В случае, когда задача разделяется на несколько частей, суммарное время её выполнения на параллельной системе не может быть меньше времени выполнения самого длинного фрагмента». И это значит, что ускорение выполнения программы за счёт распараллеливания на множестве процессорных ядер ограничено временем, необходимым для выполнения её последовательных связанных частей.

Идею закона Амдала проще всего пояснить практическим примером: если в программе идеальному распараллеливанию поддаётся 90 процентов кода, а оставшиеся 10 процентов могут выполняться лишь в однопоточном режиме, то максимально достижимо только десятикратное увеличение скорости работы программы — вне зависимости от того, насколько большим количеством ядер располагает процессор. Именно поэтому многоядерные архитектуры эффективнее всего использовать в тех ситуациях, когда доля последовательного кода минимальна. При этом увеличение тактовой частоты остаётся более действенным и универсальным способом улучшения быстродействия.

На следующей иллюстрации мы приводим графики теоретически рассчитанного по закону Амдала ускорения выполнения программ с долями параллельного кода от 50 до 95 процентов для равночастотных процессоров с числом ядер от 1 до 20.

Глядя на график, нетрудно уловить важную закономерность. С ростом количества вычислительных ядер в процессоре получаемый за счёт этого прирост производительности постепенно снижается. То есть если, например, шестиядерный процессор позволяет получить четырёхкратное улучшение быстродействия по сравнению с одноядерным, то это совершенно не означает, что применение для решения той же задачи 12-ядерного CPU позволит довести прирост в быстродействии до восьмикратного уровня. Более того, увеличение числа ядер выше восьми имеет смысл лишь в таких задачах, где доля распараллеливаемого кода больше 80 процентов. В противном случае кратное усложнение (и, соответственно, удорожание) CPU обернётся лишь незначительным выигрышем в производительности, который не будет превышать и 20 процентов.

Именно основываясь на подобных расчётах, Intel и приняла решение ограничить количество ядер в десктопных процессорах восемью штуками. Большинство общеупотребительных задач, решаемых настольными компьютерами, имеют долю распараллеливаемого кода, не превышающую 80-процентного уровня, поэтому использование в них CPU с серверным арсеналом ядер попросту нецелесообразно. А для основной массы игровых приложений, пусть даже и оптимизированных под многопоточность, где доля параллельного кода редко выходит за 60-процентную границу, вполне хватит и процессоров с четырьмя ядрами. Дальнейшее же углубление многоядерности может добавить к производительности лишь 15-20 процентов, что вряд ли можно назвать достойным откликом на рост количества вычислительных ядер в несколько раз.

Все приведённые выше теоретические расчёты сделаны для идеального случая и не учитывают, что ядра разделяют между собой общие ресурсы, такие как кеш и оперативная память, а также имеют ограниченный канал для взаимодействия. Поэтому в реальной жизни производительность может масштабироваться ещё хуже, чем показано на графиках. Более того, при увеличении числа ядер выше некой границы их быстродействие может даже снижаться. Здесь же нужно упомянуть и о том, что увеличение сложности процессора в большинстве случаев влечёт за собой некоторое снижение его предельной тактовой частоты. Поэтому с многоядерными CPU явно не стоит связывать большие надежды. Формула «больше ядер — выше быстродействие» работает далеко не всегда, причём десктопные нагрузки представляют собой как раз не очень благоприятную среду для подобной масштабируемости. Иными словами, увеличение числа ядер – достаточно специфический способ для улучшения быстродействия процессора, и подходит он далеко не для всех ситуаций.

#Xeon E5 v3 и Core i7-5хх0: в чём разница

Первые процессоры серии Haswell-EP, появившиеся в результате перевода серверных многоядерных CPU на микроархитектуру Haswell, появились одновременно с Haswell-E осенью прошлого года. Эти чипы, получившие официальное наименование Xeon E5 v3, основываются на полупроводниковых кристаллах, производимых по 22-нм технологии, и предназначаются для установки в платы с одним или несколькими разъёмами LGA2011-3, не совместимыми по выводам с привычным LGA2011, использовавшимся в серверных платформах прошлых поколений. Основными преимуществами Haswell-EP по сравнению с их предшественниками Sandy Bridge-EP и Ivy Bridge-EP стало увеличение максимального количества ядер вместе с ростом объёма кеш-памяти, а также снижение тепловыделения. Кроме того, процессоры Xeon E5 v3 получили встроенный преобразователь питания и поддержку AVX2-инструкций, а также унаследовали ряд других улучшений, повышающих удельную производительность за счёт оптимизаций на уровне микроархитектуры.

Когда мы знакомились с высокопроизводительной десктопной платформой LGA2011-3 и с процессорами семейства Haswell-E, мы говорили о том, что она получена в результате адаптации серверных процессоров Haswell-EP для настольных систем. Именно это и обуславливает наличие между ними родственных связей, которые позволяют устанавливать процессоры класса Xeon E5 v3 в материнские платы на базе набора логики Intel X99. В существовании такой совместимости нет ничего странного: подобные полусерверные-полудесктопные конфигурации можно было создавать и на базе процессоров и платформ прошлого поколения – ничего не изменилось и с внедрением новой микроархитектуры. Haswell-E и Haswell-EP используют одинаковый процессорный разъём, а для работоспособности Xeon E5 v3 в материнках для настольных ПК необходима лишь их поддержка со стороны BIOS, которую производители плат обычно добавляют как минимум в своих продуктах верхней ценовой категории.

Однако между Xeon E5 v3 и Core i7-5xx0 для LGA2011-3 знак тождественного равенства поставить всё же нельзя. Эти процессоры имеют важные различия: на фоне Haswell-EP десктопный дизайн имеет заметные упрощения, а старшие модификации Xeon E5 v3, обладающие числом ядер более восьми, могут похвастать более продвинутой внутренней конструкцией. В частности, для серверных процессоров Haswell-EP у Intel подготовлено три принципиально различных процессорных кристалла, но в Haswell-E используется лишь самый простой из них.

 Ядро 18-ядерного процессора семейства Xeon E5 v3

Ядро 18-ядерного процессора семейства Xeon E5 v3

Младшие Xeon E5 v3 с числом ядер до восьми включительно, так же как и десктопные Haswell-E, основываются на кристалле площадью 354 мм2, состоящем из 2,6 млрд транзисторов. Структурно этот кристалл состоит из двух рядов процессорных ядер, между которыми расположен разделяемый кеш третьего уровня. Ядра и блоки кеша объединяются между собой одной двунаправленной кольцевой шиной, к которой подключён четырёхканальный контроллер памяти с поддержкой DDR4 SDRAM, контроллер шины PCI Express 3.0 и QPI-интерфейс, необходимый при создании многопроцессорных конфигураций.

Процессоры Xeon E5 v3, обладающие числом ядер от 10 до 12, используют более массивный полупроводниковый кристалл, включающий 3,84 млрд транзисторов и оккупирующий площадь 492 мм2. В нём вычислительные ядра расположены тремя рядами, а кеш распределён в двух областях — между первыми двумя рядами ядер и с наружного края третьего ряда. Для коммутации и обмена данными в этом случае используется уже две равноправные кольцевые шины. Одна связывает первые ряды ядер и кеша, а вторая работает с третьим рядом и крайней областью кеш-памяти. Для обмена данными между кольцевыми шинами в процессоре появился дополнительный элемент — буферизирующий коммутатор. Такая схема, получившая название «кластер-на-ядре», снижает нагрузку на кольцевые шины и обеспечивает более высокую скорость взаимодействия между ядрами и лучшую пропускную способность кеш-памяти при многопоточных нагрузках. Более того, в таком варианте процессорного дизайна контроллер памяти разделён на две части, которые разведены по различным кольцевым шинам. Фактически процессоры Xeon E5 v3 с числом вычислительных ядер более 10 обладают не одним четырёхканальным, а двумя двухканальными контроллерами памяти с поддержкой DDR4 SDRAM.

Самый же сложный вариант полупроводникового кристалла Haswell-EP, который предназначается для процессоров с 14-18 вычислительными ядрами, имеет ещё более замысловатое строение. Площадь такого кристалла составляет 662 мм2, он содержит 5,69 млрд транзисторов. В нём ядра расположены четырьмя рядами, между которыми проложены две области кеш-памяти третьего уровня. Как и в предыдущем случае, эти элементы объединены двумя кольцевыми шинами, сопряжёнными в единое целое буферизирующим коммутатором. Контроллер памяти DDR4 вновь разделён на две двухканальные части, а контроллеры PCIe и QPI отнесены к той из кольцевых шин, которая обслуживает меньшее количество ядер.

Вариант с двумя независимыми двунаправленными кольцевыми шинами и буферизирующим коммутатором в Haswell-EP нашёл применение впервые. Ранее в многоядерных процессорах Sandy Bridge-EP и Ivy Bridge-EP ядра объединялись тремя однонаправленными кольцевыми шинами, проходящими через разные группы ядер. Такая схема была проще и обходилась без какой-либо коммутации, но она показала свою неэффективность в сложных многопоточных задачах, в которых трафик по кольцевым шинам сильно возрастал и мог привести к нежелательным простоям ядер.

Одной из ключевых возможностей, появившихся в LGA2011-3-процессорах, стала поддержка нового типа памяти DDR4 SDRAM с большими рабочими частотами и меньшим напряжением питания. Совместимость с такой памятью есть как в серверных, так и в десктопных модификациях CPU, однако контроллеры DDR4, которыми располагают серверные Xeon E5 v3, имеют несколько иные возможности, чем есть в процессорах класса Core i7-5хх0. Для серверных CPU критичным является объём поддерживаемой памяти, поэтому в них введена поддержка регистровых модулей (RDIMM) и модулей с пониженной нагрузкой (LRDIMM). В результате если десктопный Haswell-E позволяет установить до 64 Гбайт памяти восемью небуферизованными планками, серверные процессоры Haswell-EP могут комплектоваться массивом из двенадцати модулей LRDIMM общей ёмкостью до 768 Гбайт или аналогичным количеством RDIMM-модулей общим объёмом 384 Гбайт. При этом скорость таких модулей, так же как и в случае десктопных платформ, может достигать режима DDR4-2133. Таким образом, если принять во внимание четырёхканальную архитектуру контроллера DDR4 SDRAM в Haswell-EP, максимальная производительность подсистемы памяти составляет 68 Гбайт/с на процессор.

Ещё одно различие между Haswell-E и Haswell-EP заключается в поддержке шины QPI. В серверных платформах эта шина используется для создания межпроцессорных соединений, поэтому в десктопных моделях CPU она отсутствует. Серверные же Xeon E5 v3 имеют активный контроллер QPI 1.1, который, кстати говоря, реализует две шины с пропускной способностью 9,6 ГТрансфер/с, что на 20 процентов выше полосы пропускания межпроцессорной шины в Sandy Bridge-EP и Ivy Bridge-EP.

#Тестовый процессор: Xeon E5-4650 v3

На самом деле, если уж говорить об использовании мощных серверных процессоров в составе настольных конфигураций, то для этой цели лучше бы подошли процессоры серии Xeon E5-2600 v3, имеющие до 18 ядер и формально ориентированные на двухпроцессорные конфигурации. Однако нам выбирать не приходится – компания Intel предоставила нам для экспериментов Xeon E5-4650 v3, ориентированный на четырёхпроцессорные системы. Впрочем, для десктопной платформы с единственным процессорным разъёмом почти никакой разницы нет. Да, Xeon E5-4650 v3, в отличие от Xeon E5-26xx v3, обойдётся несколько дороже, однако в этой статье о стоимости мы говорить не будем.

Xeon E5-4650 v3 – это серверный Haswell-EP средней мощности. Он несёт в себе 12 вычислительных ядер с поддержкой технологии Hyper-Threading, обладает L3-кешем объёмом 30 Мбайт и имеет паспортную тактовую частоту 2,0 ГГц. Обратите внимание, частота этого CPU заметно ниже, чем у десктопного восьмиядерника Core i7-5960X, и это – расплата за возросшее количество ядер. К тому же роль играет и тот факт, что тепловой пакет Xeon E5-4650 v3, ориентированного на использование в составе упакованных в стоечные корпуса многопроцессорных конфигураций, ограничен достаточно консервативной величиной 105 Вт. Впрочем, невысокая паспортная частота отчасти компенсируется режимом Turbo, благодаря которому процессор может разгоняться до 2,6 ГГц при небольших нагрузках и до 2,3 ГГц при нагрузке на все 12 ядер.

Как это ни странно, но такой типично серверный процессор без каких-либо проблем может работать в десктопной материнской плате. Несмотря на то, что для систем на базе Haswell-EP у Intel имеются специализированные наборы логики, например Intel C612, серверные LGA2011-3-процессоры прекрасно себя чувствуют в типично десктопных платах на базе чипсета Intel X99. Мы проверили наш тестовый Xeon E5-4650 v3 в ASUS X99-Deluxe и в ASUS Rampage V Extreme – в обоих случаях никаких препятствий не возникло, да и в списке совместимости на сайте ASUS поддержка Xeon E5 v3 материнскими платами на базе Intel X99 обещана явно. Более того, как показала практика, Haswell-EP легко находит общий язык и с обычной небуферизованной DDR4 SDRAM, так что десктопная платформа с процессором серии Xeon E5 v3 на самом деле не требует никаких специальных комплектующих серверного класса. Иными словами, если вы решитесь собирать настольную систему с многоядерным серверным CPU, дополнительных трат не потребуется – раскошелиться придётся только на сам процессор. Например, цены 12-ядерных Haswell-EP начинаются с отметки в $1 500.

Выше мы подробно расписали преимущества Xeon E5 v3 перед Core i7-5хх0, главными из которых являются увеличенное число вычислительных ядер и более продуманная схема внутренних коммуникаций. Однако у серверных процессоров есть и явные минусы, которые наверняка огорчат энтузиастов. Дело в том, что десктопные Haswell-E благосклонны к разгону и имеют незаблокированные множители, позволяя произвольно варьировать частоту вычислительных ядер, кеша и памяти. Серверные же процессоры такие вольности пресекают на корню. Поднять частоту выше величин, предусмотренных технологией Turbo Boost, невозможно. Не допускается также и тактование памяти в режимах, превосходящих DDR3-2133. И это значит, что на любом разгоне Xeon E5 v3 можно поставить крест.

Таким образом, несмотря на то, что изначально идея использования процессора Xeon E5 v3 в десктопной платформе выглядела очень многообещающе, по мере более глубокого погружения в тему мы сталкиваемся с всё возрастающим числом аргументов против. И хотя никаких явных препятствий для создания серверно-десктопного гибрида пока не просматривается, похоже, что это попросту нецелесообразно. Впрочем, не будем забегать вперёд — перед тем как делать какие-то выводы, давайте ознакомимся с результатами тестов.

Тестирование. Выводы

#Описание тестовых систем и методики тестирования

Производительность 12-ядерного Xeon E5-4650 v3, работающего в составе десктопной платформы на базе материнской платы ASUS X99-Deluxe с DDR4-2133-памятью, мы сравнили со скоростью той же самой платформы, укомплектованной традиционным для неё восьмиядерным процессором Core i7-5960X. А это значит, что список задействованных в тестировании аппаратных компонентов един для обоих случаев и выглядит следующим образом:

  • Процессоры:
    • Intel Core i7-5960X Extreme Edition (Haswell-E, 8 ядер + HT, 3,0-3,5 ГГц, 20 Мбайт L3);
    • Intel Xeon E5-4650 v3 (Haswell-EP, 12 ядер + HT, 2,0-2,6 ГГц, 30 Мбайт L3).
  • Процессорный кулер: Noctua NH-D15.
  • Материнская плата: ASUS X99-Deluxe (LGA2011-v3, Intel X99);
  • Память: 4 × 4 Гбайт DDR4-2133 SDRAM, 15-15-15-35 (G.Skill [Ripjaws 4] F4-2133C15Q-16GRR).
  • Видеокарта: NVIDIA GeForce GTX 980 (4 Гбайт/256-бит GDDR5, 1127-1216/7012 МГц).
  • Дисковая подсистема: Crucial M550 512 GB (CT512M550SSD1).
  • Блок питания: Seasonic Platinum SS-760XP2 (80 Plus Platinum, 760 Вт).

Тестирование выполнялось в операционной системе Microsoft Windows 8.1 Professional x64 with Update с использованием следующего комплекта драйверов:

  • Intel Chipset Driver 10.0.20;
  • Intel Management Engine Driver 10.0.0.1204;
  • Intel Rapid Storage Technology 13.2.4.1000;
  • NVIDIA GeForce 347.88 Driver.

Процессор Core i7-5960X испытывался дважды – не только при работе в номинальном режиме, но и при стабильном, подходящем для долговременного использования разгоне до 4,2 ГГц, который достижим с применяемым нами охлаждением при увеличении напряжения до 1,2 В. Сопоставляемый с ним Xeon E5-4650 v3, напомним, имеет заблокированный коэффициент умножения, поэтому он был протестирован лишь в своём паспортном режиме быстродействия.

Поскольку упор в данном тестировании делался на исследование работы серверного многоядерного процессора в десктопной среде, для измерения производительности применялись типичные для настольных систем бенчмарки и приложения. Правда, среди наших традиционных тестовых инструментов мы постарались выбрать те, которые создают наиболее тяжёлую нагрузку.

Бенчмарки:

  • Futuremark PCMark 8 Professional Edition 2.3.293 — тестирование в сценариях Home (обычное домашнее использование PC), Creative (использование PC для развлечений и для работы с мультимедийным контентом) и Work (использование PC для типичной офисной работы).
  • Futuremark 3DMark Professional Edition 1.4.828 — тестирование в сценах Sky Driver, Cloud Gate и Fire Strike.

Приложения:

  • ABBYY FineReader 12.0 – при тестировании в системе распознавания текста мы проводим перевод объёмного, предварительно просканированного документа, содержащего большое количество формул и графической информации, в текстовый формат.
  • Adobe After Effects CC 2014 — тестирование скорости рендеринга методом трассировки лучей. Измеряется время, затрачиваемое системой на обсчёт в разрешении 1920 × 1080@30fps заранее подготовленного видеоролика.
  • Adobe Photoshop CC 2014 — тестирование производительности при обработке графических изображений. Измеряется среднее время выполнения тестового скрипта, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, который включает типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.
  • Adobe Photoshop Lightroom 5.7.1 – тестирование производительности при пакетной обработки серии изображений в RAW-формате. Тестовый сценарий включает постобработку и экспорт в JPEG с разрешением 1920 × 1080 и максимальным качеством двухсот 12-мегапиксельных изображений в RAW-формате, сделанных цифровой камерой Nikon D300
  • Adobe Premiere Pro CC 2014 — тестирование производительности при нелинейном видеомонтаже. Измеряется время рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.
  • Autodesk 3ds max 2015 — тестирование скорости финального рендеринга. Измеряется время, затрачиваемое на рендеринг в разрешении 1920 × 1080 с применением рендерера mental ray одного кадра стандартной сцены Space_Flyby из тестового пакета SPEC.

  • Maxon Cinebench R15 — измерение быстродействия фотореалистичного трёхмерного рендеринга в анимационном пакете CINEMA 4D. Применяемая в бенчмарке сцена содержит порядка 2 тысяч объектов и состоит из 300 тысяч полигонов.

  • WinRAR 5.1 — тестирование скорости архивации. Измеряется время, затрачиваемое архиватором на сжатие директории с различными файлами общим объёмом 1,7 Гбайт. Используется максимальная степень компрессии.
  • x264 r2491 — тестирование скорости транскодирования видео в формат H.264/AVC. Для оценки производительности используется исходный 1080p@50FPS AVC-видеофайл, имеющий битрейт около 30 Мбит/с.
  • X265 1.5+446 8bpp — тестирование скорости транскодирования видео в перспективный формат H.265/HEVC. Для оценки производительности используется тот же видеофайл, что и в тесте скорости транскодирования кодером x264.

Игры:

  • Battlefield 4. Настройки для разрешения 1280 × 800: Graphics Quality = Custom, Texture Quality = Ultra, Texture Filtering = Ultra, Lighting Quality = Ultra, Effects Quality = Ultra, Post Process Quality = Ultra, Mesh Quality = Ultra, Terrain Quality = Ultra, Terrain Decoration = Ultra, Antialiasing Deferred = Off, Antialiasing Post = High, Ambient Occlusion = HBAO. Настройки для разрешения 1920 × 1080: Graphics Quality = Ultra.
  • Civilization: Beyond Earth. Настройки для разрешения 1280 × 800: DirectX11, Ultra Quality, Anti-aliasing = Off, Multithreaded rendering = On. Настройки для разрешения 1920 × 1080: DirectX11, Ultra Quality, 8x MSAA, Multithreaded rendering = On.
  • Hitman: Absolution. Настройки для разрешения 1280 × 800: Ultra Quality, MSAA = Off, High Texture Quality, 16x Texture Aniso, Ultra Shadows, High SSAO, Global Illumination = On, High Reflections, FXAA = On, Ultra Level of Detail, High Depth of Field, Tesselation = On, Normal Bloom. Настройки для разрешения 1920 × 1080: Ultra Quality, 8x MSAA, High Texture Quality, 16x Texture Aniso, Ultra Shadows, High SSAO, Global Illumination = On, High Reflections, FXAA = On, Ultra Level of Detail, High Depth of Field, Tesselation = On, Normal Bloom.
  • Metro: Last Light Redux. Настройки для разрешения 1280 × 800: DirectX 11, High Quality, Texture Filtering = AF 16X, Motion Blur = Normal, SSAA = Off, Tessellation = High, Advanced PhysX = Off. Настройки для разрешения 1920 × 1080: DirectX 11, Very High Quality, Texture Filtering = AF 16X, Motion Blur = Normal, SSAA = On, Tessellation = High, Advanced PhysX = Off. При тестировании используется сцена Scene 1.

#Производительность в комплексных тестах

PCMark 8 2.0 моделирует действия пользователя в общеупотребительных приложениях для дома, офиса или для создания контента. И хотя, безусловно, существуют отдельные примеры таких приложений, хорошо оптимизированных под многоядерные процессоры, большинство из них довольствуется распараллеливанием нагрузки на пару-тройку потоков — и не более того. Поэтому 12-ядерный процессор Xeon смотрится в этом тесте хуже восьмиядерного Core i7. Львиная доля ядер и того и другого процессора значительную часть времени банально простаивает, и определяющее влияние на результат оказывает тактовая частота, которая у десктопного процессора выше. Всё это означает лишь одно: использовать серверные многоядерные процессоры для ординарных настольных систем никакого смысла нет. Обычные десктопные CPU и стоят существенно меньше, и выдают при таких нагрузках ощутимо лучшую производительность.

Производительность в приложениях

Для этого раздела мы специально выбрали оптимизированные под многопоточные среды приложения, которые обычно хорошо воспринимают увеличение количества доступных процессорных ядер.

Судя по всему, 12 ядер – это перебор для десктопных систем даже в том случае, когда речь идёт о работе с ресурсоёмкими приложениями. Восьмиядерный Core i7-5960X оказывается быстрее 12-ядерного Xeon E5-4650 v3 даже при создании и обработке контента. Более высокая частота оказывается лучше, чем огромный массив вычислительных ядер, что представляет собой отличную практическую иллюстрацию закона Амдала. Можно выделить лишь две задачи, для решения которых имеет смысл привлекать серверные многоядерные процессоры, – перекодирование видео и финальный рендеринг. Однако даже в этих, наиболее благоприятных для 12-ядерного Xeon E5 v3, случаях Core i7-5960X в конечном итоге всё равно оказывается эффективнее. Десктопный процессор можно разогнать, и в результате не остаётся ни одной программы, в которой Xeon E5-4650 v3 оказался бы лучшим вариантом. В целом при работе в номинальном режиме усреднённое превосходство Core i7-5960X в производительности составляет порядка 15 процентов, а этот же процессор с увеличенной до 4,2 ГГц частотой обгоняет Xeon E5-4650 v3 уже на 37 процентов. А это значит, что процессоры с числом ядер более восьми для настольных компьютеров на современном этапе подходят очень и очень плохо.

Производительность в играх

Совершенно очевидно, что если уж 12-ядерный процессор Xeon E5-4650 v3 не смог продемонстрировать сколь-нибудь приемлемых результатов в большинстве многопоточных приложений, то хорошим геймерским вариантом он заведомо не окажется. Тем не менее ради полноты картины мы провели несколько тестов и такого рода.

Тестирование в реальных играх предваряют результаты синтетического бенчмарка 3DMark, который выдаёт некую усреднённую метрику игровой 3D-производительности систем.

Как мы знаем по результатам тестов шести- и восьмиядерных процессоров, 3DMark хорошо оптимизирован под многопоточные среды. Однако 12 ядер, которые может предложить Xeon E5-4650 v3, – это чересчур даже для данного бенчмарка. Из-за того, что серверный процессор имеет сравнительно невысокую тактовую частоту, его результаты оказываются заметно хуже, чем у флагманского десктопного Core i7-5960X. Вывод вполне очевиден: в то время как увеличение частоты гарантированно обеспечивает пропорциональное улучшение производительности, добавление в процессор вычислительных ядер масштабирует быстродействие по гораздо более сложному закону с отрицательным значением второй производной.

Тестирование в реальных играх редко когда позволяет выявить принципиальные различия между высокопроизводительными процессорами. При современной игровой нагрузке узким местом становятся не вычислительные ресурсы платформы, а её графическая подсистема. Именно поэтому в большинстве случаев совершенно безразлично, какой из процессоров используется в той или иной геймерской платформе. Количество FPS, скорее всего, от этого зависеть будет крайне незначительно. Тем не менее отказываться от тестирования в играх это повода не даёт. Просто для лучшей иллюстративности вместе с измерением игровой производительности в типичном Full HD-разрешении 1920 × 1080 с включённым полноэкранным сглаживанием мы делаем замеры и в разрешении 1280 × 800. Результаты в первом случае показывают тот уровень FPS, который можно получить в реальных условиях прямо сейчас, второй же вариант тестирования позволяет оценить теоретическую игровую производительность процессоров, которая, возможно, будет раскрыта в перспективе, если в нашем распоряжении появятся более быстрые варианты графической подсистемы.

Тесты в Full HD-разрешении:

Ничего хорошего для 12-ядерного Xeon E5-4650 v3 на приведённых диаграммах нет. Игровая производительность у этого процессора ниже, чем у Core i7-5960X, и это видно даже в «тяжёлых» графических режимах, где, по идее, процессор почти никогда не становится узким местом. Для современных игр совершенно не нужно то запредельное количество ядер, которое есть у этого процессора. Кроме того, более сложное внутреннее строение с двумя кольцевыми шинами и буферизирующим коммутатором хорошо подходит для одновременного многопоточного доступа к данным, а в обычных задачах лишь создаёт ненужные накладные расходы, снижающие скорость работы подсистемы памяти. Всё это тоже не лучшим образом сказывается на производительности в играх и вновь подводит нас к выводу о том, что многоядерные серверные процессоры – неудачный выбор для настольных и уж тем более для геймерских систем.

Тесты в уменьшенном разрешении:

Здесь всё, о чём мы говорили выше, проявляется ещё сильнее. «Сложные» варианты Haswell-EP с дизайном, явно оптимизированным под решение многопоточных задач, в приложениях, которые порождают сравнительно небольшое число потоков (к ним, например, относятся современные игры), работают хуже, чем более простой Haswell-E. Поэтому случаев удачного применения процессоров вроде Xeon E5-4650 v3 в геймерских системах попросту не бывает. Серверные CPU могут быть эффективными в ресурсоёмких счётных приложениях, но в игровых системах им явно не место.

Энергопотребление

Измерение энергопотребления – не менее интересная часть тестирования Xeon E5-4650 v3, чем исследование его производительности. Дело в том, что, хотя этот 22-нм процессор и обладает 12 вычислительными ядрами с микроархитектурой Haswell, его расчётное тепловыделение составляет всего 105 Вт. Это на четверть меньше потребления восьмиядерного процессора Core i7-5960X. Поскольку Xeon E5-4650 v3 ориентирован на применение в четырёхпроцессорных серверах, Intel понизила его напряжение питания до 0,89 В, что и дало такой эффект. Конечно, попутно пришлось сбавить и тактовую частоту, тем не менее поверить в то, что 12-ядерный LGA2011-3-процессор, основанный на гигантском полупроводниковом кристалле, может потреблять лишь чуть больше энергии, нежели четырёхъядерник LGA1150, достаточно тяжело. Что ж, проверим.

На следующих ниже графиках приводится полное потребление систем (без монитора), измеренное на выходе из розетки, в которую подключен блок питания тестовой системы, и представляющее собой сумму энергопотребления всех задействованных в системе компонентов. В суммарный показатель автоматически включается и КПД самого блока питания, однако с учетом того, что используемая нами модель БП, Seasonic Platinum SS-760XP2, имеет сертификат 80 Plus Platinum, его влияние должно быть минимальным. Для правильной оценки энергопотребления мы активировали режим Turbo Boost и все имеющиеся энергосберегающие технологии.

В состоянии простоя система на базе Xeon E5-4650 v3 потребляет немного больше, чем аналогичные системы с десктопным Haswell-E. Это – отражение более сложной внутренней конструкции Haswell-EP.

Любопытно, что при перекодировании видео кодером x265 система с Xeon E5-4650 v3 оказывается экономичнее аналогичной платформы с Core i7-5960X. Выше, в тестах производительности, мы видели, что системы с этими процессорами выдают примерно одинаковое быстродействие при решении данной задачи. Следовательно, Xeon E5-4650 v3 предлагает заметно лучшую энергоэффективность: по этой характеристике его преимущество перед флагманским десктопным CPU составляет около 22 процентов. Таким образом, наращивание количества процессорных ядер – это ещё один путь к энергоэффективным вычислениям, правда, применимый лишь для очень хорошо распараллеливаемых задач.

При измерении максимального потребления при нагрузке, создаваемой 64-битной версией утилиты LinX 0.6.5, Xeon E5-4650 v3 вновь проявляет свою относительную экономичность. Разница в потреблении одной и той же платформы с серверным 12-ядерным и десктопным восьмиядерным CPU составляет 50 Вт. Иными словами, попавший в наши руки Haswel-EP может обеспечить очень заметную экономию. Однако следует иметь в виду, что среди серверных процессоров есть и очень прожорливые модели, TDP которых может доходить до 145 или даже 160 Вт.

#Выводы

Изначально использование серверного многоядерного процессора в составе настольной платформы представлялось очень интересной и здравой затеей. Производители процессоров давно пытаются приучить нас к мысли о том, что количество вычислительных ядер – это одна из важнейших характеристик, оказывающих самое непосредственное влияние на быстродействие системы. При этом самый старший из LGA2011-3-процессоров для настольных систем обладает восемью ядрами, а его серверные собратья могут предложить до 18 ядер. Поэтому на первый взгляд кажется, что, использовав многоядерный Xeon E5 v3, нетрудно собрать более производительную конфигурацию, чем позволяют получить флагманские чипы семейства Haswell-E.

Но реальность идёт вразрез с ожиданиями. Протестированная нами конфигурация на базе 12-ядерного Xeon E5 v3 оказалась очень похожей на троллейбус из буханки. Никаких особых ухищрений для её воплощения в жизнь действительно не нужно, но практическая ценность результата вызывает очень серьёзные сомнения.

С одной стороны, серверные процессоры Haswell-EP без каких-либо проблем работают в обычных десктопных материнских платах с разъёмом LGA2011-3, построенных на базе набора системной логики Intel X99. Всё что нужно от платы – это поддержка Xeon E5 v3 на уровне BIOS, и такая поддержка имеется в большинстве флагманских материнских плат ведущих производителей.

Однако с другой стороны, работая в составе настольных персональных компьютеров, многоядерные Haswell-EP чувствуют себя явно не в своей тарелке. Во-первых, при увеличении количества вычислительных ядер свыше 6-8 штук масштабирование быстродействия серьёзно замедляется, и у серверных Xeon E5 v3 получается обогнать по скорости Core i7-5960X лишь в очень небольшом числе общеупотребительных приложений. Это – прямое следствие наличия в коде почти любых десктопных программ участков нераспараллеливаемого кода. Во-вторых, внедрённый в Haswell-EP дизайн «кластер-на-ядре» глубоко оптимизирован именно под многопоточные нагрузки, поэтому в обычных для настольных компьютеров задачах его ресурсы используются неоптимально, вызывая дополнительное снижение производительности при обмене данными с памятью. Ярким примером такой ситуации выступают игры, где в глаза бросается странное отставание серверного процессора от десктопного даже в режимах с максимальным качеством изображения. И в-третьих, в Xeon E5 v3 полностью заблокированы все возможности для оверклокинга. Десктопные же процессоры для платформы LGA2011-3 неплохо разгоняются и в умелых руках могут серьёзно увеличивать свою производительность, чего их серверные собратья попросту не умеют.

В сумме же получается, что если вы хотите построить высокоэффективную настольную систему с максимально возможной на сегодняшний день производительностью, обращать внимание на какие-то экзотические варианты вроде рассмотренного в этом материале никакого смысла нет. Intel нас не обманывает: десктопные процессоры серии Core i7-5xx0 – наилучший на данный момент выбор для энтузиастов.



Оригинал материала: https://3dnews.ru/912174