Обзор процессора Core i9-7900X: предвестник ядерной войны / Процессоры и память

Обновление интеловской HEDT-платформы было запланировано уже очень давно. Ещё год назад, когда компания выпускала свои процессоры Broadwell-E, было известно, что они приходят всего на год и этим летом им на смену должны прийти более новые Skylake-X. Однако ничего особенно интересного от этого события не ожидалось. Примечательным в планирующемся анонсе было разве только то, что компания Intel собиралась сократить существующий архитектурный разрыв между массовыми и высокопроизводительными чипами и выпустить в рамках новой версии HEDT-платформы не только CPU, базирующиеся на дизайне Skylake (который был представлен ещё летом 2015 года), но и чипы с наиболее свежей архитектурой Kaby Lake. Впрочем, многоядерные процессоры для настольных систем должны были выйти лишь в семействе Skylake-X, а семейство Kaby Lake-X должно было включать лишь дополнительные и второстепенные четырёхъядерные чипы, по сути являющиеся аналогами массовых Kaby Lake для платформы LGA1151.

Таким образом, с точки зрения энтузиастов, платформа HEDT должна была продолжить своё планомерное движение привычным курсом: немного больше ядер, немного выше частоты, чуть иной сокет, немного возросшие цены и т. п. И мы нисколько не сомневаемся, что всё бы так и было, если бы этой весной не случился Ryzen. Новая архитектура, которую представила AMD, получалась настолько удачной, а ценовая политика этой компании оказалась настолько дерзкой, что Intel попросту не смогла оставить поползновения конкурента без какого-либо ответа. Тем более что AMD к тому же объявила о проекте Threadripper, в котором было заложено намерение посягнуть на святая святых – сегмент высокопроизводительных платформ с многоядерными процессорами, где Intel давно считала себя единственным и неповторимым игроком.

В результате новые процессоры Skylake-X, о которых мы ведём речь сегодня, получили два принципиально важных неожиданных изменения.

Первое: Intel решила не сдерживать себя в увеличении числа процессорных ядер, и в рамках новой платформы ожидаются десктопные CPU с 12, 14, 16 и 18 ядрами. Это значит, что впервые Intel будет предлагать энтузиастам не только адаптированные версии серверных процессоров Skylake-SP, основанные на самом простом варианте полупроводникового кристалла LCC (Low Core Count), но и процессоры на кристалле средней сложности HCC (High Core Count), что позволит более уверенно адресовать платформу HEDT аудитории профессионалов – создателям видеоконтента, моделлерам и разработчикам, работающим со сверхвысокими разрешениями и виртуальной реальностью.

Второе же изменение ещё более поразительно и касается ценовой политики. Процессоры Skylake-X стали значительно дешевле своих предшественников. Если в семействе Broadwell-E десятиядерный процессор стоил $1 723, то аналогичный по количеству ядер Skylake-X обойдётся всего в $999. Подобные изменения касаются и остальных представителей модельного ряда. В целом если раньше цены на старшие процессоры HEDT-класса формировались по принципу «$170 за ядро», то теперь для многоядерных Skylake-X будет действовать куда более либеральное правило «$100 за ядро».

В конечном же итоге новое воплощение HEDT-платформы становится более доступным и более приближенным к конечному пользователю. Число сценариев, где эта платформа может найти применение, возрастает, а входной порог понижается. Иными словами, процессоры Skylake-X и Kaby Lake-X уже не кажутся столь элитарными и статусными продуктами. Очевидно, что число желающих приобрести именно их, а не флагманские LGA1151-чипы, будет явно больше, чем раньше. И в этом обзоре мы подробнее познакомимся с новой HEDT-платформой и десятиядерным процессором Core i9-7900X – старшим на ближайшую пару месяцев вариантом Skylake-X, который уже через неделю появится на прилавках магазинов.

⇡#Процессоры Skylake-X: общие сведения

Новая HEDT-платформа компании Intel носит кодовое имя Basin Falls и представляет собой гораздо более комплексный и масштабируемый продукт, нежели высокопроизводительные платформы прошлых поколений, которые использовали процессорные разъёмы LGA2011 и LGA2011-3.

Ранее модельный ряд в каждом поколении HEDT-платформы включал всего лишь по три-четыре CPU, число ядер у которых различалось не более чем в полтора-два раза. Теперь же процессоров, совместимых с платформой Basin Falls, будет не менее девяти, причём разница в количестве ядер между самым простым и самым навороченным чипом будет более чем четырёхкратной. На этом фоне совершенно неудивительно, что новые HEDT-процессоры подразделяются на три группы, различающиеся по дизайну и архитектуре, но совместимые с одним и тем же процессорным гнездом LGA2066.

	Ядра/ потоки	Базовая частота, ГГц	Турбо-режим, ГГц	Turbo Boost Max 3.0, ГГц	L3-кеш, Мбайт	Линии PCI Express 3.0	Каналы памяти	Частота памяти	TDP, Вт	Цена
Skylake-X (HCC)
Core i9-7980XE	18/36	?	?	?	?	44	?	?	?	$1999
Core i9-7960X	16/32	?	?	?	?	44	?	?	?	$1699
Core i9-7940X	14/28	?	?	?	?	44	?	?	?	$1399
Skylake-X (LCC)
Core i9-7920X	12/24	?	?	?	?	44	?	?	?	$1199
Core i9-7900X	10/20	3,3	4,3	4,5	13,75	44	4	DDR4-2666	140	$999
Core i7-7820X	8/16	3,6	4,3	4,5	11	28	4	DDR4-2666	140	$599
Core i7-7800X	6/12	3,5	4,0	Нет	8,25	28	4	DDR4-2400	140	$389
Kaby Lake-X
Core i7-7740X	4/8	4,3	4,5	Нет	8	16	2	DDR4-2666	112	$339
Core i5-7640X	4/4	4,0	4,2	Нет	6	16	2	DDR4-2666	112	$242

Пара наиболее простых чипов, Core i7-7740X и Core i5-7640X, располагает четырьмя ядрами с поддержкой технологии Hyper-Threading или без неё и относится к классу Kaby Lake-X. Они представляют собой на 100-200 МГц более быстрые аналоги Core i7-7700K и Core i5-7600K, перенесённые на другой сокет. Никакой разницы в архитектуре и в удельной производительности здесь нет, однако за счёт более либерального теплового пакета, намертво заблокированного графического ядра и изменений в схеме питания, возможно, некоторые улучшения произойдут в разгонном потенциале.

Мы подробно рассмотрим свойства представителей серии Kaby Lake-X в одном из следующих обзоров, благо их продажи должны начаться одновременно со Skylake-X в самое ближайшее время. Однако следует иметь в виду, что из-за особенностей своего происхождения Kaby Lake-X кажутся на фоне Skylake-X откровенно ущербными предложениями не только из-за небольшого числа ядер. В них также используется упрощённый двухканальный контроллер памяти и контроллер PCI Express, поддерживающий лишь шестнадцать линий. А это значит что, хотя Kaby Lake-X и предназначены для эксплуатации в составе платформы Basin Falls, реализовать существенную часть её ключевых преимуществ они не дадут.

Гораздо больший интерес для энтузиастов высокой производительности представляют процессоры Skylake-X: они позволяют использовать все возможности платформы Basin Falls в полной мере и могут рассматриваться как полноценные наследники прошлого поколения HEDT-чипов, Broadwell-E. Однако в поколении Skylake-X подход Intel под влиянием активных действий конкурента претерпел некоторые изменения, и новинки, относящиеся к этому классу, разделились на две группы: процессоры с относительно небольшим числом ядер и процессоры – многоядерные монстры.

Стандартная стратегия, которую микропроцессорный гигант всегда использовал при создании потребительских чипов для верхнего рыночного сегмента, заключалась в том, чтобы приспособить для таких нужд варианты серверных процессоров с относительно небольшим числом ядер, выпускаемые на основе полупроводниковых кристаллов LCC. И эта стратегия успешно работала на протяжении нескольких последних лет. Так, серверные процессоры традиционно подразделяются на три класса, для каждого их которых разрабатывается собственный дизайн полупроводникового кристалла: LCC (Low Core Count), HCC (High Core Count) и XCC (Extreme Core Count). В поколении Broadwell-EP к первому классу относились чипы с числом ядер до десяти, соответственно старшие потребительские LGA2011-3 CPU – это десятиядерники. В поколении Skylake-SP кристалл LCC получил уже двенадцать ядер. И вполне закономерно, что процессоры Skylake-X, которые были запланированы для платформы Basin Falls изначально, должны были получить от шести до двенадцати ядер.

Таким образом, все Skylake-X с числом ядер от шести до двенадцати и поддержкой технологии Hyper-Threading – это совершенно традиционные высокопроизводительные чипы для настольных компьютеров. Они основываются на одном и том же 14-нм 12-ядерном полупроводником кристалле LCC с микроархитектурой Skylake, в котором для формирования тех или иных моделей CPU может быть отключено до шести ядер. Кроме того, дифференциация в ряду таких процессоров происходит и по числу линий PCI Express, поддерживаемых встроенным в CPU контроллером. Старшие модели с десятью и двенадцатью ядрами предлагают 44 линии PCI Express, в то время как у процессоров с шестью и восемью ядрами контроллер PCI Express поддерживает только 28 линий.

Кристалл LCC: 12 ядер, площадь 325 мм²

Зато все варианты Skylake-X, основанные на кристалле LLC, имеют сравнительно высокие тактовые частоты. Тепловой пакет таких процессоров установлен в типичные для HEDT-платформы 140 Вт, но их частоты по сравнению с Broadwell-E заметно увеличены. Десятиядерный Core i9-7900X имеет базовую частоту 3,3 ГГц и может разгоняться в турборежиме до 4,3 ГГц; базовая частота восьмиядерного Core i7-7820X установлена в 3,6 ГГц с аналогичным турборежимом на уровне 4,3 ГГц, а паспортная частота шестиядерного Core i7-7800X равна 3,5 ГГц с возможностью автоматического разгона при невысокой нагрузке до 4,0 ГГц. Полные паспортные характеристики двенадцатиядерного Core i9-7920X пока не названы – этот процессор должен выйти только через пару месяцев.

Стоит обратить внимание и ещё на один интересный момент. С появлением платформы Basin Falls в ассортименте Intel появляются процессоры с именем Core i9. Таким образом Intel решила подчеркнуть элитарность отдельных моделей Skylake-X, которые, по всей видимости, будут напрямую противопоставляться AMD Threadripper. Но пока принцип присвоения имени Core i9 чисто формальный. Его получают процессоры с более чем 10 ядрами и 44 линиями PCI Express. А это значит, что до запланированного на август выхода 12-ядерника в линейке Skylake-X будет только один Core i9 – десятиядерный тысячедолларовый Core i9-7900X.

Но кстати говоря, не факт, что с выходом 12-ядерного Core i9-7920X текущий субфлагман Core i9-7900X на его фоне померкнет. То, что Intel не выпустила свой двенадцатиядерник вместе с остальными процессорами Skylake-X на кристалле LLC, связано с тем, что компания пока не может решить, сделать его более экономичным или более скоростным. В теории платформа LGA2066 поддерживает процессоры с типичным тепловыделением до 165 Вт, что позволяет установить частоты Core i9-7920X на достаточно высокой отметке, но Intel не хочет прибегать к этой мере во избежание проблем несовместимости с материнскими платами и системами охлаждения, которые наверняка могут возникнуть из-за того, что столь горячих процессоров компания ещё не выпускала. Поэтому и было решено выдержать некоторую паузу, в течение которой инженеры Intel надеются понять, насколько впечатляющей получится HEDT-платформа у компании AMD.

К тому же у Intel заготовлено ещё одно мощное средство, которое она может противопоставить HEDT-процессорам AMD, – чипы Skylake-X, базирующиеся на кристалле HCC. Этот кристалл имеет в своём составе 18 ядер и в перспективе позволит выпустить три дополнительные версии Core i9 с 14, 16 и 18 ядрами. Точные характеристики этих моделей по понятным причинам пока не определены, да и их выход запланирован лишь на октябрь. Однако, Intel уже сейчас хочет закрепить за собой звание производителя HEDT-процессоров с наибольшим числом ядер, оставляя, тем не менее, некоторое пространство для манёвра с частотами и тепловыделением.

Кристалл HCC: 18 ядер, площадь 484 мм²

В конечном итоге платформа Basin Falls выглядит заметным шагом вперёд. Skylake-X по сравнению с Broadwell-E получили внушительный и разносторонний набор улучшений. Начиная с того, что новые процессоры предлагают существенно возросшее число ядер и заметно поднявшиеся рабочие частоты, причём делают это при попутном снижении цены. И заканчивая тем, что в Skylake-X реализован более мощный четырёхканальный контроллер памяти с официальной поддержкой DDR4-2666, а также контроллер PCI Express 3.0 с увеличенным на четыре штуки числом линий. Попутно не стоит забывать и о новой микроархитектуре Skylake, которая сама по себе содержит целый ряд оптимизаций, позволяющих поднять удельную производительность при неизменной частоте.

И здесь нужно подчеркнуть ещё одну важную деталь. Микроархитектура ядер новых процессоров Skylake-X не просто повторяет привычную микроархитектуру Skylake образца 2015 года. В новых HEDT-продуктах добавлены дополнительные улучшения, про которые мы подробно расскажем ниже. В их числе: поддержка 512-битных векторных инструкций AVX-512, изменение подсистемы кеш-памяти, изменение топологии межъядерных соединений и новая версия технологии Turbo Boost Max 3.0, позволяющая поднимать частоты избранной пары ядер процессора до 4,5 ГГц.

⇡#Набор системной логики Intel X299 и LGA2066-материнские платы

Вместе с новыми процессорами Skylake-X и Kaby Lake-X компания Intel выводит на рынок и ответную часть платформы Basin Falls – новый набор системной логики X299. Впрочем, утверждать, что этот чипсет такой же новаторский, как сопутствующие ему процессоры, мы бы не стали. Если говорить о нём в двух словах, то следует сказать, что X299 приносит в HEDT-платформу лишь те возможности, которые уже давно стали стандартными для LGA1151-систем. Однако и такое изменение не стоит недооценивать. Чипсеты для LGA2011- и LGA2011-3-систем были гораздо менее функциональны. И если X299 сравнивать с X99, а не с Z270, то прогресс становится очевиден.

Главных перемен две. Во-первых, X299 получил стандартную HSIO-топологию (High-Speed IO). Это значит, что новый набор логики подобен PCIe-коммутатору: в нём есть 30 высокоскоростных портов, которые производители материнских плат могут гибко сконфигурировать под свои нужды и получить в конечном итоге необходимое число линий PCI Express 3.0, а также USB 3.0- и SATA 3.0-портов. Во-вторых, изменилась шина, по которой чипсет общается с процессором. Если в X99 для этих целей применялась шина DMI 2.0, то X299 перешёл на вдвое более скоростную шину DMI 3.0, во многом аналогичную PCI Express 3.0 x4.

Реализация топологии HSIO

Высокоскоростные порты чипсета позволяют получить из него в разных комбинациях до 24 линий PCI Express 3.0, до восьми портов SATA 3.0 и до десяти портов USB 3.0. Это почти эквивалентно возможностям Z270, и можно было бы подумать, что хаб X299 представляет собой вариацию набора логики от платформы LGA1151, но у X299 всё-таки есть уникальная черта – он поддерживает на пару SATA-портов больше. В остальном характеристики схожи. Причём это касается и того, что оба чипсета производятся по одному и тому же 22-нм техпроцессу, имеют одинаковое тепловыделение на уровне 6 Вт, и даже мало отличаются друг от друга внешне.

Честно говоря, от X299, который вместе с платформой Basin Falls приходит на сравнительно продолжительный срок, хотелось бы каких-то дополнительных возможностей, например поддержки USB 3.1 Gen 2 и WiFi, которая должна появиться уже в следующем поколении наборов логики для платформы LGA1151. Но ничего такого в X299 нет, и все подобные функции отданы на откуп производителям материнских плат, которые вновь будут вынуждены доукомплектовывать свои флагманские LGA2066-решения россыпью дополнительных контроллеров.

Зато в X299 есть поддержка накопителей Intel Optane и всех прочих функций, реализуемых через драйвер Intel RST 15. Это, в частности, означает, что из PCIe-накопителей, подключённых к чипсету, можно формировать RAID-массивы уровней 0, 1 и 5. Причём число участников в таких массивах может доходить до трёх.

Впрочем, учитывая богатый набор линий PCI Express, имеющийся у процессора, производители материнских плат наверняка будут реализовывать M.2-слоты, подключённые напрямую к CPU. Специально для таких случаев в платформе Basin Falls имеется дополнительная уникальная функция VROC (Virtual RAID On CPU). Она позволяет объединять в RAID-массивы любое количество PCI Express-накопителей, подключённых напрямую к процессору. Правда, в этой технологии заложены некоторые обидные программные ограничения. Например, для активации режимов RAID, отличных от RAID 0, от пользователя потребуется специальный ключ, который будет необходимо приобретать отдельно.

Вместе с новым набором логики процессоры Skylake-X и Kaby Lake-X требуют и новый 2066-контактный разъём LGA2066 (Socket R4). Необходимость во внедрении нового сокета в данном случае обуславливалась переходом на DMI 3.0 и появлением в процессоре нескольких дополнительных линий PCI Express, поэтому совместимости между новыми HEDT-процессорами и предшествующими платформами с разъёмом LGA2011-3 нет и быть не может.

Тем не менее по внешнему виду и габаритам LGA2066 почти не отличается от LGA 2011-3. И даже более того, Intel удалось сохранить полную совместимость со старыми системами охлаждения. Способ крепления кулеров к сокету остался таким же, как и раньше, не изменилось и расположение монтажных отверстий. Соответственно, старые кулеры для Haswell-E и Broadell-E подойдут для новых процессоров Skalake-X и Kaby Lake-X без каких-либо ограничений.

Поскольку процессоры Kaby Lake-X и Skylake-X очень серьёзно различаются по характеристикам, в том числе по числу процессорных линий PCI Express и числу каналов памяти, платформе LGA2066 свойственна гибкость, которая ранее ещё не встречалась. Согласно требованиям Intel к материнским платам с разъёмом LGA2066, все они обязаны поддерживать полную линейку LGA 2066-процессоров без каких-либо исключений. Это значит, что типовая LGA2066-плата должна позволять строить конфигурации как с двухканальной, так и с четырёхканальной подсистемой памяти, а также с 16, 28 или 44 линиями PCI Express, идущими от CPU.

И это на самом деле – далеко не простая задача, решение которой приводит к тому, что покупатели недорогих LGA2066-процессоров будут вынуждены переплачивать за возможности, которыми они, скорее всего, пользоваться никогда не будут. Хотя мы и не исключаем, что в продаже могут появиться платы, оптимизированные под младшие LGA2066-процессоры и имеющие сокращённое число слотов DIMM и PCI Express, в большинстве случаев ситуация, скорее всего, будет складываться так, что при установке Kaby Lake-X часть слотов на материнской плате будет оказываться недоступна для использования.

Что-то подобное будет происходить при установке Kaby Lake-X и младших версий Skalake-X не только со слотами DIMM, но и с процессорными слотами PCI Express. Часть из них может отключаться, а другая часть – переходить в более «слабые» скоростные режимы.

⇡#Новое в Skylake-X

⇡#Новая архитектура кеш-памяти

Процессоры Skylake-X нельзя рассматривать как простой перенос хорошо знакомой микроархитектуры Skylake на многоядерный дизайн. За прошедшие с момента её появления два года инженеры Intel провели определённую работу и внесли некоторые изменения в изначальный проект. Поэтому процессоры Skylake-X можно считать носителями обновлённой версии базовой микроархитектуры, что в конечном итоге наделяет их несколько отличающейся удельной производительностью (в пересчёте на частоту). И самое главное усовершенствование касается переделки подсистемы кеш-памяти с целью повышения эффективности её работы.

В HEDT-процессорах прошлых поколений (так же как и в Xeon) архитектура кеш-памяти предполагала выделение на каждое ядро собственных L1- и L2-кешей и наличие единого на все ядра L3-кеша, который был инклюзивным и имел внушительный объём. Это означало, что все данные, которые находились в L2-кеше, дублировались и в L3, однако, если данные из L2-кеша вытеснялись, они всё ещё оставались доступны в L3. Такая схема работы была достаточно выгодна, и её эффективность во многом поддерживалась правильно подобранным соотношением между объёмами кеш-памяти разных уровней. В то время как L2-кеш имел ёмкость 256 Кбайт, объём кеша третьего уровня формировался из расчёта от 1,5 до 2,5 Мбайт на ядро. В результате, несмотря на затратный инклюзивный алгоритм, L3 сохранял достаточно места для независимой работы с данными.

Однако в Skylake-X баланс было решено изменить. Учитывая, что L2-кеш имеет гораздо лучшие показатели латентности, и его вместимость сильнее сказывается на производительности, в новых процессорах его объём было решено увеличить до 1 Мбайт, то есть в четыре раза. При этом, чтобы не выходить за рамки приемлемого транзисторного бюджета, сделано это было одновременно с уменьшением разделяемого между ядрами L3-кеша, объём которого в Skylake-X теперь определяется из расчёта 1,375 Мбайт на ядро.

Попутно, чтобы сохранить эффективность L3-кеша при серьёзном уменьшении объёма, был изменён алгоритм его функционирования. Теперь этот кеш не инклюзивный, и более того – он виктимный. Это значит, что L3-кеш наполняется исключительно за счёт вытеснения данных из L2, и механизмы предварительной выборки данных на него не распространяются. В конечном итоге это значит, что, в то время как эффективный суммарный размер кеш-памяти у процессоров Haswell-E и Broadwell-E составлял 2,5 Мбайт на ядро, у Skylake-X он остался почти таким же – 2,375 Мбайт на ядро. Однако система кеширования Skylake-X должна обеспечивать в среднем меньшие задержки, поскольку существенная часть кеш-памяти – второго уровня, для которой характерна небольшая латентность.

Подробнее структура кеш-памяти Skylake-X описана в таблице:

	Broadwell-E	Skylake-X
L1D-кеш	32 Кбайт на ядро, 8-канальная ассоциативность	32 Кбайт на ядро, 8-канальная ассоциативность
L1I-кеш	32 Кбайт на ядро, 8-канальная ассоциативность	32 Кбайт на ядро, 8-канальная ассоциативность
L2-кеш	256 Кбайт на ядро, 8-канальная ассоциативность	1024 Кбайт на ядро, 16-канальная ассоциативность
L3-кеш	25 Мбайт на процессор, 20-канальная ассоциативность Частота – 2,8 ГГц	13,75 Мбайт на процессор, 11-канальная ассоциативность Частота – 2,4 ГГц

При этом L3-кеш процессоров Skylake-X явно стал хуже и по алгоритму работы, и по ассоциативности (то есть по эффективности), и по объёму, и даже по частоте работы. Однако всё это, по мнению инженеров Intel, должно компенсироваться более вместительным L2-кешем с вдвое более высокой ассоциативностью. Согласно выкладкам, представленным разработчиками, расширение размера L2-кеша в четыре раза удваивает вероятность нахождения в нём необходимых процессору данных. А это, в свою очередь, снижает простои исполнительного конвейера и, согласно мнению инженеров Intel, повышает удельную производительность на дополнительные 5-10 процентов. Таким образом, благодаря изменениям в подсистеме кеш-памяти процессоры Skylake-X должны превосходить привычные Skylake-S и Kaby Lake-S даже на однопоточной нагрузке.

Впрочем, прежде, чем принимать такие утверждения на веру, давайте посмотрим, как обстоит дело с реальной латентностью подсистемы кеш-памяти в процессорах Broadwell-E и Skylake-X. Для этого с помощью тестового пакета SiSoft Sandra мы измерили реальную латентность при обращении процессоров к блокам данных различного размера. Оба процессора, участвующие в тесте, работали на одинаковой 4-гигагерцевой частоте и были укомплектованы четырёхканальной DDR4-3000 SDRAM с CAS Latency 15.

Откровенно говоря, ситуация с реальной латентностью подсистемы кеш-памяти Skylake-X смотрится не слишком воодушевляюще. Старые процессоры Broadwell-E почти всегда обеспечивают более низкое время доступа к данным, за исключением случая, когда у них они не умещаются в L2-кеш, но влезают в него у Skylake-X. Поэтому правоту утверждений Intel можно подвергнуть сомнению. Кажется несколько неправдоподобным, что демонстрируемого выигрыша в латентности будет достаточно для того, чтобы Skylake-X смогли получить какое-то преимущество в производительности в реальных приложениях.

Однако справедливости ради стоит отметить более высокую практическую пропускную способность подсистемы кеш-памяти Skylake-X, что может служить некоторой компенсацией в ситуации с задержками.

Особенно радует на фоне высокой латентности пропускная способность L3-кеша. Вместе с пересмотром его архитектуры инженеры Intel смогли добиться существенного увеличения и полосы пропускания. Почему так произошло, станет понятно из следующего раздела.

⇡#Изменения в топологии межъядерных соединений

Вместе с изменением в системе кеширования компания Intel полностью переделала схему, которая применяется для организации межъядерного взаимодействия. Напомним, со времён Sandy Bridge для соединения процессорных ядер и обмена данными с L3-кешем и контроллером памяти в процессорах Intel использовалась основанная на протоколе QPI двунаправленная 256-битная кольцевая шина. И до тех пор, пока процессоры содержали не слишком большое число ядер, такой подход был очень эффективен. Достаточно простое схемотехническое решение действительно позволяло добиваться передачи данных с минимальными задержками.

Однако с ростом числа ядер маршруты на пути данных начали удлиняться, и это стало вызывать серьёзные проблемы. Для обеспечения слаженной работы многоядерных процессоров Intel даже пришлось перейти к схеме с разделением ядер на два кластера и внедрением двух кольцевых шин, связанных между собой двумя буферизирующими мостами. Но такое соединение ядер, контроллеров памяти и контроллеров ввода-вывода внутри процессора уже не могло похвастать былой эффективностью. В случае если возникала необходимость в передаче данных между точками, находящимися в различных кластерах, латентности сильно страдали. И в конечном итоге Intel пришла к ситуации, когда кольцевая шина стала препятствием на пути увеличения пропускной способности и снижения задержек при внутрипроцессорных операциях с данными.

Поэтому в серверных процессорах Skylake-SP (и родственных с ними HEDT-процессорах Skylake-X), где число ядер может достигать 28 штук, Intel перешла к иной схеме межъядерных соединений – ячеистой сети, которая уже хорошо обкатана в Intel Xeon Phi (Knights Landing). Число соединений в ней гораздо больше, поскольку все ядра на кристалле пронизаны сквозными горизонтальными и вертикальными линками. Но за счёт этого маршруты, необходимые для связи ядер и прочих функциональных узлов, заметно упрощаются, уменьшая латентности и уравнивая задержки, которые возникают при различных взаимодействиях внутри такой сети. Кроме того, такая сеть обеспечивает более высокую суммарную пропускную способность.

Данное изменение позволяет установить частоту этой сети ниже частоты кольцевой шины, сохранив при этом высокие показатели пропускной способности. А это значит, что новая ячеистая структура соединени не только хороша сбалансированностью и масштабируемостью, но и выигрывает с точки зрения потребления ресурсов.

Естественно, всё это важно в первую очередь для серверных процессоров с большим числом ядер, однако Skylake-X оказались заложниками ситуации: в них ячеистая сеть тоже заменила собой кольцевую шину. И в сравнительно простых случаях, когда число ядер не столь велико, латентности при межъядерном взаимодействии по сравнению с Broadwell-E ухудшились. Для проверки мы измерили латентности, возникающие при передаче данных от одного ядра к другому для десятиядерного Broadwell-E и Skylake-X. Оба процессора для чистоты эксперимента работали на одной и той же частоте 4,0 ГГц.

Как видно по иллюстрации, задержки при межъядерном взаимодействии у Skylake-X примерно в полтора раза выше. И это недвусмысленно говорит о том, что ячеистая сеть никакого выигрыша в случае десяти ядер не даёт, а напротив, только ухудшает ситуацию.

Хорошо заметным результатом произошедших перемен стали изменения в скорости работы подсистемы памяти. Поскольку контроллеры DDR4 в процессорах Intel связаны с ядрами посредством той же самой шины, что и ядра между собой, скорость работы подсистемы памяти напрямую связана с эффективностью схемы межъядерных соединений.

С помощью теста Cachemem из пакета AIDA64 мы измерили производительность подсистемы памяти, составленной из четырёх идентичных модулей DDR4-3000 SDRAM, у работающих на одинаковой частоте 4,0 ГГц процессоров Broadwell-E и Skylake-X, и диагноз подтвердился. Задержки внутри чипов нового поколения действительно стали выше.

Слева – результат Broadwell-E, справа – Skylake-X. Оба процессора работают на частоте 4,0 ГГц с DDR4-3000 15-17-17-35

Правда, справедливости ради стоит отметить тот факт, что вместе с латентностью выросла и практическая пропускная способность при чтении из памяти, что при потоковых операциях с большими объёмами данных может компенсировать возросшие задержки. Однако утешение это – достаточно слабое, поскольку в реальных задачах латентность подсистемы памяти оказывает на производительность весьма серьёзное влияние.

⇡#Поддержка инструкций AVX-512

Говоря о том, какие изменения в микроархитектуре Skylake приурочены к выходу высокопроизводительных процессоров Skylake-X, нельзя не упомянуть, что в них появилась поддержка нового набора векторных инструкций AVX-512. Впервые он был реализован в последнем поколении ускорителей вычислений Xeon Phi (Knights Landing), а теперь его поддержка добралась и до традиционных процессоров для серверов, рабочих станций и высокопроизводительных десктопов.

По сути набор AVX-512 представляет собой расширение векторных команд для операций с 512-битными векторами. В нём новые 512-битные регистры, новые упакованные форматы для целых и дробных чисел, а также разнообразные операции над ними. Важной особенностью режима AVX-512 выступает высокая скорость их выполнения: предполагается, что процессор может переходить с обычных 256-битных AVX-инструкций на 512-битные операции без снижения быстродействия. И этот факт позволяет Intel преподносить перспективный 18-ядерник как первый десктопный процессор с производительностью на уровне 1 Тфлопс.

Иными словами, введение AVX-512 позволяет удвоить производительность, однако речь здесь идёт исключительно о векторных операциях. При условии оптимизации под новые команды параллельные алгоритмы действительно могут исполняться на Skylake примерно вдвое быстрее, однако это, естественно, не распространяется на обычные вычисления общего назначения. Тем не менее вторгнуться на территорию, где ранее в расчётах применялись только видеокарты, процессоры Skylake-X вполне способны.

Стоит отметить, что появление в Skylake-X поддержки AVX-512 – не только усовершенствование, направленное на будущее. Некоторые существующие алгоритмы имеют нужные оптимизации уже сейчас и способны получать преимущество в производительности. К их числу, например, относится популярный кодер x264, в котором сообщество внедрило поддержку новых команд ещё в начале этого года.

Оценить же, насколько инструкции AVX-512 способны поднять производительность вычислительных алгоритмов в случае, близком к идеалу можно по синтетическому тесту Processor Multimedia из пакета SiSoft Sandra. Этот простой бенчмарк измеряет скорость построения множества Мандельброта с использованием различных наборов команд. С его помощью мы сравнили производительность десятиядерных Broadwell-E и Skylake-X, работающих на одинаковой частоте 4,0 ГГц.

Как видно по результатам, одно только использование 512-битных векторных инструкций позволяет ускорить вычисления на величину от 20 до 85 процентов. А если к этому прибавить прочие заложенные в Skylake-X архитектурные улучшения, то получается, что по удельной производительности этот CPU может превосходить Broadwell-E более чем в два раза.

⇡#Улучшенная технология Intel Turbo Boost Max 3.0

С выходом процессоров Broadwell-E компания Intel представила технологию Turbo Boost Max 3.0, эксплуатирующую тот факт, что ядра в многоядерном процессоре со сравнительно крупным полупроводниковым кристаллом могут существенно различаться по своему частотному потенциалу. Идея заключалась в том, что среди ядер процессора наверняка есть такое, которое может работать на более высокой частоте и при более низком напряжении, поэтому малопоточную нагрузку логично исполнять именно на нём.

Intel воплотила этот принцип через специальный драйвер, который переносил однопоточные приложения на такое предварительно отобранное для этих целей на этапе производство ядро. Производители материнских плат должны были через BIOS реализовать возможность повышения рабочей частоты этого единичного ядра на дополнительные несколько сотен мегагерц относительно значений, предусмотренных классической технологией Turbo Boost 2.0. В результате многоядерные процессоры Broadwell-E, имеющие относительно невысокие номинальные частоты, получали возможность решать однопоточные задачи с неплохой эффективностью.

Драйвер Turbo Boost Max 3.0. Список ядер составлен по приоритету, сверху – более удачные

В Skylake-X эта идея получила дальнейшее развитие. Теперь в процессоре для малопоточной нагрузки выбирается сразу два специальных ядра, что даёт возможность получать более высокую производительность при запуске сразу двух однопоточных приложений либо при работе в приложениях, которые могут использовать два ядра одновременно.

Правда, поплатиться за это пришлось допустимой в рамках Turbo Boost Max 3.0 прибавкой к частоте. Если в процессорах Broadwell-E данная технология могла поднимать частоту выбранного ядра на 200-500 МГц, то в Skylake-X дополнительное ускорение ограничивается лишь величиной 200 МГц.

Впрочем, связано это может быть и с тем, что в новом поколении HEDT-процессоров очень агрессивно проявляет себя и классическая технология Turbo Boost 2.0, оставляя для работы Turbo Boost Max 3.0 не слишком много свободного пространства.

⇡#Подробности о Core i9-7900X

Для тестирования компания Intel предоставила нам старший на данный момент процессор семейства Skylake-X, десятиядерный Core i9-7900X. Напомним, его продажи начнутся уже через неделю, а более мощные представители серии появятся только в августе (12-ядерные Skylake-X) или в октябре (14-, 16- и 18-ядерный Skylake-X).

Внешний вид LGA2066-процессора немного отличается от привычных очертаний LGA2013-3-процессоров, однако разница не кардинальная. Форма и размеры остались примерно теми же, фактически заметно выделяются лишь иначе оформленные края теплорассеивающей крышки.

Однако теперь эта крышка не припаивается к полупроводниковому кристаллу процессора, а контактирует с ним через термопасту.

В диагностической утилите CPU-Z новый Core i9-7900X выглядит не совсем очевидно.

Обратите внимание, утилита определяет этот процессор как Core i7-7900X, и это – не ошибка в программе. Такое наименование действительно зашито в самом процессоре в качестве идентификационной строки. Дело в том, что Intel решила использовать марку Core i9 совсем недавно, и разосланные обозревателям инженерные образцы содержат вариант названия, запланированный изначально.

В остальном все характеристики образца Core i7-7900X полностью соответствуют тому, как будут выглядеть серийные процессоры Core i9-7900X. Об этом, в частности, свидетельствует серийный степпинг ядра – H0.

Ситуация с реальными рабочими частотами Core i9-7900X складывается следующим образом:

При обычной многопоточной нагрузке на все ядра частота чаще всего находится на уровне 4,0 ГГц.
Если многопоточная нагрузка носит особенно ресурсоёмкий характер, например использует AVX-инструкции, частота может снижаться вплоть до 3,3-3,6 ГГц.
При однопоточной нагрузке частота под влиянием технологии Turbo Boost Max 3.0 может повышаться до обещанных 4,5 ГГц. Однако такой автоматический разгон наблюдается не всегда, а в ряде ситуаций частота при таких условиях достигает лишь 4,1 ГГц.

Тепловой режим процессора, функционирующего в номинале, никаких вопросов не вызывает, несмотря на замену припоя под процессорной крышкой полимерным термоинтерфейсом. При тестировании Core i9-7900X в LinX 0.7.2 (а эта версия уже имеет поддержку новых инструкций AVX-512) с использованием однобашенного кулера Noctua NH-U14S максимальные температуры по внутрипроцессорному датчику доходили лишь до 74 градусов, в то время как максимально допустимой температурой для Skylake-X считаются 105 градусов.

Всё это наводит на мысли, что интеловская термопаста в Skylake-X работает эффективнее, чем в LGA1151-процессорах. То ли изменился её состав, то ли роль играет заметно большая площадь полупроводникового кристалла, которая у LLC составляет примерно 325 мм² (против 122 мм² у четырёхъядерного Skylake-S).

В сравнении со своим предшественником, десятиядерным Broadwell-E, новый Core i9-7900X однозначно выигрывает в характеристиках.

	Core i7-6950X	Core i9-7900X
Кодовое имя	Broadwell-E	Skylake-X
Технология производства	14 нм, FinFET	14 нм, FinFET
Ядра/потоки	10/20	10/20
Технология Hyper-Threading	Есть	Есть
Базовая частота, ГГц	3,0	3,3
Максимальная частота в турборежиме, ГГц	3,5	4,3
Максимальная частота Turbo Boost Max 3.0, ГГц	4,0	4,5
Разблокированный множитель	Есть	Есть
TDP, Вт	140	140
L2-кеш, Кбайт	10 × 256	10 × 1024
L3-кеш, Мбайт	25	13,75
Число линий PCI Express 3.0	40	44
Поддержка DDR4 SDRAM	Четыре канала DDR4-2400	Четыре канала DDR4-2666
Расширения набора инструкций	SSE4.1/4.2, AVX 2.0	SSE4.1/4.2, AVX 2.0, AVX-512
Упаковка	LGA 2013-3	LGA 2066
Цена	$1 723	$999

С переходом на новую архитектуру рабочие частоты выросли на 10-30 процентов (в зависимости от режима), на официальном уровне появилась совместимость с DDR4-2666 SDRAM, добавилась поддержка AVX-512-инструкций, а также возрос объём кеш-памяти второго уровня. В минусе оказался лишь объём L3-кеша, который уменьшился почти вдвое. Впрочем, самое главное изменение обозначено в последней строке таблицы: десятиядерник теперь стоит на 42 процента дешевле.

⇡#Описание тестовых систем и методики тестирования

Пока что процессоров с числом ядер более восьми на рынке всего два. Это – Core i7-6950X поколения Broadwell-E и новый Skylake-X, Core i9-7900X. Именно они и стали главными героями тестирования. Но кроме этой пары в тестах также приняли участие старшие процессоры для платформ LGA1151 и Socket AM4: Core i7-7700K и Ryzen 7 1800X.

В конечном итоге полный список задействованных в тестовых системах комплектующих получил следующий вид:

Процессоры:
- AMD Ryzen 7 1800X (Summit Ridge, 8 ядер + SMT, 3,6-4,0 ГГц, 16 Мбайт L3);
- Intel Core i9-7900X (Skylake-X, 10 ядер + HT, 3,3-4,5 ГГц, 13,75 Мбайт L3);
- Intel Core i7-7700K (Kaby Lake, 4 ядра + HT, 4,2-4,5 ГГц, 8 Мбайт L3);
- Intel Core i7-6950X Extreme Edition (Broadwell-E, 10 ядер + HT, 3,0-4,0 ГГц, 25 Мбайт L3).
Процессорный кулер: Noctua NH-U14S.
Материнские платы:
- ASUS Crosshair IV Hero (Socket AM4, AMD X370);
- ASUS Maximus IX Hero (LGA1151, Intel Z270);
- ASUS Prime X299-Deluxe (LGA2066, Intel X299);
- ASUS X99-Deluxe (LGA2011-v3, Intel X99).
Память:
- 4 × 8 Гбайт DDR4-3000 SDRAM, 15-17-17-35 (Corsair Vengeance LPX CMK16GX4M2A3000C15).
Видеокарта: NVIDIA Titan X (GP102, 12 Гбайт/384-бит GDDR5X, 1417-1531/10000 МГц).
Дисковая подсистема: Kingston HyperX Savage 480 GB (SHSS37A/480G).
Блок питания: Corsair RM850i (80 Plus Gold, 850 Вт).

Тестирование выполнялось в операционной системе Microsoft Windows 10 Enterprise Build 14393 с использованием следующего комплекта драйверов:

AMD Chipset Driver 17.10;
Intel Chipset Driver 10.1.1.40;
Intel Management Engine Interface Driver 11.7.0.1014;
Intel Turbo Boost Max 3.0 Technology Driver 1.0.0.1031;
NVIDIA GeForce 382.53 Driver.

Описание использовавшихся для измерения вычислительной производительности инструментов:

Комплексные бенчмарки:

BAPCo SYSmark 2014 SE – тестирование в сценариях Office Productivity (офисная работа: подготовка текстов, обработка электронных таблиц, работа с электронной почтой и посещение интернет-сайтов), Media Creation (работа над мультимедийным контентом — создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео), Data/Financial Analysis (обработка архива с финансовыми данными, их статистический анализ и прогнозирование инвестиций на основе некой модели) и Responsiveness (анализ отзывчивости системы при запуске приложений, открытии файлов, работе с интернет-браузером с большим количеством открытых вкладок, мультизадачности, копировании файлов, пакетных операциях с фотографиями, шифровании и архивации файлов и установке программ).
Futuremark 3DMark Professional Edition 2.2.3509 — тестирование в сцене Time Spy 1.0.

Приложения:

Adobe After Effects CC 2017 – тестирование скорости рендеринга методом трассировки лучей. Измеряется время, затрачиваемое системой на обсчёт в разрешении 1920 × 1080@30fps заранее подготовленного видеоролика.
Adobe Photoshop CC 2017 — тестирование производительности при обработке графических изображений. Измеряется среднее время выполнения тестового скрипта, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, который включает типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.
Adobe Photoshop Lightroom 6.8 – тестирование производительности при пакетной обработке серии изображений в RAW-формате. Тестовый сценарий включает постобработку и экспорт в JPEG с разрешением 1920 × 1080 и максимальным качеством двухсот 12-мегапиксельных изображений в RAW-формате, сделанных цифровой камерой Nikon D300.
Adobe Premiere Pro CC 2017 — тестирование производительности при нелинейном видеомонтаже. Измеряется время рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.
Autodesk 3ds max 2017 — тестирование скорости финального рендеринга. Измеряется время, затрачиваемое на рендеринг в разрешении 1920 × 1080 с применением рендерера mental ray стандартной сцены Hummer.
Blender 2.78a – тестирование скорости финального рендеринга в одном из популярных свободных пакетов для создания трёхмерной графики. Измеряется продолжительность построения финальной модели из Blender Cycles Benchmark rev4.
Corona 1.3 – тестирование скорости рендеринга при помощи одноимённого рендерера. Измеряется скорость построения стандартной сцены BTR, используемой для измерения производительности.
VeraCrypt 1.19 – тестирование криптографической производительности. Используется встроенный в программу бенчмарк, задействующий тройное шифрование Serpent-Twofish-AES.
Visual Studio 2017 (15.1) – измерение времени компиляции крупного MSVC-проекта – профессионального пакета для создания трёхмерной графики Blender версии 2.78c.
WinRAR 5.40 — тестирование скорости архивации. Измеряется время, затрачиваемое архиватором на сжатие директории с различными файлами общим объёмом 1,7 Гбайт. Используется максимальная степень компрессии.
x264 r2744 — тестирование скорости транскодирования видео в формат H.264/AVC. Для оценки производительности используется исходный 1080p@50FPS AVC-видеофайл, имеющий битрейт около 30 Мбит/с.
x265 2.2+17 8bpp — тестирование скорости транскодирования видео в перспективный формат H.265/HEVC. Для оценки производительности используется тот же видеофайл, что и в тесте скорости транскодирования кодером x264.

Игры:

Ashes of Singularity. Разрешение 1920 × 1080: DirectX 11, Quality Profile = High, MSAA=2x. Разрешение 3840 × 2160: DirectX 11, Quality Profile = Extreme, MSAA=Off.
Deus Ex: Mankind Divided. Разрешение 1920 × 1080: DirectX 11, Preset = Very High. Разрешение 3840 × 2160: DirectX 11, Preset = Very High.
Grand Theft Auto V. Разрешение 1920 × 1080: DirectX Version = DirectX 11, FXAA = Off, MSAA = x4, NVIDIA TXAA = Off, Population Density = Maximum, Population Variety = Maximum, Distance Scaling = Maximum, Texture Quality = Very High, Shader Quality = Very High, Shadow Quality = Very High, Reflection Quality = Ultra, Reflection MSAA = x4, Water Quality = Very High, Particles Quality = Very High, Grass Quality = Ultra, Soft Shadow = Softest, Post FX = Ultra, In-Game Depth Of Field Effects = On, Anisotropic Filtering = x16, Ambient Occlusion = High, Tessellation = Very High, Long Shadows = On, High Resolution Shadows = On, High Detail Streaming While Flying = On, Extended Distance Scaling = Maximum, Extended Shadows Distance = Maximum. Разрешение 3840 × 2160: DirectX Version = DirectX 11, FXAA = Off, MSAA = Off, NVIDIA TXAA = Off, Population Density = Maximum, Population Variety = Maximum, Distance Scaling = Maximum, Texture Quality = Very High, Shader Quality = Very High, Shadow Quality = Very High, Reflection Quality = Ultra, Reflection MSAA = x4, Water Quality = Very High, Particles Quality = Very High, Grass Quality = Ultra, Soft Shadow = Softest, Post FX = Ultra, In-Game Depth Of Field Effects = On, Anisotropic Filtering = x16, Ambient Occlusion = High, Tessellation = Very High, Long Shadows = On, High Resolution Shadows = On, High Detail Streaming While Flying = On, Extended Distance Scaling = Maximum, Extended Shadows Distance = Maximum.
Hitman™. Разрешение 1920 × 1080: DirectX 12, Super Sampling = 1.0, Level of Detail = Ultra, Anti-Aliasing = FXAA, Texture Quality = High, Texture Filter = Anisotropic 16x, SSAO = On, Shadow Maps = Ultra, Shadow Resolution = High. Разрешение 3840 × 2160: DirectX 12, Super Sampling = 1.0, Level of Detail = Ultra, Anti-Aliasing = Off, Texture Quality = High, Texture Filter = Anisotropic 16x, SSAO = On, Shadow Maps = Ultra, Shadow Resolution = High.
Total War: WARHAMMER. Разрешение 1920 × 1080: DirectX 11, Quality = Ultra. Разрешение 3840 × 2160: DirectX 11, Quality = Ultra.
Watch Dogs 2. Разрешение 1920 × 1080: Field of View = 70°, Pixel Density = 1.00, Graphics Quality = Ultra, Extra Details = 100%. Разрешение 3840 × 2160: Field of View = 70°, Pixel Density = 1.00, Graphics Quality = Ultra, Extra Details = 100%.

Во всех игровых тестах в качестве результатов приводится среднее количество кадров в секунду, а также 0,01-квантиль (первая перцентиль) для значений fps. Использование 0,01-квантиля вместо показателей минимального fps обусловлено стремлением очистить результаты от случайных всплесков производительности, которые были спровоцированы не связанными напрямую с работой основных компонентов платформы причинами.

⇡#Производительность в комплексных бенчмарках

SYSmark 2014 SE – главный комплексный тест, по которому можно судить о том, какую средневзвешенную производительность выдает та или иная система в самых типовых и самых массовых приложениях. И результат Core i9-7900X тут скорее огорчает, чем радует. По сравнению с Core i7-6950X новинка предлагает лишь на 3 процента лучшую производительность, что на самом деле явно мало, если принять во внимание увеличение тактовых частот на 10-30 процентов. Очевидно, на производительности не лучшим образом сказывается изменение подсистемы кеш-памяти, в результате которого латентность L2-кеша выросла, а L3-кеш лишился предварительной выборки данных и сократился в объёме.

Больше информации могут дать результаты, полученные в отдельных сценариях SYSmark 2014 SE.

Наибольшие потери в производительности Core i9-7900X несёт в сценарии Data/Financial Analysis. В нём десятиядерный Skylake-X даже проигрывает Ryzen 7 1800X. При тестировании отзывчивости системы платформа Basin Falls почти не отличается от предшествующей платформы LGA2011-3. А при остальных вариантах реальной нагрузки Core i9-7900X, как ему и положено, улучшает показатели Core i7-6950X примерно на 10 процентов.

Примерно 10-процентное преимущество в процессорной производительности перед Core i7-6950X новый Core i9-7900X предлагает и в комплексном игровом тесте 3DMark Time Spy. Это конвертируется в полуторапроцентный выигрыш новой платформы по интегральному показателю.

⇡#Производительность в ресурсоёмких приложениях

В целом новый десятиядерник компании Intel оказывается производительнее своего предшественника. Усреднённо преимущество составляет порядка 12-13 процентов, однако в различных случаях ситуация складывается по-разному. Например, в WinRAR или Lightroom новый Core i9-7900X уступает Core i7-6950X, что, очевидно, связано с неоднозначным перераспределением ресурсов кеш-памяти в Skylake-X. Но есть и обратные примеры: при перекодировании видео кодерами x264 и x265 новинка развивает очень солидное, доходящее до 30 процентов превосходство над Core i7-6950X, что объясняется не только более высокими тактовыми частотами, но и появлением в Skylake-X поддержки набора инструкций AVX-512. Также очень хорошо проявляет себя новый LGA2066-процессор в задачах рендеринга – в них прирост производительности составляет от 15 до 25 процентов лишь за счёт увеличения частоты и глубинных улучшений в микроархитектуре Skylake.

⇡#Производительность в играх

Говоря об игровой производительности, в первую очередь необходимо отметить, что десятиядерные процессоры вроде Core i9-7900X не относятся к разряду игрового железа. Поэтому представленные в этом разделе результаты тестов не стоит принимать слишком близко к сердцу.

Тем не менее среди наших читателей наверняка найдутся и такие, которые заинтересуются Core i9-7900X именно в роли процессора для экстремальной геймерской системы, поэтому исключать из рассмотрения игры мы не стали. И более того, для полноты картины тесты были проведены в двух режимах: в разрешении Full HD, где процессорная составляющая производительности раскрывается более выпукло, и в 4K-разрешении, больше подходящем для использования в системах с процессорами HEDT-класса.

Тесты в разрешении Full HD:

Результаты получаются очень любопытные. Если в обычных приложениях Core i9-7900X часто оказывался быстрее своего предшественника, то с играми ситуация складывается скорее противоположным образом. Очевидно, размер кеш-памяти и низкие латентности DDR4 имеют для игровых приложений определяющее значение, поэтому во многих случаях мы видим некоторое отставание десятиядерного Skylake-X от аналогичного процессора поколения Broadwell-E. Впрочем, наблюдаемое различие в частоте кадров вряд ли можно считать определяющим: отставание Core i9-7900X, где оно имеет место, не превышает единиц процентов.

Кроме того, не следует упускать из вида возможность улучшения ситуации в результате оптимизаций BIOS материнских плат. В настоящий момент платформа Basin Falls выглядит явно сырой, и к моменту реального появления плат и процессоров в розничной продаже игровая производительность Skylake-X может подрасти.

Тесты в разрешении 4K:

В высоких разрешениях определяющую роль в игровой производительности начинает играть графическая карта, поэтому разница в результатах различных CPU в глаза совсем не бросается. Любого из производительных CPU, представленных в тесте, для раскрытия флагманской видеокарты вполне хватает. И даже более того, в 4K-разрешении отставания Core i9-7900X от своего предшественника не наблюдается вообще. То есть десятиядерный Skylake-X предлагает вполне достаточный на современном этапе уровень игровой производительности.

Впрочем, необходимо ещё раз подчеркнуть, что приобретать тысячедолларовые процессоры уровня Core i9-7900X для систем, предназначенных исключительно для игрового использования, не имеет никакого смысла. В разы более дешёвый четырёхъядерный Core i7-7700K способен при таком применении обеспечить как минимум не худшее быстродействие.

⇡#Энергопотребление

Расчётное тепловыделение процессоров Skylake-X, в том числе и десятиядерного Core i9-7900X, установлено в 140 Вт. Тепловой пакет у LGA2011-3-процессоров Broadwell-E было ровно таким же. Однако новое поколение HEDT-чипов имеет более высокие рабочие частоты, которые были достигнуты без перехода на новые технологические нормы. И более того, для выпуска Skylake-X компания Intel задействовала 14-нм техпроцесс второго поколения, который, вообще говоря, напротив, делает полупроводниковые кристаллы более прожорливыми в плане потребления электроэнергии.

Как это соотносится с обещаниями Intel вписаться в те же самые, что и раньше, 140-ваттные рамки – совершенно непонятно. Поэтому проверить реальные энергетические аппетиты Core i9-7900X очень любопытно.

Используемый нами в тестовой системе новый цифровой блок питания Corsair RM850i позволяет контролировать потребляемую и выдаваемую электрическую мощность, чем мы и пользуемся для измерений. На графиках ниже приводится полное потребление систем (без монитора), измеренное «после» блока питания и представляющее собой сумму энергопотребления всех задействованных в системе компонентов. КПД самого блока питания в данном случае не учитывается.

В состоянии простоя экономичность платформы Basin Fall по сравнению с прошлой HEDT-платформой несколько улучшилась. Однако произошло это, скорее всего, за счёт набора системной логики, производство которого теперь переведено c 32-нм на 22-нм технологию.

При рендеринге оказывается, что Core i9-7900X потребляет на четверть больше десятиядерного процессора прошлого поколения. Получается, что за прирост частоты в Skylake-X действительно приходится расплачиваться возросшим энергопотреблением и тепловыделением.

А вот как выглядит ситуация с потреблением при максимально возможной нагрузке — в утилите Prime 29.10, которая активно использует энергоёмкие AVX- и FMA3-инструкции.

Здесь ситуация принципиально не отличается. По потреблению Core i9-7900X заметно обходит Core i7-6950X. Таким образом, необходимость использования для новых процессоров производительных систем охлаждения даже в том случае, когда речь идёт об их эксплуатации в номинальном режиме, не вызывает никаких сомнений.

⇡#Разгон

Перед анонсом семейства Skylake-X компания Intel успела наобещать заметный рост разгонного потенциала, поэтому интерес к оверклокерским экспериментам существует немалый. Причём в данном случае речь идёт не о чистом маркетинге: несмотря на то, что прошлое поколение HEDT-процессоров, Broadwell-E, тоже производилось с применением 14-нм норм, Skylake-X должны оказаться в этом плане заметно интереснее, поскольку в новом поколении CPU используется улучшенный техпроцесс 14-нм+ или 14FF+, который достался Skylake-X по наследству от Kaby Lake.

Полупроводниковые кристаллы, выращенные по такой усовершенствованной технологии, используют на 12 % более высокий уровень управляющих токов и имеют увеличенный шаг затворов транзисторов (предположительно, с 70 до 84 нм), что в конечном итоге снижает токи утечки и позволяет добиваться стабильной работы на более высокой частоте. Например, выпущенные по такому техпроцессу четырёхъядерные процессоры Core i7-7700K без применения специальных методов охлаждения разгоняются до 4,8–5,0 ГГц и даже сильнее.

Что же касается Skylake-X, то улучшение частотного потенциала этих процессоров прослеживается даже в паспортных характеристиках. Заявленная в спецификациях частота Core i9-7900X на 10-20 процентов выше, чем у десятиядерного процессора прошлого поколения, так что в теории примерно в таких же масштабах можно ожидать и улучшения разгона.

Вместе с тем с вводом в строй платформы Basin Falls компания Intel в очередной раз нарастила арсенал инструментов, который даётся в руки оверклокерам. Реализованные в прошлом поколении HEDT-платформы средства, открывающие доступ к раздельному разгону отдельных ядер процессора с индивидуальной подстройкой напряжений, и возможность искусственно занижать частоту процессора при исполнении AVX-инструкций в полной мере сохранились и для Skylake-X.

Раздельный разгон для каждого ядра

Но в дополнение к этому добавилась возможность отдельного регулирования процессорного множителя при его работе с инструкциями из набора AVX-512.

Снижение множителей для AVX- и AVX-512-инструкций

Тем не менее на практике всё оказывается далеко не столь радужно. На пути покорения высоких частот встаёт имеющаяся в Core i9-7900X поддержка инструкций AVX-512. Векторные инструкции из набора AVX всегда порождали высокое тепловыделение, и поэтому большинство утилит для проверки стабильности разогнанных процессоров используют именно их. Набор AVX-512 в этом плане ещё более суров: темп исполнения этих инструкций такой же, как и у обычных 256-битных AVX, но при этом они ворочают вдвое большими объёмами данных. Поэтому нагрев процессора при задействовании AVX-512-команд серьёзно ограничивает возможности по увеличению тактовых частот выше номинального значения.

Например, проводя эксперименты по разгону Core i9-7900X и тестируя его стабильность утилитой LinX 0.7.2, базирующейся на математическом пакете Intel Math Kernel Library 11.3 Update 3, в котором инструкции AVX-512 активно используются для проведения вычислений, мы смогли добиться от десятиядерного Skylake-X беспроблемной работы лишь на частоте 3,8 ГГц.

Однако уже на столь невысокой частоте и при установке, казалось бы, совершенно незначительного напряжения на уровне 1,05 В, нагрев процессора доходил до 99 градусов, что совсем близко от максимально допустимой температуры в 105 градусов, при которой у Skylake-X включается троттлинг. Для отвода тепла при этом использовался один из самых производительных кулеров Noctua NH-D15S, который заподозрить в недостаточной эффективности очень тяжело.

Естественно, столь невысокий разгон можно списать на неудачную термопасту под процессорной крышкой, и, скорее всего, скальпирование и замена термоинтерфейса жидким металлом сможет помочь в увеличении частоты Core i9-7900X до значений в окрестности 4 ГГц. Однако работа этого процессора на частоте близкой к 5 ГГц, о которой в преддверии анонса твердили некоторые источники, – это нечто из области фантастики. По крайней мере, если говорить об абсолютной стабильности и возможности эксплуатации CPU в любых приложениях в режиме 24/7.

Тем не менее в обзорах, которые опубликуют сегодня другие источники, вы наверняка встретите восторженные отзывы о разгонном потенциале Core i9-7900X, сопровождающиеся свидетельствами о покорении им при использовании обычных методов охлаждения частот на уровне 4,6-4,7 ГГц. Работоспособность этого CPU на таких частотах действительно возможна, но только если проверку стабильности системы проводить поверхностно и не использовать программы, которые активно задействуют AVX- и AVX-512-инструкции.

Например, когда мы отказались от испытаний устойчивости разгона в LinX 0.7.2 и стали использовать Intel Extreme Tuning Utility (Intel XTU), наш экземпляр CPU смог продемонстрировать работоспособность на частоте 4,7 ГГц с повышением напряжения до 1,275 В.

Температура в процессе теста стабильности достигала 100 градусов, но никаких претензий к режиму работы процессора со стороны выбранного инструмента проверки не возникало. А это значит, что при условии отказа от ресурсоёмких AVX- и AVX-512-инструкций, процессор может быть разогнан значительно сильнее.

Предлагаемые для Skylake-X настройки BIOS материнских плат позволяют снижать частоту процессора при исполнении им команд из наборов AVX и AVX-512. Благодаря этому разгон Core i9-7900X до 4,7 ГГц можно настроить так, чтобы при исполнении им скалярных алгоритмов высокая частота сохранялась, а на векторных командах использовалась бы иная, более низкая частота. И такой подход вполне можно было бы рекомендовать для реального использования, если бы не один неприятный нюанс: при повышении напряжения до 1,275 В максимально допустимая частота, при которой процессор не будет иметь проблем с исполнением инструкций AVX и AVX-512, находится в окрестностях 2,0-2,5 ГГц. А это значит, что подобный комбинированный разгон улучшит скорость работы одних программ, но заметно затормозит другие.

Чтобы такого не происходило, можно предложить иной алгоритм поиска подходящего для реального использования оверклокерского режима. Сначала нужно выяснить максимально допустимый уровень напряжения при номинальной частоте, при котором процессор не перегревается при исполнении векторных команд. А затем – подобрать для этого напряжения стабильный разгон в скалярном режиме. В этом случае разгон принесёт улучшение производительности в большинстве задач, не использующих AVX и AVX-512, и не будет приводить к проблемам в особенно тяжёлых вычислительных задачах, где вычисления возлагаются на векторные инструкции.

Для нашего экземпляра Core i9-7900X напряжением, при котором процессор способен проходить тестирование в LinX 0.7.2 на номинальной частоте 3,3 ГГц, оказалось 1,1 В. Данное напряжение даёт возможность проходить обычные скалярные тесты на частоте 4,3 ГГц. И именно такой разгон и можно предложить в качестве приемлемого варианта для повседневного использования.

Но справедливости ради стоит отметить, что предложенный комбинированный разгон до 3,3-4,3 ГГц не слишком сильно отличается от номинального режима работы Core i9-7900X: прирост производительности от его применения вряд ли сможет превысить 10-процентный уровень даже при самом благоприятном варианте нагрузки. А значит, оверклокерские возможности десятиядерного Skylake-X вряд ли можно считать достойными пристального внимания. Возможно, ситуацию можно будет как-то поменять, скальпировав этот процессор, но без дополнительных процедур и без специальных средств охлаждения разгон Core i9-7900X представляется достаточно бесперспективным занятием.

⇡#Выводы

Выпустив в свет процессоры Ryzen и пообещав в скором времени запустить собственную HEDT-платформу Threadripper, компания AMD определённо заставила Intel шевелиться. Правда, возникшее в недрах микропроцессорного гиганта шевеление пока вряд ли можно назвать активным: первым делом Intel стала пускать в ход средства, которые не требуют от неё особых инженерных усилий. Но на самом деле и это уже немало. Ведь именно благодаря компании AMD новые интеловские HEDT-процессоры стали заметно дешевле, а в рамках платформы Basin Falls готовятся беспрецедентные чипы с 12, 14, 16 и даже 18 ядрами.

Впрочем, многоядерные интеловские процессоры для энтузиастов – дело не сегодняшнего дня, а ближайшей перспективы, сейчас же Intel может предложить лишь 10-ядерный Core i9-7900X, который на фоне Core i7-6950X как значительный шаг вперёд совсем не выглядит. Этот процессор представляет собой многоядерное воплощение микроархитектуры Skylake, а потому с точки зрения удельной производительности не даёт ощущения принципиального прироста. Тем не менее сказать, что в Skylake-X мы увидели лишь привычное увеличение скорости на единицы процентов, было бы не совсем справедливо.

По правде говоря, изменений в дизайне Skylake-X произошло очень много. Наиболее заметно среди них то, что Intel кардинально переработала схему межъядерных соединений и полностью переделала систему кеширования. Но и то и другое в действительности сделано с прицелом на повышение эффективности многоядерных серверных продуктов и десктопным Skylake-X досталось по наследству. С позиции же пользователей настольных систем такие перемены далеко не однозначны. Как показали тесты Core i9-7900X, влияние отказа от кольцевой шины в пользу сети и четырёхкратное увеличение ёмкости L2-кеша с принесением в жертву объёма кеш-памяти третьего уровня играет скорее отрицательную роль. Особенно заметно это в тех приложениях, которые активно работают с большими объёмами данных. А к их числу относятся, например, 3D-игры.

Тем не менее в дизайне Skylake-X есть и несомненные плюсы, которые могут быть полезны и для требовательных пользователей настольных систем. В частности, в новых процессорах появилась поддержка инструкций AVX-512, способных существенно ускорить параллельные вычисления и работу с векторами. Кроме того, при производстве Skylake-X стал использоваться 14-нм техпроцесс второго поколения (14 нм+), что позволило на величину до 30 процентов поднять рабочие частоты. В результате в приложениях, направленных на создание и обработку цифрового контента, Skylake-X может предложить заметное улучшение производительности на фоне Broadwell-E того же класса. Например, при обработке видео или при финальном рендеринге мы видели впечатляющее превосходство Core i9-7900X над Core i7-6950X, которое может достигать 15-30 процентов.

В конечном итоге Core i9-7900X выглядит скорее как процессор для профессиональных рабочих станций, а не как домашнее решение для энтузиастов. В пользу такого вывода говорит не только отсутствие прироста производительности в игровых приложениях, но и масса иных «но». Так, Core i9-7900X имеет явные проблемы с разгоном, которые возникли из-за появления AVX-512 и пренебрежения Intel необходимостью добавлять под процессорную крышку качественный термоинтерфейс. Кроме того, произошедшее увеличение частоты сопровождается заметным ростом тепловыделения и энергопотребления, что с точки зрения энтузиастов-оверклокеров делает Core i9-7900X ничуть не лучше разогнанного Core i7-6950X, который, к слову сказать, за счёт отсутствия поддержки AVX-512 может предложить стабильную работу на более высоких частотах.

Однако сомневаться в наличии у Core i9-7900X решающих положительных черт можно относительно недолго – лишь до тех пор, пока речь не зайдёт о его стоимости. Если же на чашу весов положить и ценовой аргумент, то все сомнения в том, что Core i9-7900X – это очень сильный ход компании Intel, тут же отходят на второй план. Ведь благодаря появлению Skylake-X получить в своё распоряжение 10-ядерный процессор теперь будет можно на 700 долларов дешевле, и именно этим он и склоняет на свою сторону.

К тому же на Core i9-7900X платформа Basin Falls отнюдь не заканчивается. Это – всего-навсего один из многих вариантов процессоров для новой экосистемы, причём, очевидно, далеко не самый интересный. Вполне вероятно, что после знакомства с прочими чипами для LGA2066, располагающими иным количеством ядер, о новой HEDT-платформе Intel может сложиться более позитивное мнение. В конце концов, именно Basin Falls собирается в скором времени стать единственной десктопной платформой, в рамках которой пользователям будут предлагаться уникальные 18-ядерные процессоры с быстродействием, превышающим 1 Тфлопс. И на это как минимум стоит посмотреть.