Обзор процессора Core i9-7900X: предвестник ядерной войны / Процессоры и память

Обновление интеловской HEDT-платформы было запланировано уже очень давно. Ещё год назад, когда компания выпускала свои процессоры Broadwell-E, было известно, что они приходят всего на год и этим летом им на смену должны прийти более новые Skylake-X. Однако ничего особенно интересного от этого события не ожидалось. Примечательным в планирующемся анонсе было разве только то, что компания Intel собиралась сократить существующий архитектурный разрыв между массовыми и высокопроизводительными чипами и выпустить в рамках новой версии HEDT-платформы не только CPU, базирующиеся на дизайне Skylake (который был представлен ещё летом 2015 года), но и чипы с наиболее свежей архитектурой Kaby Lake. Впрочем, многоядерные процессоры для настольных систем должны были выйти лишь в семействе Skylake-X, а семейство Kaby Lake-X должно было включать лишь дополнительные и второстепенные четырёхъядерные чипы, по сути являющиеся аналогами массовых Kaby Lake для платформы LGA1151.

Таким образом, с точки зрения энтузиастов, платформа HEDT должна была продолжить своё планомерное движение привычным курсом: немного больше ядер, немного выше частоты, чуть иной сокет, немного возросшие цены и т. п. И мы нисколько не сомневаемся, что всё бы так и было, если бы этой весной не случился Ryzen. Новая архитектура, которую представила AMD, получалась настолько удачной, а ценовая политика этой компании оказалась настолько дерзкой, что Intel попросту не смогла оставить поползновения конкурента без какого-либо ответа. Тем более что AMD к тому же объявила о проекте Threadripper, в котором было заложено намерение посягнуть на святая святых – сегмент высокопроизводительных платформ с многоядерными процессорами, где Intel давно считала себя единственным и неповторимым игроком.

В результате новые процессоры Skylake-X, о которых мы ведём речь сегодня, получили два принципиально важных неожиданных изменения.

Первое: Intel решила не сдерживать себя в увеличении числа процессорных ядер, и в рамках новой платформы ожидаются десктопные CPU с 12, 14, 16 и 18 ядрами. Это значит, что впервые Intel будет предлагать энтузиастам не только адаптированные версии серверных процессоров Skylake-SP, основанные на самом простом варианте полупроводникового кристалла LCC (Low Core Count), но и процессоры на кристалле средней сложности HCC (High Core Count), что позволит более уверенно адресовать платформу HEDT аудитории профессионалов – создателям видеоконтента, моделлерам и разработчикам, работающим со сверхвысокими разрешениями и виртуальной реальностью.

Второе же изменение ещё более поразительно и касается ценовой политики. Процессоры Skylake-X стали значительно дешевле своих предшественников. Если в семействе Broadwell-E десятиядерный процессор стоил $1 723, то аналогичный по количеству ядер Skylake-X обойдётся всего в $999. Подобные изменения касаются и остальных представителей модельного ряда. В целом если раньше цены на старшие процессоры HEDT-класса формировались по принципу «$170 за ядро», то теперь для многоядерных Skylake-X будет действовать куда более либеральное правило «$100 за ядро».

В конечном же итоге новое воплощение HEDT-платформы становится более доступным и более приближенным к конечному пользователю. Число сценариев, где эта платформа может найти применение, возрастает, а входной порог понижается. Иными словами, процессоры Skylake-X и Kaby Lake-X уже не кажутся столь элитарными и статусными продуктами. Очевидно, что число желающих приобрести именно их, а не флагманские LGA1151-чипы, будет явно больше, чем раньше. И в этом обзоре мы подробнее познакомимся с новой HEDT-платформой и десятиядерным процессором Core i9-7900X – старшим на ближайшую пару месяцев вариантом Skylake-X, который уже через неделю появится на прилавках магазинов.

⇡#Процессоры Skylake-X: общие сведения

Новая HEDT-платформа компании Intel носит кодовое имя Basin Falls и представляет собой гораздо более комплексный и масштабируемый продукт, нежели высокопроизводительные платформы прошлых поколений, которые использовали процессорные разъёмы LGA2011 и LGA2011-3.

Ранее модельный ряд в каждом поколении HEDT-платформы включал всего лишь по три-четыре CPU, число ядер у которых различалось не более чем в полтора-два раза. Теперь же процессоров, совместимых с платформой Basin Falls, будет не менее девяти, причём разница в количестве ядер между самым простым и самым навороченным чипом будет более чем четырёхкратной. На этом фоне совершенно неудивительно, что новые HEDT-процессоры подразделяются на три группы, различающиеся по дизайну и архитектуре, но совместимые с одним и тем же процессорным гнездом LGA2066.

	Ядра/ потоки	Базовая частота, ГГц	Турбо-режим, ГГц	Turbo Boost Max 3.0, ГГц	L3-кеш, Мбайт	Линии PCI Express 3.0	Каналы памяти	Частота памяти	TDP, Вт	Цена
Skylake-X (HCC)
Core i9-7980XE	18/36	?	?	?	?	44	?	?	?	$1999
Core i9-7960X	16/32	?	?	?	?	44	?	?	?	$1699
Core i9-7940X	14/28	?	?	?	?	44	?	?	?	$1399
Skylake-X (LCC)
Core i9-7920X	12/24	?	?	?	?	44	?	?	?	$1199
Core i9-7900X	10/20	3,3	4,3	4,5	13,75	44	4	DDR4-2666	140	$999
Core i7-7820X	8/16	3,6	4,3	4,5	11	28	4	DDR4-2666	140	$599
Core i7-7800X	6/12	3,5	4,0	Нет	8,25	28	4	DDR4-2400	140	$389
Kaby Lake-X
Core i7-7740X	4/8	4,3	4,5	Нет	8	16	2	DDR4-2666	112	$339
Core i5-7640X	4/4	4,0	4,2	Нет	6	16	2	DDR4-2666	112	$242

Пара наиболее простых чипов, Core i7-7740X и Core i5-7640X, располагает четырьмя ядрами с поддержкой технологии Hyper-Threading или без неё и относится к классу Kaby Lake-X. Они представляют собой на 100-200 МГц более быстрые аналоги Core i7-7700K и Core i5-7600K, перенесённые на другой сокет. Никакой разницы в архитектуре и в удельной производительности здесь нет, однако за счёт более либерального теплового пакета, намертво заблокированного графического ядра и изменений в схеме питания, возможно, некоторые улучшения произойдут в разгонном потенциале.

Мы подробно рассмотрим свойства представителей серии Kaby Lake-X в одном из следующих обзоров, благо их продажи должны начаться одновременно со Skylake-X в самое ближайшее время. Однако следует иметь в виду, что из-за особенностей своего происхождения Kaby Lake-X кажутся на фоне Skylake-X откровенно ущербными предложениями не только из-за небольшого числа ядер. В них также используется упрощённый двухканальный контроллер памяти и контроллер PCI Express, поддерживающий лишь шестнадцать линий. А это значит что, хотя Kaby Lake-X и предназначены для эксплуатации в составе платформы Basin Falls, реализовать существенную часть её ключевых преимуществ они не дадут.

Гораздо больший интерес для энтузиастов высокой производительности представляют процессоры Skylake-X: они позволяют использовать все возможности платформы Basin Falls в полной мере и могут рассматриваться как полноценные наследники прошлого поколения HEDT-чипов, Broadwell-E. Однако в поколении Skylake-X подход Intel под влиянием активных действий конкурента претерпел некоторые изменения, и новинки, относящиеся к этому классу, разделились на две группы: процессоры с относительно небольшим числом ядер и процессоры – многоядерные монстры.

Стандартная стратегия, которую микропроцессорный гигант всегда использовал при создании потребительских чипов для верхнего рыночного сегмента, заключалась в том, чтобы приспособить для таких нужд варианты серверных процессоров с относительно небольшим числом ядер, выпускаемые на основе полупроводниковых кристаллов LCC. И эта стратегия успешно работала на протяжении нескольких последних лет. Так, серверные процессоры традиционно подразделяются на три класса, для каждого их которых разрабатывается собственный дизайн полупроводникового кристалла: LCC (Low Core Count), HCC (High Core Count) и XCC (Extreme Core Count). В поколении Broadwell-EP к первому классу относились чипы с числом ядер до десяти, соответственно старшие потребительские LGA2011-3 CPU – это десятиядерники. В поколении Skylake-SP кристалл LCC получил уже двенадцать ядер. И вполне закономерно, что процессоры Skylake-X, которые были запланированы для платформы Basin Falls изначально, должны были получить от шести до двенадцати ядер.

Таким образом, все Skylake-X с числом ядер от шести до двенадцати и поддержкой технологии Hyper-Threading – это совершенно традиционные высокопроизводительные чипы для настольных компьютеров. Они основываются на одном и том же 14-нм 12-ядерном полупроводником кристалле LCC с микроархитектурой Skylake, в котором для формирования тех или иных моделей CPU может быть отключено до шести ядер. Кроме того, дифференциация в ряду таких процессоров происходит и по числу линий PCI Express, поддерживаемых встроенным в CPU контроллером. Старшие модели с десятью и двенадцатью ядрами предлагают 44 линии PCI Express, в то время как у процессоров с шестью и восемью ядрами контроллер PCI Express поддерживает только 28 линий.

Кристалл LCC: 12 ядер, площадь 325 мм²

Зато все варианты Skylake-X, основанные на кристалле LLC, имеют сравнительно высокие тактовые частоты. Тепловой пакет таких процессоров установлен в типичные для HEDT-платформы 140 Вт, но их частоты по сравнению с Broadwell-E заметно увеличены. Десятиядерный Core i9-7900X имеет базовую частоту 3,3 ГГц и может разгоняться в турборежиме до 4,3 ГГц; базовая частота восьмиядерного Core i7-7820X установлена в 3,6 ГГц с аналогичным турборежимом на уровне 4,3 ГГц, а паспортная частота шестиядерного Core i7-7800X равна 3,5 ГГц с возможностью автоматического разгона при невысокой нагрузке до 4,0 ГГц. Полные паспортные характеристики двенадцатиядерного Core i9-7920X пока не названы – этот процессор должен выйти только через пару месяцев.

Стоит обратить внимание и ещё на один интересный момент. С появлением платформы Basin Falls в ассортименте Intel появляются процессоры с именем Core i9. Таким образом Intel решила подчеркнуть элитарность отдельных моделей Skylake-X, которые, по всей видимости, будут напрямую противопоставляться AMD Threadripper. Но пока принцип присвоения имени Core i9 чисто формальный. Его получают процессоры с более чем 10 ядрами и 44 линиями PCI Express. А это значит, что до запланированного на август выхода 12-ядерника в линейке Skylake-X будет только один Core i9 – десятиядерный тысячедолларовый Core i9-7900X.

Но кстати говоря, не факт, что с выходом 12-ядерного Core i9-7920X текущий субфлагман Core i9-7900X на его фоне померкнет. То, что Intel не выпустила свой двенадцатиядерник вместе с остальными процессорами Skylake-X на кристалле LLC, связано с тем, что компания пока не может решить, сделать его более экономичным или более скоростным. В теории платформа LGA2066 поддерживает процессоры с типичным тепловыделением до 165 Вт, что позволяет установить частоты Core i9-7920X на достаточно высокой отметке, но Intel не хочет прибегать к этой мере во избежание проблем несовместимости с материнскими платами и системами охлаждения, которые наверняка могут возникнуть из-за того, что столь горячих процессоров компания ещё не выпускала. Поэтому и было решено выдержать некоторую паузу, в течение которой инженеры Intel надеются понять, насколько впечатляющей получится HEDT-платформа у компании AMD.

К тому же у Intel заготовлено ещё одно мощное средство, которое она может противопоставить HEDT-процессорам AMD, – чипы Skylake-X, базирующиеся на кристалле HCC. Этот кристалл имеет в своём составе 18 ядер и в перспективе позволит выпустить три дополнительные версии Core i9 с 14, 16 и 18 ядрами. Точные характеристики этих моделей по понятным причинам пока не определены, да и их выход запланирован лишь на октябрь. Однако, Intel уже сейчас хочет закрепить за собой звание производителя HEDT-процессоров с наибольшим числом ядер, оставляя, тем не менее, некоторое пространство для манёвра с частотами и тепловыделением.

Кристалл HCC: 18 ядер, площадь 484 мм²

В конечном итоге платформа Basin Falls выглядит заметным шагом вперёд. Skylake-X по сравнению с Broadwell-E получили внушительный и разносторонний набор улучшений. Начиная с того, что новые процессоры предлагают существенно возросшее число ядер и заметно поднявшиеся рабочие частоты, причём делают это при попутном снижении цены. И заканчивая тем, что в Skylake-X реализован более мощный четырёхканальный контроллер памяти с официальной поддержкой DDR4-2666, а также контроллер PCI Express 3.0 с увеличенным на четыре штуки числом линий. Попутно не стоит забывать и о новой микроархитектуре Skylake, которая сама по себе содержит целый ряд оптимизаций, позволяющих поднять удельную производительность при неизменной частоте.

И здесь нужно подчеркнуть ещё одну важную деталь. Микроархитектура ядер новых процессоров Skylake-X не просто повторяет привычную микроархитектуру Skylake образца 2015 года. В новых HEDT-продуктах добавлены дополнительные улучшения, про которые мы подробно расскажем ниже. В их числе: поддержка 512-битных векторных инструкций AVX-512, изменение подсистемы кеш-памяти, изменение топологии межъядерных соединений и новая версия технологии Turbo Boost Max 3.0, позволяющая поднимать частоты избранной пары ядер процессора до 4,5 ГГц.

⇡#Набор системной логики Intel X299 и LGA2066-материнские платы

Вместе с новыми процессорами Skylake-X и Kaby Lake-X компания Intel выводит на рынок и ответную часть платформы Basin Falls – новый набор системной логики X299. Впрочем, утверждать, что этот чипсет такой же новаторский, как сопутствующие ему процессоры, мы бы не стали. Если говорить о нём в двух словах, то следует сказать, что X299 приносит в HEDT-платформу лишь те возможности, которые уже давно стали стандартными для LGA1151-систем. Однако и такое изменение не стоит недооценивать. Чипсеты для LGA2011- и LGA2011-3-систем были гораздо менее функциональны. И если X299 сравнивать с X99, а не с Z270, то прогресс становится очевиден.

Главных перемен две. Во-первых, X299 получил стандартную HSIO-топологию (High-Speed IO). Это значит, что новый набор логики подобен PCIe-коммутатору: в нём есть 30 высокоскоростных портов, которые производители материнских плат могут гибко сконфигурировать под свои нужды и получить в конечном итоге необходимое число линий PCI Express 3.0, а также USB 3.0- и SATA 3.0-портов. Во-вторых, изменилась шина, по которой чипсет общается с процессором. Если в X99 для этих целей применялась шина DMI 2.0, то X299 перешёл на вдвое более скоростную шину DMI 3.0, во многом аналогичную PCI Express 3.0 x4.

Реализация топологии HSIO

Высокоскоростные порты чипсета позволяют получить из него в разных комбинациях до 24 линий PCI Express 3.0, до восьми портов SATA 3.0 и до десяти портов USB 3.0. Это почти эквивалентно возможностям Z270, и можно было бы подумать, что хаб X299 представляет собой вариацию набора логики от платформы LGA1151, но у X299 всё-таки есть уникальная черта – он поддерживает на пару SATA-портов больше. В остальном характеристики схожи. Причём это касается и того, что оба чипсета производятся по одному и тому же 22-нм техпроцессу, имеют одинаковое тепловыделение на уровне 6 Вт, и даже мало отличаются друг от друга внешне.

Честно говоря, от X299, который вместе с платформой Basin Falls приходит на сравнительно продолжительный срок, хотелось бы каких-то дополнительных возможностей, например поддержки USB 3.1 Gen 2 и WiFi, которая должна появиться уже в следующем поколении наборов логики для платформы LGA1151. Но ничего такого в X299 нет, и все подобные функции отданы на откуп производителям материнских плат, которые вновь будут вынуждены доукомплектовывать свои флагманские LGA2066-решения россыпью дополнительных контроллеров.

Зато в X299 есть поддержка накопителей Intel Optane и всех прочих функций, реализуемых через драйвер Intel RST 15. Это, в частности, означает, что из PCIe-накопителей, подключённых к чипсету, можно формировать RAID-массивы уровней 0, 1 и 5. Причём число участников в таких массивах может доходить до трёх.

Впрочем, учитывая богатый набор линий PCI Express, имеющийся у процессора, производители материнских плат наверняка будут реализовывать M.2-слоты, подключённые напрямую к CPU. Специально для таких случаев в платформе Basin Falls имеется дополнительная уникальная функция VROC (Virtual RAID On CPU). Она позволяет объединять в RAID-массивы любое количество PCI Express-накопителей, подключённых напрямую к процессору. Правда, в этой технологии заложены некоторые обидные программные ограничения. Например, для активации режимов RAID, отличных от RAID 0, от пользователя потребуется специальный ключ, который будет необходимо приобретать отдельно.

Вместе с новым набором логики процессоры Skylake-X и Kaby Lake-X требуют и новый 2066-контактный разъём LGA2066 (Socket R4). Необходимость во внедрении нового сокета в данном случае обуславливалась переходом на DMI 3.0 и появлением в процессоре нескольких дополнительных линий PCI Express, поэтому совместимости между новыми HEDT-процессорами и предшествующими платформами с разъёмом LGA2011-3 нет и быть не может.

Тем не менее по внешнему виду и габаритам LGA2066 почти не отличается от LGA 2011-3. И даже более того, Intel удалось сохранить полную совместимость со старыми системами охлаждения. Способ крепления кулеров к сокету остался таким же, как и раньше, не изменилось и расположение монтажных отверстий. Соответственно, старые кулеры для Haswell-E и Broadell-E подойдут для новых процессоров Skalake-X и Kaby Lake-X без каких-либо ограничений.

Поскольку процессоры Kaby Lake-X и Skylake-X очень серьёзно различаются по характеристикам, в том числе по числу процессорных линий PCI Express и числу каналов памяти, платформе LGA2066 свойственна гибкость, которая ранее ещё не встречалась. Согласно требованиям Intel к материнским платам с разъёмом LGA2066, все они обязаны поддерживать полную линейку LGA 2066-процессоров без каких-либо исключений. Это значит, что типовая LGA2066-плата должна позволять строить конфигурации как с двухканальной, так и с четырёхканальной подсистемой памяти, а также с 16, 28 или 44 линиями PCI Express, идущими от CPU.

И это на самом деле – далеко не простая задача, решение которой приводит к тому, что покупатели недорогих LGA2066-процессоров будут вынуждены переплачивать за возможности, которыми они, скорее всего, пользоваться никогда не будут. Хотя мы и не исключаем, что в продаже могут появиться платы, оптимизированные под младшие LGA2066-процессоры и имеющие сокращённое число слотов DIMM и PCI Express, в большинстве случаев ситуация, скорее всего, будет складываться так, что при установке Kaby Lake-X часть слотов на материнской плате будет оказываться недоступна для использования.

Что-то подобное будет происходить при установке Kaby Lake-X и младших версий Skalake-X не только со слотами DIMM, но и с процессорными слотами PCI Express. Часть из них может отключаться, а другая часть – переходить в более «слабые» скоростные режимы.

⇡#Новое в Skylake-X

⇡#Новая архитектура кеш-памяти

Процессоры Skylake-X нельзя рассматривать как простой перенос хорошо знакомой микроархитектуры Skylake на многоядерный дизайн. За прошедшие с момента её появления два года инженеры Intel провели определённую работу и внесли некоторые изменения в изначальный проект. Поэтому процессоры Skylake-X можно считать носителями обновлённой версии базовой микроархитектуры, что в конечном итоге наделяет их несколько отличающейся удельной производительностью (в пересчёте на частоту). И самое главное усовершенствование касается переделки подсистемы кеш-памяти с целью повышения эффективности её работы.

В HEDT-процессорах прошлых поколений (так же как и в Xeon) архитектура кеш-памяти предполагала выделение на каждое ядро собственных L1- и L2-кешей и наличие единого на все ядра L3-кеша, который был инклюзивным и имел внушительный объём. Это означало, что все данные, которые находились в L2-кеше, дублировались и в L3, однако, если данные из L2-кеша вытеснялись, они всё ещё оставались доступны в L3. Такая схема работы была достаточно выгодна, и её эффективность во многом поддерживалась правильно подобранным соотношением между объёмами кеш-памяти разных уровней. В то время как L2-кеш имел ёмкость 256 Кбайт, объём кеша третьего уровня формировался из расчёта от 1,5 до 2,5 Мбайт на ядро. В результате, несмотря на затратный инклюзивный алгоритм, L3 сохранял достаточно места для независимой работы с данными.

Однако в Skylake-X баланс было решено изменить. Учитывая, что L2-кеш имеет гораздо лучшие показатели латентности, и его вместимость сильнее сказывается на производительности, в новых процессорах его объём было решено увеличить до 1 Мбайт, то есть в четыре раза. При этом, чтобы не выходить за рамки приемлемого транзисторного бюджета, сделано это было одновременно с уменьшением разделяемого между ядрами L3-кеша, объём которого в Skylake-X теперь определяется из расчёта 1,375 Мбайт на ядро.

Попутно, чтобы сохранить эффективность L3-кеша при серьёзном уменьшении объёма, был изменён алгоритм его функционирования. Теперь этот кеш не инклюзивный, и более того – он виктимный. Это значит, что L3-кеш наполняется исключительно за счёт вытеснения данных из L2, и механизмы предварительной выборки данных на него не распространяются. В конечном итоге это значит, что, в то время как эффективный суммарный размер кеш-памяти у процессоров Haswell-E и Broadwell-E составлял 2,5 Мбайт на ядро, у Skylake-X он остался почти таким же – 2,375 Мбайт на ядро. Однако система кеширования Skylake-X должна обеспечивать в среднем меньшие задержки, поскольку существенная часть кеш-памяти – второго уровня, для которой характерна небольшая латентность.

Подробнее структура кеш-памяти Skylake-X описана в таблице:

	Broadwell-E	Skylake-X
L1D-кеш	32 Кбайт на ядро, 8-канальная ассоциативность	32 Кбайт на ядро, 8-канальная ассоциативность
L1I-кеш	32 Кбайт на ядро, 8-канальная ассоциативность	32 Кбайт на ядро, 8-канальная ассоциативность
L2-кеш	256 Кбайт на ядро, 8-канальная ассоциативность	1024 Кбайт на ядро, 16-канальная ассоциативность
L3-кеш	25 Мбайт на процессор, 20-канальная ассоциативность Частота – 2,8 ГГц	13,75 Мбайт на процессор, 11-канальная ассоциативность Частота – 2,4 ГГц

При этом L3-кеш процессоров Skylake-X явно стал хуже и по алгоритму работы, и по ассоциативности (то есть по эффективности), и по объёму, и даже по частоте работы. Однако всё это, по мнению инженеров Intel, должно компенсироваться более вместительным L2-кешем с вдвое более высокой ассоциативностью. Согласно выкладкам, представленным разработчиками, расширение размера L2-кеша в четыре раза удваивает вероятность нахождения в нём необходимых процессору данных. А это, в свою очередь, снижает простои исполнительного конвейера и, согласно мнению инженеров Intel, повышает удельную производительность на дополнительные 5-10 процентов. Таким образом, благодаря изменениям в подсистеме кеш-памяти процессоры Skylake-X должны превосходить привычные Skylake-S и Kaby Lake-S даже на однопоточной нагрузке.

Впрочем, прежде, чем принимать такие утверждения на веру, давайте посмотрим, как обстоит дело с реальной латентностью подсистемы кеш-памяти в процессорах Broadwell-E и Skylake-X. Для этого с помощью тестового пакета SiSoft Sandra мы измерили реальную латентность при обращении процессоров к блокам данных различного размера. Оба процессора, участвующие в тесте, работали на одинаковой 4-гигагерцевой частоте и были укомплектованы четырёхканальной DDR4-3000 SDRAM с CAS Latency 15.

Откровенно говоря, ситуация с реальной латентностью подсистемы кеш-памяти Skylake-X смотрится не слишком воодушевляюще. Старые процессоры Broadwell-E почти всегда обеспечивают более низкое время доступа к данным, за исключением случая, когда у них они не умещаются в L2-кеш, но влезают в него у Skylake-X. Поэтому правоту утверждений Intel можно подвергнуть сомнению. Кажется несколько неправдоподобным, что демонстрируемого выигрыша в латентности будет достаточно для того, чтобы Skylake-X смогли получить какое-то преимущество в производительности в реальных приложениях.

Однако справедливости ради стоит отметить более высокую практическую пропускную способность подсистемы кеш-памяти Skylake-X, что может служить некоторой компенсацией в ситуации с задержками.

Особенно радует на фоне высокой латентности пропускная способность L3-кеша. Вместе с пересмотром его архитектуры инженеры Intel смогли добиться существенного увеличения и полосы пропускания. Почему так произошло, станет понятно из следующего раздела.

⇡#Изменения в топологии межъядерных соединений

Вместе с изменением в системе кеширования компания Intel полностью переделала схему, которая применяется для организации межъядерного взаимодействия. Напомним, со времён Sandy Bridge для соединения процессорных ядер и обмена данными с L3-кешем и контроллером памяти в процессорах Intel использовалась основанная на протоколе QPI двунаправленная 256-битная кольцевая шина. И до тех пор, пока процессоры содержали не слишком большое число ядер, такой подход был очень эффективен. Достаточно простое схемотехническое решение действительно позволяло добиваться передачи данных с минимальными задержками.

Однако с ростом числа ядер маршруты на пути данных начали удлиняться, и это стало вызывать серьёзные проблемы. Для обеспечения слаженной работы многоядерных процессоров Intel даже пришлось перейти к схеме с разделением ядер на два кластера и внедрением двух кольцевых шин, связанных между собой двумя буферизирующими мостами. Но такое соединение ядер, контроллеров памяти и контроллеров ввода-вывода внутри процессора уже не могло похвастать былой эффективностью. В случае если возникала необходимость в передаче данных между точками, находящимися в различных кластерах, латентности сильно страдали. И в конечном итоге Intel пришла к ситуации, когда кольцевая шина стала препятствием на пути увеличения пропускной способности и снижения задержек при внутрипроцессорных операциях с данными.

Поэтому в серверных процессорах Skylake-SP (и родственных с ними HEDT-процессорах Skylake-X), где число ядер может достигать 28 штук, Intel перешла к иной схеме межъядерных соединений – ячеистой сети, которая уже хорошо обкатана в Intel Xeon Phi (Knights Landing). Число соединений в ней гораздо больше, поскольку все ядра на кристалле пронизаны сквозными горизонтальными и вертикальными линками. Но за счёт этого маршруты, необходимые для связи ядер и прочих функциональных узлов, заметно упрощаются, уменьшая латентности и уравнивая задержки, которые возникают при различных взаимодействиях внутри такой сети. Кроме того, такая сеть обеспечивает более высокую суммарную пропускную способность.

Данное изменение позволяет установить частоту этой сети ниже частоты кольцевой шины, сохранив при этом высокие показатели пропускной способности. А это значит, что новая ячеистая структура соединени не только хороша сбалансированностью и масштабируемостью, но и выигрывает с точки зрения потребления ресурсов.

Естественно, всё это важно в первую очередь для серверных процессоров с большим числом ядер, однако Skylake-X оказались заложниками ситуации: в них ячеистая сеть тоже заменила собой кольцевую шину. И в сравнительно простых случаях, когда число ядер не столь велико, латентности при межъядерном взаимодействии по сравнению с Broadwell-E ухудшились. Для проверки мы измерили латентности, возникающие при передаче данных от одного ядра к другому для десятиядерного Broadwell-E и Skylake-X. Оба процессора для чистоты эксперимента работали на одной и той же частоте 4,0 ГГц.

Как видно по иллюстрации, задержки при межъядерном взаимодействии у Skylake-X примерно в полтора раза выше. И это недвусмысленно говорит о том, что ячеистая сеть никакого выигрыша в случае десяти ядер не даёт, а напротив, только ухудшает ситуацию.

Хорошо заметным результатом произошедших перемен стали изменения в скорости работы подсистемы памяти. Поскольку контроллеры DDR4 в процессорах Intel связаны с ядрами посредством той же самой шины, что и ядра между собой, скорость работы подсистемы памяти напрямую связана с эффективностью схемы межъядерных соединений.

С помощью теста Cachemem из пакета AIDA64 мы измерили производительность подсистемы памяти, составленной из четырёх идентичных модулей DDR4-3000 SDRAM, у работающих на одинаковой частоте 4,0 ГГц процессоров Broadwell-E и Skylake-X, и диагноз подтвердился. Задержки внутри чипов нового поколения действительно стали выше.

Слева – результат Broadwell-E, справа – Skylake-X. Оба процессора работают на частоте 4,0 ГГц с DDR4-3000 15-17-17-35

Правда, справедливости ради стоит отметить тот факт, что вместе с латентностью выросла и практическая пропускная способность при чтении из памяти, что при потоковых операциях с большими объёмами данных может компенсировать возросшие задержки. Однако утешение это – достаточно слабое, поскольку в реальных задачах латентность подсистемы памяти оказывает на производительность весьма серьёзное влияние.

⇡#Поддержка инструкций AVX-512

Говоря о том, какие изменения в микроархитектуре Skylake приурочены к выходу высокопроизводительных процессоров Skylake-X, нельзя не упомянуть, что в них появилась поддержка нового набора векторных инструкций AVX-512. Впервые он был реализован в последнем поколении ускорителей вычислений Xeon Phi (Knights Landing), а теперь его поддержка добралась и до традиционных процессоров для серверов, рабочих станций и высокопроизводительных десктопов.

По сути набор AVX-512 представляет собой расширение векторных команд для операций с 512-битными векторами. В нём новые 512-битные регистры, новые упакованные форматы для целых и дробных чисел, а также разнообразные операции над ними. Важной особенностью режима AVX-512 выступает высокая скорость их выполнения: предполагается, что процессор может переходить с обычных 256-битных AVX-инструкций на 512-битные операции без снижения быстродействия. И этот факт позволяет Intel преподносить перспективный 18-ядерник как первый десктопный процессор с производительностью на уровне 1 Тфлопс.

Иными словами, введение AVX-512 позволяет удвоить производительность, однако речь здесь идёт исключительно о векторных операциях. При условии оптимизации под новые команды параллельные алгоритмы действительно могут исполняться на Skylake примерно вдвое быстрее, однако это, естественно, не распространяется на обычные вычисления общего назначения. Тем не менее вторгнуться на территорию, где ранее в расчётах применялись только видеокарты, процессоры Skylake-X вполне способны.

Стоит отметить, что появление в Skylake-X поддержки AVX-512 – не только усовершенствование, направленное на будущее. Некоторые существующие алгоритмы имеют нужные оптимизации уже сейчас и способны получать преимущество в производительности. К их числу, например, относится популярный кодер x264, в котором сообщество внедрило поддержку новых команд ещё в начале этого года.

Оценить же, насколько инструкции AVX-512 способны поднять производительность вычислительных алгоритмов в случае, близком к идеалу можно по синтетическому тесту Processor Multimedia из пакета SiSoft Sandra. Этот простой бенчмарк измеряет скорость построения множества Мандельброта с использованием различных наборов команд. С его помощью мы сравнили производительность десятиядерных Broadwell-E и Skylake-X, работающих на одинаковой частоте 4,0 ГГц.

Как видно по результатам, одно только использование 512-битных векторных инструкций позволяет ускорить вычисления на величину от 20 до 85 процентов. А если к этому прибавить прочие заложенные в Skylake-X архитектурные улучшения, то получается, что по удельной производительности этот CPU может превосходить Broadwell-E более чем в два раза.

⇡#Улучшенная технология Intel Turbo Boost Max 3.0

С выходом процессоров Broadwell-E компания Intel представила технологию Turbo Boost Max 3.0, эксплуатирующую тот факт, что ядра в многоядерном процессоре со сравнительно крупным полупроводниковым кристаллом могут существенно различаться по своему частотному потенциалу. Идея заключалась в том, что среди ядер процессора наверняка есть такое, которое может работать на более высокой частоте и при более низком напряжении, поэтому малопоточную нагрузку логично исполнять именно на нём.

Intel воплотила этот принцип через специальный драйвер, который переносил однопоточные приложения на такое предварительно отобранное для этих целей на этапе производство ядро. Производители материнских плат должны были через BIOS реализовать возможность повышения рабочей частоты этого единичного ядра на дополнительные несколько сотен мегагерц относительно значений, предусмотренных классической технологией Turbo Boost 2.0. В результате многоядерные процессоры Broadwell-E, имеющие относительно невысокие номинальные частоты, получали возможность решать однопоточные задачи с неплохой эффективностью.

Драйвер Turbo Boost Max 3.0. Список ядер составлен по приоритету, сверху – более удачные

В Skylake-X эта идея получила дальнейшее развитие. Теперь в процессоре для малопоточной нагрузки выбирается сразу два специальных ядра, что даёт возможность получать более высокую производительность при запуске сразу двух однопоточных приложений либо при работе в приложениях, которые могут использовать два ядра одновременно.

Правда, поплатиться за это пришлось допустимой в рамках Turbo Boost Max 3.0 прибавкой к частоте. Если в процессорах Broadwell-E данная технология могла поднимать частоту выбранного ядра на 200-500 МГц, то в Skylake-X дополнительное ускорение ограничивается лишь величиной 200 МГц.

Впрочем, связано это может быть и с тем, что в новом поколении HEDT-процессоров очень агрессивно проявляет себя и классическая технология Turbo Boost 2.0, оставляя для работы Turbo Boost Max 3.0 не слишком много свободного пространства.

⇡#Подробности о Core i9-7900X

Для тестирования компания Intel предоставила нам старший на данный момент процессор семейства Skylake-X, десятиядерный Core i9-7900X. Напомним, его продажи начнутся уже через неделю, а более мощные представители серии появятся только в августе (12-ядерные Skylake-X) или в октябре (14-, 16- и 18-ядерный Skylake-X).

Внешний вид LGA2066-процессора немного отличается от привычных очертаний LGA2013-3-процессоров, однако разница не кардинальная. Форма и размеры остались примерно теми же, фактически заметно выделяются лишь иначе оформленные края теплорассеивающей крышки.

Однако теперь эта крышка не припаивается к полупроводниковому кристаллу процессора, а контактирует с ним через термопасту.

В диагностической утилите CPU-Z новый Core i9-7900X выглядит не совсем очевидно.

Обратите внимание, утилита определяет этот процессор как Core i7-7900X, и это – не ошибка в программе. Такое наименование действительно зашито в самом процессоре в качестве идентификационной строки. Дело в том, что Intel решила использовать марку Core i9 совсем недавно, и разосланные обозревателям инженерные образцы содержат вариант названия, запланированный изначально.

В остальном все характеристики образца Core i7-7900X полностью соответствуют тому, как будут выглядеть серийные процессоры Core i9-7900X. Об этом, в частности, свидетельствует серийный степпинг ядра – H0.

Ситуация с реальными рабочими частотами Core i9-7900X складывается следующим образом:

При обычной многопоточной нагрузке на все ядра частота чаще всего находится на уровне 4,0 ГГц.
Если многопоточная нагрузка носит особенно ресурсоёмкий характер, например использует AVX-инструкции, частота может снижаться вплоть до 3,3-3,6 ГГц.
При однопоточной нагрузке частота под влиянием технологии Turbo Boost Max 3.0 может повышаться до обещанных 4,5 ГГц. Однако такой автоматический разгон наблюдается не всегда, а в ряде ситуаций частота при таких условиях достигает лишь 4,1 ГГц.

Тепловой режим процессора, функционирующего в номинале, никаких вопросов не вызывает, несмотря на замену припоя под процессорной крышкой полимерным термоинтерфейсом. При тестировании Core i9-7900X в LinX 0.7.2 (а эта версия уже имеет поддержку новых инструкций AVX-512) с использованием однобашенного кулера Noctua NH-U14S максимальные температуры по внутрипроцессорному датчику доходили лишь до 74 градусов, в то время как максимально допустимой температурой для Skylake-X считаются 105 градусов.

Всё это наводит на мысли, что интеловская термопаста в Skylake-X работает эффективнее, чем в LGA1151-процессорах. То ли изменился её состав, то ли роль играет заметно большая площадь полупроводникового кристалла, которая у LLC составляет примерно 325 мм² (против 122 мм² у четырёхъядерного Skylake-S).

В сравнении со своим предшественником, десятиядерным Broadwell-E, новый Core i9-7900X однозначно выигрывает в характеристиках.

	Core i7-6950X	Core i9-7900X
Кодовое имя	Broadwell-E	Skylake-X
Технология производства	14 нм, FinFET	14 нм, FinFET
Ядра/потоки	10/20	10/20
Технология Hyper-Threading	Есть	Есть
Базовая частота, ГГц	3,0	3,3
Максимальная частота в турборежиме, ГГц	3,5	4,3
Максимальная частота Turbo Boost Max 3.0, ГГц	4,0	4,5
Разблокированный множитель	Есть	Есть
TDP, Вт	140	140
L2-кеш, Кбайт	10 × 256	10 × 1024
L3-кеш, Мбайт	25	13,75
Число линий PCI Express 3.0	40	44
Поддержка DDR4 SDRAM	Четыре канала DDR4-2400	Четыре канала DDR4-2666
Расширения набора инструкций	SSE4.1/4.2, AVX 2.0	SSE4.1/4.2, AVX 2.0, AVX-512
Упаковка	LGA 2013-3	LGA 2066
Цена	$1 723	$999

С переходом на новую архитектуру рабочие частоты выросли на 10-30 процентов (в зависимости от режима), на официальном уровне появилась совместимость с DDR4-2666 SDRAM, добавилась поддержка AVX-512-инструкций, а также возрос объём кеш-памяти второго уровня. В минусе оказался лишь объём L3-кеша, который уменьшился почти вдвое. Впрочем, самое главное изменение обозначено в последней строке таблицы: десятиядерник теперь стоит на 42 процента дешевле.

Следующая страница →