Объясняем, почему Intel Alder Lake — главный процессор этой осени / Процессоры и память

В этом году Intel^® развернула небывалую активность. Кажется, до сих пор не случалось такого, чтоб нам пришлось анализировать два последовательных дизайна клиентских процессоров в течение всего нескольких месяцев. Но всё когда-то бывает в первый раз, и сегодня – вполне подходящий момент, чтобы предварительно познакомиться с процессорами Alder Lake, хотя предыдущее поколение Rocket Lake всё ещё остаётся недавней новинкой.

В действительности до выхода Alder Lake пока ещё есть немного времени. Процессоры этого семейства, по всей видимости, будут анонсированы на специальном мероприятии Intel Innovation 27-28 октября, то есть через месяц. Однако предстоящий анонс представляется слишком грандиозным событием, чтобы не подготовиться к нему заранее. Ведь на этот раз выход новых процессоров будет означать и смену платформы, и смену микроархитектуры, и даже в каком-то смысле смену всей концепции многопоточных вычислений. Именно поэтому мы решили собрать и систематизировать всю имеющуюся информацию, касающуюся Alder Lake, заранее, с тем чтобы по прошествии месяца встречать эти процессоры во всеоружии, обладая всем набором необходимых теоретических знаний.

К счастью, Intel уже раскрыла довольно много подробностей о строении и внутреннем устройстве Alder Lake во время презентаций Intel Accelerated и Intel Architecture Day 2021. Благодаря этому сегодня мы в рамках партнёрского проекта с компанией Intel сможем поговорить о будущих потребительских процессорах, основываясь исключительно на проверенных данных из первых рук.

⇡#Alder Lake с высоты птичьего полёта

Выход процессоров Alder Lake вне зависимости от того, насколько они окажутся успешны, станет очень большим событием для всего процессорного рынка. Дело не только в том, что в них Intel серьёзно обновит микроархитектуру и добавит поддержку принципиально новых типов памяти и внешних интерфейсов, но ещё и в том, что они станут воплощением совершенно иной концепции многопоточных вычислений, прибегать к которой в массовых x86-процессорах пока ещё никто не пытался. Речь идёт о том, что Alder Lake получат гибридное строение и будут основываться на ядрах двух типов одновременно – производительных (P-ядрах) и эффективных (E-ядрах). Их объединение в одном вычислительном устройстве, по задумке разработчиков, должно позволить добиться недостижимой ранее гибкости как в смысле сферы применимости таких процессоров, так и с точки зрения соотношения производительности и энергоэффективности.

Гибридный подход big.LITTLE уже давно используется в процессорах с архитектурой ARM, и идея Intel, которая будет воплощена в Alder Lake, чем-то напоминает эту схему. По задумке Intel, большие производительные ядра следует бросать на решение высокоприоритетных задач переднего плана, требующих короткого времени реакции, в то время как маленькие и энергоэффективные ядра могут заняться фоновыми процессами. Кроме того, все типы ядер можно объединить для решения одной задачи, что позволит достичь максимального уровня быстродействия, по крайней мере в теории.

При этом оба типа ядер в Alder Lake получили новые микроархитектуры, с которыми мы до сих пор не сталкивались. Производительные ядра основаны на микроархитектуре Golden Cove, которая является дальнейшим развитием Cypress Cove (из Rocket Lake) и Willow Cove (из Tiger Lake). А эффективные ядра имеют микроархитектуру Gracemont, которая выросла из процессоров Atom и является дальнейшим развитием микроархитектуры Tremont, применявшейся как в экспериментальных процессорах Lakefield, так и в более понятных Pentium (Silver) и Celeron серий N и J с кодовыми именами Jasper Lake и Elkhart Lake.

Важной задачей, которую Intel ставила перед собой при разработке Alder Lake, было создание не только двух типов ядер, но и более широкого набора разнообразных конструкционных блоков, которые могли бы позволить легко собирать различные по назначению потребительские процессоры для разных рыночных сегментов и с различными характеристиками: как высокопроизводительные настольные, так и мобильные и даже ультрамобильные.

Несмотря на заложенную в дизайне модульность, в процессорах Alder Lake пока не применяется тайловая топология – аналог чиплетов в видении Intel. Такой способ сборки компания возьмёт на вооружение чуть позднее. Вместо этого различные варианты Alder Lake конструируются на одном монолитном полупроводниковом кристалле. Но для удобства разработчики специально подогнали размеры составных частей Alder Lake друг к другу, и, например, одно производительное P-ядро примерно соответствует по площади собранным в кластер четырём эффективным E-ядрам. Подобные пропорции выдерживаются и для других элементов процессора (для графического ядра, контроллера памяти, контроллера PCIe и проч.) – это как раз и обеспечивает многообразие и гибкость конфигураций.

Неотъемлемой частью будущих процессоров Alder Lake, как и раньше, осталось графическое ядро. Intel предусмотрела два варианта графики: GT1 с 32 исполнительными устройствами для настольных процессоров и GT2 c 96 устройствами для мобильных применений. Встроенные GPU базируются на графической архитектуре 12-го поколения, то есть они относятся к классу Xe LP и примерно соответствуют по возможностям графическому ядру процессоров Tiger Lake. В варианте GT2 встроенная графика, как ожидается, сможет обеспечить приемлемую игровую производительность в разрешении 1080p (с низкими настройками качества) и будет поддерживать 12-битный конвейер воспроизведения видео. Однако в десктопные процессоры попадёт лишь более простой вариант GPU.

Отсутствие кардинальных обновлений в графическом ядре должен скомпенсировать новый контроллер памяти с поддержкой сразу четырёх типов SDRAM. Он может работать как с новыми DDR5-4800 и LPDDR5-5200, так и со старой памятью DDR4-3200 и LPDDR4X-4266. Естественно, все четыре типа памяти будут поддерживаться не одновременно: выбор того или иного варианта будет происходить на этапе проектирования конкретной платформы. Логично ожидать, что поддержка DDR5 SDRAM в первую очередь появится в высокопроизводительных десктопах (условно говоря, основанных на чипсетах Z-серии), в то время как решения среднего уровня продолжат опираться на привычную DDR4- и LPDDR4X-память. И так будет продолжаться до тех пор, пока цена модулей DDR5 будет существенно превышать стоимость DDR4.

Блок интерфейса PCI Express, который инженеры Intel спроектировали для Alder Lake, также содержит серьёзные инновации. Впервые в потребительском сегменте он наделён поддержкой протокола PCIe 5.0, который обеспечивает очередное удвоение пропускной способности и позволяет обеспечить графическому слоту PCIe x16 полосу 64 Гбайт/с. В то же время для подключения NVMe-накопителей процессорный контроллер предлагает лишь интерфейс PCIe 4.0 x4, которого, впрочем, достаточно для любых представленных на рынке SSD. Кроме того, поддержка PCIe 5.0 будет присутствовать исключительно в настольных версиях Alder Lake. Процессоры, отнесённые к мобильному сегменту, получат иной контроллер PCIe, в котором возможности будут каким-то образом урезаны.

Но есть и обратные примеры: некоторые конструкционные блоки Alder Lake предназначаются исключительно для мобильных вариантов CPU. К их числу относятся, например, контроллер Thunderbolt 4 или сопроцессор обработки изображений IPU. Они встраиваться в настольные версии процессоров не будут.

Все элементы Alder Lake, включая разные ядра, графику и фрагменты L3-кеша, контроллеры памяти и PCIe, а также все прочие блоки, как и ранее, объединены в одно целое посредством двунаправленной кольцевой шины, которая в этой реализации имеет пропускную способность до 1000 Гбайт/с. Похожий вариант кольцевой шины уже использовался в мобильных Tiger Lake, однако в новых процессорах Intel пообещала дополнительные оптимизации, направленные на снижение задержек.

Ещё одно большое нововведение касается технологического процесса производства. Alder Lake станут первыми чипами Intel, которые будут выпускаться по техпроцессу Intel 7 – до недавнего переименования он фигурировал под названием 10 нм Enhanced SuperFin. Речь здесь идёт о втором этапе оптимизаций процесса с 10-нм нормами, который должен обеспечить улучшение удельной производительности на ватт на 10-15 % относительно прошлой версии техпроцесса 10 нм SuperFin. Хотя ранее техпроцесс Intel 7 считался 10-нм, по плотности размещения транзисторов на кристалле он либо сравним, либо превосходит 7-нм техпроцесс других производителей, что как раз и дало производителю моральное право переименовать технологию в Intel 7. Так, согласно данным WikiChip, бывший 10-нм техпроцесс Intel обеспечивает размещение 100,76 млн транзисторов на мм², в то время как 7-нм процесс TSMC упаковывает на той же площади только 91,2 млн транзисторов.

Пользуясь данной производственной технологией, Intel собирается упаковывать в полупроводниковые кристаллы Alder Lake до восьми производительных и восьми эффективных ядер одновременно. Это значит, что максимальное число ядер в будущих процессорах достигает 16, но такие конфигурации будут предлагаться только для настольных платформ. Довольно непривычно, что максимальный 16-ядерный процессор сможет исполнять одновременно не 32, а только 24 потока, а объём его кеш-памяти третьего уровня составит 30 Мбайт.

Такое странное сочетание числа ядер и потоков обусловлено тем, что P-ядра обладают поддержкой технологии Hyper-Threading, в то время как E-ядра её лишены. Более того, они работают на разных тактовых частотах и обладают различными по объёму и организации кешами. Всё это значит, что паспортные характеристики разнообразных моделей Alder Lake могут многим показаться удивительными: в зависимости от количества тех или иных ядер конкретные CPU будут получать очень непривычные комбинации числа потоков и ядер, частот и объёма кеш-памяти.

На данный момент Intel раскрыла три базовые конструкции полупроводниковых кристаллов Alder Lake, нацеленные на три различных сегмента: высокопроизводительные настольные процессоры Alder Lake-S, которые будут устанавливаться в новое поколение материнских плат с процессорным разъёмом LGA1700; мобильные процессоры Alder Lake-P с тепловым пакетом от 12 до 35 Вт в исполнении BGA Type3; ультрамобильные Alder Lake-M в корпусе BGA Type4 HDI с тепловым пакетом от 7 до 15 Вт, предназначенные для ультрабуков. Кристалл процессоров Alder Lake-S содержит восемь P-ядер, восемь E-ядер и графику GT1. В Alder Lake-P число P-ядер ограничивается шестью, но зато используется производительная графика GT2. А в Alder Lake-M предусматривается лишь два P-ядра, но всё те же восемь E-ядер и GT2 GPU.

Судя по всему, первыми на рынок придут процессоры Alder Lake-S для настольных систем. Их модельный ряд будет возглавлять процессоры Core i9 с ядерной формулой 8 + 8, а также, по неподтверждённой пока информации, в него могут войти процессоры Core i7 с формулой 8 + 4, два варианта Core i5 с формулой 6 + 4 или 6 + 0, и, возможно, процессоры Core i3 со схемой ядер 4 + 0. Отдельно необходимо подчеркнуть, что такая запись числа ядер в виде суммы двух слагаемых используется непроста. Суммировать количество P- и E-ядер неправильно: Intel не собирается преподносить старшие Alder Lake в качестве 16-ядерных предложений, они скорее будут позиционироваться как продвинутые восьмиядерники с дополнительными энергоэффективными ядрами. Поэтому, например, не стоит удивляться составу серии Core i5, где одновременно будут представлены процессоры с 10 и с 6 ядрами: число E-ядер не считается определяющим фактором и может варьироваться у соседних моделей.

⇡#Как это всё работает: Intel Thread Director

Строго говоря, Alder Lake – не первые x86-процессоры, объединяющие ядра двух разных типов. Ранее Intel уже выпускала гибридные энергоэффективные процессоры Lakefield, где одно ядро Sunny Cove соседствовало с четырьмя ядрами Tremont. Однако они не получили заметного признания и, хотя были представлены только во втором квартале прошлого года, уже сняты с производства. Своей печальной участью они отчасти обязаны проблемам с их функционированием в Windows 10, которая не всегда правильно распределяла нагрузку по разнородным ядрам, что приводило к снижению производительности. Изначально предполагалось, что для устройств на базе Lakefield будет предназначена специальная операционная система Windows 10X, в которой будут заложены адаптированные алгоритмы, однако, к сожалению, её выпуск Microsoft отменила.

Эта история вызывает опасения, что подобное может произойти и с Alder Lake. Ведь совершенно очевидно, что для правильной работы гибридных процессоров планировщик операционной системы должен различать типы ядер и динамически отправлять требовательные нагрузки на ядра, способные предложить высокую производительность, попутно освобождая их от фоновых задач. Но на этот раз Intel всё предусмотрела. Чтобы помочь планировщику лучше разобраться в структуре процессора и добиться максимальной эффективности работы, в Alder Lake появилась аппаратная технология Intel Thread Director, которая будет отвечать за распределение нагрузки совместно с новой операционной системой Windows 11.

Суть Thread Director состоит в том, чтобы передать планировщику ОС подробные телеметрические данные о текущем состоянии всех ядер, благодаря которым он сможет принимать обоснованные решения о привязке потоков к конкретным ядрам. Данная технология, как обещает Intel, должна обходить все трудности, которые могут возникать при практической эксплуатации гибридных процессоров с ядрами разных типов. И самое главное, она совершенно прозрачна для программного обеспечения и не требует внесения каких-либо изменений в программный код.

Основной частью Intel Thread Director является встроенный в процессор микроконтроллер, который собирает подробные низкоуровневые данные о каждом ядре процессора, включая температуру, энергопотребление, загрузку и прочие параметры, и с минимальными задержками передаёт их планировщику операционной системы. Помимо этого, Thread Director непрерывно, с наносекундной дискретностью, отслеживает инструкции, которые исполняются каждым ядром, а также анализирует загрузку их исполнительных устройств. Базируясь на всей этой информации, планировщик получает возможность переключать потоки между ядрами полностью обоснованно и в соответствии с понятной стратегией, суть которой заключается в том, чтобы обеспечить задачам переднего плана и приложениям, чувствительным к задержкам, максимальную скорость выполнения. Например, более высокий приоритет при перемещении на производительные ядра получают потоки, которые оперируют векторными инструкциями, а потоки, работающие со скалярными инструкциями, с большей вероятностью отправляются на энергоэффективные ядра. Но в любом случае вся эта система динамична и переброс потоков с одних ядер на другие зависит от массы различных факторов, и в том числе от видов нагрузки, исполняемой на процессоре в каждый конкретный момент времени.

Intel привела несколько примеров того, как работает Thread Director в некоторых частных случаях. Например, когда все ядра свободны, единичный процесс всегда будет отправлен сразу на P-ядро, однако если в момент старта процесса все такие ядра заняты, он начнёт работу на E-ядре и переместится на P-ядро только тогда, когда Thread Director сочтёт такой перенос целесообразным. В другой ситуации, когда процессор загружается всё возрастающим числом равноправных потоков, они сначала отправляются по одному на каждое свободное P-ядро, затем по одному на каждое свободное E-ядро, а потом по одному на виртуальные ядра, существующие за счёт технологии Hyper-Threading.

Отдельно оговаривается и то, что привязка потоков к ядрам не постоянна, и они могут активно перемещаться с одного типа ядер на другой прямо в процессе работы. Это может происходить как из-за изменения характера нагрузки внутри вычислительного потока, так и в ситуациях, когда количество требовательных потоков начинает превышать число производительных ядер. В этой ситуации некоторые потоки будут перенесены на E-ядра с целью высвободить мощности под ту нагрузку, которая больше нуждается в вычислительных мощностях в каждый конкретный момент времени.

Существовавшие до сих пор процессоры и операционные системы не обменивались информацией, чтобы оптимизировать распределение вычислительных ресурсов: планировщик опирался исключительно на данные о приоритетах потоков, назначенных им либо самой операционной системой, либо разработчиками программы. Теперь же за счёт технологии Thread Director работа планировщика должна стать более самостоятельным, тонким и динамичным процессом. Такой симбиоз аппаратных и программных средств внушает надежду, что разнородные ядра гибридных процессоров Alder Lake будут задействованы именно так, как задумано Intel, – чтобы обеспечивать максимальный уровень быстродействия.

Вместе с тем внедрение Thread Director добавляет новые возможности и для разработчиков ПО. Доступные для процессоров Alder Lake расширения библиотек PowerThrottling API вводят для потоков дополнительные атрибуты качества обслуживания, благодаря которым авторы программ при желании смогут размечать создаваемые потоки. Кроме того, для потоков, которые заведомо способны работать на энергоэффективных ядрах и не нуждаются в высоких вычислительных мощностях, введена отдельная маркировка. Известно, что различные компоненты Windows 11, включая браузер Edge, будут использовать описанные расширения, что ещё раз отражает близкое сотрудничество Intel с Microsoft в вопросе создания и поддержки гибридной процессорной архитектуры.

К сожалению, Intel не стала делиться подробной информацией о работе Thread Director, поэтому пока нам придётся принять на веру тот факт, что благодаря этой технологии нужная нагрузка действительно будет отправляться на нужные ядра. Впрочем, процессоры Alder Lake позволят отключить E-ядра, если у пользователя возникнут сомнения в целесообразности их привлечения к работе.

Говоря о распределении потоков по ядрам гибридного процессора, Intel делает особый упор на новую операционную систему Windows 11 с оптимизированным планировщиком. Тем не менее Alder Lake должны приемлемо работать и без реализованного в этой операционной системе тесного взаимодействия между Alder Lake и планировщиком. Intel указывает, что и в старой операционной системе Windows 10 новые процессоры смогут работать вполне нормально. Хотя технология Thread Director в Windows 10 не поддерживается, эта операционная система опирается на механизм Intel Hardware Guided Scheduling, который тоже способен переключать потоки с учётом разнородности ядер, просто не настолько точно и с несколько более низкой частотой. Тем не менее, по утверждению Intel, заметить невооружённым глазом разницу в производительности Alder Lake в Windows 10 и Windows 11 будет довольно сложно.

⇡#Инцидент с AVX-512

О том, что энергоэффективные ядра Gracemont не имеют 512-битных регистров и не поддерживают набор инструкций AVX-512, известно довольно давно, и это кажется вполне естественным, если вспомнить, что реализация векторных операций требует как существенного транзисторного бюджета, так и заметных затрат энергии. Но тут же возникает закономерный вопрос о том, как в этом случае будет строиться работа с этими инструкциями в процессорах Alder Lake в целом? Ответ на этот вопрос оказался очень простым – никак. Хотя в производительных ядрах Willow Cove в составе Alder Lake регистры и исполнительные устройства с 512-битной размерностью заложены в микроархитектуре, исполнение инструкций AVX-512 в них заблокировано на аппаратном уровне, чтобы не вызывать лишних коллизий при диспетчеризации потоков, работающих с такими командами.

И это значит, что с появлением процессоров Alder Lake в поддерживаемых потребительскими CPU расширениях набора инструкций произошёл откат назад. Несмотря на то, что поддержка AVX-512 была реализована и в мобильных процессорах Tiger Lake, и в десктопных Rocket Lake, в новом поколении процессоров её снова не будет.

В качестве некой компенсации Intel добавила в Alder Lake поддержку подмножества инструкций VNNI для решения задач, связанных с нейронными сетями. И эти инструкции, как ни странно, могут исполняться как на производительных, так и на энергоэффективных ядрах. Однако это вовсе не те инструкции VNNI, которые ранее считались частью набора AVX-512 и оперировали 512-битными регистрами. Поскольку в Alder Lake эти регистры заблокированы, инструкции VNNI в них оперируют 256-битными регистрами и как бы существуют в рамках подмножества команд AVX2. Иными словами, набор инструкций AVX2-VNNI, который реализован в Alder Lake, отличается по разрядности от введённого ранее набора AVX-512 VNNI и требует специальной поддержки со стороны ПО. По этой причине рассчитывать на то, что введённые в Alder Lake уникальные инструкции VNNI станут активно использоваться в программных продуктах, не приходится.

Следующая страница →