Процессоры и память

Обзор процессора Intel Core i7-920 на ядре Bloomfield

⇣ Содержание

Политика компании Intel в отношении настольных процессоров заключается в ежегодном обновлении продуктовой линейки. Это осуществляется двумя способами - переходом на новый технологический процесс и сменой архитектуры. И то, и другое - весьма затратные операции, и поэтому каждый год Intel выбирает что-то одно. В частности, в прошлом году компания перешла на 45-нм техпроцесс и представила новые продукты на ядрах Yorkfield и Wolfdale. В 2008 году подошла очередь смены архитектуры и Intel представила свою последнюю разработку - Nehalem.


Intel Core i7-920 Logo

На первый взгляд, перед нами очередная революционная платформа, которая может поднять планку производительности на еще большую высоту. Начнем с главного, а именно с процессоров на ядре Bloomfield, которые отличаются встроенным контроллером памяти. Как мы помним, первые настольные процессоры со встроенным контроллером памяти представила компания AMD, и этот шаг привел к значительному росту производительности. Поэтому мы можем ожидать подобного эффекта и от новейшей разработки Intel. Впрочем, встроенный контроллер памяти - это главная, но не единственная инновация Intel. Архитектура процессора приобрела кардинально новую модульную структуру, которая характеризуется новым вычислительным ядром, новой процессорной шиной, встроенным трехканальным контроллером памяти DDR3, возможностью интеграции графического ядра, новой технологией многопоточности SMT и дополнительным контроллером PCU, который отвечает за управление напряжением и частотой каждого из ядер. Стоит ли говорить, что новая процессорная архитектура потребовала смены процессорного сокета, поэтому новые процессоры имеют упаковку LGA с 1366 контактами.


LGA1366 1
LGA1366 2
LGA 1366

Итак, рассмотрим каждый из вышеперечисленных пунктов более подробно. Во-первых, новое вычислительное ядро основано на высокоэффективной и хорошо себя зарекомендовавшей архитектуре Core. Действительно, процессоры Core 2 Duo и Core 2 Quad демонстрируют прекрасное сочетание высокой производительности, разумного тепловыделения и оптимальной цены. Но у архитектуры Core есть несколько фундаментальных проблем, которые не видны обычному пользователю. Главная из них заключается в сложности масштабирования или, проще говоря, в проблемах, возникающих при увеличении количества ядер в одном процессоре. Изначально архитектура Core разрабатывалась для использования в двухъядерном исполнении. А когда возникла необходимость в 4-ядерных процессорах, единственным возможным решением стало объединение в одном корпусе двух двухъядерных кристаллов. Вот тут-то и проявилась проблема, связанная со взаимодействием ядер между собой. Дело в том, что процессорная шина Quad Pumped Bus уже давно исчерпала свой потенциал и не позволяла обмениваться данными между ядрами напрямую. К тому же, ее пропускная способность не соответствовала требованиям в многоядерных системах. И чем больше количество ядер, тем заметнее становились недостатки QPB. Понятно, что данная ситуация совершенно не устраивала Intel, которая взяла курс на активное увеличение количества ядер. Поэтому на свет появилась новая шина QPI (Quick Path Interconnects) с топологией "точка-точка". Передача данных осуществляется по двум соединениям шириной 20 бит, из которых 16 предназначены для передачи данных. Итоговая пропускная способность равна 25,6 Гб в секунду, что приблизительно равно пропускной способности шины HyperTransport v3.0.

Второе важное изменение в архитектуре процессора касается структуры и размера кэш-памяти. По сравнению с ядром Penryn, размер кэша L1 в Nehalem не изменился. Его объем равен 64 кб, из которых 32 кб отведено под данные, и 32 кб - под инструкции. А что касается кэш-памяти L2, то здесь изменения куда существеннее - вместо одного большого разделяемого кэша инженеры Intel оснастили каждое ядро собственным кэшем L2 объемом 256 кб. Также в Nehalem появилась разделяемая кэш-память третьего уровня объемом 8 Мб (для ядра Bloomfield).


Intel Core i7-920 Core

Третье, и наиболее важное изменение касается модульной структуры процессора, которая позволяет инженерам Intel достаточно свободно изменять параметры процессоров, включая в него те или иные блоки. В частности, в процессор может быть интегрировано графическое ядро и контроллер памяти. Но если встроенную графику мы увидим только в 2009 году, то контроллер памяти есть уже в процессорах Bloomfield. Данный контроллер оптимизирован для работы с памятью DDR3 и поддерживает одно-, двух- и трехканальный режим доступа. В частности, при использовании 3-канального доступа пропускная способность памяти DDR3-1066 равна 25,6 Гб/с, что соответствует пропускной способности шины QPI. Следовательно, для платформы Socket LGA 1366 более скоростная память пока не нужна.


Intel Core i7-920 Tripple-Channel
3-канальный режим

Также отметим, что на материнских платах с чипсетом X58 будет минимум три слота DIMM для DDR3, а стандартное количество слотов будет равно шести:


ASUS P6T Deluxe DIMMs
6 слотов DDR3 на материнской плате ASUS P6T Deluxe

Помимо перечисленных особенностей архитектуры Nehalem, стоит упомянуть о незначительных модификациях самого вычислительного ядра. Инженеры Intel взяли за основу ядро Core и изменили некоторые из функциональных блоков, таких как декодеры простых (3) и сложных (1) команд, улучшили технологию Macrofusion (x32/x64) (исполнение нескольких команд (до пяти) как единую инструкцию), оптимизировали блок оптимизации циклов (Loop Stream Detector), улучшили блок предсказания переходов (Stack Buffer), увеличили объем буферов (Reorder Buffer / Reservation Station), предназначенных для технологии многопоточности SMT. Кстати, на последней технологии стоит остановиться и рассмотреть ее подробнее.

Во время использования архитектуры Netburst, инженеры Intel усиленно работали над оптимизацией загрузки и исполнения команд в довольно длинных конвейерах (отличительная особенность данной архитектуры). Одним из технических решений этой проблемы стала технология HyperThreading, позволяющая одновременно исполнять два потока команд одним процессорным ядром. В результате, пользователь видел в своей системе удвоенное количество процессоров, и данная технология давала некоторый прирост производительности в оптимизированных приложениях. Напротив, в неоптимизированных программах (например, в играх) пользователь сталкивался с ситуацией, когда система с включенной HyperThreading работала несколько медленнее. В новой архитектуре Nehalem инженеры Intel попытались ликвидировать все слабые места HyperThreading, и конечный результат получил название Simultaneous MultiThreading (или SMT). Одной из особенностей данной технологии является разделение ядер на реальные и виртуальные, что позволяет более эффективно их использовать (с точки зрения разработчика ПО).


Intel Core i7-920 технология SMT
4 реальных ядра + 4 виртуальных

Пара слов о физических параметрах нового ядра Nehalem. Первые процессоры Core i7 имеют площадь ядра 263 кв. мм, а само ядро состоит из 731 млн транзисторов. При этом, типичный уровень тепловыделения остается в рамках спецификаций Intel и составляет 130 Вт. Этот показатель можно считать вполне приемлемым, учитывая возросшую сложность ядра. Кстати, не последнюю роль в энергосбережении играет специальный блок PCU (Power Control Unit), который отвечает за текущую частоту и напряжение каждого из ядер, в зависимости от нагрузки. Более того, блок PCU способен полностью отключать неактивные ядра.

Интересно, что блок PCU довольно тесно связан с технологией Turbo Boost, которая также управляет частотами ядра, но она ориентирована на повышение частоты. Изменение частоты осуществляется путем изменения множителя, и, следовательно, множитель должен быть разблокирован в сторону увеличения. Инженеры Intel так и сделали, но с небольшой оговоркой: множитель может быть увеличен только на единицу от штатного. На практике это выглядит следующим образом:


Intel Core i7-920 режим Turbo
Множитель выше стандартного на 1

Теперь подведем промежуточные итоги, и сравним параметры ядер Bloomfield и Yorkfield.

Ядро Bloomfield Yorkfield
Техпроцесс 45 нм 45 нм
Число ядер/кристалов 4/1 4/2
Поддержка многопоточности SMT -
Встроенный контроллер памяти 3-канальный DDR3 -
Кэш L1 64 кб (32+32) 64 кб (32+32)
Кэш L2 4х 256 кб 2х 6 Мб
Кэш L3 8 Мб -
Тип/Частота шины QPI / 133 МГц QPB/ 266, 333, 400 МГц
Пакет TDP 130 Вт 130 Вт
Упаковка LGA 1366 LGA 775
Поддержка SSE SSE 4.1, SSE 4.2 SSE 4.1
Площадь ядра (кв. мм) 263 2x 107
Кол-во транзисторов (млн) 731 2x 410
Управление питанием/частотой Speed Step; PCU + Turbo Speed Step;

Итак, с архитектурой Nehalem мы уже разобрались. Теперь рассмотрим ассортимент первых процессоров на ядре Bloomfield:

НаименованиеCore i7 965 Extreme Edition Core i7 940Core i7 920
Количество ядер 444
Поддержка SMT+ ++
Частота3,20 ГГц 2,93 ГГц 2,66 ГГц
Множитель24 2220
Шина (QPI)6,4 GT/s 4,8 GT/s4,8 GT/s
Поддержка памятиDDR3-800/1066/1333/1600 DDR3-800/1066 DDR3-800/1066
Тепловой пакет (TDP, Ватт)130130 130
Рекомендуемая цена, $999562284

В нашем распоряжении оказался самый слабый процессор новой линейки - Core i7 920. Из-за увеличенного количества контактов, его размеры несколько превышают размеры процессоров LGA775:


Intel Core i7-920 vs Conroe 1
Intel Core i7-920 vs Conroe 2
Слева - Bloomfield, справа - Conroe

Утилита CPU-Z предоставляет следующую информацию:


Intel Core i7-920 CPU-Z

Производительность

Поскольку графики довольно объемные, посоветуем, на что стоит обратить внимание. Во-первых, мы сравнили собственно производительность процессора Core i7-920 с четырехъядерным процессором QX9650 на ядре Yorkfield. Нас, прежде всего, заинтересовала зависимость прироста производительности от смены архитектуры. Поэтому мы понизили частоту QX9650 до 2,66 ГГц. Во-вторых, нас интересует прибавка скорости от режима Turbo, в котором частота Core i7-920 наращивается до 2,8 ГГц. А в-третьих, мы проверили эффективность трехканального доступа к памяти по сравнению с двухканальным.

В тестовой системе было использовано следующее оборудование:


Тестовое оборудование
Материнская плата ASUS P5E64 WS Evolution на чипсете Intel X48
ASUS P6T Deluxe на чипсете Intel X58
Кулер Gigabyte G-Power
Видеокарта ASUS 8800 GT (GeForce 8800 GT; PCI Express x16)
Версия драйвера: 175.16 WHQL
Звуковая карта -
HDD Samsung HD160JJ
Память 3x1024 Мб Qimonda DDR3-1333;
Корпус FSP 550 Вт
OS MS Vista

Вначале посмотрим на результаты синтетических тестов.


Тест производительности Everest
Тест производительности Everest
Тест производительности 3DMark
Тест производительности процессора 3DMark

Теперь - тесты игровых программ.


Тест производительности Quake 4
Тест производительности Serious Sam 2
Тест производительности Company of Heroes
Тест производительности Crysis
Тест производительности PTB
Тест производительности Unreal Tournament 3
Тест производительности World in Conflict

Тесты прикладного ПО.


Тест производительности CineBench
Тест производительности POV
Кодирование видео (DivX, Xvid) измерялось в секундах, т.е. меньше - это лучше.
Тест производительности DivX
Тест производительности Xvid
Сжатие данных (WinRAR) измерялось в кб/с., т.е. больше - это лучше.
Тест производительности WinRAR

Судя по результатам, новая архитектура Nehalem показывает наилучшие результаты в приложениях, оптимизированных под многопоточность. Благодаря технологии SMT, в таких приложениях пользователь получает весьма ощутимый прирост скорости. Такая же ощутимая прибавка производительности есть в программах, скорость которых зависит от пропускной способности памяти. Кроме того, если мы запускаем совсем древнюю и "дубовую" программу, не использующую последние процессорные технологии, то архитектура Nehalem все равно оказывается чуть-чуть быстрее. Все дело в том, что вычислительное ядро Core также подверглось модификациям и улучшениям.

Что касается режима Turbo, то он дает пропорциональную (увеличению множителя CPU на 1) прибавку скорости в большинстве приложений. И, наконец, разница в скорости двухканального и трехканального режимов доступа к памяти довольно незначительная. Но это говорит не о плохой реализации 3-канального режима, а просто а замечательной реализации 2-канального. В частности, латентность памяти в 2-канальном режиме заметно меньше, что повышает общую производительность системы.

Выводы

Итак, архитектура Nehalem является эволюционным шагом в развитии линейки Core. Причем количество изменений и новых технологий столь велико, что более уместным будет сочетание "эволюционный прыжок". Однако с практической точки зрения, чистый прирост скорости не столь велик, как в момент появления Core 2 Duo. Поэтому, на первых порах процессоры на ядре Bloomfield могут заинтересовать разве что энтузиастов и некоторых профессиональных пользователей. Энтузиастов, по определению, интересуют самые последние разработки, и для них есть две новости. Хорошая заключается в том, что смена платформы (LGA 1366 + X58) позволит использовать технологии NVIDIA SLI и AMD CrossFire с новейшими процессорами Intel. Плохая новость - судя по тестовому экземпляру Intel Core i7-920, разгонный потенциал ядра Bloomfield относительно невелик. Впрочем, мы еще вернемся к этим темам в следующих материалах. Для профессиональных пользователей есть только хорошие новости. Во-первых, процессоры Bloomfield быстрее своих предшественников. А если используемое программное обеспечение имеет оптимизацию под многопоточность, или скорость работы зависит от пропускной способности памяти, или есть оптимизация под набор дополнительного набора инструкций SSE 4.2, то новые процессоры - намного быстрее.

Теперь - пара слов о затратах при переходе на новую платформу. Кроме самого процессора (стоимость которого находится в разумных пределах), пользователю понадобится материнская плата на чипсете Intel X58. На сегодняшний момент это единственный чипсет, поддерживающий новые процессоры Intel. А если пользователь хочет ощутить преимущества трехканального доступа к памяти, то ему нужно либо приобрести соответствующий комплект памяти, либо (что заметно дешевле) приобрести еще третий модуль (желательно точно такой же, как и остальные два). И, конечно же, нужно приобрести новый кулер. Впрочем, кулер - это проблема только для любителей разгона, которые планируют значительное увеличение напряжения на процессоре. Для остальных пользователей эффективность боксового кулера от Intel вполне достаточная.

- Обсудить материал в конференции


 
 
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
⇣ Комментарии
window-new
Soft
Hard
Тренды 🔥