Домашний бульдозер. Обзор процессора AMD FX-8150 / Процессоры и память

Из чего складывается производительность процессора? Раньше в ходу была формула, описывающая быстродействие как произведение количества исполняемых за один такт инструкций и частоты, на которой этот процессор функционирует. Теперь в этой формуле появился и третий сомножитель — количество вычислительных ядер. Поэтому разработчик процессоров, желающий выпустить быстрый продукт, имеет для этого несколько путей.

Однако не всё так просто. Увеличение количества исполняемых вычислительным ядром за такт инструкций — довольно сложная задача. Классический x86 программный код предполагает последовательное исполнение команд, а потому, чтобы добиться их параллельной обработки, в процессор необходимо заложить высокоэффективные блоки предсказания переходов и переупорядочивания инструкций, реализация которых требует немалых инженерных усилий. При этом усложнение микроархитектуры сказывается на физических размерах кристалла и приводит к ограничениям при наращивании количества ядер. Так что если производитель собирается сделать процессор с большим числом ядер, то микроархитектуру нужно, наоборот, стараться упростить. Непросто всё и с тактовой частотой. Ставка на её рост вновь потребует внесения изменений во внутренние блоки процессора и удлинения его исполнительного конвейера. В итоге получается следующее: чтобы процессор мог завоевать медальку за производительность, его разработчики должны изрядно попотеть над одновременной оптимизацией целого ряда параметров.

Проблема заключается ещё и в том, что любой из выбранных путей улучшения быстродействия процессора может оказаться удачным лишь для частных случаев. Далеко не все программы могут эффективно работать с большим количеством ядер. Какие-то алгоритмы не позволяют корректно предсказывать переходы и переупорядочивать инструкции. А в некоторых случаях производительность не растёт и с увеличением тактовой частоты, потому что в системе находятся какие-то другие узкие места.

Подобрать оптимальный баланс непросто, да и что считать критерием оптимальности? Мы можем лишь сопоставить производительность процессоров в конечном числе программ и выбрать из них быстрейший для данного конкретного случая. Однако это совершенно не гарантирует, что, применив другой набор тестового инструментария, мы не получим совершенно противоположные оценки. Столь пространное вступление приведено здесь потому, что сегодня нам предстоит знакомство с новой серией процессоров AMD FX — флагманским продуктом компании AMD, широко известным под кодовым именем Zambezi. В основе этого процессора лежит весьма неоднозначная микроархитектура Bulldozer, которая уже успела собрать немалый букет нелестных отзывов. Но дело вовсе не в том, что эта микроархитектура совсем плоха. Подбирая наилучший баланс характеристик, разработчики неверно оценили потребности большинства пользователей и сделали в «базовой формуле» основной упор не на тот сомножитель. В итоге изначальный замысел по выпуску высокопроизводительного решения нового поколения пошёл кувырком и заинтригованные обещаниями прорыва приверженцы AMD получили совсем не то, что ожидали. Однако является ли это серьёзным и объективным поводом для разочарования? Об этом и поговорим в данном материале.

⇡#Считаем ядра: восемь или четыре?

Работая над новым дизайном для производительных процессоров, AMD решила поставить во главу угла количество вычислительных ядер. Это вполне логичный выбор, основанный на том, что с годами многопоточного программного обеспечения становится всё больше и больше и разработка микроархитектуры, рассчитанной на многолетнее развитие, должна учитывать в первую очередь не текущее состояние рынка, а наблюдаемые тенденции. Восемь ядер, предусмотренных в базовом варианте нового процессора, — это то, чем AMD и собиралась покорить рынок, на котором пока что были представлены только чипы, максимальное количество ядер в которых ограничивалось шестью. (Здесь мы говорим только о настольных компьютерах. — прим. ред.)

При этом брать ядра старой микроархитектуры K10 разработчики не захотели. Они не только имеют слишком большой физический размер, но и, как можно судить по Llano, не склонны к функционированию на высоких тактовых частотах даже после перевода на современную 32-нм технологию. К тому же они не поддерживают многих современных возможностей, таких как, например, AVX-инструкции. Поэтому, для сборки восьмиядерников AMD сделала новую микроархитектуру — Bulldozer. Представители компании предпочитают говорить, что её разработка велась с чистого листа, но на самом же деле в ядрах Bulldozer можно найти немало отсылок к другой представленной в этом году микроархитектуре — Bobcat, ориентированной на применение в компактных и энергоэффективных устройствах. Впрочем, родство между Bulldozer и Bobcat — достаточно отдалённое, и упоминаем мы о нем лишь для того, чтобы стала понятна общая идея — в Bulldozer объединено много сравнительно несложных ядер.

При этом речь идёт совсем не о примитивном совмещении на одном полупроводниковом кристалле восьми простых ядер. При таком раскладе получившийся процессор обладал бы совсем невысокой однопоточной производительностью, и это стало бы достаточно серьёзной проблемой, так как программ, не дробящих нагрузку на несколько вычислительных потоков, не так уж и мало. Поэтому, во-первых, ядра были оптимизированы под работу на высоких тактовых частотах. А во-вторых, они были спарены в двухъядерные модули, способные совместно использовать свои ресурсы во благо обслуживания одного потока. В итоге получилась достаточно любопытная конструкция: входная часть исполнительного конвейера у такого двухъядерного модуля — общая, а в дальнейшем обработка инструкций делится между двумя наборами исполнительных устройств.

Основа конструкции Bulldozer — условно называемый двухъядерным модуль

Напомним, процесс обработки данных в современном процессоре включает несколько этапов: выборку x86-инструкций из кеш-памяти, их декодирование — перевод во внутренние макрооперации, выполнение, запись результатов. Первые два этапа в модуле Bulldozer производятся для пары ядер совместно, а далее для целочисленных инструкций выполнение распределяется по двум ядрам-кластерам либо, в случае вещественной арифметики, оно осуществляется в общем для двух ядер блоке операций с плавающей точкой.

Модули Bulldozer рассчитаны на обработку четырёх инструкций за такт, причём, благодаря технологии макрослияния, некоторые пары x86-инструкций могут рассматриваться процессором как одна операция. Это значит, что в целом двухъядерный модуль Bulldozer по своей мощности подобен одному ядру современных интеловских процессоров, которые также могут обрабатывать по четыре инструкции за такт и при этом тоже поддерживают макрослияния.

Однако между модулем Bulldozer и ядром Sandy Bridge есть существенные различия, способные поставить их примерно одинаковую теоретическую скорость под сомнение. Ввиду того, что модуль новых процессоров AMD содержит остатки двух равноправных ядер, максимальную производительность он может продемонстрировать только при обработке пары потоков. Если же на него ложится однопоточная нагрузка, то скорость её обслуживания будет ограничиваться числом исполнительных устройств внутри одного такого кластера. А их там, учитывая желание AMD упростить отдельные ядра, не так уж и много — в полтора раза меньше, чем в процессорах с микроархитектурой Sandy Bridge или K10. То есть по два арифметических ALU и по два адресных AGU.

Так выглядит функциональное устройство модуля, построенного на микроархитектуре Bulldozer. От двух ядер осталось лишь два набора целочисленных исполнительных устройств

Относительно невысокую сложность имеет и общий на процессорный модуль блок операций с плавающей точкой. В него входит два 128-битных исполнительных устройства FMAC, которые для обработки 256-битных инструкций могут объединяться в единое целое. Казалось бы, и здесь исполнительных устройств не так много, особенно с учётом того, что делятся они на пару ядер. Но зато они — более универсальные, чем в предшествующих и конкурирующих микроархитектурах, где применяются отдельные умножители и сумматоры. И благодаря этому в определённых случаях при работе с вещественными числами двухъядерный модуль Bulldozer может обеспечивать сравнимую и даже более высокую производительность, чем, например, одно ядро Sandy Bridge.

Аналогичная идея объединения 128-битных устройств для работы с 256-битными инструкциями используется и в Sandy Bridge

Однако свои самые сильные стороны модуль Bulldozer должен проявлять при двухпоточной нагрузке. Одно ядро Sandy Bridge тоже способно обрабатывать два вычислительных потока, для этого в нём имеется технология Hyper-Threading. Однако все инструкции при этом направляются на один набор исполнительных устройств, что на практике вызывает многочисленные коллизии. В модуле Bulldozer же сохранено два независимых целочисленных кластера, которые могут исполнять потоки параллельно, а суммарное количество исполнительных устройств в них превышает число таких устройств в ядре Sandy Bridge в полтора раза.

Слева — модуль Bulldozer, справа — некое конкурирующее ядро с поддержкой Hyper-Threading. На самом деле на Sandy Bridge оно не очень-то и похоже, но суть проблемы иллюстрация передаёт

В результате модуль Bulldozer обладает более высокой пиковой производительностью, нежели ядро Sandy Bridge, но раскрыть эту производительность несколько сложнее. Ядро Sandy Bridge интеллектуально загружает собственные ресурсы благодаря продвинутой внутрипроцессорной логике, самостоятельно разбирающей однопоточный код и исполняющей его параллельно на полном наборе своих исполнительных устройств. В Bulldozer же задача эффективного использования исполнительных устройств частично перекладывается на программиста, который должен разбить свой код на два потока — полноценная загрузка всех мощностей модуля станет возможной лишь тогда.

И вот что характерно. Рассматривая двухъядерный модуль процессора Bulldozer, мы всё время сопоставляли его с одним ядром Sandy Bridge, и при этом нам удавалось проводить вполне корректные параллели. Это заставляет задуматься — не стоит ли считать «восьмиядерность» новой микроархитектуры порождением фантазии маркетологов? AMD говорит, что считать ядра следует по количеству целочисленных кластеров, аргументируя это тем, что модуль способен обеспечить до 80 % производительности двух независимых ядер. Однако не следует забывать, что ядра, положенные в основу Bulldozer, существенно проще ядер других процессоров. Поэтому количество двухъядерных модулей — характеристика, отражающая производительность Bulldozer куда адекватнее.

Найди максимальное количество процессорных ядер и получи работу в маркетинговом отделе AMD

⇡#Кеш-память

Организация кеш-памяти в процессорах Bulldozer также «привязана» не столько к отдельным ядрам, сколько к двухъядерным модулям. Фактически на каждое ядро выделен лишь собственный кеш данных первого уровня, все остальные уровни кеш-памяти относятся либо к модулю в целом, либо к процессору:

Каждое ядро имеет собственную кеш-память первого уровня для данных. Её объём составляет 16 Кбайт, а архитектура предполагает наличие четырёх каналов ассоциативности. Этот кеш работает по алгоритму со сквозной записью, что означает его инклюзивность.
Кеш первого уровня для инструкций представлен в единственном экземпляре на каждый двухпроцессорный модуль. Его объём — 64 Кбайт, а количество каналов ассоциативности — два.
Кеш второго уровня также реализуется в единичном на модуль экземпляре. Его размер — внушительные 2 Мбайт, ассоциативность — 16 канальная, а алгоритм работы — эксклюзивный.
Кроме того, восьмиядерный процессор в целом располагает 8-мегабайтным L3 кешем с 64-канальной ассоциативностью. Особенность этого кеша состоит в его работе на существенно меньшей по сравнению с самим процессором частоте, которая составляет порядка 2 ГГц.

Следующая таблица описывает соотношение объёмов кеш-памяти процессоров восьмиядерных Bulldozer, четырёхядерных Sandy Bridge и Thuban (шестиядерных Phenom II X6, построенных на микроархитектуре K10).

Тип кеша	Bulldozer (8 ядер/4 модуля)	Sandy Bridge (4 ядра)	Thuban (6 ядер)
L1I (инструкции)	4x64 Кбайт	4x32 Кбайт	6х64 Кбайт
L1D (данные)	8x16 Кбайт	4х32 Кбайт	6х64 Кбайт
L2	4х2 Мбайт	4х256 Кбайт	6х512 Кбайт
L3	8 Мбайт, 2,0-2,2 ГГц	8 Мбайт, работает на частоте процессора	6 Мбайт, 2,0 ГГц

Как видно по таблице, AMD сделала ставку на вместительные кеши верхних уровней, что может быть действительно полезно в случае серьёзной многопоточной нагрузки. Однако кеш-память в новых процессорах в целом работает медленнее, чем у предшествующих и конкурирующих продуктов. Это легко обнаруживается при измерении практической латентности.

	Латентность, циклов
	Bulldozer	Sandy Bridge	Thuban
L1D	4	3	3
L2	21	15	14
L3	76	44	54
Память (для DDR3-1600 CL9)	228	145	153

Большие задержки при обращении к данным в Bulldozer могут быть компенсированы лишь высокой тактовой частотой этих CPU. Что, впрочем, и планировалось изначально — по частотам новые восьмиядерники должны были превосходить Phenom II на 30 %. Однако AMD так и не смогла спроектировать полупроводниковые кристаллы, способные стабильно работать при столь высоких значениях частоты. В результате высокая латентность кеш-памяти способна нанести системам на базе Bulldozer определённый урон.

⇡#Новый флагман: FX-8150

Выводя микроархитектуру Bulldozer в сегмент настольных решений, компания AMD подготовила сразу несколько моделей процессоров серии FX с восемью, шестью и четырьмя ядрами.

Из них восьмиядерники — это «настоящие» бульдозеры, процессоры же с меньшим числом ядер — урезанные модификации, в которых на базовом четырёхмодульном полупроводниковом кристалле будут отключены один или два модуля. Забавно, но AMD божится, что на сей раз ни в коем случае не допустит возможности включения пользователями заблокированных модулей обратно. Однако такие заявления мы слышим далеко не впервой, а в BIOS материнских плат для Bulldozer уже подготовлены необходимые для разблокировки процессорных модулей опции. Как же будет обстоять дело в реальности — скоро узнаем.

Наши «фирменные» матрешки: теперь с десктопными и серверными процессорами Bulldozer

Ещё один любопытный момент — это цены. AMD позиционирует процессоры FX очень агрессивно, рекомендованная стоимость младшей четырёхъядерной модели составляет всего лишь $115, а старшая, восьмиядерная, оценивается в $245. При этом площадь полупроводникового кристалла Bulldozer доходит до 315 кв.мм даже несмотря на то, что производится он по современному 32-нм техпроцессу.

Все процессоры AMD FX основываются на таком полупроводниковом кристалле с четырьмя модулями, состоящем из 2 млрд транзисторов

Это означает, что себестоимость процессоров FX почти в полтора раза превосходит себестоимость четырёхъядерного Sandy Bridge, и как производитель собирается извлекать прибыль из продаж новинки с таким ценообразованием — большой вопрос.

Для тестов нам достался старший процессор в семействе — AMD FX-8150.

Номинальная частота — всего 3,6 ГГц, хотя степпинг у процессора уже новый, B2. Даже на несколько месяцев задержав анонс и сделав редизайн полупроводникового кристалла, AMD не смогла достичь изначально планировавшихся тактовых частот. В результате старший из FX имеет даже меньшую частоту, чем некоторые Phenom II. Так что вполне возможно, вскорости мы увидим ещё один степпинг и обновление модельного ряда.

Впрочем, на данном этапе AMD смогла решить проблему невысоких тактовых частот с помощью «хода конём» — обновлённой технологии Turbo Core. В том случае, если в процессоре активна лишь половина ядер, он может существенно увеличивать свою частоту. Например, FX-8150 в таком случае разгоняется до 4,2 ГГц. Существует и некоторое промежуточное состояние — частота может повышаться до 3,9 ГГц, если загружены все ядра, но тепловыделение и энергопотребление не превышает установленных норм.

Естественно, в реальной работе частота процессоров FX сильно скачет. В качестве иллюстрации предлагаем лог реальной частоты FX-8150 при прохождении теста PCMark Vantage.

Как видно по графику, минимальная частота процессора составляет 1,4 ГГц. До такого значения он сбрасывает свою скорость при низкой загрузке в рамках технологии Cool'n'Quiet. В то же время, когда процессор не простаивает, его частота практически всегда выше штатных 3,6 ГГц. Если отбросить моменты простоя, то среднее значение частоты по результатам практических измерений составляет 3,81 ГГц, что на 6 % выше её номинального значения. Так что Turbo Core даёт неплохую прибавку, хотя, конечно, о 30-процентном превышении частоты над частотами Phenom II речь всё равно не идёт.

Ещё солиднее тактовая частота FX-8150 выглядит, если нагрузка на процессор носит однопоточный характер. Например, ниже приводится аналогичный предыдущему график, построенный при выполнении однопоточной версии теста CINEBENCH R11.5.

Здесь среднее значение частоты процессора получилось равным 4,1 ГГц, и это — выше номинала уже на 14 %.

⇡#Описание тестовых систем

Судя по тому, какую цену компания AMD установила на свой процессор FX-8150, сам производитель видит его конкурентом для старших четырёхъядерных процессоров Sandy Bridge. Собственно, это вполне согласуется с мнением, что эквивалентом двухъядерного модуля в понимании AMD выступает одно ядро актуальных интеловских процессоров. Так что для тестирования против AMD FX-8150 мы выбрали несколько LGA1155-четырёхъядерников из семейств Core i7 и Core i5, а также процессор Phenom II X6 1100T, выступающий носителем предыдущего поколения микроархитектуры AMD.

В итоге, учитывая совместимость старых процессоров AMD с новой платформой Socket AM3+, были использованы две тестовые платформы.

Платформа Socket AM3+:

Процессоры AMD FX-8150 и Phenom II X6 1100T;
Материнская плата ASUS Crosshair V Formula, построенная на наборе логики AMD 990FX (BIOS версии 0813);
Память 4 Гбайт DDR3-1600 9-9-9-27 (Kingston KHX1600C8D3K2/4GX).

Платформа LGA1155:

Процессоры Core i7-2600K, Core i5-2500K и Core i5-2400;
Материнская плата ASUS P8P67 Deluxe, построенная на наборе логики Intel P67 Express (BIOS версии 2001);
Память 4 Гбайт DDR3-1600 9-9-9-27 (Kingston KHX1600C8D3K2/4GX).

Во всех этих платформах постоянными оставались графическая карта AMD Radeon HD 6970 (с драйвером Catalyst 11.10) и жёсткий диск Western Digital VelociRaptor WD3000HLFS. Тестирование проводилось в операционной системе Microsoft Windows 7 SP1 Ultimate x64.

Формальные характеристики принявших участие в тестировании процессоров:

	AMD FX-8150	Phenom II X6 1100T	Core i7-2600K	Core i5-2500K	Core i5-2400
Микроархитектура	Bulldozer	K10	Sandy Bridge	Sandy Bridge	Sandy Bridge
Частота, ГГц	3,6	3,3	3,4	3,3	3,1
Ядра (модули)/потоки	8(4)/8	6/6	4/8	4/4	4/4
Максимальная частота в турбо-режиме, ГГц	4,2	3,7	3,8	3,7	3,4
L2-кеш, Кбайт	4x2048	6x512	4x256	4x256	4x256
L3-кеш, Мбайт	8	6	8	6	6
Сокет	AM3+	AM3	LGA1155	LGA1155	LGA1155
Техпроцесс, нм	32	45	32	32	32
TDP,Вт	125	125	95	95	95
Официальная цена, $	245	205	317	216	177

Использовавшееся программное обеспечение:

CPU-Z 1.58;
Aida64 Extreme Edition 1.85.1653
Futuremark PCMark 7 1.0.4;
Futuremark 3DMark Vantage 1.1.0;
Futuremark 3DMark 11 1.0.2;
SuperPi mod 1.5 XS;
wPrime 2.05;
WinRAR 4.1 x64;
7-zip 9.20 x64;
TrueCrypt 7.1;
Fritz Chess Benchmark 4.2;
MAXON Cinebench Release 11.5 x64;
TechARP x264 HD Benchmark 4.0;
Crysis 2 1.9;
Far Cry 2 1.0.3;
Metro 2033: The Last Refuge 1.2;
DiRT 3 1.1.

В играх тестирование проводилось дважды:

В разрешении 1280x1024 при настройках качества High и отключенном полноэкранном сглаживании;
В разрешении 1920x1080 при настройках качества Ultra High и максимально доступном уровне полноэкранного сглаживания.

⇡#Особенности платформы Socket AM3+

Процессоры серии AMD FX предназначаются для использования в составе новой платформы Socket AM3+, которая является дальнейшим развитием привычного Socket AM3. Формально нововведения весьма незначительны и связаны только с совершенствованием схемы управления питанием. Однако, пользуясь моментом, AMD пытается перевести своих приверженцев на новое поколение системных плат с новыми чипсетами и обновлённым процессорным разъёмом.

Согласно официальным данным, материнские платы для процессоров AMD FX должны базироваться на чипсетах девятисотой серии и комплектоваться специальным разъёмом Socket AM3+. Такие платы не только поддерживают новинки, но и обратно совместимы с процессорами Phenom II и Athlon II. Однако новые чипсеты, как и новый процессорный разъём, предлагают минимальные отличия от предшествующих наборов системной логики восьмисотой серии, поэтому ожидать от них каких-то принципиально новых возможностей не следует.

Старые же материнки с процессорным разъёмом Socket AM3 и чипсетами восьмисотой группы с процессорами FX работать в теории не должны. Но дело не в механической или электрической несовместимости, а в предпринимаемых AMD организационных мерах. Компания настоятельно не рекомендует производителям плат добавлять поддержку процессоров FX в платы предыдущего поколения. Правда, далеко не все готовы беспрекословно следовать таким требованиям, и в природе всё-таки существуют старые Socket AM3-платы, готовые принять новые процессоры. Например, их можно найти среди предложений компаний ASRock и MSI. Более же «раскрученные» производители, ASUS и Gigabyte убедительным рекомендациям AMD, похоже, вняли и поддержку FX в старые платы добавлять не стали, по крайней мере, открыто.

Для того чтобы убедиться в этом воочию, мы попробовали запустить FX-8150 в AM3-материнской плате ASUS Crosshair IV Formula, построенной на наборе логики AMD 890FX. Для этой платы на днях как раз вышел новый бета-BIOS, про который даже сказано «For use with AM3+ CPUs only». Однако ни с этой, ни с какими другими версиями прошивки запустить систему так и не удалось. С установленным в неё процессором FX-8150 плата никаких признаков жизни не подавала. Так что мы можем только подтвердить — проблемы с совместимостью AM3-плат и процессоров AM3+ действительно существуют.

Впрочем, что там AM3-платы, не всё гладко и с современными AM3+ материнскими платами, которые должны поддерживать процессоры FX «из коробки». Уже после выхода первой порции обзоров новинок в сети распространился слух о скором появлении новых пропатченных версий BIOS, которые якобы должны поднять производительность новых CPU. И этот слух имеет под собой определённую почву. Перед самым анонсом семейства FX компания AMD распространила среди производителей плат код новой реализации протокола AGESA (AMD Generic Encapsulated Software Architecture), отвечающего за инициализацию ядер и контроллеров процессора. Обновление действительно должно было обеспечить определённое увеличение быстродействия систем на базе процессоров с микроархитектурой Bulldozer, однако далеко не все производители материнских плат пока что успели встроить его в свои прошивки.

Я проверил уровень прироста скорости, который даёт интеграция в BIOS новой версии AGESA 1.1.0.0, результаты соответствующих тестов приводятся в таблице.

Дисциплина	AMD FX-8150 AGESA 0,0,9,1	AMD FX-8150 AGESA 1,1,0,0	Прирост скорости, %
SuperPi 1M, с	20,89	20,59	1,5 %
Winrar 4,1 Bench, Кбайт/с	4282	4313	0,7 %
Cinebench R11,5,баллы	6.01	6.02	0,2 %
3DMark 11, Physics, баллы	6330	6392	1,0 %

Новая версия протокола действительно положительно влияет на производительность, но о каком-то качественном прорыве в быстродействии речь, увы, не идёт. Поэтому рассчитывать, что с выходом новых прошивок скорость систем на базе AMD FX может волшебным образом увеличиться, явно не следует.

Новой возможностью процессоров с микроархитектурой Bulldozer стала официальная совместимость с DDR3-1867 SDRAM. Более того, неофициально в процессорах AMD FX поддерживаются и более скоростные режимы: DDR3-2133 и даже DDR3-2400. Использование высокочастотных модулей памяти — это ещё один способ увеличить производительность систем, основанных на процессорах AMD FX. Однако на серьёзный ли прирост можно рассчитывать в этом случае? Посмотрим.

Оптимальной памятью для AMD FX, похоже, является DDR3-1600 SDRAM. От её установки был получен существенный прирост скорости, а дальнейшее увеличение частоты DDR3 уже не приводит к столь же ощутимому эффекту. Учитывая, что DDR3-1600 стоит сейчас почти столько же, сколько и DDR3-1333, именно её мы бы и посоветовали для Socket AM3+ системы. Впрочем, если вы хотите выжать из нового процессора AMD всё возможное, то оверклокерские модули памяти, ясное дело, не повредят.

⇡#Проблемы распределения нагрузки

Продолжая разговор о том, каким образом от процессоров на базе микроархитектуры Bulldozer можно получить максимальную отдачу, нельзя не упомянуть, что большое значение имеет правильное распределение нагрузки по вычислительным ядрам. Так как в таких процессорах пары ядер, помещённые в один модуль, разделяют между собой существенный набор общих блоков, включая декодер x86-инструкций, FPU и кеш-память, большую отдачу от Bulldozer можно получить, если в первую очередь распределять работу по ядрам, расположенным в разных двухъядерных модулях, и лишь потом привлекать к вычислениям вторые ядра в каждом модуле. С другой стороны, уплотнение вычислительных потоков на минимальное число двухъядерных модулей позволяет агрессивнее действовать технологии Turbo Core. Поэтому в зависимости от того, насколько толково диспетчер задач операционной системы будет перенаправлять вычислительные потоки, возможна заметная разница в производительности системы.

Для проверки удачности в этом плане диспетчера задач Windows 7 мы на примере шахматного бенчмарка Fritz провели небольшое исследование, в рамках которого обратили внимание на производительность системы при различном количестве вычислительных потоков, которые назначаются по ядрам в автономном режиме. Параллельно аналогичное тестирование проводилось и в том случае, когда диспетчер задач от распределения нагрузки был освобождён. При этом его роль мы брали на себя и действовал в соответствии с двумя различными стратегиями: либо в первую назначали нагрузку на ядра, находящиеся в разных модулях; либо, напротив, сначала задействовали ядра одного модуля, а только потом переключались на следующий.

Выбор стратегии задействования ядер, как оказывается, имеет весьма существенное влияние на производительность в том случае, когда речь идёт о нагрузке, порождающей от двух до шести потоков. Разброс в показателях быстродействия может достигать 30 %, а это, согласитесь, немало.

Что же касается Windows 7, то штатный диспетчер задач этой операционной системы справляется со своей ролью в целом не так плохо. По большей части его результат ближе к оптимальной стратегии, однако и на старуху бывает проруха, и эта проруха случается при трех- и четырёхпоточной нагрузке, где стандартный диспетчер задач проигрывает оптимальному варианту 8-9%.

Получается, что производительность систем на базе AMD FX может быть дополнительно улучшена внесением изменений в алгоритмы работы ядра операционной системы. И этот шаг будет сделан в Windows 8. AMD совместно с Microsoft ведут работу над соответствующими оптимизациями, и в перспективе производительность систем, основанных на микроархитектуре Bulldozer и использующих Windows, станет выше. Для восьмиядерного процессора рассчитывать можно на примерно 5-10-процентный прирост скорости при работе алгоритмов, использующих от двух до пяти процессорных ядер.

⇡#Разгон

Компания AMD всегда лояльно относилась к оверклокерам. Среди процессоров семейства Phenom II всё время существовали «разблокированные» модели, не стали исключением и процессоры AMD FX. Можно сказать, что теперь AMD пошла даже дальше и не стала заморачиваться на какую-либо блокировку множителей вообще ни в каких моделях процессоров, построенных на микроархитектуре Bulldozer. Что, впрочем, вполне логично. Всё-таки простой оверклокинг — это ещё один конкурентный плюс, а платформа Socket AM3+ в отличие от интеловской LGA1155 даже в случае жёсткой фиксации процессорного множителя оставляет доступ к разгону через увеличение частоты базового тактового генератора BCLK. То есть смысла в каких-либо ограничениях со стороны производителя не так уж и много.

«Разблокировано» — вот так прямо и написано на логотипе новых процессоров

Ещё одна хорошая новость заключается в том, что процессоры AMD FX таят в себе неплохой частотный потенциал. Новый 32-нм технологический процесс и микроархитектура, в теории нацеленная на работу при высоких частотах, позволили AMD даже установить своеобразный мировой рекорд, добившись работы новых процессоров на непревзойдённой частоте 8,4 ГГц. Правда, для этого использовалось малодоступное для обычных людей охлаждение жидким гелием. Впрочем, не разочаровывают процессоры AMD FX и при разгоне в стандартных условиях, на воздухе.

Представители AMD поделились с нами следующей табличкой, описывающей их представление о частотном потенциале новинок:

Конечно, разгон в двухъядерном режиме, про который, в частности, говорит AMD, имеет мало практической ценности, но приведённые данные дают понимание и того, что на работу процессора FX-8150 на частоте 4,6 ГГц в полноценном режиме рассчитывать можно.

Собственно, этот завет мы без особого труда и выполнили:

При частоте 4,6 ГГц наш экземпляр FX-8150 смог работать вполне устойчиво. А для того чтобы добиться такого результата, потребовалось всего ничего — увеличить коэффициент умножения процессора, поднять его напряжение питания до 1,45 В и включить функцию материнской платы Load-Line Calibration.

Единственная возникшая проблема — в температуре. Разгон увеличивает тепловыделение процессоров FX очень сильно, поэтому для того чтобы не столкнуться с перегревом, нужно использовать производительный кулер. Например, нам справиться с горячим норовом Bulldozer помог только ThermalRight Silver Arrow, но даже с ним температура под нагрузкой переваливала за 80 градусов.

Сложно себе представить, какая система охлаждения может потребоваться в том случае, если при разгоне захочется поднять напряжение побольше — а ведь сама AMD говорит о том, что допустимо использовать и более высокие значения напряжения, вплоть до 1,55 В. К тому же проблемы могут возникнуть и с электропитанием: разогнанный AMD FX может «кушать» по процессорной 12-вольтовой линии более 26,5 А. Мало того, что с такой нагрузкой справятся далеко не любые БП, но и на ряде материнских плат в этом случае будет просто срабатывать защита. Впрочем, настоящих оверклокеров это вряд ли остановит.

Помимо разгона «базовой части» процессора, допускается и увеличение частоты встроенного в процессор северного моста, включающего L3-кеш и контроллер памяти. Стандартно у FX-8150 он работает на 2,2 ГГц, но эту частоту можно тоже поменять — соответствующий множитель доступен, и он также незаблокирован. Так что в дополнение к описанному разгону CPU до 4,6 ГГц мы смогли поднять и эту частоту, она без ущерба для стабильности свободно увеличилась до 2,4 ГГц. Не столь сильно, как того хотелось бы, но всё же лучше чем ничего.

Неплохой и сравнительно простой разгон процессоров AMD FX — это их неотъемлемая и важная черта, поэтому далее тестирование производительности FX-8150 проводилось дважды — в номинальном режиме и при описанном 4,6-гигагерцевом разгоне. Соответственно, противопоставлялись такому разогнанному Bulldozer разогнанные же процессоры Core i7-2600K и Core i5-2500K, частота работы которых была доведена до тех же 4,6 ГГц.

⇡#Результаты однопоточных тестов

В рамках тестирования процессоров FX мы решили выделить результаты тестов, генерирующих однопоточную нагрузку, в отдельный раздел. Сделано это из-за особенностей микроархитектуры Bulldozer, где производительность индивидуальных ядер поставлена на второй план и является слабым местом.

Причём слабым настолько, что при однопоточной нагрузке процессоры с микроархитектурой Bulldozer зачастую проигрывают даже своим предшественникам — процессорам Phenom II, основанным на микроархитектуре K10. Соответственно, о какой-то конкуренции с интеловскими предложениями речь даже и не заходит — отставание более чем существенно.

⇡#Результаты многопоточных тестов

Если же мы посмотрим на скорость FX-8150 в задачах, где нагрузка может эффективно делиться на его восемь ядер, то мы увидим совсем иную картину. В большинстве случаев производительность новинки находится на уровне каких-то Core i5/Core i7, что хорошо вписывается в теорию о близости вычислительной мощности ядра Sandy Bridge и двухъядерного модуля Bulldozer.

В целом в этой части тестирования поведение AMD FX-8150 можно назвать адекватным его цене. Он стоит несколько дороже Core i5-2500K, и выигрывает у него в шести из девяти оптимизированных под многопоточность тестов, демонстрируя самые лучшие результаты в архиваторах и при перекодировании видео. Но Core i7-2600K стоит ещё больше, и ему FX-8150 явно проигрывает.

⇡#Поддержка новых наборов инструкций

Ядра с микроархитектурой Bulldozer получили поддержку всех актуальных наборов инструкций, включая новомодные криптографические AES-NI и AVX, предназначенные для интенсивных вычислений с плавающей точкой в мультимедиа, научных и финансовых задачах. Пока что доступно не столь много приложений с их поддержкой, но производительности в программах, их использующих, мы уделили отдельное внимание.

Инструкции AES-NI активно используются при шифровании с использованием одноимённого алгоритма в утилите TrueCrypt.

Поддержка AES в Bulldozer находится на хорошем уровне. При шифровании FX-8150 показывает себя на равне с Core i7-2600K.

Скорость работы AVX мы предлагаем оценить при помощи бенчмарков из пакета AIDA64, где эти инструкции задействуются во фрактальных алгоритмах.

Результаты откровенно низкие. FX-8150 существенно проигрывает не только интеловским конкурентам, но и процессору Phenom II X6, где никакой поддержки AVX нет и в помине, а вычисления ведутся с использованием стандартных команд SSE.

Дополнительно AMD предоставила нам скомпилированный с поддержкой AVX вариант кодека x264, который мы также использовали в рамках нашего стандартного теста перекодирования видео.

Включение новых инструкций позволило поднять скорость работы кодека примерно на 4 % как для процессоров AMD, так и для их интеловских конкурентов (речь идёт о результатах второго прохода). Общая же картина осталась в целом той же, что и при использовании стандартной версии x264, не задействующей AVX.

⇡#Результаты тестов в 3D

Несмотря на то, что процессорные тесты из 3DMark активно задействуют многопоточность, результаты FX-8150 далеко не так хороши, как в чисто вычислительных многопоточных бенчмарках. Общий же индекс производительности, выдаваемый в обеих версиях 3DMark, и того хуже — более высоким быстродействием обладает даже Core i5-2400.

В заключительной части тестирования FX-8150 потерпел фиаско. Даже те игры, где заявлено активное использование любого числа процессорных ядер, делают это не столь эффективно, чтобы FX-8150 удалось хоть где-то ощутимо выиграть. Флагманский процессор AMD в целом обеспечивает более низкую, чем Core i5 и Core i7, производительность, но от разгрома его спасает видеокарта, которая зачастую выступает "бутылочным горлышком" и не даёт в полной мере раскрыться процессорной производительности.

Ситуация получается несколько двойственная. С одной стороны, процессоры с микроархитектурой Bulldozer в данный момент вполне могут с успехом применяться в игровых компьютерах – их производительности почти всегда хватает на то, чтобы мощная современная видеокарта не простаивала без нагрузки. С другой стороны, мы не можем гарантировать, что так будет всегда. Пройдёт совсем немного времени, и на рынке появятся следующие поколения графических чипов с гораздо более высокой производительностью, а также более требовательные к центральному процессору игры. И тогда может получиться так, что геймерам, чьи системы базируются на AMD FX, придётся кусать локти.

⇡#Выводы

Микроархитектуру Bulldozer нельзя назвать совершенно неудачной. Заложенная в неё идея вполне имеет право на существование, и проблема заключается не в ней, а в том, что AMD не смогла добиться полной реализации изначального плана. Предполагалось, что высокая производительность основанных на новой микроархитектуре процессоров будет обеспечиваться большим числом работающих на значительной тактовой частоте ядер, а сами ядра для этого получили упрощённый дизайн. Но на этапе воплощения Bulldozer в кремнии AMD столкнулась с существенными трудностями, и получившиеся процессоры на достаточной тактовой частоте так и не заработали, даже после попытки редизайна полупроводникового кристалла.

В результате невысокое число исполняемых каждым ядром инструкций потянуло производительность вниз, и полностью скомпенсировать этот эффект не смогли даже восемь ядер. Поэтому при многопоточной нагрузке восьмиядерный процессор AMD оказался не лучше старшего четырёхъядерника конкурента, а при однопоточной — и вовсе ощутимо хуже современного уровня.

С выбором для десктопных Bulldozer торговой марки FX компания AMD явно погорячилась. Процессор на картинке совсем не похож на те Athlon 64 FX семилетней давности, которые внушали страх и ужас всем интеломанам

Провал? Нет, не совсем. Современная версия Bulldozer производительностью, мягко говоря, не блещет, но зато она хорошо демонстрирует, что заложенный в ней потенциал далеко не так уж и плох. И если AMD продолжит заниматься оптимизацией и развитием имеющегося решения, то мы имеем все шансы дождаться от этой компании куда более интересного продукта. Например, в следующем году в планах AMD стоит выпуск обновления Bulldozer, микроархитектуры Piledriver, которая должна будет предложить на 10-15 % более высокое удельное быстродействие. Если при этом производитель сможет добиться работы процессоров на изначально планировавшихся тактовых частотах — на 30% превышающих современные достижения, то в итоге может получиться CPU, превосходящий FX-8150 по скорости на 40-50 %. А это — совсем другой разговор. Остаётся только надеяться, что в следующий раз все эти намерения перейдут с бумаги в реальные продукты в обозримые сроки и в неурезанном виде.

Что же касается того Bulldozer для десктопов, что мы имеем сегодня, то это — явно нишевый продукт, способный порадовать своих владельцев лишь в некоторых многопоточных приложениях. Для широкого применения он выступает далеко не лучшим вариантом, особенно с учётом проводимой производителем ценовой политики. Так что оптимальным выбором для универсальных или игровых настольных систем продолжают оставаться интеловские платформы, ряды которых, к тому же, скоро пополнятся. Уделом же новых восьмиядерников AMD видится разве только ориентация на настольные рабочие станции, занятые обработкой видео, рендерингом или другими подобными вычислительными задачами с явно выраженной многопоточной нагрузкой.