Сегодня 22 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Процессоры и память

AMD Trinity для десктопа. Часть 2. Платформа и процессор

⇣ Содержание

В прошлом обзоре Trinity мы подробно знакомились с архитектурой графического ядра Devastator и пришли к выводу, что произошедшая смена его архитектуры на VLIW4 – положительный шаг. Теперь настало время поговорить про вычислительные ядра. По сравнению с Llano изменения в них тоже крупномасштабные. Вместо x86-ядер Husky с микроархитектурой Stars теперь используются модули с микроархитектурой Piledriver – очередная итерация в развитии Bulldozer. Как известно, при внедрении Bulldozer процессорная команда AMD сменила приоритеты. Эта микроархитектура по сравнению со Stars уменьшила количество исполняемых за такт инструкций, но зато позволила развивать более высокие тактовые частоты. Однако достигнутым эффектом остались довольны далеко не все, поэтому спустя три квартала с момента появления на рынке первых версий Bulldozer, AMD подготовила обновление микроархитектуры – своеобразную работу над ошибками – Piledriver.

В процессорах Trinity как раз и используются ядра с дизайном Piledriver, и это – первое появление данной микроархитектуры на публике. AMD считает, что сделанных усовершенствований вполне достаточно для того, чтобы Trinity работали заметно быстрее процессоров Llano. Означает ли это, что новая версия вычислительных ядер позволит продукции AMD полноценно конкурировать с интеловскими предложениями? Актуальность этого вопроса связана в первую очередь с тем, что буквально через три-четыре недели будут представлены свежие процессоры серии FX, использующие аналогичные ядра Piledriver. И если про Trinity ещё можно говорить, что их производительность в традиционных задачах «вполне достаточна», скрывая реальный уровень x86-быстродействия за высокой скоростью графического ядра, то с процессорами FX этот фокус не пройдёт. Поэтому начать знакомство с Piledriver мы решили с выяснения превосходства этой версии микроархитектуры над «классическим» Bulldozer.

Впрочем, не стоит возлагать на Piledriver какие-то особенные ожидания. Структурно эта микроархитектура полностью повторяет Bulldozer, то есть основывается на использовании условно-двухъядерных модулей, в которых имеется по два набора целочисленных исполнительных устройств, но часть ресурсов представлена лишь в единственном на два ядра экземпляре. К числу таких разделяемых компонентов относится кеш-память, блок выборки инструкций, их декодер и блок операций с плавающей точкой. В результате, модуль может обрабатывать два потока одновременно, но его пиковая производительность ограничена пропускной способностью объединённого декодера, способного декодировать не более четырёх инструкций за такт на два ядра. Для сравнения: в интеловских процессорах семейства Core декодер имеет сравнимый темп работы, но там он для каждого ядра индивидуален. Это значит, что число обрабатываемых за такт инструкций в Piledriver серьёзно увеличиться не могло. Качественные изменения произойдут только в следующем поколении микроархитектуры, Steamroller: предполагается, что в будущем AMD снабдит собственным декодером инструкций каждое из двух ядер в модуле. Пока же все улучшения Piledriver основываются на оптимизациях в алгоритме работы отдельных внутренних блоков, но не затрагивают дизайн в целом.

AMD к основным усовершенствованиям, выполненным в Piledriver, относит:

  • Улучшение точности предсказания переходов за счёт внедрения гибридного двухуровневого предсказателя;
  • Расширение набора инструкций трёхоперандными 128- и 256-битными инструкциями FMA3 (fused multiply–add) и инструкциями из подмножества SSE5 – преобразованием вещественных данных с половинной точностью F16C;
  • Оптимизацию работы планировщиков;
  • Ускорение выполнения операций деления за счет переделки соответствующего исполнительного устройства;
  • Увеличение L1 TLB;
  • Улучшение алгоритмов предварительной выборки данных в L1- и L2-кеши, позволяющих работать с паттернами переменной длины, в том числе и находящимися на границах страниц;
  • Увеличение эффективности L2-кеша за счёт более агрессивного его освобождения от неиспользуемых данных, ошибочно загруженных вследствие работы алгоритмов предварительной выборки.

Темп декодирования инструкций все перечисленные нововведения нарастить не в состоянии, но, тем не менее, определённое ускорение они обеспечить могут. Для того чтобы представить себе, насколько микроархитектура Piledriver эффективнее своей предшественницы, мы провели небольшое сравнение на практических бенчмарках. В нём один на один сошлись четырёхъядерный процессор A10-5800K с микроархитектурой Piledriver и четырёхъядерный процессор FX-4170 с микроархитектурой Bulldozer. Для наглядности сравнения оба процессора были настроены на работу при фиксированной частоте 4,0 ГГц, а технология Turbo Core была выключена. Заметим, что в отличие от A10-5800K, имеющего двухуровневую кеш-память, FX-4170 снабжён 8-мегабайтным L3-кешем, который никак нельзя деактивировать. Поэтому просто будем иметь в виду, что носитель микроархитектуры Bulldozer выступал с небольшим гандикапом. В обеих сравниваемых системах была установлена память DDR3-1867 с таймингами 9-11-9-27-1T и видеокарта NVIDIA GeForce GTX 680.

В первую очередь взглянем на скорость работы подсистемы памяти, измеренную тестом Cache & Memory Benchmark из пакета Aida64.

Bulldozer

Trinity

У процессора A10-5800K, как видим, дела со скоростью работы с данными обстоят не самым лучшим образом. Bulldozer обеспечивает более высокие практические пропускные способности и более низкие латентности. Но дело тут, конечно, не в каких-то недостатках микроархитектуры Piledriver. Просто мы сравниваем процессоры, работающие в разных платформах. Особенность же Trinity в том, что их дизайн оптимизирован в первую очередь под совместное использование памяти графическим и вычислительными ядрами. Более сложные алгоритмы работы контроллера DDR3 SDRAM, учитывающие необходимость дополнительного арбитража запросов, вносят определённые задержки, и как раз из-за этого Trinity и уступает Bulldozer. К сожалению, даже в том случае, когда в Socket FM2-системе установлена дискретная графическая карта, а встроенное в APU графическое ядро не используется, скорость работы x86-ядер Trinity с системной памятью остаётся на том же недостаточно высоком уровне.

Давайте посмотрим теперь, как обстоит дело с вычислительной производительностью.

Piledriver
4 ядра, 4,0 ГГц

Bulldozer
4 ядра, 4,0 ГГц

Преимущество Piledriver

PCMark 7

4309

4147

+3,9%

PCMark 7, Computation

3462

3228

+7,2%

3DMark 11, Physics

4176

4105

+1,7%

Fritz Chess Benchmark

7009

7064

-0,8%

TrueCrypt 7.1, AES-Twofish-Serpent, MB/s

127

122

+4,1%

7-zip 9.20 Benchmark, MIPS

11533

11660

-1,1%

WinRAR 4.2 Benchmark, KB/s

4148

4594

-9,7%

x264 FHD Benchmark 1.0.1, fps

11,47

10,91

+5,1%

SVPmark 3.0.2, Real-life/FHD

1019

989

+3,0%

Cinebench R11.5, CPU

3,35

3,31

+1,2%

FRYbench

653,12

664,72

-1,7%

Crysis 2, 1280x800 DX11 UHQ

75,1

73,5

+2,2%

Far Cry 2, 1280x800 UHQ

95,74

91,86

+4,2%

Metro 2033, 1280x800 DX11 UHQ

58,4

58,6

-0,3%

F1 2012, 1280x800 UHQ

67,4

64,6

+4,3%

Borderlands 2, 1280x800 UHD

63,1

67,2

-6,1%

Как можно судить по результатам, микроархитектура Piledriver с практической точки зрения превосходит Bulldozer незначительно. Максимальный наблюдаемый прирост скорости достигает лишь 7 процентов, а в среднем превосходство нового дизайна выражается примерно в полуторапроцентном преимуществе в бенчмарках. Впрочем, из внимания не следует упускать отсутствие в протестированном нами варианте Piledriver кеш-памяти третьего уровня, а также его более медленный контроллер памяти. Именно из-за этого в некоторых тестах, интенсивно работающих с большими объёмами данных, наблюдается не увеличение, а падение производительности. Однако мы не склонны полагать, что с появлением процессоров с новой микроархитектурой в Socket AM3+ исполнении ситуация серьёзно изменится. Заметному увеличению числа обрабатываемых за такт инструкций взяться попросту неоткуда, так что 5-10 процентов прироста в удельной производительности – это, пожалуй, тот максимум, на который могут рассчитывать поклонники продукции AMD и при предстоящем появлении на рынке процессоров с кодовым именем Vishera.

Следующая страница → ← Предыдущая страница
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.

window-new
Soft
Hard
Тренды 🔥
Microsoft отныне разрешает OpenAI пользоваться облачными сервисами конкурентов 3 ч.
Windows 11 получила игровой оверлей Edge Game Assist в стиле Steam с подсказками и гайдами 4 ч.
Хардкорный режим, скачки и три сюжетных дополнения: Warhorse рассказала, как будет поддерживать Kingdom Come: Deliverance 2 после релиза 12 ч.
HPE проводит расследование в связи с заявлением хакеров о взломе её систем 12 ч.
«Мы создали CRPG нашей мечты»: продажи Warhammer 40,000: Rogue Trader превысили миллион копий 13 ч.
Создатели Lineage и Guild Wars отменили MMORPG во вселенной Horizon Zero Dawn и Horizon Forbidden West 13 ч.
Instagram начал переманивать блогеров из TikTok денежными бонусами до $50 тысяч в месяц 14 ч.
Eternal Strands, Starbound, Far Cry New Dawn и ещё шесть игр: Microsoft рассказала о ближайших новинках Game Pass 15 ч.
ИИ превзойдёт человеческий разум в течение двух-трёх лет, уверен глава Anthropic 15 ч.
Keep Driving вышла на финишную прямую — новый трейлер и дата релиза ностальгической RPG о путешествии по стране на своей первой машине 16 ч.
Samsung в два раза сократит затраты на контрактное подразделение по выпуску чипов 2 ч.
Ускорители Ascend не готовы состязаться с чипами NVIDIA в деле обучения ИИ, но за эффективность инференса Huawei будет бороться всеми силами 2 ч.
Meta планирует выпустить умные очки Oakley, часы и наушники с ИИ 4 ч.
Nvidia в третий раз обошла Apple, став самой дорогой компанией в мире 4 ч.
AMD рассказала, какой будет игровая производительность Ryzen 9 9950X3D и 9900X3D 4 ч.
GeForce RTX 5000 Kingpin не будет — легендарный оверклокер рассказал о планах на будущее, в которых есть место не только Nvidia 9 ч.
OpenAI, Oracle и Softbank вложат $100 млрд в ИИ-инфраструктуру США, а в перспективе — до $500 млрд 10 ч.
Новая статья: Обзор смартфона OPPO Find X8: очень удобный флагман 10 ч.
К мемкоинам приведут настоящих инвесторов — поданы заявки на крипто-ETF в Dogecoin и TRUMP 11 ч.
Fujifilm представила гибридную камеру мгновенной печати Instax Wide Evo с широкоугольным объективом 15 ч.