⇣ Содержание
Опрос
|
реклама
Самое интересное в новостях
AMD 760MP и Athlon MP - двухпроцессорный рай
Тестирование
Сравнение пропускной способности памятиМы, вообще, не являемся любителями теста SiSoft Sandra, но тест пропускной способности из этого пакета нам кажется полезным. Без сомнения, Xeon располагает самым большим значением пропускной способности памяти, теоретически чипсет i860 с двумя каналами RDRAM обеспечивает значение до 3,2 Гбайт/с. В соответствии с показанными результатами, на самом деле два Xeon зайдействуют 44% теоретического значения. Даже Xeon в одиночной конфигурации не изменяет эту картину. Таким образом, FSB или шина памяти оказываются перегруженными даже одним Xeon на 1,7 ГГц. Картина становится намного более интересной в случае сравнения однопроцессорной и двухпроцессорной конфигурации на Athlon MP. Переход на двухпроцессорную конфигурацию дает прирост в 37%. Один процессор Athlon MP использует примерно 33% от своей теоретической пропускной способности памяти в 2,1 Гбайт/с. Переход к двум процессорам дает повышение использования до 45%, что превышает результат Xeon на i860. Подобное увеличение пропускной способности памяти наблюдается и на обычных Athlon или Duron. А сейчас давайте взглянем на результаты FP STREAM. Почти такие же результаты мы наблюдаем и в тесте FP STREAM из пакета Sandra 2001. Как видно, платформа Xeon теоретически обладает и практически использует наибольшую пропускную способность памяти. Производительность одного и двух Xeon практически не отличается, предоставляя 1400 Мбайт/с пропускной способности. И опять же интересная картина наблюдается при сравнении одного и двух процессоров на 760MP. Использование теоретической пропускной способности у Athlon MP поднимается от 36% до 46%. Закономерный вопрос - почему? Lehmen comments: закономерный вопрос - почему Anand видит только у AthlonMP, когда на самом деле и у Athlon Thunderbird и у Duron. Вспомните, что только на платформе 760MP используется FSB типа "точка-точка". Один Athlon MP в таком случае "съедает" примерно 700-800 Мбайт/с пропускной способности памяти, и добавление второго процессора (так как каждый процессор связывается с северным мостом по своей шине с 2,1 Гбайт/с) означает, что вся система может "съедать" в два раза больше пропускной способности памяти. Конечно, в реальности все не так радужно и мы не видим двукратного увеличения, но тот факт, что использование пропускной способности памяти все же повышается, говорит о том, что у однопроцессорной конфигурации Athlon MP использование пропускной способности памяти ограничивается FSB. Если наше предположение верно, то лидерство Pentium 4 (и Xeon) в этом тесте объясняется работой 100 МГц FSB с учетверенной скоростью (эффективное значение - 400 МГц). Lehmen comments: Конечно же верно. Все объяснения можно в три слова уместить: потому что EV6. А по Р4: потому что RAMBUS. Производительность сервера баз данныхВ обзоре Intel Xeon мы разработали новый тест в нашу коллекцию для high-end процессоров: тест производительности сервера баз данных. Условие теста довольно простое: мы записываем каждую транзакцию на сервере баз данных форумов Anandtech в течение 30 минут. Далее мы по логу повторяем все те же самые транзакции на тестовых платформах в максимально быстром режиме (без ожидания пользовательского ввода данных). Такое тестирование очень напоминает timedemo в Quake III Arena, когда записанное демо проигрывается с максимально возможной скоростью, при этом показывается средняя частота кадров. Вместо частоты кадров в нашем тесте результатом является время обработки всех транзакций.Мы не изменяли условий теста с нашего прошлого обзора Intel Xeon, так что более подробное описание вы можете прочитать там. Для еще большего уменьшения узких мест, связанных с операциями ввода/вывода, тестовая система была не только оснащена четырьмя дисками Quantum Atlas 10K в массиве RAID 0, но и 1 Гбайт памяти. Кстати, такой массив обеспечивает большую скорость записи, но такую же скорость чтения, что и наш RAID 10 массив на сервере форумов. Во время 30-минутной записи произошло: 105267 операций выбора, 4984 операций обновления, 701 операций добавления и 5 операций удаления в базе данных. Если быть точным, то операция выбора означают чтение, обновления - чтение и запись, добавления - запись и удаление - просто удаление (редкое событие). Первое, что здесь нужно отметить - тест значительно нагружает базу операциями чтения, таким образом, узкие места, связанные с вводом/выводом не так выступают, как при нагрузке базы операциями записи. Чтение всегда происходит быстрее чем запись, следовательно, наш тест больше зависит от производительности платформы, а не от узких мест операций ввода/вывода. Если же ваше приложение больше нагружает базу данных операциями записи, то результат сравнения нескольких процессоров по своей форме не изменится, однако разница между ними уменьшится, так как система ввода/вывода при переходе от одного процессора к другому не меняется. Природа базы данных форумов такова, что она задействует совсем немного интенсивных вычислительных операций, в основном используются функции прямого чтения и записи. Таким образом, скорость главным образом зависит от производительности всей платформы, а не от мощности вычислительных блоков процессора. В нашем прошлом тесте лидировала двухпроцессорная платформа на Xeon 1,7 ГГц, и нам было интересно узнать, как покажет себя двойной Athlon MP на 760MP. Не правда ли, шокирующий результат? Первая попытка AMD выйти на серверный рынок, без сомнения, очень успешна. Мы всего лишь показали производительность системы на реальной задаче. Два Athlon MP 1,2 МГц на 760MP выполнили 30-минутный лог чуть больше чем за 12 минут. Это почти на 20% быстрее, чем Dual Xeon 1,7 ГГц. А ведь там пропускная способность памяти на 50% больше. Этот тест наглядно показывает, что пропускная способность памяти не является самым важным показателем в таким системах. Другие факторы, типа пропускной способности FSB и просто вычислительная мощность процессора влияют на производительность нисколько не меньше. Если вы желаете модернизировать свой сервер баз данных, то лучшего выбора чем 760MP и пара Athlon MP у вас нет. Не менее любопытно большое отличие в результатах двух Athlon MP и двух обычных Athlon. Обычные Athlon не смогли показать результат лучше, чем у двухпроцессорной конфигурации Xeon. А Athlon MP легко его обогнал. Еще более интересно, что в однопроцессорной конфигурации разница между Athlon и Athlon MP почти незаметна. Если вспомнить улучшения в ядре Athlon MP, то они ориентированы, главным образом, на передачу данных. А при таком количестве обрабатываемых данных (база в 3 Гбайт), лидерство Athlon MP в двухпроцессорной конфигурации не является столь уж удивительным. Обратите внимание и на Duron. Если AMD увеличит скорость Duron, то он станет прекрасным решением для дешевых серверов баз данных, тем более что материнские платы 760MPX будут продаваться в ценовом диапазоне до $200. Конечно, главной проблемой использования Duron в MP системе является то, что скорость выполнения системных задач очень зависит от большого размера кэша. Даже 384 кб кэша у Athlon можно рассматривать как пороговое значение. Было бы очень интересно узнать, какова будет производительность пары Athlon с 512 кб или 1 Мб кэша, однако, по всей видимости, мы увидим такое количество только в процессорах Hammer (K8). А пока что придется довольствоваться 384 кб у Athlon MP. Если производительность платформы вас еще не убедила, другим решающим фактором остается очень низкая цена регистровой DDR SDRAM по сравнению с требуемой Xeon RDRAM. Вы можете купить 1 Гбайт регистровой DDR SDRAM за $305, в то время как тот же самый объем RDRAM стоит более чем в два раза дороже - $740. А теперь примите во внимание, что большинство серверов баз данных использует 2-4 Гбайт памяти, и посчитайте сэкономленные средства. Производительность в программах 3D моделированияИтак, система 760MP с Athlon MP взяла хороший старт, заняв лидирующее положение при тестировании сервера баз данных. Как же себя покажет эта система в качестве рабочей станции для 3D моделирования? Нас немножко заклинило в тестировании жизненных приложений, и мы решили взять за основу проблему, с которой столкнулся человек из команды сайта Anandtech.Совсем недавно наш редактор начал работу в 3D Studio MAX по созданию нескольких довольно интересных 3D сцен. Больше всего он жаловался на то, что даже в 640x480 процесс рендеринга занимает больше двух часов. И если наш редактор всего лишь развлекался с 3D Studio MAX, некоторые наши читатели наверняка ежедневно работают с этим популярным продуктом Kinetix. Если рендеринг простых космических сцен занимал два часа времени на довольно приличной рабочей станции, то остается только догадываться, сколько же времени понадобится на рендеринг более сложных сцен. Таким образом, появился наш следующий тест по рендерингу с помощью 3D Studio MAX. Тестовая сцена состояла из четырех объектов (2 сферы, модифицированная сфера и квадратный патч (patch) с модификатором помех (noise)). На сцену мы добавили общий свет (omni light) и камеру. После этого были применены эффекты lens flare и lens glow в общем свете, а также огонь на сфере Солнца. К астероиду (модифицированная сфера) был добавлен эффект размывания движущегося объекта (motion blur). Ролик занял больше 300 кадров и состоял из движения камеры, вращения планеты, и движения и вращения астероида. Рендеринг производился в режиме Video post, так что были добавлены и эффекты камеры. Сжатие в AVI осуществлялось кодеком Cinepak от Radius с качеством 100. Разрешение ролика - 320x240. Режим монитора - 32-битный цвет 1024x768, в качестве видеокарты везде использовалась GeForce2 Ultra. В настройках было указано использование OpenGL, версия драйверов - 12.01 от nVidia. Версия 3D Studio MAX - 4.02. Конечно, производительность здесь зависит не только от процессора, но и от графической подсистемы. К счастью 3D Studio MAX может использовать несколько потоков, так что переход к многопроцессорности отражается на производительности. Мы уже знаем, что в Xeon (и в Pentium 4) используется отнюдь не лучший в мире FPU. Для получения хорошей производительности приложения должны быть оптимизированы под SSE2. Однако следует отметить, что двухпроцессорная платформа на Xeon все же показывает достойные результаты в этом тесте. Но опять таки два Athlon MP и даже два Athlon превзошли последнюю итерацию Xeon от Intel. Двухпроцессорная система на Athlon MP смогла выполнить рендеринг за 94% времени двойного Athlon 1,2 ГГц, что еще раз подтверждает теорию о некоторых изменениях, реализованных в Athlon MP для лучшего выполнения high-end приложений. Duron 850 в двойной конфигурации снова показывает производительность на уровне двойного Pentium III 933. Это открывает дорогу для довольно гибкой модернизации: при дальнейшем падении цен на процессоры вы сможете заменить ваши Duron на Athlon или на Athlon MP. Слабым местом Duron продолжает быть ограничение по FSB (эффективные 200 МГц против эффективных 266 МГц) и маленький кэш (192 кб против 384 кб). Производительность в редактировании изображенийСегодня мы живем в мире, где трехмерность приобретает все большее значение (по крайней мере, с точки зрения "железной" индустрии). Наблюдается явная тенденция переноса максимально возможного количества технологий в третье измерение. Сначала это было моделирование, потом игры, а сейчас даже сканеры. Но мы не можем не помнить, что для создания графического наполнения и его обработки все еще необходимы двумерные изображения.В нашем случае для этого используется Adobe Photoshop, без сомнения самая известная программа по редактированию 2D изображений на сегодняшний день. В 3D Studio MAX наибольшее время занимает процесс рендеринга и анимации, а в Photoshop самой ресурсоемкой задачей является наложение фильтров. В отличие от 3D Studio MAX Photoshop не является многопотоковым приложением, однако некоторые фильтры в нем все же используют многопоточность. С последней версией патча Photoshop 6.0.1 также демонстрирует улучшенную производительность с Pentium 4 и, соответственно, Xeon. Для оценки производительности Photoshop мы использовали PSBench, который выполняет последовательно около 20 фильтров (после каждого фильтра происходит откат обратно) над 50 Мб изображением. Производительность измеряется в секундах, и наши системы показали следующие результаты.
Суммарное время выполнения всех фильтров можно представить следующим графиком. Xeon выглядит здесь вполне достойно, но опять же, Athlon MP вырывается вперед и в этом тесте. Даже с оптимизацией под Pentium 4/Xeon Photoshop продолжает быстрее выполняться на 760MP. Пока вы не ощутили вкус системы на двойных Duron меньше чем за $100 (по крайней мере, по отношению к процессорам), заметьте, что система на двух Duron 850 выглядит хуже по сравнению с одним Athlon MP 1,2 ГГц. Переход к двум медленным процессором оказывается хуже, чем использование одного, но заметно более быстрого процессора. Помните, что эффект от двухпроцессорности не всегда будет таким, каким мы его хотим увидеть. Конечно, не последнюю роль в таком печальном результате играет маленький размер кэша Duron. Lehmen comments: Равно как и наоборот. Как можно убедиться в моих статьях (SMP на домашнем компьютере и Тесты SMP систем), прелесть двухпроцессорных систем не только, не столько, и совсем даже НЕ в скорости выполнения одной единственной задачи. Свою истинную силу SMP машины показывают при выполнении нескольких ресурсоёмких задач ОДНОВРЕМЕННО. Таким образом, можно без труда поставить очень быстрый Athlon в такое положение, что он проиграет двум стареньким Селеронам. Например в такой задаче как DVD-Rip. Причем не столько по скорости (хотя FairUse на двухпроцессорной системе работает просто быстрее, несмотря на огромный проигрыш по тактовой частоте), сколько по тому, что на двухпроцессорной машине процесс декодирования практически не мешает заниматься другими делами на компьютере, чего не скажешь про однопроцессорную машину. Производительность в задачах для рабочей станцииДавайте посмотрим на производительность системы в задачах для рабочих станций типа CAD, ПО для редактирования изображений и разработки приложений. Для этого мы будем использовать тест Ziff Davis Media's Dual Processor Inspection, который состоит из трех приложений: MicroStation SE (CAD), Photoshop 4.0 (редактирование изображений) и Visual C++ (разработка приложений).Microstation SE является пакетом моделирования/CAD и очень сильно нагружает x87 FPU. В этой области Athlon занимает, бесспорно, лидирующее положение, что мы и видим по результатам. Даже двухпроцессорная система на Duron 850 обгоняет двойной Xeon 1,7. И это при такой разнице в цене в пользу Duron. Приложения, использующие стандартный x87 код, будут лучше работать на Pentium III, еще лучше на Athlon и совсем уж прекрасно на двухпроцессорном Athlon MP. Впрочем, вы сами все хорошо видите. Тест Photoshop 4.0 - единственный, где двойной Xeon превзошел двойной Athlon MP. Что ж, действительно 12% в пользу Xeon. Сам по себе Visual C++ не разбивает процесс компиляции на несколько потоков, поэтому в этом тесте одновременно компилируются две программы. Следовательно, от двухпроцессорной конфигурации здесь должна появиться реальная польза. Athlon MP в этом тесте снова лидирует с 14% отрывом от своего конкурента. Пальмовая ветвь теста по общей производительности по праву принадлежит двойному Athlon MP. Вы уже видели тесты, которые привели к такому впечатляющему результату в финале. Производительность LinuxРынок Linux только выиграет от выпуска двухпроцессорной платформы AMD. Linux является намного более сервер-ориентированной ОС по сравнению с Microsoft Windows, поэтому многие приложения обычно требуют наличия и эффективно используют многопроцессорные системы. В качестве примера можно привести системы на Linux таких разработчиков, как Pogo, Penguin Computing и VA Linux. Эти компании широко известны на рынке веб-серверов. Как нам кажется, Tyan 760MP разработана именно для этого рынка, так как размещенные под углом разъемы DIMM обеспечивают возможность использования платы в 1U серверах. Учитывая характер работы веб-сервера, ориентированный на обслуживание многих пользователей одновременно, использование нескольких процессоров должно прекрасно отразиться на производительности сервера. Впрочем, стойка таких серверов выглядела бы еще лучше.Если дополнительный процессор прекрасно себя показывает в серверных задачах, то обычные приложения, как правило, получают крайне небольшой прирост производительности. Например, Xfree86 (низкоуровневая программа-сервер для обеспечения оконного GUI) использует только один поток, как и большинство пользовательских приложений. Для тестирования производительности под Linux мы выполняли компиляцию ядра. Компиляция ядра не является "синтетическим" тестом, к тому же здесь можно указывать число задействованных процессов.
Выше показан результат в секундах, чем меньше - тем лучше. Во-первых, по этим данным мы можем сделать вывод, насколько выигрывает параллельная архитектура. Athlon и Duron используют FSB типа "точка-точка", что приводит к лучшему использованию 266 МГц (или 200 МГц, соответственно) DDR шины. Применяемая в Xeon 400 МГц FSB (эффективное значение) является значительным усовершенствованием после относительно медленной 133 МГц FSB у Pentium III. Несмотря на такие различия, почти каждая платформа показывает одинаковое улучшение при переходе от одного к двум процессором, уменьшая время компиляции примерно на 60%. Таким образом, компиляция ядра не настолько сильно нагружает FSB, чтобы показать превосходство одной архитектуры над другой. Во-вторых, обратите внимание, насколько ошибочна стратегия "покупать гигагерцы". 1,2 ГГц Athlon MP по времени обгоняет 1,7 ГГц Xeon. Система на Athlon MP закончила 2-процессную компиляцию ядра за 90% времени, понадобившегося Xeon. Новое ядро Athlon MP на 4% быстрее справилось с заданием по сравнению со старым. В третьих, довольно любопытна разница в результатах 1-процессной компиляции между однопроцессорной и двухпроцессорной системой. При переходе к двум процессорам каждая архитектура получает преимущество несмотря на использование только 1 процесса, что проясняет дальнейший путь для улучшения. Нам, кстати, такой результат очень нравится, так как он говорит о пользе многопроцессорных систем даже при запуске однопотоковых приложений. Еще одна маленькая деталь: Athlon и Athlon MP показали лучший результат (82%) при переходе к двум процессорам. Аналогичный переход у Xeon дает меньшую разницу - 87%. Причину этого установить довольно трудно, но факт все равно интересен. И, наконец, заметьте, что если количество процессов превышает число процессоров, то результат ухудшается. Как нам кажется, каждому процессу в таком случае приходится конкурировать с другими за процессорное время, память и кэш файловой системы, что не играет им на руку. Производительность в среде с постоянной вычислительной нагрузкойНаши молитвы не пропали даром, и CSA Research Benchmark Studio 2001 включила в себя несколько улучшений. Для упрощения процесса тестирования, CSA Research встроила в программу уровни нагрузки системы. Как вы, наверное, помните из наших предыдущих обзоров, Benchmark Studio измеряет производительность в среде с постоянной вычислительной нагрузкой (Constant Computing). В такой среде пользователь может одновременно соединяться с почтовым сервером для получения писем, снимать данные из корпоративной базы данных, просматривать видеофильм с интранет-сервера и редактировать документ в Word. Benchmark Studio 2001 симулирует подобную вычислительную среду и измеряет производительность системы. Как видно, природа такого теста довольно далека от обычного офисного компьютера, зато она наглядно должна показать все преимущества многопроцессорной системы.Мы тестировали программу в трех прогонах. Первый (Baseline) просто проверял офисную производительность с помощью выполнения скрипта без дополнительных фоновых задач. Второй прогон (Loading level 1) использовал базу данных, почту и проигрыватель мультимедиа файлов, при этом был выставлен минимальный уровень нагрузки. Третий прогон (Loading Level 2) отличался от второго указанием максимального уровня нагрузки. Во время второго и третьего прогона запускался такой же офисный скрипт, что и в первом прогоне. Итоговая производительность высчитывалась в зависимости от затраченного времени и выражалась в секундах. Без всякой дополнительной нагрузки Athlon MP не демонстрирует никакого преимущества в производительности по сравнению с Athlon. От перехода к двухпроцессорной конфигурации тоже мало пользы. Однако у двух Xeon заметен некоторый отрыв по сравнению с одним, что связано с отставанием одного процессора в офисной производительности (большое число ошибок ветвления при длинном конвейере). Впрочем, мы можем не обращать внимания на эти результаты, так как вряд ли вы будете использовать двухпроцессорную систему для запуска Word, Excel или PowerPoint. Увеличение нагрузки расставляет все по своим местам. С одной стороны, почти все двухпроцессорные системы вырываются вперед (за исключением Duron 850 со слишком маленьким кэшем). Впрочем, различие в производительности между ними слишком мало для выделения неоспоримого лидера. Еще большее увеличение нагрузки усугубляет разрыв в результатах, что демонстрирует необходимость в производительных процессорах для high-end сетевых рабочих станций. Не забывайте, что для создания подобной ситуации запуском одного MS Office вам не обойтись. В нашем случае процессору приходится обрабатывать несколько видеопотоков, работать с базой данных и сервером почты. Неудивителен и полученный результат. AMD не солгала, когда указала на 15% прирост производительности Athlon MP над обычным ядром Athlon. В нашем случает Athlon MP выполнил тест за время, на 10% меньшее чем Athlon (оба использовали двухпроцессорную конфигурацию).
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
|