С момента первого выпуска Intel Pentium II Xeon прошло чуть меньше трех лет. Процессор базировался на том же ядре, что и Pentium II и Celeron тех дней, и позиционировался в роли процессора для high-end рабочих станций и серверов, на место Pentium Pro.
Одним из главных преимуществ Xeon было то, что процессор был достаточно мощным для большинства интенсивных серверных задач, и в то же время он сохранял функции ядра P6 для быстрого выполнения домашних/офисных приложений. Таким образом, благодаря Pentium II Xeon исчезла идея использования специализированного компьютера для работы, который не мог бы выполнять домашние/игровые приложения. Также Pentium II Xeon помог дальнейшему продвижению Intel на рынке многопроцессорных рабочих станций, который был захвачен не-x86 архитектурой.
Самый первый Pentium II Xeon был оснащен полноскоростным кэшем L2 до 2 Мб. Однако по причине использования 0,25 мкм технологии в Pentium II, кристалл был уже достаточно большим, и L2 кэш пришлось вынести за ядро и поместить на отдельном чипе, связанном внешней шиной с ядром процессора. Серия Xeon прошла долгую дорогу со своих первых дней в 1998 году. В Pentium III Xeon технология ядра уменьшилась до 0,18 мкм, поэтому кэш L2 (до 2 Мб) уже смог поместиться на кристалле процессора, что значительно улучшило производительность кэша.
Сегодня Intel продолжает свой курс по сегментированию своих флагманских процессоров и анонсирует процессор Xeon следующего поколения, который базируется на ядре Pentium 4 Willamette. Процессор называется по-старому, Intel Xeon, и выпускается в трех вариантах: 1,4 ГГц, 1,5 ГГц и 1,7 ГГц. Ядро процессора почти полностью идентично обычной (desktop) версии Pentium 4 за исключением незначительных деталей.
Архитектура Intel Xeon
Процессор Intel Xeon основан на точно таком же ядре, что и обычная версия Pentium 4. А это означает, что все то, чем гордится Pentium 4, есть и в Xeon. Но точно также это означает, что все недостатки Pentium 4 остались и в Xeon.
Мы не будем подробно останавливаться на архитектуре Pentium 4, а лишь вкратце пробежимся по основным чертам Pentium 4 и Xeon.
Гиперконвейерная технология (Hyper Pipelined Technology). У Xeon конвейер значительно длиннее, чем у Pentium III или Athlon. К сожалению, это означает, что Xeon выполняет меньше операций за такт, однако это обеспечивает путь для достижения значительно более высоких тактовых частот. В теории, работа на больших тактовых частотах позволит Xeon-у продемонстрировать весомое преимущество в производительности перед своими предшественниками, потому что факт выполнения меньших вычислений за такт не сильно заметен при умопомрачительных частотах. По этой же причине Pentium III мог достичь только 1 ГГц при использовании 0,18 мкм техпроцесса, и в то же время Xeon работает на 1,7 ГГц при том же самом техпроцессе. И как вы увидите, между ними ясно видна разница в производительности.
Улучшенное предсказание ветвлений (Improved Branch Prediction). Очевидно, что при таком длинном конвейере необходимо использовать улучшенный модуль предсказания ветвлений (BPU), как и сделано в Xeon. Можно утверждать, что BPU в Xeon является самым лучшим из всех существующих, и именно этот модуль сдерживает производительность Athlon. В любом случае, BPU в Xeon должен быть достойным, иначе недостатки гиперконвейерной архитектуры в P4 испортят всю картину.
Ядро быстрого выполнения (Rapid Execution Engine). Два ALU (арифметико-логический модуль) работают в Xeon с удвоенной скоростью (double pumped), они могут обрабатывать в два раза больше данных за такт чем обычно. Это дает ALU эффективную пропускную способность, аналогичную ALU, работающему с удвоенной тактовой частотой. В случае с 1,7 ГГц Xeon это означает, что ALU функционируют как обычные ALU (не с удвоенной скоростью) на частоте 3,4 ГГц. Такое ускорение необходимо для обеспечения у Xeon достойной производительности при работе с целыми числами. В целочисленном коде чаще всего происходят ошибки предсказания ветвлений, поэтому менее эффективное ALU привело бы к плохой производительности в целых числах, учитывая очень длинный конвейер Xeon.
Кэш с отслеживанием 12 тысяч инструкций (12K micro-op trace cache). Этот специальный кэш заменяет и улучшает традиционный кэш инструкций L1. 8-канальный ассоциативный кэш с отслеживанием выполнения кэширует операции после их декодирования и также кэширует операции по предсказанному пути выполнения. Это позволяет скрыть некоторые недостатки столь длинного конвейера.
256 кб улучшенный кэш передачи (256KB Advanced Transfer Cache). Подсистема кэша L2 в Xeon просто потрясающая, если не сказать больше. Она отличается не только 256-битной шиной от L2 кэша до процессора, но и способностью передавать данные их кэша на каждый такт, что означает превосходство по пиковой пропускной способности кэша в сравнении с другими процессорами в этом классе. У Xeon 1,7 ГГц пиковая пропускная способность при чтении/записи в кэш L2 составляет 54,4 Гбайт/с. Если сравнить с Pentium III 1,0 ГГц, то у него пропускная способность составляет 16 Гбайт/с, а у Athlon 1,33 ГГц - 10 Гбайт/с (Athlon ограничен 64-битной шиной до кэша L2).
Аппаратная упреждающая выборка (Hardware Prefetch). Xeon способен предсказывать, какие данные ему понадобятся перед реальным запросом из основной памяти, и он может заранее перевести эти данные в кэш. Таким образом, на момент запроса данных, они уже будут находиться в кэше. Если же данные так и не будут востребованы, место в кэше будет использовано вхолостую, и точно такая же ситуация произойдет и с частью пропускной способности FSB и шины памяти. В любом случае, аппаратная упреждающая выборка сводится к загрузке пропускной способности FSB/шины памяти, но благодаря следующей особенности архитектуры Xeon она так и не смогла стать серьезной проблемой.
Четырехскоростная (quad pumped) 100 МГц FSB и двухканальная RDRAM. Xeon использует 100 МГц FSB, скорость которой увеличена в четыре раза (quad pumped), таким образом она обеспечивает пропускную способность, эквивалентную 400 МГц FSB, то есть 3,2 Гбайт/с. FSB синхронно работает с двумя каналами RDRAM чипсета i850 на частоте 400 МГц используя две 16-битные шины. Таким образом, пиковая пропускная способность шины памяти составляет 3,2 Гбайт/с. Если для платформы Pentium III RDRAM была не так уж необходима, то для использования совместно с Xeon, такая память очень хорошо подходит.
SSE2. В Xeon добавлены новые 144 SSE2 инструкции к имеющимся в первом SSE 70 инструкциям. Под SPEC CPU2000 улучшение производительности с использованием одной только оптимизации под SSE2 находится в пределах 5%. Учитывая синтетическую природу теста SPEC CPU2000, очень непохоже, что SSE2 покажет нам какой-либо стоящий прирост производительности в современных приложениях. Единственное что мы не учли -SSE2 может использовать две 64-битные SIMD-Int и SIMD-FP операции. Эта возможность не используется в SPEC CPU2000 и она, возможно, еще покажет себя.
Технология Jackson - не в этот раз
Еще во время IDF существовало достаточно много причин поверить в то, что Intel Xeon будет первым процессором с использованием технологии Jackson (это ее внутреннее имя). Технология предназначена для использования одновременной многопоточности (Simultaneous Multithread, SMT) в ядре процессора. Говоря вкратце, процессор имеет аппаратное ограничение выполнения только одного потока в один момент времени. Если сравнить теоретическое число инструкций, которые процессор может выполнить за определенный такт (IPC), то оно будет намного выше действительного IPC при выполнении реальных задач. Связано это с тем, что процессор не всегда максимально загружен, и часть вычислительной мощности теряется.
Эффективность работы процессора многократно повысилась бы, если бы он был способен выполнять на аппаратном уровне несколько потоков одновременно. В этом и заключается основное преимущество технологии одновременной многопоточности.
Было бы очень логично, если бы технология Jackson начала использоваться в двухпроцессорных рабочих станциях на базе Xeon, так как приложения, которые обычно запускаются на таких станциях, должны были бы получить значительное преимущество от использования SMT ядра. К сожалению, процессор Intel Xeon, который вышел на днях, не задействует технологию Jackson.
Однако, как ясно видно по информации с IDF и по сообщениям некоторых источников, близких к Intel, технология Jackson значится в планах Intel. Эта технология должна стать большим шагом вперед для Intel, она открывает весьма любопытные возможности для увеличения производительности. Также не следует забывать, что Intel имеет обыкновение выпускать одно ядро и адаптировать его для самых важных сегментов рынка. Существует вероятность, что технология Jackson будет использоваться и в обычной версии Pentium 4, а не только в версии Xeon для рабочих станций и серверов.
Как вариант, может получиться ситуация, когда текущее ядро Willamette содержит технологию Jackson, но она не задействована ядром. Существует некоторое число проблем, которые Intel должна разрешить перед анонсом/включением поддержки Jackson, например, поддержка технологии программным обеспечением.
Мы с нетерпением ждем выхода технологии Jackson, однако, нам придется еще немного потерпеть. Не будем забывать, что к концу года планируется уменьшение технологии изготовления ядра, а в следующем году будет выпущен Xeon MP (4+ процессора) с L3 кэшем на кристалле ядра. Оба этих события могут послужить хорошей причиной для анонса технологии Jackson.
Новая упаковка
Исторически, линейка процессоров Intel Xeon (то есть Pentium II Xeon, Pentium III Xeon) всегда использовали отличный от обычных версий процессора интерфейс. Если процессоры Pentium II и Pentium III выпускались в 242-контактном Slot1 варианте, то их Xeon версии использовали 330-контактный разъем Slot-2. Большинство добавочных ножек использовалось для снабжения чипа дополнительной энергией. С двумя мегабайтами L2 кэша Pentium III Xeon потреблял больше энергии, чем его 256-килобайтный собрат.
Разъем Socket-423 для Pentium 4
Разъем Socket-603 для Xeon
Аналогичная ситуация произошла и с новым Xeon. Pentium 4 задействует 423-контактный разъем, в то время как Xeon использует 603-контактный интерфейс. Вы, наверное, уже догадались, что 43% рост числа контактов приводит к увеличению размеров чипа. При этом ядро чипа намного меньше его физических размеров. Если бы Xeon использовал 603-контактный интерфейс в той же упаковке, что и Pentium 4, размеры процессора были бы огромны. Однако Intel не только изменил число контактов, но и упаковку Xeon.
Те, кто знакомы с мобильным рынком, знают, что мобильные процессоры Pentium III выпускаются в двух упаковках: micro Pin Grid Array (microPGA) и micro Ball Grid Array (microBGA). Pentium 4 использует обычную PGA упаковку, в то время как Xeon запечатывается в уменьшенную PGA упаковку, больше напоминающую microPGA мобильные процессоры. Поэтому размер чипа Xeon не превышает размер Pentium 4, так как контакты снизу процессора расположены плотнее. Также контакты намного короче PGA Pentium 4, так что если вы, не дай Бог, погнете контакт, выпрямить его будет намного сложнее чем на PGA чипе.
Pentium 4 (слева) и Xeon (справа)
Интерфейс microPGA очень похож на тот, который будет использоваться с будущим 0,13 мкм Pentium 4, хотя в нем будет задействовано 478 контактов (в отличие от 603 контактов у Xeon). Из-за смены упаковки будет изменен и разъем. Socket-603 является первым существенным изменением разъема с начала использования разъема Zero Insertion Force (ZIF) с 486 процессорами.
Новая платформа
Когда выпускался первый Pentium II Xeon, совместно с ним были анонсированы два новых чипсета: i440GX и i450NX. Чипсет i440GX представляет собой не больше, чем серверную версию 440BX с поддержкой в два раза большего объема памяти. В отличие от него, чипсет i450NX являлся настоящим серверным чипсетом, так как он поддерживал 64-битную PCI и четырехпроцессорную конфигурацию.
История с Intel Xeon повторяется снова, но пока что на момент выпуска процессора анонсирована только серверная версия стандартного i850: чипсет i860.
В i860 сделаны небольшие улучшения над i850, главным образом касающиеся поддержки до двух 64-битных шин PCI параллельно с одной 32-битной шиной PCI.
Каждая 64-битная шина использует отдельный чип на материнской плате, концентратор PCI 64 (P64H). Таких концентраторов может быть до двух, и к каждому из них подключена 64-битная шина до чипа i860 MCH. Шина работает на частоте FSB, то есть она обеспечивает пропускную способность 800 Мбайт/с от 64-битных PCI разъемов через чип P64H на материнской плате. Если вспомнить предыдущие реализации 64-битных PCI шин на материнских платах, то даже при работе на 66 МГц их пиковая пропускная способность не поднималась выше 533 Мбайт/с. Таким образом, шина, соединяющая к 64-битный PCI концентратор и MCH, обеспечивает большую пропускную способность, чем требуется для разъемов. Мы получаем идеальную ситуацию без узких мест, ограничивающих предельную пропускную способность PCI-64 карт.
Тот факт, что MCH способен соединять до двух 64-битных PCI концентраторов по двум 64-битным шинам приводит к существенному увеличению размера i860 MCH по сравнению с i850 MCH.
Кроме поддержки 64-битной PCI шины, i860 отличается от i850 поддержкой двухпроцессорности. Он также как и i850 использует двухканальную шину памяти RDRAM, обеспечивая пропускную способность памяти 3,2 Гбайт/с. Это очень хорошо сочетается с пропускной способностью 3,2 Гбайт/с у FSB. Но здесь два процессора получают на двоих ту же пропускную способность шины FSB, что и один Pentium 4. В отличие от будущего 760MP, i860 использует разделяемую между двумя процессорами шину, что означает конкуренцию двух процессоров за использование 3,2 Гбайт/с пропускной способности. AMD 760MP опирается на шину точка-точка, то есть каждый из процессоров получает полные 1,6 Гбайт/с-2,1 Гбайт/с. Перед тем, как вы осознаете преимущество 760MP по указанной причине, помните, что два процессора все еще будут конкурировать за использование одной и той же пропускной способности шины памяти (2,1 Гбайт/с).
Платформа из четырех Intel Xeon, работающих на пробной плате Grand Champion HE
Другая платформа, которая будет доступна для Intel Xeon в скором времени - ServerWorks Grand Champion HE. Она сможет поддерживать четырехпроцессорные конфигурации Intel Xeon MP. Чипсет будет использовать DDR SDRAM в режиме 4-way interleave, предлагая пропускную способность 6,4 Гбайт/с для 1, 2 или 4 процессоров.
Материнские платы
Весьма интересно, что совместно с Xeon были анонсированы материнские платы только от двух производителей: Iwill и Tyan. Tyan сейчас не имеет образцов для тестирования (они в данное время работают над другим интересным двухпроцессорным проектом), но Iwill передал сайту Anandtech экземпляр DX400-SN. Эта плата построена на основе рекомендованного Intel дизайна Maplegrove, хотя сам Intel не собирается производить и продавать материнские платы на чипсете i860. Фактически, Intel вообще не будет делать ни одной материнской платы для Xeon в ближайшее время, так как они отказались от выпуска основанной на чипсете ServerWorks платы для Xeon MP (который выйдет в конце этого года или в начале следующего.)
На материнской плате размещено восемь разъемов RDRAM RIMM, что стало возможным благодаря использованию двух повторителей сигналов памяти (MRH), которые разбивают оба канала RDRAM на два отдельных канала, каждый из которых может поддерживать два модуля RIMM. Только таким способом плата может пробиться на серверный рынок, так как обычно подобные серверы оснащаются многими гигабайтами памяти.
Для того чтобы уместить в компьютер все эти разъемы памяти, они вынесены на стойку (riser card), которая вставляется в материнскую плату. К сожалению, это приводит к потере любой надежды на помещение обеих материнских плат (а у Tyan дизайн точно такой же) в стоечные корпуса меньше 4U или 5U.
Обе материнские платы (Iwill и Tyan) требуют использования питания WTX, которое отличается более длинным, чем в ATX, соединителем питания и добавочным 4x2 соединителем. Плата тестировалась с помощью 430 Вт WTX питания.
Кстати, очень впечатляет создание такой материнской платы самым мелким производителем в Тайване. Мы не обнаружили никаких проблем со стабильностью, несмотря на различные тесты, которым она у нас подверглась.
Особенности многопроцессорности (MP)
Самой главной проблемой при оценке такой многопроцессорной системы, как новый Intel Xeon, является проблема измерения производительности. Фактически, большинство тестов из стандартного набора не показывают никакого существенного отрыва от однопроцессорной системы. Не означает ли это, что вы не заметите никакого прироста производительности после перехода к многопроцессорности? Конечно, нет. Фактически, производительность системы значительно возрастает при переходе к MP.
Однако существует три требования для полного использования преимуществ мультипроцессорной системы:
- Поддержка операционной системой. Если ваша ОС не поддерживает многопроцессорность, то вы не получите никакого преимущества от вашего второго (третьего, четвертого :) процессора вообще. Они просто не будут использоваться. Ни одна из ОС Windows 9x и Me не поддерживают MP, однако Windows NT, 2000, XP (за исключением домашней версии 'home edition'), Linux, Unix, и т. д., - все они поддерживают многопроцессорность;
- Поддержка приложением. На самом деле, это требование не обязательно, но оно весьма желательно для использования многопроцессорной системы в полную силу. Если ваше приложение специально разработано для использования нескольких процессоров (обычно такое приложение называют многопотоковым, так как каждый процессор может обрабатывать только один поток в единицу времени), то вы получите существенное улучшение производительности от перехода к многопроцессорной системе. Примером таких приложений может служить большинство серверов баз данных (например, Oracle, SQL) и некоторые программы по 3D моделированию (например, 3D Studio MAX). Однако не думайте, что все "high-end" приложения умеют использовать преимущества MP системы, негативным примером может служить PTC Pro/ENGINEER;
- Использование второго процессора. Мы только что упомянули, что поддержка приложением не обязательна, но желательна. Если ваши приложения специально не разработаны для использования нескольких процессоров, то вы можете, по крайней мере, запустить больше одного приложения для загрузки вашего второго процессора. Эту рекомендацию, на самом деле, очень трудно показать через тесты, но бесспорно, она является самой актуальной для наших читателей, так как большинство из них не используют свои компьютеры в роли серверов баз данных.
Итак, учитывая три перечисленные требования, мы можем приступить к тестированию этого монстра.
Тестирование
Мы сравнивали производительность четырех систем:
- AMD Athlon-C 1,2 ГГц на материнской плате AMD 760 (мы выбрали 1,2 ГГц Thunderbird для сравнения в будущей статье);
- Двухпроцессорная конфигурация на базе Intel Pentium III 933 и материнской платы VIA Apollo Pro266. Как уже говорилось раньше, Pro266 обеспечивает примерно ту же производительность, что и i840 по намного меньшей цене. Производительность процессора Pentium III практически равна Pentium III Xeon начального уровня с 256 кб L2 кэша;
- Двухпроцессорная конфигурация на базе Intel Xeon 1,7 ГГц и материнской платы Iwill 860;
- Однопроцессорная конфигурация на базе Intel Xeon 1,7 и материнской платы Iwill 860. Производительность такой системы идентична системе на одном процессоре Pentim 4 1,7 ГГц;
Мы использовали 512 Мб памяти для всех тестов, рассчитанных на обычные компьютеры и рабочие станции, и 1 Гбайт памяти для серверных тестов.
Тестовые системы на основе Windows 98SE / 2000 |
|
Аппаратное обеспечение |
Процессор |
Intel Pentium III 933 МГц x 2 |
Intel Xeon 1,7 ГГц x 2 |
AMD Athlon-C "Thunderbird" 1,2 ГГц |
Материнская плата |
Iwill DVD266-R |
Iwill DX400-SN |
ASUS A7M266 |
Память |
1 Гб PC2100 Corsair DDR SDRAM
1Гб PC800 Toshiba RDRAM |
Жесткий диск |
IBM Deskstar 30GB 75GXP 7200 RPM Ultra ATA/100 |
CDROM |
Phillips 48X |
Видеокарта |
NVIDIA GeForce2 Ultra 64MB DDR (частота по умолчанию - 250/230 DDR) |
Сеть Ethernet |
Linksys LNE100TX 100Mbit PCI Ethernet |
|
Программное обеспечение |
Операционная система |
Windows 2000 Professional SP2 Windows 2000 Server SP2 |
Драйверы видео |
NVIDIA Detonator3 v6.50 @ 1024 x 768 x 16 @ 75Гц NVIDIA Detonator3 v6.50 @ 1280 x 1024 x 32 (SPECviewperf) @ 75Гц Для всех материнских плат VIA использовался драйвер VIA 4-in-1 4.31V |
Сравнение полосы пропускания памяти
Как обычно, мы начинаем тестирование Intel Xeon с измерения полосы пропускания памяти. Мы уже показывали раньше, что Pentium 4 хорошо умеет использовать большую пропускную способность памяти, которая обеспечивается чипсетом i850 благодаря двум каналам Rambus. Результаты Intel Xeon не должны отличаться от Pentium 4, так как процессоры идентичны и пропускная способность памяти также одинакова.
График производительность Linpack не обманул наши ожидания. Как только размер обрабатываемых данных увеличивается и начинает превышать размер кэша, производительность FPU начинает зависеть от пропускной способность памяти.
Здесь мы ясно видим превосходство Xeon над Pentium III/Pentium III Xeon по пропускной способности FSB и шины памяти в работе с интенсивными серверными приложениями. Мы еще вернемся к примерам таких программ, но помните, что такая пропускная способность нужна не только приложениям для кодирования видео.
Неустойчивость графика Xeon связана с присутствием двух процессоров. К сожалению, мы не можем объяснить этот феномен другой причиной, кроме как своеобразным распределением задач между ними.
Мы уже упоминали раньше, что независимо от того, используется ли FSB типа точка-точка или разделяемая FSB, вашим процессорам все равно придется конкурировать друг с другом за пропускную способность общей шины памяти
Для того чтобы это проиллюстрировать, мы одновременно запустили два теста Linpack на двухпроцессорной системе Intel Xeon. Можно заметить падение значения пропускной способности памяти, доступной для каждого процессора.
Посмотрите на уменьшение производительности после того, как размер обрабатываемой матрицы превысит размер кэша каждого процессора. Производительность двух процессоров намного ниже, чем производительность одного процессора. Причина этого заключается в том, что двойной канал RDRAM на i860 не может обеспечить нужную пропускную способность памяти для двух ненасытных процессоров.
Именно поэтому ясно видна потребность в чипсете ServerWorks Grand Champion HE, с его пропускной способностью шины памяти в 6,4 Гбайт/с. Тем более с ним может использоваться уже четырехпроцессорная конфигурация.
Из двух этих тестов вы должны понять главное: пропускная способность двухпроцессорной системы на Xeon 1,7 ГГц не больше, чем у одного Xeon, работающего на той же частоте. К сожалению, сей факт означает, что при повышении тактовой частоты нехватка пропускной способности памяти на двухпроцессорной Xeon системе будет ощущаться быстрее, чем на однопроцессорной Xeon (или Pentium 4) системе.
Еще один интересный вывод: двухпроцессорная система на Pentium III имеет самую маленькую пропускную способность памяти, даже меньше системы на одном Athlon. Эта особенность легко становится узким местом компьютеров на базе Pentium III и Pentium III Xeon, учитывая, что пропускная способность FSB у них составляет 1 Гбайт/с.
На сайте Anandtech уже тестировали Pentium 4 1,7 ГГц, и особое внимание было уделено последнему тесту BAPCo SYSMark 2001. Дело в том, что эта тестовая система симулирует нагрузку, которая встречается на большинстве компьютеров продвинутых пользователей: множество приложений запускаются одновременно.
Не забывайте и третье требование, которое мы выдвинули к двухпроцессорной системе для повышения ее производительности, - использование нескольких программ одновременно. Если SYSMark 2001 действительно разделяет работу на несколько задач и нагружает ими процессор, то мы должны увидеть прирост производительности при переходе от одного Xeon 1,7 ГГц к двум Xeon 1,7 ГГц.
Производительность в приложениях по созданию Интернет-контента
Тестовый прогон по созданию Интернет-контента (Internet Content Creation) в SYSMark 2001 задействует функции редактирования изображений и видео совместно с публикацией. Архитектура NetBurst (а, следовательно, и Pentium 4/Xeon) предоставляет возможность фонового кодирования видео в Windows Media Encoder во время запуска теста. Если добавить к этому высокую нагрузку на FSB и шину памяти, то полное лидирование Xeon в этом тесте покажется закономерным.
Диаграмма, представленная вверху показывает среднее время отклика приложений (response time), не учитывая время ожидания пользовательского ввода. Как видим, переход от одного Xeon 1,7 ГГц к двум Xeon 1,7 ГГц в среднем уменьшает время отклика на 27%. Конечно, это не умопомрачительный результат, однако такая производительность пока что недоступна ни одной однопроцессорной системе.
Рейтинг SYSMark 2001, скорее всего, отражает среднее время отклика приложений для тестового прогона по созданию Интернет-контента. Если мы экстраполируем производительность Xeon по этому тесту, то двухпроцессорная система на базе Xeon 1,7 ГГц покажет большую производительность, чем система на базе одного Xeon ~2,1 ГГц.
Производительность в офисных приложениях
Тестовый прогон офисной производительности (office productivity) не является столь нишевым тестом, как прогон по созданию Интернет-контента. Он меньше зависит от пропускной способности FSB и шины памяти. Как мы уже видели при тестировании Pentium 4 1,7 ГГц, Athlon легко вырвался вперед в этом тесте.
Здесь переход к двухпроцессорной системе уменьшил среднее время отклика приложений только на 11%. Таким образом, для того чтобы вы ощутили прирост производительности от двух процессоров, вы должны использовать мощные приложения, способные значительно нагрузить кэш, память и FSB. Появившийся здесь 11% прирост будет легче достичь более дешевыми средствами, к примеру, заменив процессор на более скоростной (когда он станет доступен).
Сделаем вывод: преимущество от использования двух процессоров напрямую зависит от приложений, которыми вы будете их нагружать.
И снова эти результаты подчеркивают среднее время отклика приложений. Pentium 4 (а, следовательно, и Xeon) не очень хорошо выглядит в этом тесте, так что 11% прирост от двух процессоров будет очень трудно достичь увеличением тактовой частоты процессора.
Если вы будете использовать ваш компьютер для офисных приложений, то вам лучше всего подойдет процессор от AMD. Athlon намного лучше показал себя в этом тесте, так как он оснащен относительно коротким конвейером и большим кэшем, что позволяет ему достойно работать на 69% тактовой частоты Xeon. А 1,33 ГГц версия наверняка обгонит двухпроцессорную систему на 1,7 ГГц Xeon. Как мы видим, Athlon явно лучше подходит для офисных приложений, в то время как Pentium 4 и Xeon уверенно лидируют в категории приложений для создания Интернет-контента.
Если посмотреть на общий прирост производительности в SYSMark 2001 при переходе к двухпроцессорной конфигурации Xeon, то он составляет 24%. Однако эта цифра сильно зависит от типа приложения и может существенно отличаться. Если вы запускаете (в многозадачном режиме) много приложений для создания Интернет-контента, то переход к двум процессорам принесет вам существенную пользу. Однако если сфера вашей компьютерной деятельности ограничена офисным спектром задач, то вы будете стрелять из пушки по воробьям.
Общая производительность
Мы завершаем тестирование Xeon в качестве производительного решения для обычных компьютеров одним из наших любимых тестов - Benchmark Studio. Здесь двухпроцессорная система на Xeon 1,7 ГГц прошла тест за 83% времени однопроцессорной системы.
Производительность в high-end рабочих станциях
Следующая наша группа тестов - Ziff Davis' Dual Processor Inspection Tests, которые являлись частью High-End Winstone 99. Эти тесты состоят из трех приложений: MicroStation SE (CAD), Photoshop 4.0 (редактирование изображений) и Visual C++ (разработка приложений). Все эти тесты были специально разработаны с учетом многопроцессорности. Таким образом, мы сможем получить информацию о том, как будет работать наша двухпроцессорная система на Xeon с приложениями, которые были специально разработаны для многопроцессорных систем.
Microstation SE является пакетом моделирования/CAD и очень сильно нагружает FPU. Мы уже делали вывод о том, что FPU на Xeon (и Pentium 4) очень плохо выполняет неоптимизированный x87 код, который наличествует в этом тесте. Это позволяет Athlon-у, известному своим сильным FPU, превосходить не только однопроцессорную систему на Xeon, но и двухпроцессорные системы на Xeon и Pentium III.
Даже система на Pentium III 933 МГц превосходит Xeon 1,7 МГц, так как она лучше справляется с неоптимизированным x87 кодом, который используется в большинстве современных "тяжелых" приложений. Для того чтобы Xeon показал здесь свою мощь, приложение должно поддерживать SSE2 инструкции.
Ситуация резко меняется в тесте Photoshop. Самое интересное, что переход к двум процессорам позволяет получить Xeon 46% увеличение производительности.
58% увеличение производительности в Visual C++ также впечатляет.
Если мы посмотрим на общий прирост производительности, то получим 26% увеличение от перехода к двум процессорам. Как и в случае с SYSMark 2001, ложкой дегтя служит один из тестов, в котором Xeon показывает очень плохую производительность. К сожалению, мы можем продемонстрировать производительность нашей платформы только в различных тестах, так что уже вам самим придется решать, какие тесты больше учитывают приложения, используемые вами.
Редактирование изображений в Photoshop
Последний патч 6.0.1 к Photoshop добавляет улучшенную поддержку архитектуры Netburst, так что мы решили протестировать и этот программный продукт. К сожалению, из-за патча наша двухпроцессорная платформа на Pentium III 993 МГц не прошла тест преобразования полярных координат, так что мы не учитываем ее в сводных результатах.
|
Два Intel Xeon 1,7 ГГц |
Один Intel Xeon 1,7 ГГц |
Два Intel Pentium III 933 МГц |
Один Athlon-C 1,2 ГГц |
Фильтр/действие |
Время на выполнение в секундах (меньше - лучше) |
Поворот 90 |
7.9 |
7.8 |
6.8 |
10.0 |
Поворот 9 |
10.9 |
13.8 |
10.7 |
13.5 |
Поворот .9 |
11.1 |
13.0 |
10.3 |
12.4 |
Gaussian Blur 1 пиксель |
6.3 |
6.6 |
5.1 |
7.0 |
Gaussian Blur 3.7 пикселя |
10.5 |
11.8 |
11.4 |
15.2 |
Gaussian Blur 85 пикселей |
10.9 |
12.6 |
12.4 |
16.7 |
50%, 1 пиксель, 0 level Unsharp Mask |
4.4 |
5.3 |
4.4 |
5.5 |
50%, 3.7 пикселя, 0 level Unsharp Mask |
10.7 |
12.2 |
11.7 |
16.5 |
50%, 10 пикселей, 5 level Unsharp Mask |
10.9 |
12.7 |
11.9 |
16.1 |
Очистка от мусора (Despeckle) |
6.7 |
9.5 |
7.1 |
8.1 |
RGB-CMYK |
26.6 |
26.5 |
26.7 |
21.9 |
Уменьшение размера 60% |
2.8 |
3.3 |
3.2 |
4.1 |
Lens Flare |
12.6 |
16.0 |
14.4 |
17.6 |
Color Halftone |
30.1 |
30.8 |
3.3 |
19.1 |
NTSC Colors |
8.6 |
8.4 |
9.4 |
8.5 |
Accented Edges Brush Strokes |
25.1 |
25.7 |
28.3 |
24.7 |
Pointillize |
26.2 |
42.1 |
29.7 |
43.6 |
Акварель |
54.1 |
54.4 |
58.5 |
48.9 |
Полярные координаты |
17.3 |
28.1 |
Не прошел |
24.9 |
Радиальное размытие (Radial Blur) |
57.5 |
101.8 |
70.2 |
108.1 |
Эффекты освещение (Lighting Effects) |
6.4 |
7.7 |
8.4 |
15.7 |
Двухпроцессорная система на Xeon показала на 80% лучший результат в применении фильтров чем один Xeon. Еще одна любопытная деталь: с новым 6.0.1 патчем Athlon-C 1,2 ГГц показывает такие же хорошие результаты, как и Pentium 4/Xeon на 1,7 ГГц.
Производительность под Linux
Для тестирования производительности под Linux мы использовали стандартный тест по компиляции ядра. В этом тесте вы можете указать число одновременно запущенных процессов, так же как и ограничить пропускную способность процессора и памяти. Xeon с его учетверенной FSB должен эффективнее использовать пропускную способность памяти по сравнению с Pentium III, что, собственно, и было продемонстрировано.
Этот тест вы легко можете повторить и на своей машине. Мы использовали последнюю редакцию ядра Linux 2.4.4, с опциями по умолчанию, установленными программой 'make menuconfig' и выходом из нее без изменения параметров. Вы можете также набрать 'make config' и удерживать клавишу ввода для получения такого же результата. Для указания числа одновременно запущенных процессов во время компиляции, используйте флаг -j. Например, команда 'make -j 2 vmlinux' задействует два процесса.
Для ограничения количества времени, отводимого на использование диска, мы дважды проверили установки диска Red Hat и настроили их на 32-битный ввод/вывод и UltraDMA mode 4. Для этого мы использовали следующую команду:
hdparm -c1 -d1 -k1 -X68 /dev/hda
Следует заметить, что время на ввод/вывод все еще будет сказываться на результатах теста, но так как мы использовали один и тот же жесткий диск на всех машинах, оно не должно существенно повлиять на сравнительный результат. Также 512 Мбайт памяти должно быть достаточно для того, чтобы make, gcc и другие файлы ядра постоянно находились в кэше файловой системы Linux.
После того, как мы закончили тесты под Athlon, мы начали тестирование Xeon, и неожиданно возникла проблема. Ни установленное ядро Red Hat 7.1, ни установочный диск не загружались. Равно как и ядро 2.4.4. Нам помогло обновление до версии 2.4.4-ac9, и мы использовали ее для тестирования. Поэтому, имейте в виду, что результаты получены при компиляции двух разных версий ядра.
Что самое интересное, ядро 2.4.4, которое мы скомпилировали, уже содержало поддержку процессоров класса Pentium 4. Xeon слишком незначительно отличается от него для такой ошибки, да и i860 является лишь немного модифицированным i850. Впрочем, мы тестируем совершенно новое оборудование, и, наверное, слишком наглым будет требование работоспособности не самого свежего ядра с первого раза.
Тесты по компиляции ядра Linux |
Процессор/платформа |
Время компиляции в минутах (меньше - лучше) |
1 процесс |
2 процесса |
3 процесса |
Два Intel Xeon 1,7 ГГц |
4.12 |
2.465 |
2.467 |
Два Intel Pentium III 933 МГц |
5.09 |
3.12 |
3.135 |
Один AMD Athlon-C 1,2 ГГц |
4.85 |
4.9 |
4.91 |
При сравнении платформ взята за основу производительность Athlon. Как можно заметить, производительность одного процессора Athlon не повышается при увеличении числа одновременно запущенных процессов. Это связано с тем, что процессор может обрабатывать только один процесс в единицу времени. Поэтому увеличение числа процессов результату никак не помогает. Было бы интересно посмотреть на сравнение двухпроцессорных систем на базе AMD и Intel, впрочем, это тема для будущей статьи.
В сравнении с Pentium 4 и Athlon, Pentium III демонстрирует нехватку пропускной способности FSB и шины памяти, которая ограничена 1 Гбайт/с. Вообще-то мы предполагали, что Xeon покажет большее преимущество при переходе к двухпроцессорной системе по сравнению с Pentium III. Однако здесь мы видим, что и Pentium III, и Xeon получают почти 60% прирост по сравнению с одни процессором. Это говорит нам о том, что компиляция ядра недостаточно нагружает FSB и память для появления узкого места Pentium III.
Тестирование Xeon на серверных задачах
Те результаты, которые были показаны выше, весьма впечатляют, но они все же отражают использование Xeon в рабочих станциях. Как мы знаем, семейство Xeon также и нацеливается на рынок серверов. Если раньше большой кэш L2 (до 2 Мбайт) улучшал производительность серверов баз данных, то с новой архитектурой (Netburst) процессор должен стать еще более привлекательным.
Если посмотреть на обычные компьютеры, то архитектура Intel NetBurst не очень впечатляет. Такое отсутствие энтузиазма объясняется тем, что реальную пользу архитектура приносит в нишевых приложениях, типа кодирования видео. Проблема заключается в относительно небольшом количестве приложений, требовательных к пропускной способности. Поэтому Pentium 4 и Xeon не станут столь привлекательными, пока они не увеличат тактовую частоту.
Если же мы обратим свой взор на серверы, то они используют приложения с высокими требованиями к пропускной способности. На вашем рабочем компьютере никогда не будет программы, которая бы требовала нескольких компьютеров для нормальной работы, а на серверах такие приложения - обычная практика, называемая кластеризацией.
Для того чтобы измерить серверную производительность процессора Intel Xeon мы создали ситуацию, очень близкую к реальности. Вместо запуска большого количества синтетических тестов для симуляции серверной нагрузки, мы фактически заменили тестовой системой один из серверов на сайте Anandtech.
Форумы на сайте Anandtech страшно набирают популярность за последние годы. Сегодня в них существует около 56 000 зарегистрированных пользователей, обычно в один момент времени с сервером работает 600 пользователей. Кроме этого, существуют тысячи гостей, которые просматривают форумы и не учитываются нашей статистикой зарегистрированных пользователей. Форумы организованы на базе FuseTalk, движка, использующего базу данных, который был разработан Джейсоном Кларком (Jason Clark) и затем продан сайту Anandtech его компанией e-Zone Media.
Если в форум AnandTech помещается сообщение, FuseTalk перехватывает его и записывает в базу данных. Если пользователь желает прочитать сообщение (или ветвь сообщений), то они извлекаются из базы данных и динамически выводятся через Cold Fusion. В форуме не используется статических HMTL файлов, все работает через динамические страницы. Конечно, это имеет свои плюсы и минусы. Самый большой плюс заключается в цельности системы, в ней легко производить поиск и поддерживать ее рабочее состояние. Ну а самый большой минус заключается в том, что полностью динамические и основанные на базе данных форумы оказывают существенную нагрузку на сервер баз данных, который выдает всю информацию.
Объем текущей базы данных форумов Anandtech равен 3 Гбайт. Она содержит 3,1 миллион доступных для чтения сообщений, организованных в 357 000 ветвей. База данных также хранит и 1,3 миллиона личных сообщений, которыми 56 000 пользователей обмениваются друг с другом.
Сервер баз данных запущен на двухпроцессорной системе Intel Pentium III 800 МГц с 1,5 Гбайт PC133 SDRAM памяти, однако нельзя сказать, что процессора здесь хватает с избытком. Процессор очень легко становится узким местом системы благодаря операциям ввода/вывода: процессор и вся остальная система ждут, пока данные считаются с жестких дисков, и только потом могут обрабатывать полученную информацию. Для преодоления этого узкого места в системе установлен четырехдисковый RAID 10 массив из дисков Quantum Atlas 10K II (10 000 об/мин, буфер 8 Мбайт).
Нам было очень интересно посмотреть, как со всем этим справится процессор Intel Xeon. Для получения достоверных результатов мы записывали лог всех транзакций сервера баз данных за период в 30 минут. Записывались все операции чтения и записи в базу данных форумов Anandtech, то есть вся та информация, которая была помещена, редактирована, процитирована или послана в течение 30 минут.
Потом по этому логу запускались те же самые транзакции на тестовой системе в режиме без остановок. Если вы знакомы с нашими прошлыми тестами, то такой режим очень похож на 'timedemo' под Quake III Arena. Единственное отличие от нашего теста заключается в том, что в Quake III Arena в качестве характеристики производительности мы получали количество кадров в секунду, а здесь мы получаем время, которое ушло на выполнение всех операций. Если лог записывался в течение 30 минут, то он должен "проигрываться" существенно быстрее, так как здесь уже не учитывается время ожидания ввода данных от пользователя, поэтому все будет обрабатываться с максимально возможной скоростью.
Для еще большего уменьшения узких мест, связанных с операциями ввода/вывода, тестовая система была не только оснащена четырьмя дисками Quantum Atlas 10K в массиве RAID 0, но и 1 Гбайт памяти. Кстати, такой массив обеспечивает большую скорость записи, но такую же скорость чтения, что и наш RAID 10 массив на сервере форумов.
Во время 30-минутной записи произошло: 105267 операций выбора, 4984 операций обновления, 701 операций добавления и 5 операций удаления в базе данных. Если быть точным, то операция выбора означают чтение, обновления - чтение и запись, добавления - запись и удаление - просто удаление (редкое событие).
Первое, что здесь нужно заметить - тест значительно нагружает базу операциями чтения, таким образом, узкие места, связанные с вводом/выводом не так выступают, как при нагрузке базы операциями записи. Чтение всегда происходит быстрее чем запись, следовательно, наш тест больше зависит от производительности платформы, а не от узких мест операций ввода/вывода.
Если же ваше приложение больше нагружает базу данных операциями записи, то результат сравнения нескольких процессоров по своей форме не изменится, однако разница между ними уменьшится, так как система ввода/вывода при переходе от одного процессора к другому не меняется.
Природа базы данных форумов такова, что она задействует совсем немного интенсивных вычислительных операций, в основном используются функции прямого чтения и записи. Таким образом, скорость главным образом зависит от производительности всей платформы, а не от мощности вычислительных блоков процессора. Как уже было сказано раньше, Xeon бесспорно является лучшей платформой в этом классе, поэтому он должен хорошо себя показать.
Итак, давайте, наконец, перейдем к результатам тестирования. Если в обычных приложениях Pentium 4 на 1,7 ГГц не всегда значительно превосходил Pentium III, то как же обстоит дело с серверами баз данных?
Тестирование сервера баз данных |
Процессор/платформа |
Время прохода 30-минутного лога транзакций на максимальной скорости (меньше - лучше) |
Один Intel Xeon 1,7 ГГц |
22 минуты 31 секунда 532 мс |
Два Intel Xeon 1,7 ГГц |
14 минут 49 секунд 47 мс |
Два Intel Pentium III 933 МГц |
22 минуты 34 секунды 625 мс |
Один AMD Athlon-C 1,2 ГГц |
18 минут 6 секунд 437 с |
Из результатов следует несколько важных выводов. Во-первых, очевидно, что высокая пропускная способность FSB и шины памяти на платформе Xeon пригодилась очень кстати в этом тесте. Даже однопроцессорная конфигурация Xeon 1,7 ГГц прошла тест быстрее, чем двухпроцессорная система Pentium III 933 МГц.
Во-вторых, двухпроцессорная система Intel Xeon 1,7 ГГц прошла тест за 64% времени по сравнению с одним Xeon 1,7 ГГц или двумя Pentium III 933 МГц.
Но не один Xeon обладает высокой пропускной способностью. Обратите внимание, что один Athlon-C превзошел один Intel Xeon на 19%. Было бы очень интересно посмотреть, как пара Athlon-C 1,2 ГГц пройдут этот тест.
Заключение
Сначала мы хотели включить в этот обзор тестирование веб-сервера, но, к сожалению, мы не смогли вовремя подготовить тестирование, поэтому вы сможете посмотреть на результаты Xeon в следующем обзоре многопроцессорных систем, которого осталось не так уж долго ждать.
На текущий момент, новый Intel Xeon находится вне конкуренции. Платформа Xeon обеспечивает огромные значения пропускной способности FSB и шины памяти. Кажется, что Xeon никто не сможет остановить. В этом обзоре мы доказали, что такой род производительности бывает востребован не только в области серверов, но и в области обычных компьютеров и высокопроизводительных рабочих станций. Но на самом деле, все зависит от типа приложения, которое вы запускаете, и от характера использования двухпроцессорности.
Однако мы выявили и несколько препятствий, которые Xeon должен преодолеть для упрочения своих позиций. Как вы могли заметить, очень несерьезным является факт изготовления материнских плат на i860 только двумя производителями. Этому есть своя причина: с поддержкой максимум 4 Гбайт памяти и при цене на RDRAM все еще превышающей DDR SDRAM, платформа i860 есть не самое лучшее решение для действительно высокопроизводительных серверов, которые требуют больше 4 Гбайт памяти. К счастью, об этом позаботилась ServerWorks со своим чипсетом Grand Champion HE, который отбросит i860 на рынок рабочих станций и серверов начального уровня.
Самый же интересный вопрос, который всех беспокоит: как выглядит производительность i860 и Intel Xeon по сравнению с будущим 760MP и Athlon 4? Мы рады вам сообщить, что уже несколько недель тестируем такую комбинацию, и вы вскоре найдете ответ на этот вопрос, подкрепленный большим количеством тестов.
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.