Процессоры и память

Обзор процессора Atom C2758 и материнской платы SuperMicro A1SRM-2758F: бьем рекорды энергоэффективности

⇣ Содержание

#Вступление

За последние годы на рынке серверов и суперкомпьютеров произошли серьезные изменения, и главное из них — появление гетерогенных вычислений и микросерверов.

Когда смотришь на рейтинг суперкомпьютеров TOP500, становится ясно, что с каждым годом не только растет количество гетерогенных суперкомпьютеров, но и «классические» суперкомпьютеры на базе ЦП опускаются всё ниже и ниже, сдавая позиции гетерогенным кластерам. То есть современному рынку суперкомпьютеров требуются не унифицированные мощные процессоры, а узкоспециализированные, которые позволяют поднять и производительность, и энергоэффективность вычислительного комплекса на новый уровень — например, не так давно система на базе процессоров Xeon Е5 и сопроцессоров Xeon Phi показала рекордный уровень энергоэффективности в TOP500.

Игнорировать данные тенденции нельзя, если хочешь остаться на рынке, — компания AMD, купив производителя графических карт ATI в далеком 2006 году, решила проблему с сопроцессорами, выпустив профессиональные устройства для GPGPU-вычислений. Компания Intel, не имея под своим крылом разработчика графических ускорителей, пошла своим путем — начала с нуля разработку амбициозного проекта Larrabee, который впоследствии трансформировался в Intel MIC и высокопроизводительные сопроцессоры Xeon Phi. Де-факто Intel сумела ответить на потребности рынка суперкомпьютеров и, очевидно, весьма успешно — согласно ноябрьскому рейтингу TOP500 2013 года, самый производительный суперкомпьютер основан на процессорах Xeon E5 и сопроцессорах Xeon Phi.

Рынок микросерверов также нуждался в специализированном устройстве, как и рынок суперкомпьютеров. Поскольку необходимы были процессоры с небольшим энергопотреблением и высокой энергоэффективностью, классические мощные и сложные х86-ядра как у Xeon E3/E5/E7 и Itanium явно не подходили. Компания AMD пошла по пути наименьшего сопротивления — купила лицензию на ARM-архитектуру, которая отличается своей «простотой» и высокой энергоэффективностью. Решение Intel было понятно сразу — если уж на рынке мобильных телефонов, планшетов, суперкомпьютеров она не отказалась от х86-архитектуры, то что уж говорить про микросерверы? Поскольку реагировать на запросы рынка надо оперативно, то не было и речи о разработке архитектуры с нуля — в качестве отправной точки был взят «вездесущий» Atom. Адаптировав под серверные нужды в 2012 году микроархитектуру Saltwell, Intel получила серию процессоров S1200 с кодовым именем Centerton. Это были двухъядерные процессоры, произведенные по 32-нм техпроцессу. Ввиду невысокой производительности, необходимости в дополнительной обвязке (контроллеры Ethernet, SATA, USB) и ограничения максимального объема ОЗУ отметкой в 8 Гбайт данная серия не получила особого распространения. Это решение было пробой пера на рынке микросерверов, так что ему был отмерен краткий срок.

Intel Avoton

В 2013 году, сделав работу над ошибками, Intel выпускает в свет новую линейку процессоров Atom С2000 — теперь в состав чипа входят не только восемь процессорных ядер с переработанной архитектурой и ИКП, но и контроллеры SATA, USB, Ethernet и PCI Express, то есть речь идет о полноценной SoC.

Материнская плата SuperMicro A1SRM-2758F, CPU-Z

Несмотря на то, что Intel значительно переработала ядро «Атома», от предшественника осталась несимметричная компоновка кешей первого уровня: кеш инструкций объемом 32 Кбайт, кеш данных — 24 Кбайт. Что весьма странно.

Само процессорное ядро Atom С2000 имеет архитектуру Silvermont, которую мы не так давно рассматривали. Поэтому нет смысла делать это еще раз, а вот строение SoC ввиду кардинальных изменений стоит детально разобрать.

Intel Rangeley

Intel Bay Trail-M/D

В состав SoC Bay Trail входит до четырех процессорных ядер, графическое ядро Intel HD с четырьмя EU, контроллеры USB 3.0 и 2.0, SATA 2.0, PCI Express 2.0 с четырьмя линиями и двухканальный контроллер памяти с поддержкой DDR3-1333. В микросервере как таковой необходимости в графическом ядре нет, поэтому первое, что было исключено из SoC, — это графика Intel HD. Хотя здесь стоит сделать поправку — графическое ядро в целом серверу необходимо, но от него требуются другие функции, например, IPMI — для этого используются специализированные устройства вроде Aspeed AST2400. Теоретически можно было оставить Intel HD, «прикрутив» к нему все необходимые функции, в том числе и IPMI, — это позволило бы не только снизить количество дополнительного оборудования (а значит, и упростить разводку материнской платы), но и иметь поддержку OpenCL «на всякий случай» для гетерогенных вычислений «завтрашнего дня». Безусловно, это бы несколько увеличило площадь SoC, а следовательно, и транзисторный бюджет, который, как правило, ограничен на моменте проектирования процессора, но вариант все равно интересный — конкурент в лице AMD двигается именно в этом направлении. Однако это все теории. Итого в состав SoC Atom C2000 входит:

  • до восьми процессорных ядер;
  • двухканальный контроллер DDR3-1600 с поддержкой ECC;
  • контроллер PCI Express 2.0 с шестнадцатью линиями (четыре контроллера по четыре линии);
  • контроллер с квартетом портов SATA 2.0;
  • контроллер с двумя портами SATA 3.0;
  • четыре сетевых контроллера;
  • контроллер USB 2.0 с четырьмя портами;
  • криптографический сопроцессор Intel QuickAssist.

Следует остановиться на самой серии процессоров С2000, ведь в ней формально присутствуют два типа SoC — Rangeley и Avoton. По сути, это одни и те же чипы с одинаковой архитектурой, разница между которыми заключается в том, что процессоры Rangeley имеют поддержку технологии Intel QuickAssist, а Avoton — нет. Для различения процессоров в рамках серии компания Intel использует разный числовой индекс в конце названия: цифра 8 означает принадлежность SoC к Rangeley, а 0 — к Avoton.

У Rangeley и Avoton разные сегменты рынка: первые предназначены для облачных хранилищ и устройств коммутации, а вторые — для микросерверов. Стоит заметить, что Rangeley за счет Intel QuickAssist имеет рекомендованную стоимость на 37 долларов больше, чем Avoton (на примере С2758 и С2750). Безусловно, процессоры Rangeley можно также использовать в микросерверах, переплатив за криптографический сопроцессор.

#Модельный ряд Atom C2000

Модельный ряд серии С2000 на данный момент времени содержит восемь процессоров Rangeley и пять процессоров Avoton. Количество ядер в линейке варьируется от двух до восьми, а TDP — от 6 до 20 ватт.

Модельный ряд Intel Rangeley

Модельный ряд Intel Avoton

#Спецификации процессора Atom C2758

Тестирование производительности Rangeley будем выполнять на примере материнской платы SuperMicro A1SRM-2758F. Стоит заметить, что плата имеет «сестру-близняшку», на которой распаян SoC Avoton, — SuperMicro A1SAM.

Материнская плата SuperMicro A1SRM-2758F, CPU-Z

 Atom C2758Atom C2750
Кодовое название Rangeley Avoton
Техпроцесс, нм 22
Количество ядер/потоков, шт 8/8
Тактовая частота, ГГц 2,4
Максимальная тактовая частота с Turbo Boost - 2,6
Кеш-память L1i/L1d, Кбайт 8х 32/8х 24
Кеш L2, Мбайт 4х 1
Набор инструкций Intel 64, MMX, SSE, SSE2, SSE3, SSSE3, SSE 4.1, SSE4.2, VT-x, AES-NI, EPT
Поддержка Intel QuickAssist Есть Нет
Максимальный объем ОЗУ, Гбайт 64
Тип поддерживаемой памяти DDR3, DDR3L
Максимальная эффективная частота ОЗУ, МГц 1600
Количество каналов памяти 2
Поддержка ECC Есть
Количество линий PCI Express 16
Редакция PCI Express 2.0
Количество портов USB 2.0 4
Количество портов SATA 2.0/3.0 4/2
Интегрированный сетевой контроллер 4 х 1000 Мбит/с или
4 х 2,5 Гбит/с
TDP, Вт 20
Рекомендованная стоимость, $ 208 171

Из таблицы спецификаций видно, что Avoton (Atom C2750) имеет поддержку Turbo Boost и несколько меньшую стоимость, в свою очередь Rangeley (Atom C2758) поддерживает технологию Intel QuickAssist. В остальном же перед нами одинаковые чипы.

Материнская плата SuperMicro A1SRM-2758F, CPU-Z

Если говорить о поддерживаемых наборах инструкций, то Atom C2000 выглядит вполне современно: Intel 64, MMX, SSE, SSE2, SSE3, SSSE3, SSE 4.1, SSE4.2, VT-x, EPT, AES-NI. Для полного счастья не хватает только AVX, AVX2 и FMA3, но поддержка данного набора инструкций вылилась бы в кардинальное изменение и усложнение ядра и кешей в силу 256-битной разрядности. Возможно, в следующих поколениях Atom получит поддержку 256-битных расширений — ведь будущее поколение Xeon Phi, базирующееся на схожем с Avoton ядре, имеет поддержку 512-битных AVX-инструкций. Отдельно стоит сказать, что, как и в Haswell, в Rangeley предусмотрен аппаратный цифровой генератор случайных чисел DRNG, обеспечивающий высокую скорость генерации случайных чисел — например для криптографических задач (с помощью инструкции RDRAND). Также присутствует поддержка набора инструкций виртуализации Intel VT-x2, в состав которого входят: Intel VT FlexMigration, Intel VT FlexPriority, VPID, VT Real Mode, VMFUNC.

#Спецификации материнской платы SuperMicro A1SRM-2758F

ПроцессорAtom C2758
Оперативная память Четыре 240-контаных слота для DDR3 SDRAM DIMM
Поддерживается память типа DDR3 1333/1600
Возможен двухканальный доступ к памяти
Максимальный объем 64 Гбайт
Поддержка коррекции ошибок ECC
Возможности расширения 2 x SATA 2.0
4 x SATA 3.0
3 x USB 2.0
1 x Fast UART 16550 Serial Port
1 x SATA DOM TPM 1.2 Header
Интерфейсная панель 1 x COM
4 x USB 2.0
1 x IPMI LAN
4 x LAN
1 x D-Sub
1 x UID Switch
BIOS 128 Мбайт SPI Flash EEPROM with AMI UEFI BIOS DMI2.3 ACPI5.0 USB Keyboard Support SMBIOS 2.7.1 UEFI
Разное 3 х 4-pin коннектора для подключения вентиляторов
Питание Основной 24-контактный разъем питания ATX
Мониторинг Мониторинг напряжений ядер процессора, +1,8V, +3,3V, +5V, +12V, +5V Standby, VBAT, ОЗУ
Мониторинг тахометров вентиляторов
Мониторинг температур ядер процессора
Форм-фактор и размер uATX, 24,4x19,05 см

Перед осмотром материнской платы ознакомимся со схемой коммутации интерфейсов на ней.

Схема коммутации интерфейсов материнской платы SuperMicro A1SAM/A1SRM

А также со схемой расположения слотов и разъемов.

Схема материнской платы SuperMicro A1SAM/A1SRM

#Упаковка и внешний вид

Упаковка материнской платы SuperMicro A1SRM-2758F

Поставляется материнская плата в лаконичной и невзрачной упаковке — стоит заметить, что материнские платы для Xeon имеют аналогичный дизайн. Конечно, не стоит забывать, что это серверное решение, а не геймерское, тем не менее «фирменный» стиль, на наш взгляд, стоит переработать — хотя бы сделать лицевую сторону более информативной.

Комплектация материнской платы SuperMicro A1SRM-2758F

Комплектация материнской платы SuperMicro A1SRM-2758F

Комплектация материнской платы в целом обычна: шесть кабелей SATA, крепежно-усилительная пластина, краткий информационный листок и «чек-лист». Необходимы драйверы и мануал? Добро пожаловать в Сеть. Кстати, это даже к лучшему — пользователь всегда получает свежие драйверы с сайта производителя, а не «50-летней давности», записанные на диске.

Материнская плата SuperMicro A1SRM-2758F, общий вид

Материнская плата имеет форм-фактор MicroATX и, соответственно, размеры 24,4х19,05 см. Безусловно, такой форм-фактор позволяет получить плотную компоновку в стойке, но небольшие габариты выливаются в огрехи дизайна — например, защелки двух из четырех слотов для ОЗУ труднодоступны, так как им мешает интерфейсная панель. Плата питается от 24-контактного разъема ATX, но если не использовать слоты PCI Express, то подойдет и 20-контактный. Также на плате можно заметить нераспаянный слот PCI Express x4, который устанавливается опционально.

Материнская плата SuperMicro A1SRM-2758F, порты SATA

Примечательной особенностью SuperMicro A1SRM является распаянный прямо на плате порт USB 2.0, рядом с которым расположились порты SATA: два белых SATA 3.0 и четыре SATA 2.0 — три черных и желтый.

Материнская плата SuperMicro A1SRM-2758F, ASPEED AST2400

В качестве графического адаптера выступает ASPEED AST2400, поэтому о 3D стоит забыть, но в нем, в принципе, и необходимости нет, особенно в случае NAS.

Материнская плата SuperMicro A1SRM-2758F, Marvell Alaska 88E1543

Marvell Alaska 88E1543

Как мы помним, в SoC интегрирован контроллер Intel I347 с поддержкой четырех сетевых интерфейсов со скоростью 1000/2500 Мбит/с, а в качестве приемопередатчика выступает распаянная на плате микросхема Marvell Alaska 88E1543.

Материнская плата SuperMicro A1SRM-2758F, радиатор СО

Материнская плата SuperMicro A1SRM-2758F, радиатор СО

Система охлаждения пассивная — она представляет собой небольшой радиатор с винтовым креплением, чего, в принципе, должно хватать для процессора с TDP 20 ватт. Полировка основания далека от идеала. Зато на плате распаяно три 4-контактных разъема для подключения вентиляторов, что позволяет трансформировать СО в активную.

Материнская плата SuperMicro A1SRM-2758F, кристалл SoC Atom C2758

Материнская плата SuperMicro A1SRM-2758F, кристалл SoC Atom C2758

Сама SoC Atom C2758 распаяна на материнской плате, поэтому ни о какой смене процессора речи быть не может. Площадь чипа невелика для 8-ядерного процессора — всего 106 мм2. Для сравнения: у 4-ядерного Haswell — 177 мм2, при этом оба изготавливаются по 22-нм техпроцессу с технологией 3D Tri-Gate. Рядом с кристаллом располагаются массивы резисторов, которые, как и ядро, к сожалению, не защищены металлической рамкой от сколов.

Материнская плата SuperMicro A1SRM-2758F, оборотная сторона

На оборотной стороне платы нет ничего примечательного, разве что металлическая усилительная пластина, удерживающая радиатор охлаждения.

Материнская плата SuperMicro A1SRM-2758F, интерфейсная панель

Интерфейсная панель весьма скудная — COM-порт, по четыре порта USB 2.0 и RJ-45 для подключения к локальной сети и Интернету, D-Sub, а также отдельный разъем RJ-45 для IPMI. С другой стороны, для NAS больше и не надо — разве что пару портов USB 3.0.

#Технологии и софт

SuperDoctor 5

Программное обеспечение SuperDoctor 5 предоставляет удаленно всю необходимую информацию о компьютере: температуры и вольтаж различных компонентов, скорости вентиляторов, а также потребление электроэнергии. Все данные записываются в лог-файл, также предусмотрены оповещения по e-mail.

WatchDog

Технология WatchDog автоматически совершает перезагрузку сервера при его зависании, не требуя постороннего вмешательства.

IPMI

Технология IPMI (Intelligent Platform Management Interface) предоставляет интерфейс удаленного мониторинга и управления компьютером и позволяет включать/выключать/перезагружать сервер. А для повсеместного контроля сервера существует Android-приложение IPMIView, позволяющее им управлять с мобильного телефона или планшета.

Intel QuickAssist

Сопроцессор Intel QuickAssist имеет аппаратное ускорение криптографии и сжатия данных и поддерживает:

  • шифры AES, DES, 3DES, Kasumi, RC4, Snow3G;
  • аутентификацию MD5, SHA1, SHA2 (SHA-224, SHA-256, SHA-384, SHA-512), AES-XCBC;
  • открытые ключи Диффи — Хеллмана, RSA, DSA, ECC;
  • и другое.

Аппаратное ускорение не только позволяет значительно поднять производительность в ряде задач, но и разгрузить центральный процессор, высвободив вычислительные ресурсы, — так, например, сопроцессор QAT может обрабатывать шифры со скоростью до 10 Гбайт/с. Для работы Intel QuickAssist требуется набор библиотек Intel DPDK.

#UEFI BIOS или не UEFI?

Несмотря на то, что материнская плата оснащается UEFI BIOS, графическая оболочка осталась от старого, доброго, всем привычного AMI BIOS. Естественно, ни о какой поддержке мышки и красивом интерфейсе, как в десктопных материнских платах, речи быть не может — ностальгия по былым временам?

Материнская плата SuperMicro A1SRM-2758F, UEFI BIOS

В целом BIOS вполне стандартен в плане функциональности и не содержит ничего особенного.

Материнская плата SuperMicro A1SRM-2758F, UEFI BIOS

Материнская плата SuperMicro A1SRM-2758F, UEFI BIOS

#Методика тестирования

Прежде чем приступить к тестированию Atom C2758, необходимо определиться с вопросом — с чем же конкурирует 8-ядерный Atom C2758. Безусловно, решения на базе процессоров Xeon E5-2600 о восьми ядрах стоят значительно дороже, да и мощность их несравнимо выше, поэтому стоит смотреть в сторону 4-ядерных Xeon E3-1200. Стоимость платформы на базе Rangeley относительно невысокая, так что единственным возможным конкурентом может быть только Xeon E3-1225 v3 — самый дешевый процессор с интегрированной графикой в серии.

К сожалению, в нашем распоряжении имеется только Xeon E3-1245 v3, который значительно дороже «атомной» платформы. Но выход есть — отключение НТ и ТВ поставит процессор в один ряд с Xeon E3-1225 v3, базовая частота которого составляет 3,2 ГГц, а в турборежиме доходит до 3,6 ГГц. Эффективная же частота Xeon E3-1245 v3 с отключенной ТВ составляет 3,4 ГГц, что, в принципе, равняется средней частоте Xeon E3-1225 v3 при многопоточной нагрузке с активным ТВ. Поскольку материнская плата SuperMicro A1SRM-2758F оснащается четырьмя сетевыми картами, общая стоимость платформы Xeon E3-1225v3 с подобной материнской платой будет несколько выше: Xeon E3-1225v3 с материнской платой с четырьмя сетевыми контроллерами обойдется в 17 000-20 000 рублей, в то время как материнская плата с процессором Rangeley стоит 15 000-17 000, а Avoton — и вовсе 13 000-15 000. Нужно также учесть и дополнительные расходы — например, необходимость использования более мощного и дорогого блока питания на платформе Xeon.

Сравнивая Atom и Xeon, следует также помнить, что TDP Atom C2758 составляет 20 ватт, а Xeon — 84 ватта. Стоит заметить, что TDP 8-ядерного Rangeley распространяется на весь чип, в который интегрированы контроллеры не только памяти и PCI Express, но и SATA, Ethernet и USB, а также криптографический сопроцессор аппаратного ускорения шифрования и дешифрования Intel QuickAssist. У Xeon TDP распространяется только на процессор, а ведь есть еще PCH, который добавляет в общую копилку дополнительные ватты. Как видите, Atom C2758 имеет минимум в четыре раза меньшее TDP, то есть с точки зрения энергоэффективности (производительность/ватт) он может иметь в четыре раза меньшую производительность, чем Xeon, — тогда они будут находиться на одном уровне. Уже сейчас, не приступая к тестированию, можно сказать, что Rangeley выгоднее там, где вопросы энергоэффективности стоят на первом месте.

В целом было бы интересно сравнить архитектуру Rangeley с Haswell на равных частотах, но поскольку на серверной платформе нельзя заниматься оверклоком или даунклоком, то сравнить эффективность архитектур можно лишь методом экстраполяции Xeon до 2,4 ГГц. Экстраполировать правильнее Xeon, а не Atom, потому что вниз процессоры достаточно точно экстраполируются, а вверх — не всегда, так как с ростом частоты, а следовательно, вычислительной мощности у процессора появляются узкие места, сдерживающие пропорциональный линейный равномерный рост производительности.

7zip 7.20 х64: Тестирование скорости сжатия и распаковки проводилось встроенным бенчмарком с размером словаря 32 Мбайт. В многопоточном тесте количество потоков равнялось количеству логических ядер.

winRAR 5.01: Тестирование проводилось встроенным бенчмарком.

Cinebench R15: В многопоточном тесте количество потоков равнялось количеству логических ядер.

Crystal Mark 2004 R3: В Crystal Mark 2004 R3 тестирование проводилось по трем субтестам — ALU, FPU, MEM.

Fritz 4.2:  В многопоточном тесте количество потоков равнялось количеству логических ядер.

wPrime 2.10:  В многопоточном тесте количество потоков равнялось количеству логических ядер.

x264 benchmark HD 5.0.1:  Тестирование скорости транскодирования видео.

AIDA64 Extreme Edition 4.3:  Тестирование проводилось встроенными бенчмарками: чтение из памяти, запись в память, копирование в памяти, задержка памяти, тест кеша и памяти, CPU Queen, CPU PhotoWorxx, Zlib, CPU AES, CPU Hash, FPU VP8, FPU Julia, FPU Mandel, FPU SinJulia.

MaxxMEM2M: Тестирование скорости памяти. Подтесты: Stream 1T, Stream 2T, Stream 3T, MMX 1T, MMX 2T, MMX 3T, SSEx 1T, SSEx 2T, SSEx 3T.

SiSoftware Sandra 2014: Комплексное тестирование производительности. Подтесты: арифметический тест процессора, мультимедийный тест процессора, производительность криптографии, финансовый анализ, арифметика .NET, мультимедия .NET, кеш и память, транзакционная память.

LinX 0.6.4:  Количество потоков равнялось количеству логических ядер, объем задачи 12000. Замер энергопотребления производился без жесткого диска, то есть конфигурация стенда была следующей: материнская плата, процессор, оперативная память, блок питания, клавиатура, мышь и необходимое количество вентиляторов. Загрузка тестовой среды происходила с USB-флешки. Таким образом, блок питания был подключен к ваттметру — дисплей подключался отдельно. Итоговая величина — это среднее энергопотребление при прохождении теста.

#Тестовый стенд №1 

#В качестве тестовой платформы используется компьютер с материнской платой SuperMicro A1SRM-2758F, процессором Intel Atom C2758 и 16 Гбайт RAM DDR3 ECC 1600 МГц. Операционная система — Windows 7 SP1 Максимальная x64.

Конфигурация №1:  В BIOS активированы два ядра из восьми. Конфигурация работы ИКП: 2х64 bit, 1600 МГц, объем 16 Гбайт.

Конфигурация №2: В BIOS активированы четыре ядра из восьми. Конфигурация работы ИКП: 2х64 bit, 1600 МГц, объем 16 Гбайт.

Конфигурация №3:  В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 1 х 64 bit, 1333 МГц, объем 16 Гбайт.

Конфигурация №4: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 1 х 64 bit, 1600 МГц, объем 16 Гбайт.

Конфигурация №5: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 2х64 bit, 1333 МГц, объем 16 Гбайт.

Конфигурация №6: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 2х64 bit, 1600 МГц, объем 16 Гбайт.

#Тестовый стенд №2

В качестве тестовой платформы используется компьютер с материнской платой SuperMicro X10SAE, процессором Intel Xeon E3-1245 v3 и 16 Гбайтами RAM DDR3 ECC 1600 МГц. Операционная система — Windows 7 SP1 Максимальная x64.

Конфигурация №1: Активированы HT и TB.

Конфигурация №2: Отключены HT и TB для эмуляции Xeon E3-1225 v3.

Конфигурация №3: Гипотетический Xeon, функционирующий на частоте 2,4 ГГц, полученный методом экстраполяции.

Объем и скорость передачи данных в бенчмарках указываются в бинарных единицах (1 Кбайт = 1024 байт).

#Результаты тестирования

7zip

Результаты тестирования Intel Atom C2758 в 7zip, однопоточная упаковка

Однопоточное сжатие не создает серьезной нагрузки для контроллеров памяти современных процессоров, поэтому результаты одинаковые для всех конфигураций Atom. Тем не менее на примере однопоточной нагрузки можно проследить эффективность ядра, то есть самой архитектуры: микроархитектура Haswell почти втрое быстрее Rangeley. Но не стоит забывать, что процессоры функционируют на разных частотах — Xeon E3-1245v3 как минимум имеет на 42% большую тактовую частоту. Равночастотный гипотетический Xeon E3-1245v3 показывает вдвое большую производительность, что еще раз говорит о высокой эффективности микроархитектуры Haswell.

Результаты тестирования Intel Atom C2758 в 7zip, однопоточная распаковка

При однопоточной распаковке ситуация в целом не меняется — стоит лишь заметить, что разрыв между Rangeley и Haswell сокращается.

Результаты тестирования Intel Atom C2758 в 7zip, многопоточная упаковка

Постепенное увеличение количества активных ядер у Atom C2758 приводит к пропорциональному росту скорости сжатия: переход с дуэта на квартет ядер увеличивает скорость на 129%, а с 4 до 8 — еще на 99%. В целом Atom масштабируется идеально — увеличение количества ядер вчетверо увеличивает скорость в 4,6 раза. Несмотря на двухуровневую схему кеширования, далеко не самый быстрый кеш (относительно Haswell) и его невысокую емкость, восемь ядер не показывают сильно выраженной зависимости от пропускной способности памяти — увеличение ПСП с 10,7 Гбайт/с до 25,6 Гбайт/с дает прирост на уровне 7%, причем наибольший прирост происходит при переходе с одноканальной DDR3-1333 на DDR3-1600. Де-факто для многопоточного сжатия восьми ядрам одного канала хватает с головой.

Посоперничать с Xeon E3-1245v3 у Atom C2758 не получается — первый в два с лишним раза быстрее. А вот на равных частотах «Атому» не хватает лишь 13% до паритета с Xeon.

Результаты тестирования Intel Atom C2758 в 7zip, многопоточная распаковка

При многопоточной распаковке в целом всё повторяется — Atom хорошо масштабируется, поднимая планку производительности в 4,6 раза относительно 2-ядерной конфигурации.

Восемь ядер всё-таки приносят свои дивиденды — Atom C2758 показывает 2%-е отставание от Xeon E3-1245v3 с отключенными TB и HT, при этом TDP Rangeley вчетверо ниже. Что касается гипотетического Xeon, то он отстает на 28% от восьмиядерного «Атома».

winRAR

Результаты тестирования Intel Atom C2758 в winRAR, однопоточная нагрузка

Однопоточная нагрузка в winRAR неспособна загрузить ИКП — поэтому все конфигурации Rangeley выстроились в ряд, показывая одинаковые результаты в рамках погрешности. Ядро Haswell развивает в два с лишним раза большую производительность — Atom C2758 не может тягаться даже с гипотетическим равночастотным Xeon.

Результаты тестирования Intel Atom C2758 в winRAR, многопоточная нагрузка

Масштабируемость Rangeley не дотянула до идеала — переход с 2 на 8 ядер показывает рост производительности в 3,5 раза, а не в 4, как хотелось бы. Учитывая увеличение производительности на 36% с ростом ПСП, можно заключить, что 8 ядрам просто тесно на двухканальном контроллере памяти.

В многопоточном окружении Atom C2758 отстает от Xeon значительно меньше, чем в однопоточном режиме, — и даже догоняет гипотетический Xeon.

Cinebench R15

Результаты тестирования Intel Atom C2758 в Cinebench, однопоточная нагрузка

Как и прежде, однопоточная нагрузка никак не реагирует на ПСП — хватает и одноканальной DDR3-1333 с ECC. Что касается уровня производительности, то эффективность Rangeley значительно ниже, чем у Haswell, — даже на равных частотах Xeon уходит далеко в отрыв.

Результаты тестирования Intel Atom C2758 в Cinebench, многопоточная нагрузка

Многопоточный запуск Cinebench не меняет картины относительно ПСП — Rangeley вполне хватает одноканального доступа, а его масштабируемость идеальна — восемь ядер в 4,5 раза быстрее двух, а четыре — в 2,2 раза.

Несмотря на наличие 8 ядер, Atom C2758 всё равно не смог дотянутся даже до гипотетического равночастотного Xeon, что уж говорить про реальный.

Crystal Mark

Результаты тестирования Intel Atom C2758 в Crystal Mark, ALU

Смотря на итоги подтеста ALU в Crystal Mark, можно заключить, что он не использует более четырех ядер, — результаты четырех 8-ядерных конфигураций и одной 4-ядерной одинаковы. Сравнивать с Xeon нет смысла, так как конкурент работает в полсилы, но можно предположить, что при использовании 8 ядер Atom C2758 догонит лишь гипотетический Xeon, но до полноценного явно не дотянется.

Результаты тестирования Intel Atom C2758 в Crystal Mark, FPU

Подтест FPU подтверждает предположение, что Crystal Mark не задействует более четырех ядер Atom C2758. Экстраполируя, можно понять, что Rangeley всё же удастся догнать гипотетический Xeon, но до реального никак не дотянуться.

Результаты тестирования Intel Atom C2758 в Crystal Mark, MEM

Подтест MEM показывает, насколько эффективнее работает кеш и память в процессорах Haswell, чем в Rangeley.

Fritz

Результаты тестирования Intel Atom C2758 в Fritz, однопоточная нагрузка

Однопоточная нагрузка, как уже говорилось ранее, не требовательна к ПСП — хватает и одноканального доступа. Гипотетический Xeon вдвое быстрее Rangeley, а реальный — втрое. Стоит заметить, что чудовищно пожилой Pentium III, добавленный сюда для наглядности, лишь вдвое медленнее нашего героя.

Результаты тестирования Intel Atom C2758 в Fritz, многопоточная нагрузка

Масштабируется Rangeley идеально — увеличение количества ядер вчетверо повышает производительность в четыре раза. Зависимости от ПСП не наблюдается — хватает и одноканальной медленной DDR3-1333 с ECC.

До гипотетического Xeon «Атому» не хватает 9%, а до реального — 36%.

wPrime

Результаты тестирования Intel Atom C2758 в wPrime, однопоточная нагрузка

Один поток, как и обычно, не реагирует на увеличение ПСП. Гипотетический Xeon почти в два раза быстрее, а реальный — в два с копейками.

Результаты тестирования Intel Atom C2758 в wPrime, многопоточная нагрузка

В очередном бенчмарке Rangeley показывает идеальную масштабируемость — переход с двух на восемь ядер поднимает планку производительности в 4,1 раза. Увеличение пропускной способности памяти при этом ничего не дает. Восемь «атомных» ядер на секунду с небольшим опережают гипотетический Xeon, а от реального отстают на две секунды.

x264

Результаты тестирования Intel Atom C2758 в x264, многопоточная нагрузка

Первый бенчмарк, где наш герой показал скверную масштабируемость — производительность выросла всего лишь в 2,7 раза, а не в 4, как положено. Реакции на увеличение ПСП практически нет.

Противостоять Xeon наш Atom C2758 не в состоянии — даже гипотетическому, но не стоит забывать об энергопотреблении последнего.

#AIDA64

Результаты тестирования Intel Atom C2758 в AIDA64, чтение из памяти

Бенчмарк чтения из памяти говорит о многом — два ядра «Атома» могут реализовать лишь 24% от теоретического максимума двухканальной DDR3-1600 ECC. Увеличение количества ядер вдвое поднимает планку эффективности контроллера памяти, а 8-ядерная конфигурация останавливается на 77%, что довольно-таки неплохо (особенно если вспомнить AMD). Стоит заметить, что эффективность контроллера памяти в одноканальном режиме отличная: DDR3-1333 — 91%, а DDR3-1600 — 88%. Увеличение числа каналов снижает эффективность ИКП, чего не скажешь про Haswell.

Результаты тестирования Intel Atom C2758 в AIDA64, запись в память

С записью в память ситуация несколько хуже — переход с двух ядер на четыре, как и раньше, поднимает эффективность вдвое — до 47%, а вот дальнейшее увеличение ядер не приводит к значительному росту скорости. ИКП Haswell показывает вдвое большую эффективность, впритык подбираясь к теоретическому максимуму — 98%.

Результаты тестирования Intel Atom C2758 в AIDA64, копирование в памяти

При копировании в памяти 8-ядерная конфигурация «Атома» показывает эффективность интегрированного контроллера памяти на уровне 64%, в то время как Xeon — 92%. Стоит заметить, что в одноканальном режиме эффективность контроллера достаточно высока — на уровне 80% и выше, а вот дальнейшее увеличение ПСП путем наращивания каналов уже не показывает такой большой эффективности.

Результаты тестирования Intel Atom C2758 в AIDA64, задержка памяти

Несмотря на то, что  в тестовых стендахиспользуется одинаковые модули памяти, ИКП Atom C2758 показывает значительно более высокую латентность, чем Xeon E3-1245v3. Активация двухканального режима прибавляет почти 10 наносекунд. Однозначно, контроллер памяти Rangeley отличается от ИКП Haswell — с одной стороны, это плохо, дескать, могли же использовать высокоэффективное проверенное решение, а с другой — как показали тесты, «Атому» зачастую с головой хватает и одного канала. Тем не менее латентность ИКП можно было сделать и ниже — ведь у Rangeley нет трехуровневой системы кеширования и таких больших кешей, как у Haswell, то есть он зависит от задержек в большей мере, чем Xeon.

Результаты тестирования Intel Atom C2758 в AIDA64, CPU Queen

В подтесте CPU Queen Rangeley показывает идеальную масштабируемость — 8-ядерная конфигурация в 4,1 раза быстрее 2-ядерной. Примечательно, что Atom C2758 не реагирует на увеличение ПСП — в сущности, ему хватает и одного канала DDR3-1333 ЕСС.

Мощности восьми ядер достаточно, чтобы значительно опередить гипотетический Xeon и вплотную приблизиться к реальному.

Результаты тестирования Intel Atom C2758 в AIDA64, CPU PhotoWorxx

CPU PhotoWorxx примечателен по нескольким причинам: во-первых, Atom C2758 не показывает хорошей масштабируемости — всего лишь в 2,7 раза при переходе от 2 ядер к 8; во-вторых, увеличение ПСП вдвое повышает производительность на 63%, то есть данный субтест имеет ярко выраженную зависимость от ПСП — возможно, невысокая масштабируемость объясняется недостаточной пропускной способностью памяти.

Что касается противостояния Rangeley с Xeon, то его попросту нет — 4 ядра Haswell вдвое мощнее.

Результаты тестирования Intel Atom C2758 в AIDA64, CPU Zlib

В CPU Zlib Rangeley показывает превосходную масштабируемость — увеличение количества ядер вчетверо поднимает планку производительности в 4,3 раза, при этом не наблюдается зависимости от ПСП.

Восьми «атомным» ядрам удается опередить гипотетический Xeon, а вот до реального не хватает 20%.

Результаты тестирования Intel Atom C2758 в AIDA64, CPU AES

Масштабируемость Rangeley, как и прежде, — в 4,3 раза. И он все так же абсолютно безразличен к росту ПСП.

Что касается противостояния Atom и Xeon, оно не получается — даже гипотетический Xeon почти втрое быстрее, а реальный — во все четыре раза.

Результаты тестирования Intel Atom C2758 в AIDA64, CPU Hash

На протяжении большинства тестов Rangeley стабильно показывает: во-первых, идеальную масштабируемость, во-вторых, безразличие к росту ПСП. И CPU Hash — не исключение.

Противостояние процессоров снова не задалось — Xeon E3-1245v3 в два с лишним раза быстрее Atom C2758, гипотетический равночастотный Xeon — на 45%.

Результаты тестирования Intel Atom C2758 в AIDA64, FPU VP8

В субтесте FPU VP8 масштабируемость Rangeley далека до идеала — увеличение количества ядер в четыре раза повышает планку производительности лишь в 2,4 раза. Можно было бы предположить, что не хватает ПСП, но это не так — разницы между одноканальной DDR3-1333 и двухканальной DDR3-1600 нет.

Несмотря на посредственную масштабируемость, Rangeley не так сильно отстает от Xeon: до гипотетического не хватает 31%, а до реального — 51%.

Результаты тестирования Intel Atom C2758 в AIDA64, FPU Julia

По результатам субтеста FPU Julia нам остается лишь снова повторить два установленных тезиса: восьми «атомным» ядрам, как правило, хватает и одного канала, а масштабируемость архитектуры Rangeley выше всех похвал. Несмотря на это, гипотетический Xeon быстрее на 135%, а реальный — на 233%.

Результаты тестирования Intel Atom C2758 в AIDA64, FPU Mandel

Тезисы насчет масштабирумости и ПСП снова подтверждаются, но отставание от Xeon меньше не становится — Atom C2758 медленнее гипотетического Xeon на 74%, а реального — на 81%.

Результаты тестирования Intel Atom C2758 в AIDA64, FPU SinJulia

В субтесте FPU SinJulia восемь ядер догоняют Xeon, но лишь равночастотный — до реального не хватает 38%.

Результаты тестирования Intel Atom C2758 в AIDA64, L1

Увеличение количества ядер поднимает пропускную способность кеша первого уровня, но до Haswell далеко — несмотря на всего четыре ядра, Xeon показывает в три с лишним раза большую ПС при чтении, почти в два раза большую скорость записи и почти в 3,5 раза большую скорость копирования.

Результаты тестирования Intel Atom C2758 в AIDA64, L2

Результаты тестирования Intel Atom C2758 в AIDA64, L3

С кешем второго уровня ситуация лучше, но не стоит забывать о разной организации. У Haswell кеш второго уровня составляет всего 256 Кбайт для каждого ядра, а у Rangeley на каждые два ядра есть общий кеш емкостью 1 Мбайт. В итоге: Xeon в среднем имеет вдвое большую ПС, чем у восьми «атомных» ядер, и в четыре раза быстрее квартета ядер. Кеша третьего уровня, к сожалению, у Atom C2758 нет.

Результаты тестирования Intel Atom C2758 в AIDA64, Cache Latency

Если смотреть на латентность, то кеш первого уровня Atom C2758 в целом имеет почти такие же задержки, как у Haswell, а вот кеш второго заметно медленнее, но это и так понятно: во-первых, у Haswell он является индивидуальным для каждого ядра, а не разделяемым, как у Rangeley; во-вторых, частота функционирования кеша второго уровня равна частоте процессора, то есть 3,4 ГГц в случае с Xeon и 2,4 ГГц в случае с Atom C2758. Стоит заметить, что более емкий разделяемый кеш третьего уровня Haswell имеет меньшие задержки, чем у Rangeley — кеш второго уровня. Опять же виновата в этом тактовая частота процессора.

MaxxMEMI

Результаты тестирования Intel Atom C2758 в MaxxMEMI, Stream

Если судить по результатам, MaxxMEMI Stream не поддерживает более 4 ядер, а они в свою очередь не могут «прокачать» ИКП. Что касается Xeon, то налицо высокая эффективность архитектуры Haswell.

Результаты тестирования Intel Atom C2758 в MaxxMEMI, ММХ

Ситуация с ММХ не меняется — задействован только квартет ядер, а Xeon вдвое быстрее.

Результаты тестирования Intel Atom C2758 в MaxxMEMI, SSEx

С SSEx всё то же самое.

#SiSoftware Sandra

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, арифметический тест

В арифметическом субтесте Rangeley показывает превосходную масштабируемость — увеличение количества ядер с 2 до 8 поднимают планку в 4,7 раза. Зависимости от ПСП, как обычно, нет.

Xeon находится в более выгодных условиях — он поддерживает набор инструкций AVX2, которые в Dhrystone позволяют далеко уйти вперед, тогда как Atom C2758 довольствуется лишь SSE3.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, мультимедийный тест

В мультимедийном тесте ситуация усугубляется тем, что Xeon поддерживает FMA3, а Atom — нет. Разрыв производительности просто огромен — наглядный пример пользы от поддержки всех современных наборов инструкций. Но и «пинать» Intel за отсутствие AVX и FMA в Atom не стоит — для 256-битных векторных расширений необходимо как минимум значительно увеличить пропускную способность кешей, что повлечет за собой существенное изменение ядра.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, производительность криптографии

Криптография откликается на рост ПСП — переход с одноканального доступа к двухканальному дает прирост 36%, но это AES-шифрование, которое аппаратно поддерживается обоими процессорами. А вот SHA2-512 не имеет аппаратного ускорения — и налицо в разы меньшая скорость. Что касается противостояния Atom и Xeon, то последний вдвое быстрее в AES-шифровании и в 5,5 раз — в SHA2-512.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, финансовый анализ

Субтест финансового анализа снова подтверждает два тезиса: а) достаточно и одноканального доступа и б) архитектура Rangeley имеет превосходную масштабируемость как минимум до 8 ядер. Но Xeon далеко впереди.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, арифметика .NET

Арифметика .NET не позволяет использовать низкоуровневые оптимизации, поэтому отрыв сокращается, но «Атому» до реального Xeon всё еще далеко.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, мультимедия .NET

В мультимедиа Atom C2758 удается впритык приблизиться к гипотетическому Xeon, но до реального всё равно еще прилично.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, кеш и память

График пропускной способности кеша и памяти весьма впечатляющий — он снова показывает высокую эффективность подсистемы памяти и кеша архитектуры Haswell. Поскольку суммарный объем кешей у Xeon вдвое выше — 9472 против 4544 Кбайт, — спад пропускной способности происходит позже.

Результаты тестирования Intel Atom C2758 в SiSoftware Sandra, транзакционная память

А вот тест транзакционной памяти говорит о том, что SiSoftware Sandra имеет аппаратную поддержку транзакций — это позволяет Xeon с набором инструкций TSX-NI значительно оторваться вперед от Atom без поддержки оного: максимальный разрыв между процессорами 20-кратный.

LinX

Результаты тестирования Intel Atom C2758 в LinX, энергопотребление

А вот и энергопотребление. Как видите, восьми ядрам всего надо 20,5 Вт, а Xeon — 102 Вт, то есть в пять раз больше. Таким образом, для обеспечения одинаковой энергоэффективности процессоров Atom должен быть в 5 раз медленнее (а с учетом более высокой стоимости Xeon уровень производительности может быть и еще ниже). Но, как показывают тесты, восемь «атомных» ядер обычно в 2-3 раза медленнее, а это значит, что Rangeley — более энергоэффективная архитектура.

#Выводы

Подводя итоги тестирования, стоит еще раз напомнить о максимальном энергопотреблении процессоров: Rangeley — 20 ватт и Haswell — 102 ватта.

Если по чистой производительности сравнивать Atom C2758 с Xeon E3-1225v3 (Xeon E3-1245v3: HT off, TB off) как наиболее близкой по стоимости конфигурацией, то результаты не впечатляют — восемь «атомных» ядер показывают лишь 51% от производительности Xeon по многопоточным тестам (среднеарифметический результат) и 40% в однопоточных приложениях. Архитектура Haswell в целом куда более производительна, чем Rangeley. А поскольку у последнего вдвое большее количество ядер, можно заключить, что по производительности одного ядра Xeon значительно превосходит Atom — даже на равных частотах.

Казалось бы, смысла в существовании «Атома» нет, но это не так — сейчас вопросы энергоэффективности стали чуть ли не самым важным критерием в выборе вычислительной техники, причем не только в корпоративном секторе, но и в домашнем. Поэтому сравнивать процессоры необходимо с учетом энергопотребления, то есть оценивая энергоэффективность.

Поскольку Atom C2758 потребляет в пять раз меньше электроэнергии и при этом показывает лишь вдвое меньшую производительность, чем у Xeon, архитектура Rangeley явно энергоэффективнее Haswell. А с учетом более низкой стоимости, решения на базе SoC Atom C2000 вполне конкурентоспособны и имеют право на жизнь. Необходимо также учитывать и малый форм-фактор решений на базе SoC Rangeley/Avoton, что позволяет получить высокую плотность в стойке. Дополнительным бонусом является бесшумность платформы.

Если говорить о будущем «атомных» решений, то стоит лишь сказать, что в 2015 году намечен переход на 14-нм техпроцесс — это позволит либо повысить количество вычислительных ядер, либо, оставив 8 ядер, значительно сократить энергопотребление, подняв планку энергоэффективности на новый уровень. Тем не менее при увеличении количества ядер стоит задуматься об общем кеше третьего уровня, так как большое количество потоков требует высокой ПС в связи с постоянными синхронизациями, проверками и блокировками данных между потоками — к месту также будет и поддержка набора инструкций TSX-NI. Безусловно, хорошим бонусом будет и криптографический сопроцессор Intel QuickAssist, помогающий сжимать, шифровать и дешифровать сетевой трафик и разгружающий ядра ЦП, высвобождая вычислительные ресурсы для других задач.

Подводя общий итог, можно сказать, что рынок микросерверов в надежных руках — Rangeley показывает отличную энергоэффективность и в целом справился с поставленной задачей. Компания Intel в очередной раз показала способность разрабатывать хорошие специализированные устройства, а также то, что «Атом» не такой уж и плохой процессор, как о нем принято говорить.

 
 
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
⇣ Комментарии
window-new
Soft
Hard
Тренды 🔥
Британские чарты: ремейк Destroy All Humans! пробился в тройку, но в лидерах всё равно осталась Ghost of Tsushima 38 мин.
Huawei проведёт в сентябре конференцию для разработчиков, где покажет свою HarmonyOS 2.0 и EMUI 11 41 мин.
Жизнь или кошелёк: Дональд Трамп дал Microsoft 45 дней на поглощение TikTok 58 мин.
Хакеры хорошо зарабатывают на продаже и покупке логинов для Facebook, паролей Gmail и номеров кредитных карт в Даркнете 2 ч.
Персонажи, демоны и различные геймплейные системы на новых скриншотах переиздания Shin Megami Tensei III: Nocturne 2 ч.
Нет, Sony не намекала на анонс нового ужастика в серии Forbidden Siren 2 ч.
Рыночная доля Chrome и Edge продолжает расти, а Firefox теряет популярность 3 ч.
Сценарист сериала по The Last of Us пообещал расширить и дополнить сюжет оригинальной игры в шоу 3 ч.
Halo: The Master Chief Collection получит кроссплатформенный мультиплеер и ряд полезных функций в 2020 году 4 ч.
«Горилла» с топором, юркие оборотни и торговка слухами: появились новые неофициальные подробности Resident Evil Village 5 ч.