Теги → die shot

Apple A9X под микроскопом: два ядра ARMv8, огромный GPU и 128-битный контроллер памяти

Высокоинтегрированная система на кристалле (system-on-chip, SoC) Apple A9X для планшета iPad Pro, по данным разработчика, может предложить производительность, сравнимую с тем, что предлагают процессоры Intel. Apple не раскрывает большого количества подробностей о своей самой мощной SoC, однако снимки ядра A9X, сделанные компанией Chipworks при помощи растрового электронного микроскопа (РЭМ, англ. scanning electron microscope, SEM), приоткрывают некоторые подробности об устройстве.

Apple A9X: гигантская SoC для большого планшета

Согласно измерениям Chipworks, микросхема Apple A9X огромна по меркам процессоров для мобильных устройств. Площадь A9X cоставляет 147 мм², она на 40 % больше, чем площадь Apple A9, выпускаемой по технологическому процессу CLN16FF компанией Taiwan Semiconductor Manufacturing Co. Для сравнения: четырёхъядерный Intel Skylake с графическим процессором класса GT2 имеет площадь ядра в 122 мм², а двухъядерный Intel Haswell с графическим ядром GT3 имеет размер в 177 мм². Типично системы на кристалле для мобильных устройств имеют площадь существенно меньше 100 мм².

Apple A9X

Apple A9X

Как видно, Apple не стала экономить на микросхеме для своего самого мощного планшета. Однако, в отличие от некоторых современных мобильных SoC, в Apple A9X нет десятка ядер общего назначения или огромных кешей, призванных увеличить производительность в однопоточных приложениях. Вместо этого, судя по всему, Apple планирует положиться на гетерогенные вычисления.

Всего два ядра общего назначения

Apple A9X экипирован двумя ARMv8-A-совместимыми ядрами общего назначения Twister, в разработке которых принимал участие легендарный Джим Келлер (Jim Keller). Микропроцессорные ядра (отмечены зелёным на схеме) имеют общий кеш второго уровня объёмом 3 Мбайт и могут работать на тактовой частоте до 2,26 ГГц.

Принимая во внимание, что все 64-разрядные микроархитектуры Apple типично умели декодировать и одновременно исполнять больше ARMv8-инструкций, чем ядра, разработанные ARM, наличие всего двух ядер общего назначения не должно казаться недостатком. К сожалению, достоверных данных об архитектуре Twister нет, и сложно сказать, как производительность пары новых ядер Apple соотносится с конкурирующими изделиями. Тем не менее, высокая тактовая частота и, предположительно, очень эффективная архитектура позволят микросхеме демонстрировать отличный уровень производительности в большинстве приложений.

Мощный GPU и гетерогенные вычисления

Вместо того, чтобы интегрировать большое количество ядер общего назначения, Apple встроила в A9X очень мощный графический процессор. GPU базируется на архитектуре Imagination Technologies PowerVR Series7XT и имеет двенадцать кластеров (отмечены синим на схеме), организованные как шесть блоков с некоторой общей логикой. Данная архитектура не только очень эффективна для обработки графики, но и поддерживает возможности таких интерфейсов программирования приложений, как OpenGL 4.3, OpenCL 1.2 и даже DirectX 11.2 (неактуально для Apple и скорее всего не реализовано на аппаратном уровне).

Графический процессор PowerVR Series7XT

Графический процессор PowerVR Series7XT

Примечательно, что официально Imagination предлагает решения PowerVR Series7XT с восемью или шестнадцатью кластерами, однако Apple приняла решение использовать конфигурацию из двенадцати кластеров (Imagination называет кластерами блоки unified shading cluster, USC, c 64–128 потоковыми процессорами в каждом). Иными словами, разработчики Apple самостоятельно построили графический процессор на базе архитектуры PowerVR Series7XT, что случалось и раньше, позволяя продуктам Apple иметь лучшую производительность по сравнению с конкурентами в приложениях, требующих вычислительной мощность GPU.

Вычислительный кластер PowerVR Series7XT

Вычислительный кластер PowerVR Series7XT

Судя по всему, инженеры Apple максимизировали количество потоковых графических процессоров у GPU чипа Apple A9X ради того, чтобы увеличить вычислительные способности системы на кристалле. По-видимому, Apple планирует использовать технологии GPU-ускорения для приложений, которые требуют серьёзной математической мощности. Принимая во внимание очень высокую эффективность параллельных расчётов на графических процессорах, подобный подход имеет смысл. При должной оптимизации программного обеспечения дополнительные GPU-кластеры внутри SoC обеспечат бóльшую производительность, чем дополнительное ядро общего назначения.

Новая подсистема памяти и отсутствие L3

Процессор Apple A9X — первая микросхема компании с восьмиканальным контроллером памяти LPDDR4 (восемь характерных 16-битных интерфейсов заметны внизу и по бокам SoC). Благодаря 128-разрядному доступу к памяти и её тактовой частоте в 3200 МГц, пропускная способность подсистемы памяти A9X составляет 51,2 Гбайт/с, что вдвое больше, чем у других микросхем Apple. Учитывая мощный GPU и высокое разрешение у экрана Apple iPad Pro (2732 × 2048 точек), высокая пропускная способность памяти крайне важна для описываемой системы на кристалле.

Apple iPad Pro

Apple iPad Pro

Примечательно, что в отличие от A9 и предшественников (A7, A8, A8X), A9X не имеет кеша третьего уровня для ядер общего назначения и GPU. Решение отказаться от кеша можно объяснить возросшей пропускной способностью подсистемы памяти, а также тем фактом, что Apple хотела бы использовать в первую очередь GPU-ускорение для требовательных приложений. Учитывая скромные размеры кеша третьего уровня, едва ли Apple смогла сэкономить существенные деньги на производстве микросхемы, отказавшись от него в A9X. Кроме того, большие кеши зачастую дают возможность экономить электроэнергию, минимизировав использование оперативной памяти. Таким образом, отказ от L3 — весьма спорное решение проектировщиков SoC.

Помимо мощных CPU, GPU и полностью перепроектированной подсистемы памяти, процессоры Apple A9X включает в себя множество специализированных блоков, производительность которых серьёзно влияет на общую работу устройства. Во-первых, Apple A9X имеет полностью новый контроллер NAND флеш-памяти, что увеличит производительность встроенного накопителя данных. Во-вторых, SoC имеет полностью переработанный контроллер дисплея, позволяя последнему работать с переменной частотой обновления. В-третьих, новый чип имеет новые контроллеры сенсоров и целый набор специфических ускорителей. К сожалению, определить всё вышеперечисленное на фото подобного качества не представляется возможным. Тем не менее, подобные «мелочи» занимают существенную — не менее четверти — площадь ядра A9X.

Взгляд в будущее

Судя по архитектурным решениям в A9X, вероятно, Apple планирует полагаться на гетерогенные вычисления не только для профессионального ПО, которое будет запускаться на iPad Pro, но и для типичных приложений. По-видимому, в будущем мы увидим дальнейшее увеличение количества GPU-кластеров во всех SoC компании при неизменном количестве ядер общего назначения в ближайшие годы. Во всяком случае, до перехода на 10-нм технологический процесс в конце 2017 года микросхемы Apple продолжат включать в себя два ядра, но мощные современные GPU.

Apple iPad и iPhone

Apple iPad и iPhone

Что касается 128-битного доступа к памяти, то он, вероятно, останется эксклюзивной возможностью A9X или A10X. Интерфейсы памяти требуют места на микросхемах и в случае с чипами для смартфонов «широкий» доступ к LPDDR4 невозможно обеспечить физически. Как следствие, можно ожидать, что будущие SoC компании продолжат использовать кеш третьего уровня для максимизации пропускной способности памяти, если только Apple не решит применять технологии вроде Wide I/O.

Опубликовано фото ядра графического процессора AMD Fiji

Исследовательская компания Chipworks опубликовала фотографию ядра (die shot) графического процессора AMD Fiji, который используется на адаптерах серии AMD Radeon R9 Fury. Подобные снимки позволяют получить некоторое представление о внутреннем устройстве микросхемы и сделать определённые выводы о технологиях.

Графический процессор AMD Fiji

Графический процессор AMD Fiji

На снимке ядра Fiji, полученном компанией Chipworks при помощи растрового электронного микроскопа (РЭМ, англ. scanning electron microscope, SEM), можно заметить основные области GPU, отвечающие за различные операции. К сожалению, качество снимка не позволяет с уверенностью сказать, где находятся конкретные исполнительные устройства, а также достоверно определить их количество. Однако даже такой снимок даёт некоторые представления о внутреннем устройстве AMD Fiji.

Графический процессор AMD Fiji

Графический процессор AMD Fiji

Фотография ядра Fiji показывает, что новый флагманский графический процессор AMD по-прежнему условно разделён на четыре кластера из потоковых процессоров (stream processors, SPs), блоков текстурирования (texture units, TUs.), конвейеров растеризации (raster operations pipelines, ROPs), кешей второго уровня (L2) и контроллеров памяти (memory controllers, MCs). Принимая во внимание архитектурные особенности, следует понимать, что блоки ROP, MC и L2 не принадлежат конкретным вычислительным кластерам, а работают относительно автономно. Тем не менее, достоверно определить, что является ROP, а что — контроллером памяти, на снимке такого качества невозможно. Примечательно, что верхние и нижние кластеры на снимке не являются симметричными.

Снимок ядра графического процессора AMD Fiji с предполагаемой разметкой основных блоков

Снимок ядра графического процессора AMD Fiji с предполагаемой разметкой основных блоков

В середине GPU располагается командный процессор (command processor), управляющий работой всей микросхемы; четыре блока асинхронных вычислений ACE (asynchronous compute engine) и два улучшенных блока асинхронных вычислений HWS (на некоторых диаграммах отображаются как четыре блока ACE, чтобы подчеркнуть их повышенную эффективность), которые позволяют запускать на одном GPU несколько приложений одновременно. Контроллеры памяти и четыре 1024-разрядных физических интерфейса для подключения памяти HBM (high bandwidth memory) располагаются на боковых сторонах микросхемы, рядом с блоками ROP. Мультимедийные ускорители (модули декодирования и отображения (масштабирования) видео (VCE, UVD)), контроллеры дисплеев, цифровые сигнальные процессоры TrueAudio, интерфейс CrossFire XDMA, DMA логика и интерфейс PCI Express 3.0 расположены в нижней части чипа (на блок-диаграммах Fiji из презентаций AMD они располагаются сбоку).

Снимок ядра графического процессора AMD Fiji с наименованиями основных блоков

Снимок ядра графического процессора AMD Fiji с наименованиями основных блоков

Примечательно, что хотя 1024-разрядные физические интерфейсы памяти HBM имеют огромное количество контактов, их физический размер сравним с таковым у 64-разрядных интерфейсов памяти GDDR5. Данное преимущество обеспечивается использованием дорогостоящих кремниевых соединительных подложек (silicon interposer), которые производятся при помощи фотолитографического оборудования по технологии с шириной транзисторного затвора 65 нм.

В целом, физические интерфейсы — будь то интерфейсы памяти, или же PCI Express — по-прежнему занимают существенную часть площади ядра. Тем не менее, использование HBM даёт возможность сократить количество интерфейсов и контроллеров памяти внутри графического процессора, что даёт возможность увеличить количество исполнительных устройств (например, потоковых процессоров, или специализированных блоков) без увеличения себестоимости.

Блок-схема графического процессора AMD Fiji

Блок-схема графического процессора AMD Fiji

Компоновка AMD Fiji характерна для всех высокопроизводительных GPU на базе архитектуры GCN, поскольку позволяет оптимально организовать обмен данными, а также оптимизировать энергопотребление и выделяемый тепловой поток. Существует большая вероятность, что AMD Greenland сохранит аналогичную схему размещения различных устройств внутри графического процессора.

Более качественные снимки и анализ графического процессора AMD Fiji доступны за плату у компании Chipworks.

window-new
Soft
Hard
Тренды 🔥