Сегодня 04 октября 2023
18+
MWC 2018 2018 Computex IFA 2018
Теги → hpc

Samsung запустит 4-нм техпроцесс SFX4 для высокопроизводительных CPU и GPU — +10 % к производительности и -23 % к энергопотреблению

На симпозиуме 2023 Symposium on VLSI Technology and Circuits компания Samsung расскажет о новом техпроцессе SF4X, который предназначен для выпуска CPU и GPU для высокопроизводительных вычислений (HPC). Технология, ранее известная как 4HPC (4 нм для высокопроизводительных вычислений), призвана не только обеспечить повышение тактовой частоты и энергоэффективности чипов, но также будет обладать потенциалом для дополнительного разгона.

 Источник изображений: Samsung

Источник изображений: Samsung

Новый техпроцесс Samsung SF4X обещает повышение на 10 % производительности и при этом на 23 % более низкий уровень энергопотребления. Правда, компания пока не уточнила, с каким именно техпроцессом приводит сравнение. Вероятно, речь идёт о стандартном 4-нм техпроцессе SF4 (4LPP). Добиться улучшения производительности и энергоэффективности удалось с помощью перепроектирования стоков и истоков транзисторов, а также благодаря дальнейшей оптимизацией конструкции транзистора и перепроектированием промежуточной схемы (MOL).

Благодаря новой MOL техпроцесс SF4X может похвастаться подтверждённым минимальным напряжением для CPU (Vmin) в 60 мВ, 10-процентным снижением колебаний тока в выключенном состоянии, гарантией работы при высоком напряжении (Vdd) более 1 В без снижения производительности и более эффективной работой с SRAM.

Предполагается, что техпроцесс SF4X будет конкурировать с N4P и N4X компании TSMC, чей запуск запланирован на 2024–2025 годы. Какой техпроцесс в конечном итоге обеспечит наилучшее сочетание производительности, мощности, плотности транзисторов, эффективности и стоимости, основываясь исключительно на заявлениях производителей, предугадать невозможно.

Компоненты для высокопроизводительных вычислений (CPU и GPU для дата-центров) требуют значительного количества энергии, рассчитаны на регулярную работу с большими нагрузками и могут значительно повышать свою тактовую частоту, если возрастает потребность в более высокой производительности. Одна из главных задач новых техпроцессов, применяемых при производстве этих компонентов, связана не только с повышением производительности, но также и с повышением их энергоэффективности. Поэтому снижение у SF4X энергопотребления на 23 % по сравнению с предшествующим техпроцессом создаёт потенциал к существенной экономии средств держателей ЦОД и одновременному снижению негативных воздействий на окружающую среду этими системами.

Примечательно, что SF4X — это первый передовой техпроцесс Samsung, разработанный специально для использования в сфере HPC. Если учесть, что высокопроизводительные вычисления, в частности, ИИ, сейчас пользуются повышенным спросом как со стороны признанных лидеров рынка полупроводников (AMD, IBM, Intel и NVIDIA), так и со стороны новичков, таких как Ampere или Graphcore, у Samsung Foundry есть все основания ожидать, что эта технология будет принята по крайней мере некоторыми из более 150 её клиентов.

В Китае представили ускоритель вычислений Biren BR100, который превосходит NVIDIA Ampere A100

Китайская компания Biren Technology представила графический процессор BR100, обеспечивающий производительность до 1024 Тфлопс в 16-битных операциях с плавающей точкой и до 2048 Тфлопс в 8-битных целочисленных операциях. Решение предназначено для использования в составе специализированных высокопроизводительных вычислительных систем (HPC).

 Источник изображений: Biren Technology

Источник изображений: Biren Technology

Графический процессор BR100 — это флагманское решение компании, использующее 7-нм техпроцесс производства и технологию 2,5D-упаковки CoWoS компании TSMC. Чип использует архитектуру BiLiren и имеет на борту 77 млрд транзисторов.

Решения на его основе могут предложить до 64 Гбайт высокоскоростной памяти HBM2e с максимальной пропускной способностью на уровне 2,3 Тбайт/с, а также 300 Мбайт выделенной кеш-памяти. Для GPGPU заявляется поддержка интерфейсов PCIe 5.0 и CXL.

Производительность BR100 выше, чем у NVIDIA Ampere A100, но примерно в 2,0–2,5 раз ниже, чем у решений на базе архитектуры NVIDIA Hopper. Максимальное превосходство над NVIDIA Ampere заявляется при работе с 32-битными числами с плавающей точкой — в этом случае BR100 может предложить производительность на уровне 256 Тфлопс против 19,5 Тфлопс у решения NVIDIA.

Помимо BR100 китайская компания представила также графический чип BR104. Он предлагает урезанные вдвое характеристики и примерно вдвое меньшую по сравнению с BR100 производительность, и может использоваться в составе карт расширения формата PCIe с показателем энергопотребления до 300 Вт.

Для своих продуктов Biren Technology также представила программную платформу BIRENSUPA. Она поддерживает различные популярные фреймворки для машинного обучения, например, PaddlePaddle от Baidu.

Tachyum раскрыла характеристики процессоров Prodigy: до 128 ядер, до 5,7 ГГц и TDP до 950 Вт

Словацкая компания Tachyum обнародовала технические характеристики своих процессоров семейства Prodigy, предназначенных для решения различных ресурсоёмких задач в сфере высокопроизводительных вычислений, искусственного интеллекта (ИИ) и пр.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Говорится о подготовке восьми чипов, которые объединяют от 32 до 128 проприетарных 64-битных ядер с архитектурой VLIW (см. таблицу ниже). Каждое из ядер содержит два 1024-битных векторных блока и один 4096-битный матричный блок. Размер кеша инструкций и данных составляет по 64 Кбайт в расчёте на ядро. Кроме того, есть 1 Мбайт кеша второго уровня (L2). Чипы могут применяться в составе двух- и четырёхпроцессорных систем.

Наиболее мощное изделие Prodigy T16128-AIX работает на частоте до 5,7 ГГц, а показатель TDP (максимальное значение рассеиваемой тепловой энергии) составляет 950 Вт. Реализованы 16 каналов памяти DDR5-7200; поддерживаются 64 линии PCIe 5.0. Максимально возможный объём ОЗУ равен 8 Тбайт.

 Источник изображения: Golem.de

Источник изображения: Golem.de

В семейство Prodigy также вошли модели с показателем TDP в 180, 300, 600 и 700 Вт. Они функционируют на частоте от 3,2 до 5,7 ГГц, поддерживают 32 или 64 линии PCIe 5.0.

Что касается быстродействия, то упомянутое изделие Prodigy T16128-AIX обеспечивает до 90 терафлопс (FP64) для высокопроизводительных вычислений и до 12 петафлопс (AI PetaFLOPS) для ИИ и обучения.

AMD рассказала, как уверенно движется к цели увеличить эффективность своих серверных решений в 30 раз к 2025 году

Объёмы данных, генерируемых людьми и машинами, увеличиваются в геометрической прогрессии. Это требует постоянного повышения вычислительной производительности дата-центров. Для удовлетворения этих нужд компания AMD в прошлом году поставила перед собой цель повысить эффективность своих платформ, использующихся для ИИ- и высокопроизводительных вычислений (HPC), в 30 раз к 2025 году по сравнению с её платформами 2020 года, и теперь отчиталась об успехах.

 Источник изображений: AMD

Источник изображений: AMD

На этой неделе AMD отчиталась о достигнутом прогрессе её планомерного движения к поставленной цели, которую она называет «30x25». Энергоэффективность её платформ для ускоренных вычислений ИИ и HPC, включающих процессоры EPYC и ускорители вычислений Instinct, уже увеличилась в 6,79 раза по сравнению с её решениями 2020 года. В качестве отправной точкой компания называет серверы на базе двух процессоров EPYC 7742 (64 ядра, 128 потоков, частота 2,25–3,40 ГГц, 256 Мбайт кеш-памяти и TDP 225 Вт) и четырёх ускорителей Instinct MI50 (5-е поколение архитектуры GCN, 3840 потоковых процессоров, работающих на частоте 1450–1725 МГц, TDP 300 Вт). Каждый из этих ускорителей обеспечивает производительность 5,25 Тфлопс в задачах с матрицами 4K DGEMM с инициализацией тригонометрических данных и 21,6 Тфлопс в вычислениях FP16. Общее потребление такой системы составляет 1582 Вт.

AMD к настоящему моменту выпустила 3-е поколение серверных процессоров EPYC и два новых поколения графических ускорителей на архитектуре CDNA, предназначенных конкретно для задач, связанных с ИИ-вычислениями и HPC. Серверные системы AMD 2022 года оснащаются 64-ядерными процессорами серии EPYC 7003 и четырьмя ускорителями Instinct MI250 (архитектура CDNA 2.0, 13 312 потоковых процессоров, частота 1,0–1,70 ГГц при TDP 500 Вт), которые обеспечивают в 13,66 раза более высокую производительность в операциях FP16 по сравнению с четырьмя ускорителями Instinct MI50.

Согласно общей картине задачи «30x25», AMD делает упор не только на увеличение производительности аппаратных средств для дата-центров, но также уделяет особое внимание производительности в расчёте на ватт потребляемой энергии и оптимизации программных средств, чтобы в конечном итоге снизить энергопотребление своих решений. Практически любые изменения, вносимые AMD в свои аппаратные и программные средства, продвигают компанию к достижению установленной цели.

Например, внедрение поддержки оперативной памяти DDR5 для 4-го поколения серверных процессоров EPYC Genoa, которые смогут предложить до 96 вычислительных ядер, повысят энергоэффективность систем на их основе, поскольку память DDR5 потребляет меньше питания по сравнению с памятью DDR4. А дальнейшее усовершенствование ускорителей на архитектуре CNDA посредством новых аппаратных и программных доработок и оптимизаций повысят энергоэффективность серверных систем для дата-центров нового поколения ещё сильнее.

«Хотя для достижения нашей цели “30x25” ещё многое предстоит сделать, я очень доволен работой наших инженеров и очень воодушевлён текущими результатами», — отметил технический директор AMD Марк Пейпермастер (Mark Papermaster).

Новая статья: OceanLight и Tianhe-3: экзафлопс в восточном стиле

Данные берутся из публикации OceanLight и Tianhe-3: экзафлопс в восточном стиле

window-new
Soft
Hard
Тренды 🔥
Встроенная функция управления RGB-подсветкой в составе Windows 11 стала доступна для всех пользователей 46 мин.
Илон Маск провёл в X две прямые трансляции по Diablo IV — с переменным успехом 8 ч.
«Систематика» выпустила аналитическую систему мониторинга бизнес-процессов предприятий Optimining 9 ч.
Кот уже не такой грустный: белорусская Sad Cat Studios получила $5 млн на разработку амбициозного экшен-платформера Replaced 9 ч.
Еженедельный чарт Steam: Cyberpunk 2077 захватила два места в топ-3, а ролевой экшен Fate/Samurai Remnant стартовал с десятого 10 ч.
В библиотеку Game Pass добавили Gotham Knights, а Xbox-версия Warhammer 40,000: Darktide, Forza Motorsport и Like A Dragon: Ishin! на подходе 11 ч.
Gmail ужесточит правила для отправителей рассылок — Google хочет создать трудности спамерам 11 ч.
Batman: Arkham Trilogy не выйдет 13 октября на Nintendo Switch — объявлена новая дата релиза 12 ч.
Процесс установки Windows 11 стал веселее — в него встроили мини-игру 12 ч.
РКН собирается заблокировать VPN-сервисы в магазинах приложений с 1 марта 2024 года 13 ч.