Сегодня 05 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ускоритель
Быстрый переход

Intel показала на Computex ускорители Ponte Vecchio живьём

Хотя компания Intel выпустила серверные ускорители вычислений Ponte Vecchio в начале этого года, мало кто из нас видел их вживую. На выставку Computex 2023 производитель привёз серверную систему X13 8U от компании Supermicro для работы с ИИ и высокопроизводительных вычислений. В её состав входят восемь ускорителей Intel Data Center GPU Max 1550 (Ponte Vecchio) в виде OAM-модулей.

 Источник изображений: Tom's Hardware

Источник изображений: Tom's Hardware

В составе одного графического ускорителя Ponte Vecchio присутствуют более 100 млрд транзисторов. Площадь GPU составляет 2330 мм2. Сам графический процессор состоит из 47 чиплетов (или плиток, как их называют в Intel), включающих вычислительные чиплеты, чиплеты кэша Rambo, чиплеты интерфейса Xe Link, а также стеки памяти HBM2E. Все кристаллы соединяются между собой с помощью передовых технологий упаковки Intel, таких как Embedded Multi-Die Interconnect Bridge (EMIB) и Foveros. Разные кристаллы производятся с использованием разных технологических процессов.

В состав серверной станции Supermicro X13 8U входят восемь ускорителей вычислений Ponte Vecchio, а также два серверных процессора Xeon Scalable четверного поколения с кодовым именем Sapphire Rapids, каждый из которых обладает показателем TDP до 350 Вт. Серверная система поддерживает установку до 32 модулей оперативной памяти, а также до 20 быстрозаменяемых 2,5-дюймовых SSD (12 формата NVMe и 8 SATA).

С учётом того, что каждый ускоритель Ponte Vecchio обладает показателем TDP в 600 Вт, каждый из них также оснащён модулем регулирования напряжения, который включает в себя два высокопроизводительных преобразователя. Для сравнения, ускоритель вычислений AMD Instinct MI250X оснащён одним подобным преобразователем, правда и TDP у данного ускорителя составляет «только» 550 Вт. Разъём для установки OAM-модуля может передавать до 700 Вт, поэтому модули Intel, вероятно, были разработаны с учётом некоторого запаса по мощности.

Для отвода такого значительного количества тепла от графического процессора ускорителей Ponte Vecchio сервер Supermicro X13 8U оснащён огромными радиаторами охлаждения и вентиляторами высокого статического давления. В состав радиаторов входят по семь медных теплопроводящих трубок и десятки алюминиевых рёбер.

В России импортозаместили клистроны — теперь все синхротроны станут 100 % российскими

На днях представители Института ядерной физики СО РАН сообщили об успешных испытаниях ключевого компонента синхротрона — клистрона. Для российских ускорителей клистроны закупались за границей, но в условиях санкций контракты на поставку были разорваны. Пришлось срочно восполнять пробел, что сделано с успехом — первый отечественный прототип клистрона завершил испытания, и на его основе начали изготавливать серийные изделия.

 Источник изображения: Naked Scienc

Источник изображения: Naked Scienc

Клистрон — это базовый элемент линейного ускорителя электронов и позитронов. Например, для синхротрона «СКИФ» необходимо три клистрона в составе ускорителя (линака) и один запасной. Контракт на поставку клистронов был заключён с японской компанией Canon. Первый клистрон был получен до введения санкций, но в поставке трёх оставшихся было отказано. К счастью, задолго до этого российские физики получили работающий клистрон в подарок от Национальной ускорительной лаборатории SLAC в ответ на некую помощь со стороны России, поэтому с конструкцией клистрона российские учёные понемногу знакомились и, вероятно, готовились повторить.

«Мы занимаемся этим направлением более 30 лет, — отметил директор ИЯФ СО РАН академик РАН Павел Логачев, которого цитирует портал Naked Science. — Всё началось с того, что Национальная ускорительная лаборатория SLAC (Стэнфордский университет) отблагодарила нас за то, что мы выручили их в тяжёлой ситуации, и подарила нам свой клистрон. Мы стали учиться с ним работать. Благодаря этим наработкам, а также новым, сейчас, когда возникла необходимость, мы создали собственный клистрон. Это позволило нам стать самостоятельным игроком и ни от кого не зависеть при создании линейных ускорителей, которые востребованы в физике высоких энергий, при создании источников синхротронного излучения и других приложений, где необходима СВЧ-мощность более 50 мегаватт».

По-сути клистрон — это большая электровакуумная лампа, в которой ток электронов от катода к аноду усиливается в 100 тыс. раз. На вход подаётся 500 Вт СВЧ-мощности, а на выходе снимается 50 МВт с током частотой 3 МГц. Изготовленный в России прототип два месяца испытывался с выходом на требуемые 50 МВт и признан готовым для серийного производства. Сам линейный ускоритель для «СКИФА» также испытан работой с клистроном, но для запуска был использован японский клистрон, который, скорее всего, в будущей установке будет резервным.

Клистроны понадобятся не только для «СКИФА». В России будет создано множество синхротронов, для каждого из которых будет необходимо изготовить линейный ускоритель со своими клистронами. В частности, такие установки понадобятся Курчатовскому специализированному источнику синхротронного излучения «КИСИ-Курчатов» (Москва), синхротрону «Русский источник фотонов» («РИФ») на базе Дальневосточного федерального университета, синхротрону «СИЛА» на базе Института физики высоких энергий имени А. А. Логунова (Москва), а также для коллайдера Супер С-тау фабрики, источника комптоновского излучения в Сарове и источника нейтронов в Дубне.

 Источник изображения: ИЯФ СО РАН

Источник изображения: ИЯФ СО РАН

Добавим, рабочим инструментом в синхротронах является не поток (пучки) электронов и позитронов, а генерируемое ими интенсивное рентгеновское излучение. В процессе рассеяния вторичного рентгеновского излучения в изучаемых образцах — материалах и биологических образцах — удаётся с высокой детализацией изучать их строение. Это необходимо для поиска перспективных материалов и разработки лекарств, а также для множества других приложений.

Также каждый клистрон стоит приличных денег — до $20 млн за каждый. Теперь Россия может не только обеспечить себя этими инструментами, но и выставит их на мировом рынке по ценам ниже конкурирующих предложений.

Дженсен Хуанг назвал производство чипов «идеальным приложением» для ИИ и ускорителей вычислений NVIDIA

Производство микросхем является «идеальным приложением» для ускорителей вычислений NVIDIA и вычислений с использованием алгоритмов искусственного интеллекта, заявил глава компании Дженсен Хуанг (Jensen Huang) в ходе выступления на отраслевой конференции ITF World 2023 в бельгийском Антверпене.

 Дженсен Хуанг. Источник изображения: blogs.nvidia.com

Дженсен Хуанг. Источник изображения: blogs.nvidia.com

В течение почти 40 лет экспоненциальный рост производительности центральных процессоров определял динамику развития всей технологической отрасли, но в последние годы этот сегмент приближается к своему пределу и замедлился — при этом спрос на вычислительные мощности продолжил расти. В результате наметилось резкое увеличение энергопотребления центрами обработки данных. Хуанг отметил, что преодолеть кризис помогла NVIDIA, которая объединила возможности параллельной обработки данных на графических процессорах с возможностью центральных процессоров и стала пионером в области ускоренных вычислений. Успеху способствовали работы исследователей в области машинного обучения, которые открыли что графические процессоры могут обеспечивать производительности на уровне суперкомпьютеров при низком потреблении энергии. С оптимизацией алгоритмов оборудование NVIDIA помогает ускорять работу приложений в 10–100 раз, тогда как стоимость и энергопотребление снижаются на порядок. Определяющими направлениями для развития технологической отрасли в итоге становятся направления искусственного интеллекта и ускоренных вычислений.

Производство передовых чипов включает более тысячи шагов, в результате которых электронные компоненты уменьшаются до размеров биомолекулы, и каждый шаг должен выполняться с почти идеальным результатом. Технологии NVIDIA используются на различных этапах, а в марте компания сообщила о совместном проекте с TSMC, ASML и Synopsys в области вычислительной литографии — эта задача требует самых больших вычислительных ресурсов во всём цикле проектирования и производства микросхем. Библиотека NVIDIA cuLitho позволила ускорить обработку данных в 50 раз, заменив десятки тысяч серверов несколькими сотнями систем NVIDIA DGX, на порядок снизив потребление энергии и финансовые затраты.

Господин Хуанг также рассказал о перспективных системах ИИ, которые смогут понимать пользователей, рассуждать и даже взаимодействовать с физическим миром — это будет робототехника, транспорт с автопилотом и более совершенные чат-боты. В компании разработали и собственный проект ИИ, получивший название NVIDIA VIMA. Он, в частности, позволяет производить операции с графическими объектами по текстовому описанию, работая на платформе NVIDIA Omniverse для моделирования в 3D. Ещё одним проектом является NVIDIA Earth-2 — цифровой двойник Земли, разработчики которого построили ИИ-модель FourCastNet, эмулирующую погодные условия до 100 тыс. раз быстрее существующих аналогов. Наконец, технологии компании помогли учёным Управления по атомной энергии Великобритании и Манчестерского университета построить эмулятор термоядерного реактора для имитации физики плазмы — здесь можно проверять все гипотезы, прежде чем запускать процессы в настоящем реакторе.

Google представила облачный ИИ-суперкомпьютер A3 — до 26 000 ускорителей NVIDIA H100 для всех желающих

На конференции Google I/O компания Google анонсировала облачный ИИ-суперкомпьютер Compute Engine A3, который сможет предложить клиентам компании до 26 000 ускорителей вычислений NVIDIA H100. Это ещё одно доказательство того, насколько большое значение Google придаёт конкурентной битве с Microsoft за первенство в области ИИ. Что интересно, самый быстрый в мире на сегодняшний день общедоступный суперкомпьютер Frontier оснащён 37 000 ускорителями AMD Instinct 250X.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

«Для наших клиентов мы можем предоставить суперкомпьютеры A3 до 26 000 GPU в одном кластере и работаем над созданием нескольких кластеров в крупнейших регионах», — заявила представитель Google, добавив, что «не все наши местоположения будут масштабироваться до такого большого размера». Таким образом любой облачный клиент Google может получить в своё распоряжение заточенный под ИИ суперкомпьютер с числом ускорителей вычислений до 26 000.

Клиенты Google Cloud смогут тренировать и запускать приложения ИИ через виртуальные машины A3 и использовать службы разработки и управления ИИ Google, доступные через Vertex AI, Google Kubernetes Engine и Google Compute Engine. Виртуальные машины A3 основаны на чипах Intel Xeon четвёртого поколения (Sapphire Rapids), которые работают в связке с ускорителями H100. Пока не ясно, будут ли виртуальные CPU поддерживать ускорители логических выводов, встроенные в чипы Sapphire Rapids.

Google утверждает, что A3 обеспечивает производительность для задач ИИ до 26 экзафлопс, что значительно сокращает время и затраты на обучение ИИ. Необходимо учитывать, что компания указывает производительность вычислений в специализированном формате для обучения ИИ TF32 Tensor Core с одинарной точностью, что демонстрирует производительность примерно в 30 раз выше, чем математика с плавающей запятой с двойной точностью FP64, которая используется в большинстве классических приложений.

Количество графических процессоров стало важной визитной карточкой облачных провайдеров для продвижения своих услуг в сфере ИИ. Суперкомпьютер Microsoft в Azure для ИИ, созданный в сотрудничестве с OpenAI, имеет 285 000 ядер CPU и 10 000 ускорителей на GPU. Microsoft также анонсировала свой суперкомпьютер для ИИ следующего поколения с ещё большим количеством графических процессоров. Облачный сервис Oracle предоставляет облачный доступ к кластерам, насчитывающим до 512 GPU и работает над новой технологией для повышения скорости обмена данными между ними.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Хотя Google продолжает рекламировать собственные чипы для искусственного интеллекта TPU v4, используемые для запуска внутренних приложений ИИ, таких как Google Bard, ускорители на GPU от NVIDIA стали де-факто стандартом для построения инфраструктуры ИИ. Инструментарий параллельного программирования NVIDIA CUDA обеспечивает самые быстрые результаты благодаря специализированным ядрам ИИ и графическим ядрам H100.

Облачные провайдеры осознали, что универсального подхода недостаточно — требуется инфраструктура, специально созданная для обучения ИИ. Поэтому в настоящее время происходит массовое развёртывание систем на базе ускорителей H100, а NVIDIA в марте запустила собственный облачный сервис DGX, стоимость аренды которого значительно выше по сравнению с арендой систем на ускорителях A100 предыдущего поколения. Утверждается, что H100 на 30 % экономичнее и в 3 раза быстрее, чем NVIDIA A100, например, в обучении большой языковой модели MosaicGPT с семью миллиардами параметров.

A3 является первым облачным ИИ-суперкомпьютером, в котором GPU подключены через инфраструктурный процессор (IPU) Mount Evans, разработанный совместно Google и Intel. «В A3 используются IPU со скоростью 200 Гбит/с, передача данных от одного GPU к другому осуществляется в обход CPU через отдельные интерфейсы. Это позволяет увеличить пропускную способность сети до 10 раз по сравнению с нашими виртуальными машинами A2, с низкими задержками и высокой стабильностью пропускной способности», — утверждают представители Google.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Суперкомпьютер A3 построен на основе сетевой структуры Jupiter, которая соединяет географически разнесённые кластеры CPU через оптоволоконные каналы связи. Одна виртуальная машина A3 включает восемь ускорителей H100, соединённых между собой с помощью запатентованной технологии NVIDIA. Ускорители будут подключены через коммутаторы NVSwitch и использовать NVLink со скоростью обмена данными до 3,6 Тбит/с.

Аналогичную скорость скоро готова будет предложить Microsoft на своём ИИ-суперкомпьютере, построенном на тех же технологиях NVIDIA. При этом суперкомпьютер от Microsoft может похвастаться сетевыми возможностями от производителя чипов Quantum-2 со скоростью до 400 Гбит/с. Количество ускорителей вычислений H100 в своём ИИ-суперкомпьютере следующего поколения Microsoft пока держит в секрете. Но вряд ли оно окажется меньше, чем у главного конкурента.

Microsoft уже 4 года тайно разрабатывает ИИ-чип, который заменит решения NVIDIA и позволит сэкономить

Корпорация Microsoft разрабатывает собственный чип для задач искусственного интеллекта под кодовым названием Athena, который будет адаптирован для работы с технологиями, лежащими в основе чат-ботов с искусственным интеллектом, таких как ChatGPT. Разработчика этого чат-бота OpenAI компания Microsoft активно поддерживает финансово.

 Процессор Microsoft SQ1, разработанный совместно с Qualcomm. Источник изображения: Microsoft

Процессор Microsoft SQ1, разработанный совместно с Qualcomm. Источник изображения: Microsoft

The Information сообщает, что Microsoft тайно разрабатывает чипы с 2019 года, и некоторые сотрудники Microsoft и OpenAI уже имеют к ним доступ, чтобы проверить, насколько хорошо они работают с последними большими языковыми моделями, такими как GPT-4. Сообщается, что чипы будут использоваться для обучения больших языковых моделей и работы нейросетей — и то, и другое необходимо для генеративного ИИ, обработки огромных объемов данных, распознавания шаблонов и генерации текста для имитации человеческого разговора.

В настоящее время NVIDIA является ключевым поставщиком ускорителей вычислений для ИИ. По оценкам, OpenAI потребовалось более 30 000 ускорителей NVIDIA A100 для коммерциализации ChatGPT. Новейшие графические процессоры NVIDIA H100 продаются на eBay по цене более 40 000 долларов, что свидетельствует о спросе на высокопроизводительные чипы, которые могут помочь в развертывании программного обеспечения ИИ.

Microsoft надеется, что её чип будет работать лучше, чем решения других производителей, что сэкономит время и деньги на дорогостоящих системах для искусственного интеллекта. Другие крупные технологические компании, включая Amazon и Google, также производят собственные чипы для ИИ. Неясно, сделает ли Microsoft когда-нибудь эти чипы доступными для своих облачных клиентов в сервисе Azure. Как сообщается, компания планирует расширить применение своих ИИ-чипов внутри Microsoft и OpenAI уже в следующем году. Также есть информация о том, что у Microsoft есть дорожная карта для чипов, которая включает в себя несколько будущих поколений.

Собственные ИИ-чипы Microsoft, как говорят, не являются прямой заменой NVIDIA, но внутренние разработки могут значительно сократить расходы, поскольку Microsoft продолжает внедрять функции на основе ИИ в Bing, приложениях Office, GitHub и других местах.

NVIDIA снова в выигрыше: ИИ-бум поднял цены на ускорители H100 до $40 000

Из-за стремительного роста спроса на аппаратное обеспечение, необходимое для обучения и развёртывания технологий искусственного интеллекта, передовые ускорители вычислений NVIDIA H100 продаются на торговой онлайн-площадке eBay более чем за $40 тыс.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

На ситуацию обратил внимание пионер игровой индустрии и бывший технологический консультант компании Meta Джон Кармак (John Carmack). В пятницу как минимум восемь ускорителей NVIDIA H100 предлагалась продавцами на eBay по ценам от $39,995 до почти $46 000. Немного ранее некоторые продавцы отпускали их по $36 000 за штуку.

 Источник изображения: eBay

Источник изображения: eBay

Флагманский ускоритель вычислений H100, являющийся наследником модели A100 стоимостью $10 тыс., был представлен NVIDIA в прошлом году.

Разработчики используют H100 для создания так называемых языковых моделей (LLM), являющихся основной для таких ИИ-приложений, как чат-бот ChatGPT от компании OpenAI. Это очень дорогие и энергозатратные системы, способные всего за несколько дней или недель обрабатывать терабайты информации, необходимой для обучения ИИ.

Процесс обучения ИИ-моделей, особенно таких больших как GPT, требует одновременной работы сотен передовых ускорителей NVIDIA. Та же компания Microsoft потратила сотни миллионов долларов на закупку десятков тысяч ускорителей NVIDIA A100 предыдущего поколения, на базе которых проводилось обучение чат-бота ChatGPT для OpenAI.

В ассортименте компании NVIDIA также есть готовые суперкомьютеры DGX, в состав которых входят сразу по восемь ускорителей вычислений. В этом году компания запустила облачный сервис DGX Cloud, позволяющий арендовать доступ к системам DGX A100 за $37 тыс. в месяц.

AMD представила профессиональные видеокарты Radeon Pro W7900 и W7800 с портом DisplayPort 2.1 — такого даже у NVIDIA нет

Компания AMD анонсировала профессиональные видеокарты нового поколения Radeon Pro W7900 и Radeon Pro W7800, которые предназначены для мощных рабочих станций, ориентированных главным образом на работу с графикой. Обе новинки используют новейшую графическую архитектуру RDNA 3.

 Источник изображений: VideoCardz

Источник изображений: VideoCardz

В основе AMD Radeon Pro W7900 используется графический процессор Navi 31 с 96 вычислительными блоками и соответственно 6144 потоковыми процессорами. Такой же GPU установлен во флагманскую настольную игровую видеокарту Radeon RX 7900 XTX. Однако Radeon Pro W7900 получила вдвое больше памяти GDDR6 — 48 Гбайт, да ещё и с функцией коррекции ошибок ECC. Память подключена по шине 384 бит. Заявленное энергопотребление новинки составляет 295 Вт. Для Radeon Pro W7900 указывается производительность в операциях FP32 на уровне 61 Тфлопс. Ускоритель оснащён массивной трёхслотовой системой охлаждения с вентилятором тангенциального типа.

Видеокарта Radeon Pro W7800 получила графический процессор с 70 вычислительными блоками (4480 потоковых процессоров). Конкретная модель чипа не указывается. Объем видеопамяти GDDR6 с ECC составляет 32 Гбайт. Поддерживается шина памяти разрядностью 256 бит. Производительность в вычислениях FP32 составляет 45 Тфлопс. Показатель энергопотребления равен 260 Вт. Новинка тоже оснащена активной системой охлаждения, но более компактного размера.

В отличие от профессиональных видеокарт NVIDIA RTX Ada Lovelace, в продуктах AMD присутствует видеовыход DisplayPort 2.1 c пропускной способностью до 80 Гбит/c. Для новинок также заявляется наличие аппаратного ускорителя кодирования и декодирования AV1 с поддержкой формата 8K60.

Стоимость Radeon Pro W7900 составляет $3999. Модель Radeon Pro W7800 оценили в $2499. Дату начала продаж профессиональных графических ускорителей компания не сообщила.

Intel отменила выпуск серверных ускорителей Data Center GPU Max 1350 серии Ponte Vecchio

Компания Intel отменила выпуск серверных ускорителей вычислений Data Center GPU Max 1350 серии Ponte Vecchio в рамках продолжающегося процесса реструктуризации своего графического подразделения. Ранее производитель отказался от выпуска ускорителей серии Rialto Bridge, которые должны были прийти на смену Ponte Vecchio. Их выпуск был намечен на текущий год.

 Источник изображения: Intel

Источник изображения: Intel

Ускорители Data Center GPU Max 1350 должны были выпускаться в виде OAM-модулей с TDP 450 Вт. Они должны были предложить 112 ядер Xe и 96 Гбайт памяти HBM2e. Их характеристики по-прежнему значатся на официальном сайте Intel, однако переход по ссылке на продукт ведёт на пустую страницу. То, что выпуск данных ускорителей был отменён, представители Intel подтвердили сайту Tom’s Hardware.

Компания объяснила, что выпустила более производительные ускорители Data Center GPU Max 1550, оснастив их воздушной системой охлаждения, хотя изначально планировался выпуск этих решений с системой жидкостного охлаждения. В результате выпуск Data Center GPU Max 1350 для серверов с воздушным охлаждением показался компании более неактуальным. Вместо них Intel выпустит ускорители Max 1450. Их запуск ожидается в текущем году.

«Мы выпустили ускорители Intel Data Center Max GPU 1550 с TDP 600 Вт, которые изначально предполагалось выпускать для систем с СЖО. С тех пор мы расширили поддержку и предложили ускорители Intel Data Center Max GPU 1550 для систем с воздушным охлаждением. На фоне этого было принято решение отказаться от выпуска моделей Intel Data Center Max GPU 1350 с TDP 450, которые должны были выпускаться для решений с воздушным охлаждением. Вместо них в текущем году мы представим модели Data Center GPU Max 1450. Они предложат меньшую пропускную способность в операциях ввода-вывода, будут предназначены для других рынков и будут рассчитаны на использование с воздушными и жидкостными системами охлаждения. Наш ассортимент [ускорителей для ЦОД] также будет расширен моделями Data Center GPU Max 1100 с TDP 300 Вт», — рассказал представитель Intel в разговоре с Tom’s Hardware.

Характеристики будущих ускорителей Data Center GPU Max 1450 компания пока не сообщает.

Из Intel ушёл главный архитектор графики Раджа Кодури — он займётся ИИ

Глава графического подразделения AXG компании Intel Раджа Кодури (Raja Koduri) покинет компанию до конца марта. Об этом стало известно из заявления гендиректора Intel Патрика «Пэт» Гелсингера (Patrick Gelsinger). Сам Кодури подтвердил свой уход из компании на своей странице в Twitter.

 Источник изображения: Intel

Источник изображения: Intel

В рамках реорганизации компании Intel решила попрощаться с Раджой Кодури, занимавшим пост исполнительного вице-президента и главного архитектора графики, а также руководителя отдела AXG. По словам гендиректора Intel Патрика Гелсингера, Кодури покинет Intel до конца текущего месяца.

До своего прихода в Intel Кодури долгое время работал в AMD, а до этого в Apple. Он возглавлял графическое подразделение AMD Radeon Technologies Group и, в частности, отвечал за разработку таких графических архитектур, как AMD Polaris и Vega. Вскоре после выхода видеокарт серии Vega на рынок Кодури объявил о своём решении присоединиться к Intel, где он в конечном итоге занял должность исполнительного вице-президента отдела AXG, отвечающего за разработку графики. В декабре прошлого года Intel расформировала это подразделение, а Кодури вернули на роль главного архитектора графических технологий Intel.

«Спасибо, Пэт и Intel за множество незабываемых воспоминаний и невероятные познания, полученные за последние пять лет. Начинается новая глава в моей жизни — занимаюсь открытием стартапа по разработке программного обеспечения. Новости будут скоро», — написал Кодури на своей странице в Twitter.

Под руководством Кодури Intel разработала графическую архитектуру Xe и применила её не только во встроенных GPU, но также выпустила настольные и мобильные дискретные видеокарты Arc Alchemist на данной архитектуре. И хотя выпуск графических ускорителей задержался на несколько месяцев, Intel опровергла слухи о потенциальном закрытии разработки дискретной графики. Компания по-прежнему уверена в намеченном плане по выпуску новых продуктов и ведёт разработку нового поколения видеокарт Arc Battlemage.

Глава Intel по поводу ухода Кодури написал следующее: «Спасибо за ваш большой вклад в технологии и архитектуру Intel, особенно в высокопроизводительную графику, который помог вывести на рынок три новые линейки продуктов в 2022-м году. Желаем вам успехов в создании новой компании по разработке программного обеспечения вокруг генеративного ИИ для игр, медиа и развлечений».

Судя по всему, Кодури будет заниматься разработкой программного обеспечения, связанного с генеративными нейросетями, и их применением для игр, медиа и развлечений.

Видеокарты NVIDIA ускорят проектирование чипов — ASML и TSMC уже внедряют технологию

NVIDIA сообщила, что компании ASML, TSMC и Synopsys берут на вооружение только что представленную библиотеку cuLitho. Инструмент встраивается в программное обеспечение по проектированию фотошаблонов, применяемых в производстве чипов, и многократно ускоряет работы по подготовке литографических фотомасок. Недели тяжелейших вычислительных нагрузок выполняются за 8 часов на кластере из GPU NVIDIA. Это путь в будущее полупроводниковой литографии, уверены в компании.

 Пример современного флотошаблона (фотомаски). Источник изображений: Intel

Пример современного фотошаблона (фотомаски). Источник изображений: Intel

В NVIDIA заявляют, что работа cuLitho на GPU обеспечивает скачок производительности до 40 раз по сравнению с текущим программным обеспечением. Если представить, что во всём мире фотомаски проектируют множество заводов и дизайн-центров, то это десятки миллиардов часов процессорной нагрузки в год. Это мегаватты и мегаватты энергии, от сжигания которых NVIDIA мечтает уберечь полупроводниковую индустрию.

По подсчётам компании, 500 блоков NVIDIA DGX H100 выполнят ту же работу, что и 40 тыс. центральных процессоров. Это не только снизит углеродный след, но и поможет ежедневно производить в 3–5 раз больше фотомасок используя в 9 раз меньше энергии по сравнению с текущими конфигурациями. Фотомаска, на изготовление которой требовалось две недели, теперь может быть обработана за одну ночь.

«Индустрия чипов является основой почти всех других отраслей в мире, — сказал Дженсен Хуанг (Jensen Huang), основатель и генеральный директор NVIDIA. — Поскольку литография находится на пределе физических возможностей, внедрение NVIDIA cuLitho и сотрудничество с нашими партнерами TSMC, ASML и Synopsys позволяет фабрикам увеличить производительность, снизить углеродный след и заложить основу для 2-нм и последующих технологий».

Как пояснили на пресс-конференции вице-президент группы передовых технологий NVIDIA Вивек Сингх (Vivek Singh), cuLitho будет работать не только на самой новейшей архитектуре NVIDIA Hopper, но также на более старых GPU компании, начиная с архитектуры Volta образца 2017 года.

Проектирование фотошаблонов давно перестало быть тривиальной задачей. Сегодня для каждого слоя чипа может потребоваться несколько десятков фотошаблонов и это не просто геометрически выверенный рисунок. Чтобы деталь на кремнии получилась как можно меньше и с чётко очерченными краями используются различные трюки со светом и проекцией, когда в игру вступает не только свет, но и тень, и искажения, и перекрёстные затемнения и много чего ещё. Фотошаблон стал искусством, которое перестало быть по плечу человеку.

Как уточняют в NVIDIA, компании ASML и Synopsys заняты интеграцией библиотеки cuLitho в своё программное обеспечение. Компания TSMС, как пояснил Дженсен Хуанг начнёт тестировать ПО на производственном оборудовании в июне этого года.

Насколько можно понять из выступления Хуанга, библиотека cuLitho пока не использует ИИ-алгоритмов. Но можно не сомневаться, что со временем ИИ в полный рост будет использоваться при подготовке чипов к производству. Машинное обучение уже используется при проектировании чипов, о чём некоторое время назад рассказали в компании Google. Компания NVIDIA предлагая индустрии библиотеку cuLitho делает несомненно благое дело. При этом она глубоко встраивает себя в цепочку производства и поставки чипов. И чем дальше, тем сильнее будет эта зависимость, как сегодня мир передовых чипов зависит только от одной компании — нидерландской ASML

Intel отказалась от графических процессоров Rialto Bridge и перенесла Falcon Shores на 2025 год

Вице-президент Intel и глава подразделения Super Compute Group Джефф Маквей (Jeff McVeigh) сообщил, что компания переходит на двухлетний график выпуска графических процессоров для ЦОД, а ускорители серии Rialto Bridge вообще на рынок не выйдут. Таким образом, новой серией графики Max для ЦОД станут ускорители Falcon Shores, но в производство они поступят в 2025 году, то есть на год позже, чем планировалось ранее.

 Источник изображений: Intel

Источник изображений: Intel

Первоначально предполагалось, что ориентированные на высокопроизводительный сегмент Falcon Shores XPU, сочетающие центральный и графический процессоры, выйдут в 2024 году, теперь же срок их выхода перенесён на 2025 год, и дебютируют они как графические компоненты. Intel также отменила выпуск графики Lancaster Sound в рамках Flex Series — она предназначалась для менее интенсивных задач, таких как кодирование медиафайлов. Её заменят продукты нового поколения Melville Sound.

В компании отметили, что новый график согласуется с ожиданиями клиентов в отношении графики для ЦОД, и в целом он соответствует схеме конкурирующих производителей, включая NVIDIA. Решения были приняты после реорганизации графического подразделения AXG, направленной на разделение продуктов для игр и ЦОД. Intel также заявила, что теперь будет уделять больше внимания программному направлению — обновления для ускорителей серий Max и Flex станут выходить чаще, и они будут включать механизмы повышения производительности, новые возможности и поддержку большего числа операционных систем.

Чипы Intel Falcon Shores XPU являются прямыми конкурентами NVIDIA Grace Hopper Superchips и AMD Instinct MI300 Data Center APU. Продукты от NVIDIA и AMD сочетают ядра CPU и GPU и память HBM — это новый тип архитектуры, предлагающий значительные преимущества при работе в сегменте высокопроизводительных вычислений, и ему трудно что-то противопоставить из существующих компонентов. Тем не менее, перенесённые на год продукты серии Falcon Shores выйдут сначала в виде графических процессоров, и в компании не сообщили, когда появится версия с CPU — Intel будет отставать от NVIDIA и AMD более чем на год, предлагая в сегменте высокопроизводительных вычислений процессоры Xeon и графику Ponte Vecchio.

Falcon Shores — продукт на основе гетерогенной архитектуры, направленной на достижение целого ряда целей: пятикратного прироста производительности на ватт, пятикратного прироста плотности вычислений в сокете x86, а также пятикратных увеличения объёма памяти и пропускной способности у серверных чипов. Дорожная карта Intel по направлениям CPU и GPU в сегменте высокопроизводительных совпадает с планом развития Falcon Shores — эти чипы будут выполнять обе роли. Компания сможет предлагать клиентам центральные, графические и гибридные процессоры в зависимости от потребностей, а выпускаться они будут, вероятно, по нормам Intel 20A, хотя этот момент производитель не уточнил.

Ускорители Intel Rialto Bridge должны были последовать за существующими Ponte Vecchio уже в этом году, но с отменой первых последние оказываются единственным, что компания может противопоставить NVIDIA Hopper H100. И это может показаться неосмотрительным в эпоху интенсивного развития больших языковых моделей ИИ вроде ChatGPT, которые становятся чрезвычайно популярными и привлекают многомиллиардные инвестиции. Впрочем, и Rialto Bridge едва ли смогли бы конкурировать с чрезвычайно мощными NVIDIA Hopper H100: существующие Ponte Vecchio предлагают 128 ядер Xe при пиковом энергопотреблении 600 Вт; тогда как Rialto Bridge должны были предложить до 160 ядер Xe, прирост производительности до 30 % и пиковую мощность до 800 Вт. По основным признакам, речь идёт о не слишком значительных эволюционных изменениях.

В Intel также сообщили, что работа над чипами серии Xeon идёт в соответствии с графиком, как и обновление технологических узлов. Однако оптимизированные для гиперскейлеров процессоры серии Sierra Forest появятся лишь в 2024 году, на год позже AMD Bergamo, то есть лагерь «синих» будет отставать от конкурента и в этой дисциплине.

Intel выпустила серверные процессоры Xeon Sapphire Rapids и ускорители вычислений Data Center GPU Max

Компания Intel сообщила о выпуске серверных процессоров Xeon Scalable четвёртого поколения, известных под кодовым именем Sapphire Rapids. Они будут доступны как в обычных версиях, а также в вариантах Xeon Max с набортной памятью HBM2e. Кроме того, производитель сообщил о выпуске серверных ускорителей вычислений Data Center GPU Max с кодовым именем Ponte Vecchio.

 Источник изображений: Intel

Источник изображений: Intel

Портфолио компании Intel пополнилось 52 серверными процессорами Xeon Scalable четвёртого поколения. В отличие от конкурентов в лице чипов EPYC Genoa от AMD, предлагающих до 96 вычислительных ядер, новинки Intel готовы предложить только до 60 физических ядер. Однако увеличение количества ядер Xeon Scalable четвёртого поколения на фоне Xeon Scalable третьего поколения (Ice Lake) привело к повышению на 53 % вычислительной производительности, утверждает Intel.

Одной из ключевых особенностей Sapphire Rapids являются cпециальные аппаратные блоки, предназначенные для ускорения выполнения конкретных типов задач, например, передачи данных, сжатия, шифрования, анализа данных и т.д. Компания называет их «ускорителями».

По словам Intel, в среднем производительность на ватт потребляемой энергии у Sapphire Rapids выросла до 2,9 раз по сравнению с предшественниками; в задачах, связанных с ИИ, быстродействие увеличено до 10 раз; а в нагрузках, связанных с аналитической работой, производительность увеличена втрое.

Для Xeon Sapphire Rapids, построенных на техпроцессе Intel 7, в числе прочего заявлена поддержка интерфейса PCIe 5.0, оперативной памяти DDR5-4000, DDR5-4400 и DDR5-4800 и шины CXL 1.1.

Как уже отмечалось выше, серия процессоров Xeon Scalable четвёртого поколения представлена 52 моделями. Часть из них предназначена для общих вычислительных нагрузок, часть моделей являются специализированными и предназначены для использования с системами жидкостного охлаждения, другие модели могут использоваться в сетевых инфраструктурах, HPC, базах данных и облачных вычислениях. Процессоры Sapphire Rapids представлены моделями Max, Platinum, Gold, Silver и Bronze с разным количеством ядер.

Для новинок заявлена поддержка инструкций AVX-512, Deep Leaning Boost (DLBoost) и Advanced Matrix Extensions (AMX). Последние значительно повышают производительность процессоров в задачах, связанных с работой ИИ-алгоритмов и машинного обучения.

Как и прежде, Xeon Scalable четвёртого поколения поддерживают конфигурацию систем с одним, двумя, четырьмя и восемью процессорными разъёмами. К слову, те же процессоры AMD Genoa масштабируются только на два сокета. Однако решения конкурента предлагают поддержку большего числа линий PCIe 5.0 — до 128. Процессоры Intel в свою очередь поддерживают до 80 линий нового интерфейса.

 Источник изображения: Tom's Hardware

Источник изображения: Tom's Hardware

Производитель отмечает, что Xeon Scalable четвёртого поколения поддерживают установку до 1,5 Тбайт восьмиканальной памяти DDR5-4800 на один процессорный разъём. Те же AMD Genoa предлагают установку до 6 Тбайт ОЗУ DDR5-4800 на 12 каналов. Чипы Intel поддерживают установку двух модулей ОЗУ DDR5-4400 на один канал.

Цены на новые процессоры Intel Xeon Scalable четвёртого поколения варьируются от $415 за восьмиядерный Xeon Scalable Bronze 3408U с частотой до 1,9 ГГц, 22,5 Мбайт кеш-памяти L3 и TDP на уровне 125 Вт, до $17 000 за 60-ядерную модель Xeon Scalable Platinum 8490H с поддержкой 120 виртуальных потоков, оснащённую 112,5 Мбайт кеш-памяти L3 и TDP 350 Вт. Для сравнения, AMD Genoa обладают схожим показателем энергопотребления на уровне 360 Вт. Правда, речь в данном случае идёт о 96-ядерной модели процессора.

Цены на процессоры зависят не только от количества ядер в них, но также и от количества тех самых активных аппаратных блоков ускорения вычислений для определённых типов задач, о которых говорилось выше. Покупатели могут выбирать нужные модели процессоров в зависимости от своих потребностей, а при необходимости через лицензионное соглашение Intel On Demand активировать недостающие блоки ускорения. Цены на последние компания пока не сообщает. Однако услуга по их приобретению будет доступна, например, через OEM-сборщиков серверных систем, а активация — через софт и программы лицензий.

Вся идея с активацией блоков ускорения вычислительных операций сводится к тому, что покупатель при изначальной покупке той или иной модели процессора Xeon Scalable четвёртого поколения будет платить только за те блоки ускорения, которые ему необходимы конкретно сейчас и не переплачивать за дополнительные ненужные функции процессора. Но при необходимости сможет оплатить нужные функции.

Сами аппаратные блоки ускорения процессоров Sapphire Rapids делятся на четыре вида:

  • Data Streaming Accelerator (DSA) — улучшает производительность при перемещении данных, разгружая обычные вычислительные блоки CPU от операций копирования и преобразования данных;
  • Dynamic Load Balancer (DLB) — предназначен для приоритезации пакетов и динамического баланса перераспределения сетевого трафика между ядрами CPU при колебаниях нагрузки системы;
  • In-Memory Analytics Accelerator (IAA) — ускоряет задачи по аналитике и разгружает ядра CPU, тем самым повышая скорость запросов к базе данным и другим функциям;
  • Quick Assist Technology (QAT) — ускоряет задачи по криптографии, компрессии/декомпрессии. Ранее этот аппаратный блок ускорения являлся частью чипсета. Intel давно его использует и он имеет широкую программную поддержку.

Процессоры серии Xeon Max компания Intel представила ещё осенью прошлого года. Это Sapphire Rapids, оснащённые наборной памятью HBM2e объёмом 64 Гбайт. Чипы данной серии предлагают от 32 до 56 вычислительных ядер с поддержкой до 112 виртуальных потоков и обладают TDP 350 Вт.

Эти процессоры предназначены для использования в задачах по гидродинамике, прогнозирования климата и погоды, обучения ИИ и нейронных сетей, аналитики больших данных, для резидентных баз данных и т.д.

Ключевыми особенностями процессоров серии Xeon Max являются поддержка интерфейсов PCIe 5.0 и CXL 1.1. Память HBM2e может использоваться как в качестве дополнительного кеша, так и в качестве дополнительной оперативной памяти. Кроме того, сервер с Xeon Max можно вообще не оснащать модулями оперативной памяти — система будет полагаться исключительно на HBM. Основными конкурентами Intel Xeon Max станут процессоры AMD EPYC Milan-X с технологией увеличения кеш-памяти 3D V-Cache.

Вместе с процессорами Intel Xeon Scalable четвёртого поколения включая модели Sapphire Rapids HBM производитель формально объявил о доступности новых ускорителях вычислений Data Center GPU Max с кодовым названием Ponte Vecchio. Они также были представлены ещё несколько месяцев назад.

Данные ускорители будут выпускаться, как в формате обычных карт расширения PCIe, так и в виде OAM-модулей. Intel заявляет, что они до 2,4 раза быстрее ускорителей NVIDIA A100. Более подробно о Data Center GPU Max можно почитать в нашей предыдущей статье.

Intel реорганизует графическое подразделение AXG — Раджа Кодури вернётся на должность главного архитектора графики

Intel сообщила о реорганизации своего отдела графических ускорителей Accelerated Computing Systems and Graphics (AXG). Компания разобьёт его на две группы: одна будет заниматься игровой графикой, другая — технологиями для дата-центров. Эти группы станут частью двух других бизнес-подразделений компании. Занимающего в настоящий момент пост исполнительного вице-президента AXG Раджу Кодури (Raja Koduri) вернут на прежнюю должность главного архитектора графики Intel.

 Источник изображения: Intel

Источник изображения: Intel

Раджа Кодури, присоединившийся к Intel в 2017 году после своего ухода из AMD, занял место главы архитектурного направления графики Intel. В прошлом году Кодури возглавил группу AXG, занимающуюся разработкой ускорителей. После реорганизации AXG Кодури вернётся к роли главного архитектора графики Intel. Он будет заниматься вопросами разработки высокотехнологичных программ с прицелом на интеграцию новых графических, процессорных и ИИ-архитектур.

Часть группы AXG, занимающаяся разработками потребительских графических продуктов Intel, вольётся в состав отдела Client Compute Group (CCG). Он отвечает за разработку технологий потребительских платформ и процессоров компании. Потребительский отдел AXG возглавит Лиза Пирс (Lisa Pearce) — ныне руководитель отдела по разработке программного обеспечения и драйверов для графики Intel. Непосредственным руководителем Пирс будет Мишель Джонстон Холтхаус (Michelle Johnston Holthaus), нынешняя глава CCG.

Часть отдела AXG, занимающаяся графическими технологиями для дата-центров (ускорители Ponte Vecchio, Rialto Bridge и т.д.), вольётся в состав подразделения Intel Datacenter and AI Group (DCAI), которое отвечает за решения для ЦОД и платформы ИИ. Команды разработчиков GPU SoC и IP также окажутся под руководством отдела DCAI, однако они также будут сотрудничать с командой клиентской графики. Временным главой данного отдела AXG станет руководитель направления Super Compute Group Джефф Маквей (Jeff McVeigh). Его непосредственным руководителем будет Сандра Ривера (Sandra Rivera), глава DCAI.

Intel оснастила ускорители Data Center GPU Max 1100 разъёмом питания 12VHPWR

Intel оснастила свои ускорители вычислений Data Center GPU Max 1100, выполненные в формате карт расширения PCI Express, новым 12+4-контактным разъёмом питания 12VHPWR. Тем самым производитель последовал примеру NVIDIA, которая наделила данным разъёмом старшие видеокарты GeForce RTX 40-й серии.

 Источник изображений: Intel

Источник изображений: Intel

Так называемый коннектор питания PCIe 5.0, чаще фигурирующий под именем 12VHPWR или как 12+4-контактный разъём, не является техническим требованием для блоков питания, которые претендуют на соответствие стандарту ATX 3.0. Однако все представленные до сегодняшнего для модели БП указанного стандарта оснащены как минимум одним таким разъёмом.

Компания NVIDIA первой взяла на вооружение новый коннектор питания для своих игровых видеокарт нового поколения. Разъём позволяет заменить до четырёх обычных 8-контактных коннекторов PCIe и способен передавать на ускорить до 600 Вт мощности.

Использование разъёма 12VHPWR останется эксклюзивным для видеокарт NVIDIA до января 2023 года. Именно тогда Intel планирует выпустить на рынок серверные графические ускорители Data Center GPU Max 1100. Что касается игровых видеокарт, то ни AMD со своей серией графики Radeon RX 7000, ни Intel с её ускорителями Arc Alchemist не решились использовать новый стандарт питания и применяют обычные 8-контактные разъёмы.

Добавим также, что 12VHPWR принёс ряд проблем пользователям GeForce RTX 4090 — у некоторых данные разъёмы оплавляются. Пока что неизвестно, в чём именно причина проблемы и выдвигаются разные теории. Возможно, проблема в некачественных комплектных переходниках с четырёх 8-контактных на один 12+4-контактный разъём. Другая теория гласит, что виноваты пользователи, которые не до конца вставили коннектор в разъём. Будем надеяться, что ускорители Intel не повторят судьбу некоторых GeForce RTX 4090.

Intel представила ускорители вычислений Data Center GPU Max — они до 2,4 раза быстрее NVIDIA A100

Компания Intel анонсировала ускорители вычислений на графических процессорах Data Center GPU Max. Ранее они были известны под кодовым именем Ponte Vecchio, однако теперь стали официальной частью продуктов серии Intel Max, в которую помимо них также вошли под именем Xeon Max серверные процессоры Xeon Sapphire Rapids с набортной памятью HBM2e, о которых говорилось ранее.

 Источник изображений: Intel

Источник изображений: Intel

В рамках презентации на мероприятии SC22, посвящённой серверным технологиям и ИИ, Intel поделилась данными о производительности своих новинок. В состав ускорителя Intel Data Center GPU Max входят 128 ядер Xe и 128 RT-ядер, что делает их единственными серверными ускорителями с нативной поддержкой аппаратного ускорения трассировки лучей. Компания также заявляет для них до 64 Мбайт кеш-памяти L1 и до 408 Мбайт кеш-памяти L2.

Графические процессоры Intel Data Center GPU Max объединяют на одной подложке 100 млрд транзисторов в составе 47 чиплетов, построенных с использованием разных технологических процессов (Intel 7, TSMC N5 и TSMC N7), которые соединяются между собой интерфейсами EMIB и технологией упаковки Foveros.

Серверные ускорители вычислений Intel Data Center GPU Max будут доступны в различных форм-факторах, предназначенных под разные задачи. Решения в виде карт-расширения PCI Express выйдут в рамках серии Max 1100 и предложат TDP 300 Вт, 56 ядер Xe и 48 Гбайт памяти HBM2e. Посредством специальных мостов Intel Xe Link в кластер можно будет объединить до четырёх таких ускорителей.

Ускорители Max 1350 будут выпускаться в виде OAM-модулей с TDP 450 Вт. Они получат 112 ядер Xe и 96 Гбайт памяти HBM2e. Самые мощные решения в виде OAM-модулей Max 1550 будут обладать TDP 600 Вт и получат 128 ядер Xe, а также 128 Гбайт памяти HBM2e.

Компания отмечает, что архитектура Xe-HPC новых ускорителей вычислений позволяет объединить до восьми модулей OAM. Intel предоставила данные о следующих конфигурациях:

  • Один OAM-модуль: 128 Гбайт HBM2e, 128 ядер Xe, TDP 600 Вт, производительность 52 Тфлопс, пропускная способность памяти 3,2 Тбайт/с;
  • Два OAM-модуля: 256 Гбайт HBM2e, 256 ядер Xe, TDP 1200 Вт, производительность 104 Тфлопс, пропускная способность памяти 6,4 Тбайт/с;
  • Четыре OAM-модуля: 512 Гбайт HBM2e, 512 ядер Xe, TDP 2400 Вт, производительность 208 Тфлопс, пропускная способность памяти 12,8 Тбайт/с.

Производитель заявляет, что каждый OAM-модуль до двух раз быстрее одного ускорителя вычислений NVIDIA A100 в задачах ExaSMR OpenMC и miniBUDE. Производительность в задачах ExaSMR NekRS у Data Center GPU Max в 1,5 раза выше конкурента.

В Riskfuel ускорители Intel Data Center GPU Max обеспечивают в 2,4 раза более высокую производительность на фоне конкурентного решения.

Intel также напомнила, что наследником Ponte Vecchio станут ускорители вычислений Rialto Bridge. Они получил до 160 ядер Xe и новый форм-фактор OAM 2.0, который допускает энергопотребление на уровне 800 Вт.


window-new
Soft
Hard
Тренды 🔥
HPE представила СХД среднего уровня Cray Storage Systems C500 для задач НРС и ИИ 52 мин.
SK hynix продала всю память HBM, запланированную к выпуску в 2024–2025 гг. 2 ч.
Власти США продали на аукционе 5,34-ПФлопс суперкомпьютер Cheyenne из-за растущего числа сбоев и протечек СЖО 2 ч.
В России вдвое подскочили продажи складных смартфонов — помогло расширение ассортимента 2 ч.
В этом квартале цены на память DRAM вырастут более чем на 20 % 6 ч.
Презентация новых Apple iPad пройдёт в удобное для европейцев и китайцев время 9 ч.
Французский стартап представил технологию RIS для дешёвого спутникового интернета 9 ч.
Учёные создали энергонезависимую память, которая не портится при нагреве до 600 градусов 18 ч.
Samsung объявила о создании 3-нм мобильного чипа, который для неё спроектировал ИИ 18 ч.
Asus представит на Computex 2024 консоль ROG Ally 2024, блок питания Thor 1600 III, ИБП Mojlonir и многое другое 21 ч.