Сегодня 09 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ускоритель
Быстрый переход

NVIDIA намерена перейти на ежегодное обновление архитектуры GPU — как минимум, для ИИ

Стремясь сохранить своё лидерство в области ускорителей ИИ и высокопроизводительных вычислений (HPC), NVIDIA планирует ускорить разработку новых архитектур графических процессоров и, по сути, вернуться к годовому графику внедрения новых продуктов. Судя по планам, представленным инвесторам, графические процессоры поколения Blackwell должны увидеть свет в 2024 году, а уже в 2025 году на смену ему придёт новая архитектура, пока не имеющая названия и обозначенная как X.

 Источник изображения: Nvidia

Источник изображения: NVIDIA

До выпуска Blackwell, который ожидается во второй половине следующего года, NVIDIA представит несколько новых продуктов на базе своей актуальной архитектуры Hopper. Ожидается ускоритель H200, созданный на базе H100, а также GH200NVL, предназначенный для работы с большими языковыми моделями (LLM) совместно с процессорами Arm.

В семействе Blackwell в 2024 году NVIDIA, похоже, представит ускоритель вычислений B100 для платформ x86, который придёт на смену H100. Компания также готовит GB200, который предположительно представляет собой преемника для вычислительной системы Grace Hopper, которая объединяет процессор Arm и графический процессор Hopper. И ещё выйдет GB200NVL — решение на базе Arm для обучения и работы c LLM. В планах также представлен продукт B40, предположительно клиентское решение на базе графического процессора для вывода ИИ.

В 2025 году на смену Blackwell придёт архитектура, пока обозначенная буквой X. Аналогично поколению Blackwell будут представлены продукты X100, GX200 и GX200NVL. В потребительском сегменте X40 придёт на смену B40.

На данный момент NVIDIA лидирует на рынке графических процессоров для искусственного интеллекта, но AWS, Google, Microsoft, AMD и другие игроки в области искусственного интеллекта и высокопроизводительных вычислений готовят собственные решения для работы с ИИ, поэтому NVIDIA вынуждена реагировать и вносить корректировки в свои планы.

Сообщается, что для дальнейшего укрепления своих позиций NVIDIA заранее зарезервировала мощности TSMC и приобрела память HBM у всех трёх мировых производителей. Параллельно компания продвигает свои серверы HGX и MGX, стремясь коммерциализировать эти машины и сделать их популярными среди конечных пользователей, особенно в сегменте корпоративного искусственного интеллекта.

Microsoft выпустит собственный ИИ-ускоритель, чтобы подорвать доминирование NVIDIA

Microsoft вскоре может представить собственный ускоритель для систем искусственного интеллекта, выяснило издание The Information. Софтверный гигант включился в работу над этим проектом, чтобы сократить расходы и снизить зависимость от NVIDIA, которая остаётся крупнейшим поставщиком таких компонентов. Презентация чипа от Microsoft может состояться на конференции разработчиков в ноябре.

ИИ-процессор Microsoft, как сообщается, будет ориентирован на работу в серверном сегменте — компания включит его в пакетные предложения для клиентов. Тестированием чипа занимались подразделения в OpenAI и самой Microsoft, которая взяла на себя финансовую нагрузку проекта. Ранее стало известно, что разработку собственных ускорителей рассматривает и сама OpenAI, в том числе изучая возможность поглощения одной из профильных компаний.

Сложившееся положение вещей таково, что ни один из поставщиков ещё не может сравниться с NVIDIA: на рынке ИИ-ускорителей её доля, по некоторым оценкам, составляет около 80 %. И крупнейших игроков в отрасли ИИ это не устраивает: собственные проекты разрабатывают Amazon и Google, и, видимо, к ним готова подключиться Microsoft.

Важнейшей проблемой, касающейся NVIDIA как крупнейшего поставщика ИИ-ускорителей, является тот факт, что компания не справляется со своей задачей: спрос на рынке превышает предложение, несмотря на то, что и NVIDIA значительно нарастила производство, и AMD выпустила собственные модели. Тем временем глава OpenAI Сэм Альтман (Sam Altman) открыто выражал обеспокоенность по поводу дефицита ускорителей. По оценкам TrendForce, только в 2020 году OpenAI для обучения модели GPT требовались 20 тыс. ускорителей NVIDIA A100, а для поддержки коммерческой работы ChatGPT необходимо увеличить их число до 30 тыс. Microsoft связана обязательствами закупать ускорители NVIDIA, но разработка софтверным гигантом собственного чипа способна изменить правила игры в отрасли.

Глава разработки ИИ-чипов Meta✴ уйдёт с должности

Вице-президент по инфраструктуре Meta Алексис Блэк Бьорлин (Alexis Black Bjorlin), курирующая направление, связанное с разработкой фирменных чипов Meta для систем искусственного интеллекта, в конце месяца оставит свою должность. Об этом сообщает Reuters со ссылкой на два собственных источника.

 Источник изображения: Maxence Pira / unsplash.com

Источник изображения: Maxence Pira / unsplash.com

Блэк Бьорлин, являющаяся выходцем из Broadcom и Intel, присоединилась к Meta в декабре 2021 года и была назначена главой подразделения, которому было поручено разработать ускоритель для выполнения задач, связанных с алгоритмами ИИ. Проект реализуется в рамках стратегии по модернизации центров обработки данных компании — сейчас ей необходимы ресурсы для работы чат-ботов и генераторов изображений. Блэк Бьорлин оставит свою должность в конце месяца, но как минимум в ближайшее время останется работать в компании, передаёт один из источников издания. Её место займёт вице-президент Meta по инженерным вопросам Йи Цзюн Сон (Yee Jiun Song).

Накануне Meta представила новые продукты на базе генеративного ИИ, в том числе чат-бот, выводящий как текстовые ответы, так и изображения. Для разработки и реализации этих и других функций компания модернизирует свои ЦОД и проектирует суперкомпьютеры с ускорителями NVIDIA. Разработка собственных чипов поможет Meta снизить расходы и зависимость от сторонних поставщиков.

NVIDIA продаёт ИИ-ускорители H100 с наценкой в 1000 %, но спрос на них только растёт

NVIDIA получает до 1000 % выручки с каждого проданного специализированного графического ускорителя H100, предназначенного для задач, связанных с искусственным интеллектом. Об этом утверждает журналист издания Barron Тэ Ким (Tae Kim), ссылающийся на анализ консалтинговой компании Raymond James.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

В настоящий момент стоимость каждого ускорителя NVIDIA H100 в зависимости от региона продаж и поставщика в среднем составляет $25–30 тыс. При этом речь идёт о менее дорогой PCIe-версии указанного решения. По оценкам Raymond James, стоимость использующегося в этом ускорителе графического процессора, а также дополнительных материалов (печатной платы и других вспомогательных элементов) составляет $3320. К сожалению, Ким не уточняет глубину анализа расчёта стоимости и не поясняет, включены ли в этот показатель такие факторы, как затраты на разработку, зарплата инженеров, а также стоимость производства и логистики.

Разработка специализированных ускорителей требует значительного времени и ресурсов. По данным того же портала Glassdoor, средняя зарплата инженера по аппаратному обеспечению в NVIDIA составляет около $202 тыс. в год. Речь идёт только об одном инженере, но очевидно, что при разработке тех же H100 работала целая команда специалистов, а на саму разработку были затрачены тысячи рабочих часов. Всё это должно учитываться в конечной стоимости продукта.

И всё же очевидно, что сейчас NVIDIA в вопросе поставок аппаратных средств для ИИ-вычислений находится вне конкуренции. На специализированные ускорители «зелёных» сейчас такой спрос, что они распродаются ещё задолго до того, как попадают на условные полки магазинов. Поставщики говорят, что очередь за ними растянулась до второго квартала 2024 года. А с учётом последних оценок аналитиков, согласно которым к 2027 году рынок ИИ-вычислений вырастет до $150 млрд, ближайшее будущее NVIDIA видится точно безбедным.

С другой стороны, для рынка в целом высокий спрос на ускорители ИИ-вычислений имеет свои негативные последствия. В последних отчётах аналитиков говорится, что продажи традиционных серверов (HPC) в глобальном масштабе сокращаются. Основная причина падения спроса заключается в том, что гиперскейлеры и операторы ЦОД переключают внимание на системы, оптимизированные для ИИ, в которых используются решения вроде NVIDIA H100. По этой причине тем же производителям памяти DDR5 пришлось пересмотреть свои ожидания относительно распространения нового стандарта ОЗУ на рынок, поскольку операторы ЦОД сейчас активно инвестируют именно в ускорители ИИ, а не в новый стандарт оперативной памяти. На фоне этого ожидается, что уровень внедрения DDR5 достигнет паритета с DDR4 только к третьему кварталу 2024 года.

NVIDIA представила суперчип GH200 Grace Hopper с памятью HBM3e и производительностью 4 Пфлопс

Компания NVIDIA в рамках конференции SIGGRAPH 2023 представила вычислительную платформу GH200 Grace Hopper SuperChip нового поколения, представляющую собой двухчиповую систему из центрального и графического процессоров. Она послужит для построения НРС-систем и ИИ-платформ. В её основе используется новое поколение суперчипа NVIDIA Grace, оснащённого набортной высокопроизводительной памятью HBM3e, обеспечивающей доступ к информации со скоростью 5 Тбайт/с.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По словам NVIDIA, платформа GH200 Grace Hopper SuperChip нового поколения значительно превосходит по производительности своего предшественника. Один сервер на платформе GH200 Grace Hopper с двумя новыми суперчипами (то есть с двумя парами GPU+CPU) сможет предложить наличие 144 ядер Arm Neoverse, работающих в тандеме с 282 Гбайт передовой набортной высокопроизводительной памяти HBM3e. Такая конфигурация обеспечивает в 3,5 раза больше памяти и в три раза больше пропускной способности, чем предшественник. Производительность подобной платформы с парой суперчипов составляет 8 петафлопс.

«Для удовлетворения растущего спроса на генеративный ИИ центрам обработки данных требуются вычислительные платформы с особыми возможностями. Этот вопрос готова решить новая платформа GH200 Grace Hopper SuperChip, в которой применяется технология набортной памяти HBM3e с повышенной пропускной способностью. Она предлагает возможность объединения нескольких GPU для объединения производительности, а также позволяет создавать серверные системы, которые можно легко развернуть в любом месте центра обработки данных», — прокомментировал глава NVIDIA Дженсен Хуанг (Jensen Huang).

Суперчип Grace Hopper, лежащий в основе новой платформы, может быть объединён с такими же суперчипами с помощью шины NVIDIA NVLink. Эта высокоскоростная технология предоставляет графическому процессору полный доступ к памяти центрального процессора, обеспечивая суммарно 1,2 Тбайт быстрой памяти в случае конфигурации с двумя суперчипами. Это позволяет развёртывать крупномасштабные вычислительных системы, необходимые для решения комплексных задач, связанных с генеративными ИИ.

Память стандарта HBM3e, использующаяся в составе платформы GH200 Grace Hopper SuperChip нового поколения, обладает на 50 % более высокой производительностью по сравнению с HBM3 и обеспечивает совокупную пропускную способность на уровне 10 Тбайт/с в системе с несколькими платформами GH200 Grace Hopper SuperChip. Это позволяет платформе запускать в 3,5 раза более крупные ИИ-модели и обеспечивает значительный прирост общей производительности за счёт увеличенной в три раза пропускной способности памяти по сравнению с предшественником.

В NVIDIA отмечают, что на фоне растущего спроса на платформу Grace Hopper ведущие производители уже начали предлагать системы, построенные на базе суперчипа Grace Hopper. Новая платформа Grace Hopper SuperChip следующего поколения с памятью HBM3e полностью совместима со спецификациями серверной модульной архитектуры NVIDIA MGX, которая была представлена на выставке Computex 2023. Такая совместимость гарантирует, что любой производитель серверных решений сможет быстро и с минимальными затратами интегрировать Grace Hopper в более чем 100 вариантов серверов, представленных на рынке.

Внедрние новой платформы NVIDIA ведущими производителями серверных систем начнётся во втором квартале 2024 года.

Дженсен Хуанг похвалился, что чипы NVIDIA Grace Hopper в десятки раз ускорят моделирование климата

На днях на Берлинском саммите инициативы Earth Virtualization Engines генеральный директор NVIDIA Дженсен Хуанг (Jensen Huang) рассказал специалистам по цифровому моделированию климата об инструментах и методах, которые компания предлагает в этой области, с которыми им придётся работать в ближайшие годы. Иллюстрацией прорыва в климатологии стал сгенерированный в облаке платформы NVIDIA «мультик» виртуального полёта с уровня выше облаков на улицы Берлина.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Не секрет, что NVIDIA готовит предсказательную климатологическую платформу и, в целом, создаёт цифрового двойника Земли в проекте Earth-2. Для компании было бы удачным, если бы другие аналогичные проекты использовали её аппаратное и программное обеспечение. Дженсен Хуанг уверен, что международная инициатива Earth Virtualization Engines получит значительный импульс в развитии, если воспользуется тремя «чудесами» NVIDIA: высокой скоростью моделирования климата с разрешением порядка 2 км2; способностью предварительной обработки «огромного» количества данных; и возможностью интерактивной визуализации данных на платформе NVIDIA Omniverse.

Данные надо подать в максимально понятной и простой форме, уверяет глава NVIDIA, чтобы политики, бизнесмены, компании и исследователи могли строить свои стратегии на основе чёткого понимания проблемы. Графические процессоры NVIDIA и соответствующие климатологические платформы компании это обеспечивают.

Все три объявленных «чуда» возможны в скором времени на масштабируемой аппаратной платформе с использованием ускорителей NVIDIA GH200 Grace Hopper. Они обеспечивают до 10 раз более высокую производительность для приложений, работающих с терабайтами данных. Массовое производство процессоров стартовало около месяца назад и приведёт к появлению готовых решений в течение года.

В качестве примера компания показала моделирование температуры в Северной Африке. Глобальная модель прогнозирования погоды FourCastNet компании на основе данных была запущена на фреймворке NVIDIA Modulus с открытым исходным кодом для создания, обучения и тонкой настройки моделей машинного обучения на основе физики. Платформа смогла рассчитать 21-дневные погодные траектории для 1000 отдельных компонентов за десятую часть времени, которое ранее требовалось для расчёта каждого компонента, и с в 1000 раз меньшим потреблением энергии.

«Для участников саммита Хуанг продемонстрировал потрясающую интерактивную визуализацию глобальных климатических данных в облаке с высоким разрешением, увеличивая масштаб от вида земного шара до детального вида Берлина. По словам Хуанга, этот подход может работать для прогнозирования климата и погоды в таких разных местах, как Берлин, Токио и Буэнос-Айрес», — говорится в блоге компании.

«Эти новые типы суперкомпьютеров только появляются, — сказал Хуанг. — Это настолько свежая вычислительная технология, насколько вы можете себе представить».

NVIDIA H100 Hopper за $42 тыс. протестировали в играх — медленнее встроенной графики AMD Radeon

Китайский YouTube-блогер Geekerwan провёл интересный эксперимент с ускорителем вычислений NVIDIA H100 Hopper, проверив его игровую производительность. Несмотря на наличие очень производительного графического процессора, ускоритель показал очень посредственные результаты, что в целом и не удивительно — это решения для совершенно других задач.

 Источник изображений: YouTube / Geekerwan

Источник изображений: YouTube / Geekerwan

Следует сразу отметить, что NVIDIA H100 Hopper не является видеокартой в привычном понимании. Это ускорители GPGPU, обеспечивающий возможность выполнения неспециализированных вычислений на графических процессорах в составе серверных систем. Стоимость каждого такого ускорителя составляет на данный момент почти $42 тыс.

В составе NVIDIA H100 Hopper используется урезанный графический процессор GH100 с 14 592 ядрами CUDA. Карта получила 80 Гбайт высокопроизводительной памяти HBM3 с поддержкой 5120-битной шины памяти (пять стеков памяти HBM соединяются с графическим процессором посредством 1024-битных шин памяти). Таким образом, здесь обеспечивается пропускная способность до 2 Тбайт/с.

В виде карты расширения ускоритель оснащается пассивной системой охлаждения, поэтому для обеспечения отвода потенциальных 350 Вт тепловой энергии, которая генерируется NVIDIA H100 Hopper, Geekerwan использовал внешний вентилятор, который был подсоединён к задней части испытуемого. Также отметим, что NVIDIA H100 Hopper выпускается ещё и в виде SXM-ускорителей, которые обладают TDP 700 Вт.

Подключить NVIDIA H100 Hopper к обычному ПК не так просто, как может показаться на первый взгляд. Хотя ускоритель выполнен в виде карты расширения с поддержкой интерфейса PCIe 5.0, которого нет даже у видеокарт GeForce RTX 40-й серии, он не оснащён внешними видеоразъёмами для вывода изображения. Для возможности его использования в составе обычного ПК требуется наличие второй видеокарты с видеовыходами, а также некоторые манипуляции с ПО. Последнее также разблокирует у него поддержку технологии трассировки лучей.

В тесте 3DMark TimeSpy ускоритель NVIDIA H100 Hopper продемонстрировал производительность чуть ниже, чем у интегрированной графики Radeon 680M мобильных процессоров Ryzen. В играх ситуация оказалась не лучше. Система не смогла заставить карту работать при TDP выше 100 Вт, поэтому её быстродействие оказалось на очень низком уровне. В игре Red Dead Redemption 2 при разрешении 1440p ускоритель продемонстрировал 8 кадров в секунду, а при понижении настроек качества изображения и разрешения до 1080p — около 27–28 кадров в секунду.

Столь низкая игровая производительность объясняется тем, что в составе графического процессора NVIDIA H100 Hopper присутствуют лишь 24 блока обработки растровой графики. Для сравнения, в составе игровой GeForce RTX 4090 их 160 штук. Кроме того, для таких ускорителей просто нет оптимизированных игровых драйверов.

NVIDIA H100 Hopper при любых обстоятельствах не является игровой видеокартой. Производитель об этом позаботился. Указанный эксперимент лишь в очередной раз призван наглядно это продемонстрировать.

Intel показала на Computex ускорители Ponte Vecchio живьём

Хотя компания Intel выпустила серверные ускорители вычислений Ponte Vecchio в начале этого года, мало кто из нас видел их вживую. На выставку Computex 2023 производитель привёз серверную систему X13 8U от компании Supermicro для работы с ИИ и высокопроизводительных вычислений. В её состав входят восемь ускорителей Intel Data Center GPU Max 1550 (Ponte Vecchio) в виде OAM-модулей.

 Источник изображений: Tom's Hardware

Источник изображений: Tom's Hardware

В составе одного графического ускорителя Ponte Vecchio присутствуют более 100 млрд транзисторов. Площадь GPU составляет 2330 мм2. Сам графический процессор состоит из 47 чиплетов (или плиток, как их называют в Intel), включающих вычислительные чиплеты, чиплеты кэша Rambo, чиплеты интерфейса Xe Link, а также стеки памяти HBM2E. Все кристаллы соединяются между собой с помощью передовых технологий упаковки Intel, таких как Embedded Multi-Die Interconnect Bridge (EMIB) и Foveros. Разные кристаллы производятся с использованием разных технологических процессов.

В состав серверной станции Supermicro X13 8U входят восемь ускорителей вычислений Ponte Vecchio, а также два серверных процессора Xeon Scalable четверного поколения с кодовым именем Sapphire Rapids, каждый из которых обладает показателем TDP до 350 Вт. Серверная система поддерживает установку до 32 модулей оперативной памяти, а также до 20 быстрозаменяемых 2,5-дюймовых SSD (12 формата NVMe и 8 SATA).

С учётом того, что каждый ускоритель Ponte Vecchio обладает показателем TDP в 600 Вт, каждый из них также оснащён модулем регулирования напряжения, который включает в себя два высокопроизводительных преобразователя. Для сравнения, ускоритель вычислений AMD Instinct MI250X оснащён одним подобным преобразователем, правда и TDP у данного ускорителя составляет «только» 550 Вт. Разъём для установки OAM-модуля может передавать до 700 Вт, поэтому модули Intel, вероятно, были разработаны с учётом некоторого запаса по мощности.

Для отвода такого значительного количества тепла от графического процессора ускорителей Ponte Vecchio сервер Supermicro X13 8U оснащён огромными радиаторами охлаждения и вентиляторами высокого статического давления. В состав радиаторов входят по семь медных теплопроводящих трубок и десятки алюминиевых рёбер.

В России импортозаместили клистроны — теперь все синхротроны станут 100 % российскими

На днях представители Института ядерной физики СО РАН сообщили об успешных испытаниях ключевого компонента синхротрона — клистрона. Для российских ускорителей клистроны закупались за границей, но в условиях санкций контракты на поставку были разорваны. Пришлось срочно восполнять пробел, что сделано с успехом — первый отечественный прототип клистрона завершил испытания, и на его основе начали изготавливать серийные изделия.

 Источник изображения: Naked Scienc

Источник изображения: Naked Scienc

Клистрон — это базовый элемент линейного ускорителя электронов и позитронов. Например, для синхротрона «СКИФ» необходимо три клистрона в составе ускорителя (линака) и один запасной. Контракт на поставку клистронов был заключён с японской компанией Canon. Первый клистрон был получен до введения санкций, но в поставке трёх оставшихся было отказано. К счастью, задолго до этого российские физики получили работающий клистрон в подарок от Национальной ускорительной лаборатории SLAC в ответ на некую помощь со стороны России, поэтому с конструкцией клистрона российские учёные понемногу знакомились и, вероятно, готовились повторить.

«Мы занимаемся этим направлением более 30 лет, — отметил директор ИЯФ СО РАН академик РАН Павел Логачев, которого цитирует портал Naked Science. — Всё началось с того, что Национальная ускорительная лаборатория SLAC (Стэнфордский университет) отблагодарила нас за то, что мы выручили их в тяжёлой ситуации, и подарила нам свой клистрон. Мы стали учиться с ним работать. Благодаря этим наработкам, а также новым, сейчас, когда возникла необходимость, мы создали собственный клистрон. Это позволило нам стать самостоятельным игроком и ни от кого не зависеть при создании линейных ускорителей, которые востребованы в физике высоких энергий, при создании источников синхротронного излучения и других приложений, где необходима СВЧ-мощность более 50 мегаватт».

По-сути клистрон — это большая электровакуумная лампа, в которой ток электронов от катода к аноду усиливается в 100 тыс. раз. На вход подаётся 500 Вт СВЧ-мощности, а на выходе снимается 50 МВт с током частотой 3 МГц. Изготовленный в России прототип два месяца испытывался с выходом на требуемые 50 МВт и признан готовым для серийного производства. Сам линейный ускоритель для «СКИФА» также испытан работой с клистроном, но для запуска был использован японский клистрон, который, скорее всего, в будущей установке будет резервным.

Клистроны понадобятся не только для «СКИФА». В России будет создано множество синхротронов, для каждого из которых будет необходимо изготовить линейный ускоритель со своими клистронами. В частности, такие установки понадобятся Курчатовскому специализированному источнику синхротронного излучения «КИСИ-Курчатов» (Москва), синхротрону «Русский источник фотонов» («РИФ») на базе Дальневосточного федерального университета, синхротрону «СИЛА» на базе Института физики высоких энергий имени А. А. Логунова (Москва), а также для коллайдера Супер С-тау фабрики, источника комптоновского излучения в Сарове и источника нейтронов в Дубне.

 Источник изображения: ИЯФ СО РАН

Источник изображения: ИЯФ СО РАН

Добавим, рабочим инструментом в синхротронах является не поток (пучки) электронов и позитронов, а генерируемое ими интенсивное рентгеновское излучение. В процессе рассеяния вторичного рентгеновского излучения в изучаемых образцах — материалах и биологических образцах — удаётся с высокой детализацией изучать их строение. Это необходимо для поиска перспективных материалов и разработки лекарств, а также для множества других приложений.

Также каждый клистрон стоит приличных денег — до $20 млн за каждый. Теперь Россия может не только обеспечить себя этими инструментами, но и выставит их на мировом рынке по ценам ниже конкурирующих предложений.

Дженсен Хуанг назвал производство чипов «идеальным приложением» для ИИ и ускорителей вычислений NVIDIA

Производство микросхем является «идеальным приложением» для ускорителей вычислений NVIDIA и вычислений с использованием алгоритмов искусственного интеллекта, заявил глава компании Дженсен Хуанг (Jensen Huang) в ходе выступления на отраслевой конференции ITF World 2023 в бельгийском Антверпене.

 Дженсен Хуанг. Источник изображения: blogs.nvidia.com

Дженсен Хуанг. Источник изображения: blogs.nvidia.com

В течение почти 40 лет экспоненциальный рост производительности центральных процессоров определял динамику развития всей технологической отрасли, но в последние годы этот сегмент приближается к своему пределу и замедлился — при этом спрос на вычислительные мощности продолжил расти. В результате наметилось резкое увеличение энергопотребления центрами обработки данных. Хуанг отметил, что преодолеть кризис помогла NVIDIA, которая объединила возможности параллельной обработки данных на графических процессорах с возможностью центральных процессоров и стала пионером в области ускоренных вычислений. Успеху способствовали работы исследователей в области машинного обучения, которые открыли что графические процессоры могут обеспечивать производительности на уровне суперкомпьютеров при низком потреблении энергии. С оптимизацией алгоритмов оборудование NVIDIA помогает ускорять работу приложений в 10–100 раз, тогда как стоимость и энергопотребление снижаются на порядок. Определяющими направлениями для развития технологической отрасли в итоге становятся направления искусственного интеллекта и ускоренных вычислений.

Производство передовых чипов включает более тысячи шагов, в результате которых электронные компоненты уменьшаются до размеров биомолекулы, и каждый шаг должен выполняться с почти идеальным результатом. Технологии NVIDIA используются на различных этапах, а в марте компания сообщила о совместном проекте с TSMC, ASML и Synopsys в области вычислительной литографии — эта задача требует самых больших вычислительных ресурсов во всём цикле проектирования и производства микросхем. Библиотека NVIDIA cuLitho позволила ускорить обработку данных в 50 раз, заменив десятки тысяч серверов несколькими сотнями систем NVIDIA DGX, на порядок снизив потребление энергии и финансовые затраты.

Господин Хуанг также рассказал о перспективных системах ИИ, которые смогут понимать пользователей, рассуждать и даже взаимодействовать с физическим миром — это будет робототехника, транспорт с автопилотом и более совершенные чат-боты. В компании разработали и собственный проект ИИ, получивший название NVIDIA VIMA. Он, в частности, позволяет производить операции с графическими объектами по текстовому описанию, работая на платформе NVIDIA Omniverse для моделирования в 3D. Ещё одним проектом является NVIDIA Earth-2 — цифровой двойник Земли, разработчики которого построили ИИ-модель FourCastNet, эмулирующую погодные условия до 100 тыс. раз быстрее существующих аналогов. Наконец, технологии компании помогли учёным Управления по атомной энергии Великобритании и Манчестерского университета построить эмулятор термоядерного реактора для имитации физики плазмы — здесь можно проверять все гипотезы, прежде чем запускать процессы в настоящем реакторе.

Google представила облачный ИИ-суперкомпьютер A3 — до 26 000 ускорителей NVIDIA H100 для всех желающих

На конференции Google I/O компания Google анонсировала облачный ИИ-суперкомпьютер Compute Engine A3, который сможет предложить клиентам компании до 26 000 ускорителей вычислений NVIDIA H100. Это ещё одно доказательство того, насколько большое значение Google придаёт конкурентной битве с Microsoft за первенство в области ИИ. Что интересно, самый быстрый в мире на сегодняшний день общедоступный суперкомпьютер Frontier оснащён 37 000 ускорителями AMD Instinct 250X.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

«Для наших клиентов мы можем предоставить суперкомпьютеры A3 до 26 000 GPU в одном кластере и работаем над созданием нескольких кластеров в крупнейших регионах», — заявила представитель Google, добавив, что «не все наши местоположения будут масштабироваться до такого большого размера». Таким образом любой облачный клиент Google может получить в своё распоряжение заточенный под ИИ суперкомпьютер с числом ускорителей вычислений до 26 000.

Клиенты Google Cloud смогут тренировать и запускать приложения ИИ через виртуальные машины A3 и использовать службы разработки и управления ИИ Google, доступные через Vertex AI, Google Kubernetes Engine и Google Compute Engine. Виртуальные машины A3 основаны на чипах Intel Xeon четвёртого поколения (Sapphire Rapids), которые работают в связке с ускорителями H100. Пока не ясно, будут ли виртуальные CPU поддерживать ускорители логических выводов, встроенные в чипы Sapphire Rapids.

Google утверждает, что A3 обеспечивает производительность для задач ИИ до 26 экзафлопс, что значительно сокращает время и затраты на обучение ИИ. Необходимо учитывать, что компания указывает производительность вычислений в специализированном формате для обучения ИИ TF32 Tensor Core с одинарной точностью, что демонстрирует производительность примерно в 30 раз выше, чем математика с плавающей запятой с двойной точностью FP64, которая используется в большинстве классических приложений.

Количество графических процессоров стало важной визитной карточкой облачных провайдеров для продвижения своих услуг в сфере ИИ. Суперкомпьютер Microsoft в Azure для ИИ, созданный в сотрудничестве с OpenAI, имеет 285 000 ядер CPU и 10 000 ускорителей на GPU. Microsoft также анонсировала свой суперкомпьютер для ИИ следующего поколения с ещё большим количеством графических процессоров. Облачный сервис Oracle предоставляет облачный доступ к кластерам, насчитывающим до 512 GPU и работает над новой технологией для повышения скорости обмена данными между ними.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Хотя Google продолжает рекламировать собственные чипы для искусственного интеллекта TPU v4, используемые для запуска внутренних приложений ИИ, таких как Google Bard, ускорители на GPU от NVIDIA стали де-факто стандартом для построения инфраструктуры ИИ. Инструментарий параллельного программирования NVIDIA CUDA обеспечивает самые быстрые результаты благодаря специализированным ядрам ИИ и графическим ядрам H100.

Облачные провайдеры осознали, что универсального подхода недостаточно — требуется инфраструктура, специально созданная для обучения ИИ. Поэтому в настоящее время происходит массовое развёртывание систем на базе ускорителей H100, а NVIDIA в марте запустила собственный облачный сервис DGX, стоимость аренды которого значительно выше по сравнению с арендой систем на ускорителях A100 предыдущего поколения. Утверждается, что H100 на 30 % экономичнее и в 3 раза быстрее, чем NVIDIA A100, например, в обучении большой языковой модели MosaicGPT с семью миллиардами параметров.

A3 является первым облачным ИИ-суперкомпьютером, в котором GPU подключены через инфраструктурный процессор (IPU) Mount Evans, разработанный совместно Google и Intel. «В A3 используются IPU со скоростью 200 Гбит/с, передача данных от одного GPU к другому осуществляется в обход CPU через отдельные интерфейсы. Это позволяет увеличить пропускную способность сети до 10 раз по сравнению с нашими виртуальными машинами A2, с низкими задержками и высокой стабильностью пропускной способности», — утверждают представители Google.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Суперкомпьютер A3 построен на основе сетевой структуры Jupiter, которая соединяет географически разнесённые кластеры CPU через оптоволоконные каналы связи. Одна виртуальная машина A3 включает восемь ускорителей H100, соединённых между собой с помощью запатентованной технологии NVIDIA. Ускорители будут подключены через коммутаторы NVSwitch и использовать NVLink со скоростью обмена данными до 3,6 Тбит/с.

Аналогичную скорость скоро готова будет предложить Microsoft на своём ИИ-суперкомпьютере, построенном на тех же технологиях NVIDIA. При этом суперкомпьютер от Microsoft может похвастаться сетевыми возможностями от производителя чипов Quantum-2 со скоростью до 400 Гбит/с. Количество ускорителей вычислений H100 в своём ИИ-суперкомпьютере следующего поколения Microsoft пока держит в секрете. Но вряд ли оно окажется меньше, чем у главного конкурента.

Microsoft уже 4 года тайно разрабатывает ИИ-чип, который заменит решения NVIDIA и позволит сэкономить

Корпорация Microsoft разрабатывает собственный чип для задач искусственного интеллекта под кодовым названием Athena, который будет адаптирован для работы с технологиями, лежащими в основе чат-ботов с искусственным интеллектом, таких как ChatGPT. Разработчика этого чат-бота OpenAI компания Microsoft активно поддерживает финансово.

 Процессор Microsoft SQ1, разработанный совместно с Qualcomm. Источник изображения: Microsoft

Процессор Microsoft SQ1, разработанный совместно с Qualcomm. Источник изображения: Microsoft

The Information сообщает, что Microsoft тайно разрабатывает чипы с 2019 года, и некоторые сотрудники Microsoft и OpenAI уже имеют к ним доступ, чтобы проверить, насколько хорошо они работают с последними большими языковыми моделями, такими как GPT-4. Сообщается, что чипы будут использоваться для обучения больших языковых моделей и работы нейросетей — и то, и другое необходимо для генеративного ИИ, обработки огромных объемов данных, распознавания шаблонов и генерации текста для имитации человеческого разговора.

В настоящее время NVIDIA является ключевым поставщиком ускорителей вычислений для ИИ. По оценкам, OpenAI потребовалось более 30 000 ускорителей NVIDIA A100 для коммерциализации ChatGPT. Новейшие графические процессоры NVIDIA H100 продаются на eBay по цене более 40 000 долларов, что свидетельствует о спросе на высокопроизводительные чипы, которые могут помочь в развертывании программного обеспечения ИИ.

Microsoft надеется, что её чип будет работать лучше, чем решения других производителей, что сэкономит время и деньги на дорогостоящих системах для искусственного интеллекта. Другие крупные технологические компании, включая Amazon и Google, также производят собственные чипы для ИИ. Неясно, сделает ли Microsoft когда-нибудь эти чипы доступными для своих облачных клиентов в сервисе Azure. Как сообщается, компания планирует расширить применение своих ИИ-чипов внутри Microsoft и OpenAI уже в следующем году. Также есть информация о том, что у Microsoft есть дорожная карта для чипов, которая включает в себя несколько будущих поколений.

Собственные ИИ-чипы Microsoft, как говорят, не являются прямой заменой NVIDIA, но внутренние разработки могут значительно сократить расходы, поскольку Microsoft продолжает внедрять функции на основе ИИ в Bing, приложениях Office, GitHub и других местах.

NVIDIA снова в выигрыше: ИИ-бум поднял цены на ускорители H100 до $40 000

Из-за стремительного роста спроса на аппаратное обеспечение, необходимое для обучения и развёртывания технологий искусственного интеллекта, передовые ускорители вычислений NVIDIA H100 продаются на торговой онлайн-площадке eBay более чем за $40 тыс.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

На ситуацию обратил внимание пионер игровой индустрии и бывший технологический консультант компании Meta Джон Кармак (John Carmack). В пятницу как минимум восемь ускорителей NVIDIA H100 предлагалась продавцами на eBay по ценам от $39,995 до почти $46 000. Немного ранее некоторые продавцы отпускали их по $36 000 за штуку.

 Источник изображения: eBay

Источник изображения: eBay

Флагманский ускоритель вычислений H100, являющийся наследником модели A100 стоимостью $10 тыс., был представлен NVIDIA в прошлом году.

Разработчики используют H100 для создания так называемых языковых моделей (LLM), являющихся основной для таких ИИ-приложений, как чат-бот ChatGPT от компании OpenAI. Это очень дорогие и энергозатратные системы, способные всего за несколько дней или недель обрабатывать терабайты информации, необходимой для обучения ИИ.

Процесс обучения ИИ-моделей, особенно таких больших как GPT, требует одновременной работы сотен передовых ускорителей NVIDIA. Та же компания Microsoft потратила сотни миллионов долларов на закупку десятков тысяч ускорителей NVIDIA A100 предыдущего поколения, на базе которых проводилось обучение чат-бота ChatGPT для OpenAI.

В ассортименте компании NVIDIA также есть готовые суперкомьютеры DGX, в состав которых входят сразу по восемь ускорителей вычислений. В этом году компания запустила облачный сервис DGX Cloud, позволяющий арендовать доступ к системам DGX A100 за $37 тыс. в месяц.

AMD представила профессиональные видеокарты Radeon Pro W7900 и W7800 с портом DisplayPort 2.1 — такого даже у NVIDIA нет

Компания AMD анонсировала профессиональные видеокарты нового поколения Radeon Pro W7900 и Radeon Pro W7800, которые предназначены для мощных рабочих станций, ориентированных главным образом на работу с графикой. Обе новинки используют новейшую графическую архитектуру RDNA 3.

 Источник изображений: VideoCardz

Источник изображений: VideoCardz

В основе AMD Radeon Pro W7900 используется графический процессор Navi 31 с 96 вычислительными блоками и соответственно 6144 потоковыми процессорами. Такой же GPU установлен во флагманскую настольную игровую видеокарту Radeon RX 7900 XTX. Однако Radeon Pro W7900 получила вдвое больше памяти GDDR6 — 48 Гбайт, да ещё и с функцией коррекции ошибок ECC. Память подключена по шине 384 бит. Заявленное энергопотребление новинки составляет 295 Вт. Для Radeon Pro W7900 указывается производительность в операциях FP32 на уровне 61 Тфлопс. Ускоритель оснащён массивной трёхслотовой системой охлаждения с вентилятором тангенциального типа.

Видеокарта Radeon Pro W7800 получила графический процессор с 70 вычислительными блоками (4480 потоковых процессоров). Конкретная модель чипа не указывается. Объем видеопамяти GDDR6 с ECC составляет 32 Гбайт. Поддерживается шина памяти разрядностью 256 бит. Производительность в вычислениях FP32 составляет 45 Тфлопс. Показатель энергопотребления равен 260 Вт. Новинка тоже оснащена активной системой охлаждения, но более компактного размера.

В отличие от профессиональных видеокарт NVIDIA RTX Ada Lovelace, в продуктах AMD присутствует видеовыход DisplayPort 2.1 c пропускной способностью до 80 Гбит/c. Для новинок также заявляется наличие аппаратного ускорителя кодирования и декодирования AV1 с поддержкой формата 8K60.

Стоимость Radeon Pro W7900 составляет $3999. Модель Radeon Pro W7800 оценили в $2499. Дату начала продаж профессиональных графических ускорителей компания не сообщила.

Intel отменила выпуск серверных ускорителей Data Center GPU Max 1350 серии Ponte Vecchio

Компания Intel отменила выпуск серверных ускорителей вычислений Data Center GPU Max 1350 серии Ponte Vecchio в рамках продолжающегося процесса реструктуризации своего графического подразделения. Ранее производитель отказался от выпуска ускорителей серии Rialto Bridge, которые должны были прийти на смену Ponte Vecchio. Их выпуск был намечен на текущий год.

 Источник изображения: Intel

Источник изображения: Intel

Ускорители Data Center GPU Max 1350 должны были выпускаться в виде OAM-модулей с TDP 450 Вт. Они должны были предложить 112 ядер Xe и 96 Гбайт памяти HBM2e. Их характеристики по-прежнему значатся на официальном сайте Intel, однако переход по ссылке на продукт ведёт на пустую страницу. То, что выпуск данных ускорителей был отменён, представители Intel подтвердили сайту Tom’s Hardware.

Компания объяснила, что выпустила более производительные ускорители Data Center GPU Max 1550, оснастив их воздушной системой охлаждения, хотя изначально планировался выпуск этих решений с системой жидкостного охлаждения. В результате выпуск Data Center GPU Max 1350 для серверов с воздушным охлаждением показался компании более неактуальным. Вместо них Intel выпустит ускорители Max 1450. Их запуск ожидается в текущем году.

«Мы выпустили ускорители Intel Data Center Max GPU 1550 с TDP 600 Вт, которые изначально предполагалось выпускать для систем с СЖО. С тех пор мы расширили поддержку и предложили ускорители Intel Data Center Max GPU 1550 для систем с воздушным охлаждением. На фоне этого было принято решение отказаться от выпуска моделей Intel Data Center Max GPU 1350 с TDP 450, которые должны были выпускаться для решений с воздушным охлаждением. Вместо них в текущем году мы представим модели Data Center GPU Max 1450. Они предложат меньшую пропускную способность в операциях ввода-вывода, будут предназначены для других рынков и будут рассчитаны на использование с воздушными и жидкостными системами охлаждения. Наш ассортимент [ускорителей для ЦОД] также будет расширен моделями Data Center GPU Max 1100 с TDP 300 Вт», — рассказал представитель Intel в разговоре с Tom’s Hardware.

Характеристики будущих ускорителей Data Center GPU Max 1450 компания пока не сообщает.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Like a Dragon: Pirate Yakuza in Hawaii — якудза в треуголке. Рецензия 3 ч.
В двух регионах РФ заблокировали Telegram — в Госдуме заверили, что на всю страну меры пока что не распространятся 4 ч.
ИИ-боты выяснили, кто из них лучше всех играет в «Мафию» — не обошлось без странностей 15 ч.
Microsoft создаст суверенный «рассуждающий» ИИ, который сможет потягаться с OpenAI и DeepSeek 15 ч.
«Нам потребуется больше времени»: поумневшая Siri задержится до 2026 года, подтвердила Apple 16 ч.
Сотрудник производителя DVD с фильмами продавал диски пиратам до релиза — теперь ему грозит 20 лет тюрьмы 19 ч.
Илону Маску предстоит дать показания по иску акционеров Twitter третьего апреля 20 ч.
Новая статья: Rift of the NecroDancer — дофаминовый разлом. Рецензия 08-03 00:04
В раннем доступе Steam вышла комедийная песочница про секретного агента в школе магии, которая выглядит как те самые игры по «Гарри Поттеру» 07-03 23:31
Microsoft навсегда закроет офисное приложение Publisher — его файлы перестанут открываться, но пока что их можно спасти 07-03 22:26
Первый ЦОД Stargate получит 64 тыс. ИИ-ускорителей NVIDIA GB200 к концу 2026 года 5 ч.
Lenovo представила серверы ThinkSystem SR630 V4 и SR650(a) V4 на базе Intel Xeon Granite Rapids-SP 6500P/6700P 5 ч.
QCT представила компактный edge-сервер QuantaEdge EGX88D-1U с 24 25GbE-портами на базе Intel Xeon Granite Rapids-D 6 ч.
Названа дата «спасения» застрявших на МКС астронавтов NASA 13 ч.
SpaceX разрешили повысить мощность сигнала Starlink для видеозвонков из глухомани 17 ч.
Британским провайдерам предложили тянуть «оптику» по заброшенным газовым трубам и водопроводам 18 ч.
Apple увернулась от запрета на поставки умных часов Watch в США по патентному иску AliveCor 22 ч.
Google отключилась от российских IX и ЦОД, но о полном уходе из страны речи нет 08-03 02:05
В Ростове-на-Дону запустили завод электроники, который сможет выпускать до 500 тысяч изделий в год 08-03 00:34
Зонд Intuitive Machines опрокинулся при посадке на Луну — это становится недоброй традицией 07-03 22:03