Сегодня 19 марта 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ускоритель
Быстрый переход

NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Архитектура GPU Blackwell получила название в честь американского математика Дэвида Блэквелла (David Harold Blackwell) и включает в себя целый ряд инновационных технологий для ускорения вычислений, которые помогут совершить прорыв в обработке данных, инженерном моделировании, автоматизации проектирования электроники, компьютерном проектировании лекарств, квантовых вычислениях и генеративном ИИ. Причём на последнем в Nvidia делают особый акцент: «Генеративный ИИ — это определяющая технология нашего времени. Графические процессоры Blackwell — это двигатель для новой промышленной революции», — подчеркнул глава Nvidia Дженсен Хуанг (Jensen Huang) в рамках презентации.

Графический процессор Nvidia B200 производитель без лишней скромности называет самым мощным чипом в мире. В вычислениях FP4 и FP8 новый GPU обеспечивает производительность до 20 и 10 Пфлопс соответственно. Новый GPU состоит из двух кристаллов, которые произведены по специальной версии 4-нм техпроцесса TSMC 4NP и объединены 2,5D-упаковкой CoWoS-L. Это первый GPU компании Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. Всего новинка насчитывает 208 млрд транзисторов.

 Один из кристаллов GPU Blackwell

Один кристаллов Blackwell — в GPU таких кристаллов два

По сторонам от кристаллов GPU расположились восемь стеков памяти HBM3e общим объёмом 192 Гбайт. Её пропускная способность достигает 8 Тбайт/с. А для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения, которая обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С помощью данного интерфейса (коммутатор NVSwitch 7.2T) в одну связку можно объединить до 576 GPU.

Одними из главных источников более высокой производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более тонко подбирать необходимую точность вычислений для тех или иных задач, что влияет и на скорость обучения и работы нейросетей, и на максимальный объём поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватит и FP4. Но отметим, что Blackwell поддерживает работу с самыми разными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64. И во всех случаях кроме последнего есть поддержка разреженных вычислений.

Флагманским ускорителем на новой архитектуре станет Nvidia Grace Blackwell Superchip, в котором сочетается пара графических процессоров B200 и центральный Arm-процессор Nvidia Grace с 72 ядрами Neoverse V2. Данный ускоритель шириной в половину серверной стойки обладает TDP до 2,7 кВт. Производительность в операциях FP4 достигает 40 Пфлопс, тогда как в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Пфлопс.

Как отмечает сама Nvidia, новинка обеспечивает 30-кратный прирост производительности по сравнению с Nvidia H100 для рабочих нагрузок, связанных с большими языковыми моделями, а она до 25 раз более экономична и энергетически эффективна.

Ещё Nvidia представила систему GB200 NVL72 — фактически это серверная стойка, которая объединяет в себе 36 Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T. Таким образом данная система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных NVLink пятого поколения. На систему приходится 13,5 Тбайт памяти HBM3e с общей пропускной способностью до 576 Тбайт/с, а общий объём оперативной памяти достигает 30 Тбайт.

Платформа GB200 NVL72 работает как единый GPU с ИИ-производительностью 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8). Эта система станет строительным блоком для новейшего суперкомпьютера Nvidia DGX SuperPOD.

На переднем плане HGX-система с восемью Blackwell. На заднем — суперчип GB200

Наконец, Nvidia представила серверные системы HGX B100, HGX B200 и DGX B200. Все они предлагают по восемь ускорителей Blackwell, связанных между собой NVLink 5. Системы HGX B100 и HGX B200 не имеют собственного CPU, а между собой различаются только энергопотреблением и как следствие мощностью. HGX B100 ограничен TDP в 700 Вт и обеспечивает производительность до 112 и 56 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP в 1000 Вт и предлагает до 144 и 72 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно.

Наконец, DGX B200 копирует HGX B200 в плане производительности, но является полностью готовой системой с парой центральных процессоров Intel Xeon Emerald Rapids. По словам Nvidia, DGX B200 до 15 раз быстрее в задачах запуска уже обученных «триллионных» моделей по сравнению с предшественником.

Для создания наиболее масштабных ИИ-систем, включающих от 10 тыс. до 100 тыс. ускорителей GB200 в рамках одного дата-центра, компания Nvidia предлагает объединять их в кластеры с помощью сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet. Они также были анонсированы сегодня и обеспечат передовые сетевые возможности со скоростью до 800 Гбит/с.

Свои системы на базе Nvidia B200 в скором времени представят многие производители, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems. Также Nvidia GB200 в составе платформы Nvidia DGX Cloud, а позже в этом году решения на этом суперчипе станут доступны у крупнейших облачных провайдеров, включая AWS, Google Cloud и Oracle Cloud.

Nvidia покажет ИИ-ускоритель нового поколения уже на следующей неделе в рамках GTC 2024

Генеральный директор и соучредитель Nvidia Дженсен Хуанг (Jensen Huang) в понедельник 18 марта выйдет на сцену хоккейной арены Кремниевой долины, чтобы представить новые решения, включая ИИ-чипы нового поколения. Поводом для этого станет ежегодная конференция разработчиков GTC 2024, которая станет первой очной встречей такого масштаба после пандемии. Nvidia ожидает, что это мероприятие посетят 16 000 человек, что примерно вдвое превысит число посетителей в 2019-м.

 Источник изображения: Getty Images

Источник изображения: Getty Images

Рыночная капитализация Nvidia превысила $2 трлн в конце февраля, и теперь ей не хватает «всего» $400 млрд, чтобы превзойти Apple, которая занимает второе место по капитализации после лидера фондового рынка Microsoft. Аналитики ожидают, что выручка Nvidia в этом году вырастет на 81 % до $110 млрд, поскольку технологические компании на волне бума ИИ десятками тысяч скупают её новейшие ускорители ИИ для разработки и обучения чат-ботов, генераторов изображений и других нейросетей.

Новое поколение высокопроизводительных ИИ-чипов от Nvidia, которое предположительно получит обозначение B100, должно стать основой для дальнейшего укрепления рыночных позиций компании. В рамках предстоящей GTC компания Nvidia вряд ли раскроет все характеристики и назовёт точную цену нового ускорителя, которая не в последнюю очередь зависит от размера партии и сроков поставки. Очевидно, B100 будет намного быстрее своего предшественника и, вероятно, будет стоить дороже, хотя цена актуальных H100 может превышать $20 000. Поставки нового чипа ожидаются позднее в этом году.

 Источник изображений: Nvidia

Источник изображений: Nvidia

Спрос на текущие ускорители Nvidia превысил предложение: разработчики программного обеспечения месяцами ждут возможности использовать кластеры ускорителей ИИ у облачных провайдеров. Реагируя на высокий спрос, акции Nvidia выросли на 83 % в этом году после более чем утроения их стоимости в прошлом. И даже после этого стремительного роста акции Nvidia торгуются с прибылью, в 34 раза превышающей ожидаемую. Аналитики значительно повысили оценки будущих доходов компании, но, если их прогнозы окажутся слишком оптимистичными, акции Nvidia рискуют ощутимо просесть в цене.

«Самое большое беспокойство вызывает то, что цифры стали настолько большими и настолько быстрыми, что вы просто беспокоитесь, что они не продлятся долго, — считает аналитик Bernstein Стейси Расгон (Stacy Rasgon). — Чем больше у них появляется новых продуктов с более высокими характеристиками и более высокими ценами, тем больше у них возможностей для взлёта».

Nvidia также, вероятно, представит на GTC 2024 множество обновлений своего программного обеспечения CUDA, которое предоставляет разработчикам инструменты для запуска своих программ на ускорителях компании, ещё сильнее привязывая их к чипам Nvidia. Глубокое погружение в использование CUDA усложняет для разработчика переход на «железо» конкурентов, таких как AMD, Microsoft и Alphabet.

В прошлом году Nvidia начала предлагать процессоры и программное обеспечение в виде облачных сервисов и продолжает развивать успех. Аналитики полагают, что «возможно, поставщики облачных услуг и программного обеспечения нервничают из-за того, что Nvidia действует на их игровой площадке».

Nvidia располагает ощутимым технологическим преимуществом над китайскими конкурентами. США отрезали Китаю доступ к самым передовым чипам Nvidia, поэтому самыми передовыми китайскими ускорителями ИИ являются чипы Huawei, которые по производительности соответствуют процессорам Nvidia A100, выпущенным в далёком 2020 году. Ни один китайский ускоритель ИИ даже близко не может сравниться с флагманским чипом Nvidia H100, выпущенным в 2022 году, а предстоящий B100 ещё более увеличит отрыв. Эксперты полагают, что «со временем этот разрыв станет экспоненциально большим».

Cerebras представила гигантский процессор WSE-3 c 900 тысячами ядер

Американский стартап Cerebras Systems представил гигантский процессор WSE-3 для машинного обучения и других ресурсоёмких задач, для которого заявляется двукратный прирост производительности на ватт потребляемой энергии по сравнению с предшественником.

 Cerebras WSE-3. Источник изображений: Cerebras

Cerebras WSE-3. Источник изображений: Cerebras

Площадь нового процессора составляет 46 225 мм2. Он выпускается с использованием 5-нм техпроцесса компании TSMC, содержит 4 трлн транзисторов, 900 000 ядер и объединён с 44 Гбайт набортной памяти SRAM. Его производительность в операциях FP16 заявлена на уровне 125 Пфлопс.

Один WSE-3 составляет основу для новой вычислительной платформы Cerebras CS-3, которая, по утверждению компании, обеспечивает вдвое более высокую производительность, чем предыдущая платформа CS-2 при том же энергопотреблении в 23 кВт. По сравнению с ускорителем Nvidia H100 платформа Cerebras CS-3 на базе WSE-3 физически в 57 раз больше и примерно в 62 раза производительнее в операциях FP16. Но учитывая размеры и энергопотребление Cerebras CS-3, справедливее будет сравнить её с платформой Nvidia DGX с 16 ускорителями H100. Правда, даже в этом случае CS-3 примерно в 4 раза быстрее конкурента, если речь идёт именно об операциях FP16.

 Cerebras CS-3. Источник изобажений: Cerebras

Cerebras CS-3

Одним из ключевых преимуществ систем Cerebras является их пропускная способность. Благодаря наличию 44 Гбайт набортной памяти SRAM в каждом WSE-3, пропускная способность новейшей системы Cerebras CS-3 составляет 21 Пбайт/с. Для сравнения, Nvidia H100 с памятью HBM3 обладает пропускной способностью в 3,9 Тбайт/с. Однако это не означает, что системы Cerebras быстрее во всех сценариях использования, чем конкурирующие решения. Их производительность зависит от коэффициента «разрежённости» операций. Та же Nvidia добилась от своих решений удвоения количества операций с плавающей запятой, используя «разреженность». В свою очередь Cerebras утверждает, что добилась улучшения примерно до 8 раз. Это значит, что новая система Cerebras CS-3 будет немного медленнее при более плотных операциях FP16, чем пара серверов Nvidia DGX H100 при одинаковом энергопотреблении и площади установки, и обеспечит производительность около 15 Пфлопс против 15,8 Пфлопс у Nvidia (16 ускорителей H100 выдают 986 Тфлопс производительности).

 Одна из установок Condor Galaxy AI

Одна из установок Condor Galaxy AI

Cerebras уже работает над внедрением CS-3 в состав своего суперкластера Condor Galaxy AI, предназначенного для решения ресурсоёмких задач с применением ИИ. Этот проект был инициирован в прошлом году при поддержке компании G42. В его рамках планируется создать девять суперкомпьютеров в разных частях мира. Две первые системы, CG-1 и CG-2, были собраны в прошлом году. В каждой из них сдержится по 64 платформы Cerebras CS-2 с совокупной ИИ-производительностью 4 экзафлопса.

В эту среду Cerebras сообщила, что построит систему CG-3 в Далласе, штат Техас. В ней будут использоваться несколько CS-3 с общей ИИ-производительностью 8 экзафлопсов. Если предположить, что на остальных шести площадках также будут использоваться по 64 системы CS-3, то общая производительность суперкластера Condor Galaxy AI составит 64 экзафлопса. В Cerebras отмечают, что платформа CS-3 может масштабироваться до 2048 ускорителей с общей производительностью до 256 экзафлопсов. По оценкам экспертов, такой суперкомпьютер сможет обучить модель Llama 70B компании Meta всего за сутки.

Помимо анонса новых ИИ-ускорителей Cerebras также сообщила о сотрудничестве с компанией Qualcomm в вопросе создания оптимизированных моделей для ИИ-ускорителей Qualcomm с Arm-архитектурой. На потенциальное сотрудничество обе компании намекали с ноября прошлого года. Тогда же Qualcomm представила свой собственный ИИ-ускорители Cloud AI100 Ultra формата PCIe. Он содержит 64 ИИ-ядра, 128 Гбайт памяти LPDDR4X с пропускной способностью 548 Гбайт/с, обеспечивает производительность в операциях INT8 на уровне 870 TOPS и обладает TDP 150 Вт.

 Источник изображения: Qualcomm

Источник изображения: Qualcomm

В Cerebras отмечают, что вместе с Qualcomm они будут работать над оптимизацией моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.

«Как мы уже показали, разрежённость при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт использования небольшой и облегченной модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», — отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).

Обе компании также рассматривают возможность использования метода MX6, представляющего собой форму сжатия размера модели путём снижения её точности. В свою очередь, поиск сетевой архитектуры представляет собой процесс автоматизации проектирования нейронных сетей для конкретных задач с целью повышения их производительности. По словам Cerebras, сочетание этих методов способствует десятикратному повышению производительности на доллар.

Датчик для Большого адронного коллайдера поможет удалять опухоли головного мозга

От большой науки редко ждут немедленного практического результата, но исключения бывают. Свежим примером стало использование датчика для регистрации столкновений частиц на БАК для картирования тканей головного мозга при работе с опухолями. Датчик помогает определять контуры опухоли и даёт возможность уничтожить её с минимальным вредом для пациента.

 Источник изображения: CERN

Источник изображения: CERN

В обычных условиях для облучения опухоли электронным пучком карта тканей создаётся с помощью предоперационной компьютерной томографии. К моменту операции ткани могут сдвинуться, и работа с опухолью может быть неточной. Разрушение электронным пучком здоровых тканей мозга ни к чему хорошему не приведёт. Пациент может потерять фрагменты памяти, элементы сенсорики и моторики.

Чтобы чётко определять края злокачественной ткани, чешская компания ADVACAM использовала созданный для экспериментов с элементарными частицами датчик Timepix компании Medipix Collaborations. Датчик фиксирует вторичное излучение в виде рассеивания электронного пучка на живых тканях и опухоли. Если картина меняется — в поле действия пучка попадает здоровая ткань — работа пучком по опухоли прекращается. Сейчас это просто остановка процедуры для проведения новой томографии.

В будущем разработчики обещают создать установку для автоматического управления проектором в ходе операции, что упростит и ускорит процедуру удаления опухоли, а также снизит опасность повреждения здоровых тканей. Созданный для задач CERN прибор принесёт фактически немедленную пользу, на которую при его разработке даже не рассчитывали.

Учёные приблизились к созданию ускорителя электронов размером с обувную коробку

Исследователи из Стэнфордского университета разработали и создали крошечный ускоритель электронов, который может быть собран в корпусе размером с коробку из-под обуви. Когда-нибудь они заменят мегадорогие ускорители для передовых исследований в физике и внесут кардинальные перемены в медицинское обслуживание, промышленность и даже повседневную жизнь.

 Источник изображения:  Moore Foundation / Payton Broaddus

Источник изображения: Moore Foundation / Payton Broaddus

Исследователи показали, что кремниевый диэлектрический лазерный ускоритель (DLA) способен как ускорять, так и направлять электроны, создавая сфокусированный пучок электронов высокой энергии. «Если бы электроны были микроскопическими автомобилями, мы бы как будто впервые сели за руль и нажали на газ», — пояснила 23-летняя Пейтон Броддус (Payton Broaddus), кандидат наук в области электротехники и ведущий автор статьи, опубликованной 23 февраля с подробным описанием прорыва в журнале Physical Review Letters.

Сегодня ускорители частиц не отличаются компактностью, начинаясь от размеров с приличный рабочий стол и заканчивая Большим адронным коллайдером с кольцом длиной почти 27 км. Это дорогостоящие научные приборы, использовать которые полноценно могут в основном академические учёные. Создание компактных и относительно недорогих или вовсе недорогих ускорителей позволит применять их в медицине для детальной визуализации внутренних тканей органов человека и для лечения опухолей. Ускорители помогут с анализом материалов, веществ и с неразрушающим контролем качества. Наконец, появятся приборы, по-настоящему показывающие нитратный и даже молекулярный состав купленных в магазине фруктов и овощей.

Около 10 лет назад исследователи из Стэнфорда начали экспериментировать с наноразмерными структурами, изготовленными из кремния и стекла, которые без деформаций выдерживали большие перепады температур, чем металлические части ускорителей. В 2013 году был создан прототип крошечного ускорителя из стекла на основе импульсных инфракрасных лазеров, который успешно разгонял электроны. Под эту разработку Фонд Гордона и Бетти Мур в рамках международного сотрудничества Accelerator on Achip (ACHIP) выделили средства на создание мегаэлектронвольтового ускорителя размером с обувную коробку.

 Изображение трека для создания сфокусированного пучка электронов. Источник изображения: Physical Review Letters

Изображение трека для создания сфокусированного пучка электронов. Источник изображения: Physical Review Letters

В результате исследований была разработана микроструктура, которая оказалась способна фокусировать пучок электронов в двух плоскостях, ускоряя и направляя их вдоль горизонтальной плоскости. Электроны вводятся с одной стороны субмиллиметрового трека, а с обоих его концов происходит импульсное освещение лазерами. Предложенное решение позволило придать электронам дополнительно 25 % энергии — ускорить их до 23,7 кэВ. Это ускорение сопоставимо с возможностями классических настольных ускорителей, но реализовано в «коробке из-под обуви».

Дальнейшее совершенствование схемы позволит поднять энергию ускорения до запланированного уровня в 1 МэВ. Каскад таких ускорителей или использование на начальном этапе других схем, например, этой, созданной коллегами из Университета Фридриха-Александра в Эрлангене и Нюрнберге (FAU), позволит изготавливать компактные усилители с разгоном электронов до субсветовых скоростей. Но это работа для далёкого будущего. Сейчас в этом направлении сделаны хоть и успешные, но только первые шаги.

Купить ИИ-ускоритель NVIDIA H100 стало проще — очереди уменьшились, появился вторичный рынок

Сроки поставки графических процессоров NVIDIA H100, применяемых в приложениях ИИ и высокопроизводительных вычислениях, заметно сократились — с 8–11 до 3–4 месяцев. Аналитики полагают, что это связано с расширением возможностей аренды ресурсов у крупных компаний, таких как Amazon Web Services, Google Cloud и Microsoft Azure. В результате некоторые компании, ранее закупившие большое количество процессоров H100, теперь пытаются их продать.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

The Information сообщает, что некоторые фирмы перепродают свои графические процессоры H100 или сокращают заказы из-за снижения дефицита и высокой стоимости содержания неиспользуемых запасов. Это знаменует собой значительный сдвиг по сравнению с прошлым годом, когда приобретение графических процессоров NVIDIA Hopper было серьёзной проблемой. Несмотря на повышение доступности чипов и значительное сокращение сроков выполнения заказов, спрос на чипы ИИ всё ещё продолжает превышать предложение, особенно среди компаний, обучающих большие языковые модели (LLM).

Ослабление дефицита ускорителей ИИ отчасти связано с тем, что поставщики облачных услуг упростили аренду графических процессоров NVIDIA H100. Например, AWS представила новый сервис, позволяющий клиентам планировать аренду графических процессоров на более короткие периоды, что привело к сокращению спроса и времени ожидания. Увеличение доступности ИИ-процессоров NVIDIA также привело к изменению поведения покупателей. Компании при покупке или аренде становятся более требовательными к ценам, ищут меньшие по размеру кластеры графических процессоров и больше внимания уделяют экономической жизнеспособности своего бизнеса.

В результате рост сектора искусственного интеллекта значительно меньше, чем в прошлом году, сдерживается ограничениями из-за дефицита чипов. Появляются альтернативы устройствам NVIDIA, например, процессоры AMD или AWS, которые наряду с повысившейся производительностью получили улучшенную поддержку со стороны программного обеспечения. В совокупности с взвешенным подходом к инвестициям в ИИ, это может привести к более сбалансированной ситуации на рынке.

Тем не менее, доступ к большим кластерам графических процессоров, необходимым для обучения LLM, до сих пор остаётся проблематичным. Цены на H100 и другие процессоры NVIDIA не снижаются, компания продолжает получать высокую прибыль и невероятными темпами наращивать свою рыночную стоимость. NVIDIA прогнозирует высокий спрос на ИИ-ускорители следующего поколения Blackwell. В поисках альтернатив Сэм Альтман (Sam Altman) из OpenAI пытается привлечь масштабное финансирование для создания дополнительных заводов по производству процессоров ИИ.

Техногиганты собрались положить конец гегемонии NVIDIA на рынке ИИ-ускорителей

Компания Meta в этом году развернёт в своих центрах обработки данных системы на ИИ-чипах собственной разработки второго поколения, пишет Reuters. Все больше технологических компаний берёт курс на создание вертикально интегрированных систем ИИ на базе собственного оборудования вместо дефицитных и дорогих ускорителей от NVIDIA, AMD и других сторонних производителей.

 ИИ-чип *** первого поколения. Источник изображения: ***

ИИ-чип Meta первого поколения. Источник изображения: Meta

ИИ-чип Meta второго поколения, о разработке которого Meta объявила в прошлом году, может помочь компании снизить зависимость от захвативших более 70 % рынка ИИ-ускорителей NVIDIA, лучше контролировать всё возрастающие расходы на ИИ. Компании необходимо наращивать вычислительные мощности для продуктов на базе генеративного ИИ, которые она внедряет в Facebook, Instagram и WhatsApp, а также в аппаратные устройства, такие как смарт-очки Ray-Ban. Сейчас Meta тратит миллиарды долларов на закупку специализированных чипов и модернизацию дата-центров.

По мнению Дилана Пателя (Dylan Patel), основателя группы по рынку чипов в аналитической компании SemiAnalysis, при тех масштабах, в которых работает Meta, успешное внедрение собственного чипа могло бы сэкономить сотни миллионов долларов ежегодно на расходах на электроэнергию, а также миллиарды на закупке чипов. Чипы, инфраструктура и энергия, необходимые для работы систем ИИ, стали гигантской воронкой инвестиций для технологических компаний, что в некоторой степени нивелирует успехи, достигнутые на волне ажиотажа вокруг этой технологии.

Представитель Meta подтвердил Reuters планы по запуску производства обновленного чипа Meta в 2024 году, заявив, что он будет работать в координации с сотнями тысяч уже имеющихся и новых графических процессоров. «Мы считаем, что наши собственные ускорители в значительной степени дополняют коммерчески доступные GPU, обеспечивая оптимальное сочетание производительности и эффективности в специфических для Meta рабочих нагрузках», — говорится в заявлении представителя Meta.

В прошлом месяце генеральный директор Meta Марк Цукерберг (Mark Zuckerberg) заявил, что к концу 2024 года компания планирует получить около 350 000 флагманских ускорителей NVIDIA H100. По его словам, в сочетании с другими системами Meta сможет накопить вычислительную мощность, эквивалентную 600 000 ускорителей H100.

 ИИ-ускоритель NVIDIA H100. Источник изображения: NVIDIA

ИИ-ускоритель NVIDIA H100. Источник изображения: NVIDIA

Заметим, что прежде Meta уже создавала собственные ИИ-чипы, но в 2022 году руководство компании приняло решение отказаться от чипа первого поколения. Вместо этого компания решила купить графические процессоры NVIDIA на миллиарды долларов.

Новый чип, получивший внутреннее кодовое название Artemis («Артемида»), как и его предшественник, сможет использоваться только для запуска уже обученных нейросетей, но не для их обучения. Чип, на котором будут работать уже обученные нейросети, может быть значительно более эффективным в задачах Meta, чем энергоемкие чипы NVIDIA. Для обучения ИИ по-прежнему будут использоваться сторонние чипы, однако в прошлом году появлялась информация, что Meta также работает над более амбициозным чипом, который также сможет выполнять и обучение, и запуск нейросетей.

 ИИ-ускоритель Google Cloud TPU v5p. Источник изображения: Google

ИИ-ускоритель Google Cloud TPU v5p. Источник изображения: Google

Другие крупные технологические компании — Amazon, Google и Microsoft — тоже разрабатывают собственные чипы для тех или иных задач ИИ. Компании Google и Amazon уже давно выпускают чипы для собственных центров обработки данных. В конце прошлого года Google представила свой самый быстрый ИИ-ускоритель Cloud TPU v5p, а Amazon выпустила ускорители Trainium2 для обучения больших ИИ-моделей. Компания Microsoft старается не отставать и создала ИИ-ускоритель Maia 100, а также Arm-процессор Cobalt 100 — оба чипа предназначены для ускорения задач ИИ.

 Система с ИИ-ускорителями Microsoft Maia 100. Источник изображения: Microsoft

Система с ИИ-ускорителями Microsoft Maia 100. Источник изображения: Microsoft

NVIDIA в прошлом году продала 2,5 миллиона чипов примерно по $15 000 каждый, по оценкам аналитика Пьера Феррагу (Pierre Ferragu) из New Street Research. В то же время Google потратила около $2–3 млрд на создание примерно миллиона собственных ИИ-чипов, говорит эксперт, то есть каждый чип ей обошёлся лишь в $2-3 тыс. В свою очередь, Amazon потратила $200 миллионов на 100 000 собственных чипов в прошлом году.

Также недавно появились сообщения, что OpenAI, разработчик ChatGPT, тоже заинтересовалась созданием собственного чипа. Глава компании Сэм Альтман (Sam Altman) уже ведёт переговоры с инвесторами и контрактными производителями чипов. Таким образом, всё больше компаний старается избавиться от зависимости от NVIDIA, ускорители которой хоть и являются лучшими на рынке, но являются крайне дефицитным товаром (заказы на них расписаны на год вперёд), а также стоят отнюдь не мало.

Intel выпустит ИИ-ускоритель Gaudi2C для Китая с урезанной производительностью

Команда разработчиков программного обеспечения Intel добавила в драйверы для операционной системы Linux с открытым исходным кодом поддержку ещё не анонсированного официально ускорителя для задач искусственного интеллекта Habana Gaudi2C, пишет Phoronix.

 Источник изображения: Intel

Источник изображения: Intel

Документально подтверждённой информации о загадочном ИИ-ускорителе Gaudi2C, который, судя по всему, имеет отношение к выпускающемуся Intel ускорителю вычислений Gaudi2, практически нет.

 Источник изображения: Phoronix

Источник изображения: Phoronix

К сожалению, сам драйвер для Linux не объясняет, что собой представляет Gaudi2C. Из имеющихся данных, обнаруженных в обновлении для Linux 6.8, известно, что новая версия ускорителя отличается маркировкой PCI ID «3».

Ходят слухи, что Gaudi2C может являться специальной версией ИИ-ускорителя Gaudi2C, адаптированной для удовлетворения конкретных требований китайского рынка, аналогично версии Gaudi2B (HL-225B), выпущенной в июле этого года и обладающей меньшим количеством вычислительных блоков и ограничениями по интерконнекту. Возможно, это некая урезанная версия Gaudi2, не подпадающая под рестрикции новых экспортных ограничений США.

Intel показала ИИ-ускоритель Gaudi3, который в 2024 году составит конкуренцию AMD и NVIDIA

В рамках мероприятия AI Everywhere, на котором были представлены потребительские мобильные процессоры Core Ultra и серверные чипы Xeon Scalable 5-го поколения, глава Intel Пэт Гелсингер (Pat Gelsinger) также мельком показал готовящийся к выпуску в 2024 году специализированный ускоритель ИИ-вычислений Gaudi3. Он станет более доступной альтернативой решениям компаний NVIDIA и AMD.

 Источник изображений: Intel

Источник изображений: Intel

По словам Гелсингера, в настоящий момент Gaudi3 тестируется в лабораториях компании. Глава Intel показал новинку, состоящую из печатной платы и огромного графического процессора, окружённого восемью модулями высокоскоростной памяти HBM3 (Gaudi2 оснащён шестью чипами памяти HBM3). По словам Гелсингера, Gaudi3 будет значительно производительнее предшественника. Показатель энергопотребления Gaudi2 составляет около 600 Вт, от Gaudi3 можно будет ожидать такого же или чуть большего энергопотребления.

 Intel Gaudi2

Intel Gaudi2

В Intel признают, что Gaudi3 по чистой производительности не сможет сравняться с теми же ускорителями NVIDIA H100, грядущими во второй половине 2024 года ускорителями H200 и последующими Blackwell B100. Однако сегмент ИИ-вычислений постоянно разрастается, поэтому в Intel считают, что далеко не во всех случаях нужны такие огромные и прожорливые решения, какие предлагаются конкурентами.

Компания уверена, что сможет конкурировать на рынке ИИ-ускорителей, предложив интересную альтернативу, обладающую привлекательным соотношением «цена–производительность». Тот же Gaudi2 уже занял свою нишу в сегменте, поскольку решения NVIDIA распроданы на многие месяцы вперёд, а ускорители серии MI200 от компании AMD выпускаются какими-то совсем уж небольшими партиями. Благодаря этому продажи ускорителей Gaudi стремительно растут.

Ускорители Gaudi3 будут предлагаться не только в виде отдельных модулей, но и в составе готовых инстансов с жидкостным охлаждением. Для этого Intel сотрудничает с компанией Vertiv, занимающейся поставками критически важных решений для цифровой инфраструктуры. К слову, с ней уже долгое время также сотрудничает NVIDIA.

Новая статья: AMD Instinct MI300: новый взгляд на ускорители

Данные берутся из публикации AMD Instinct MI300: новый взгляд на ускорители

Microsoft, OpenAI и другие закупят ИИ-ускорители AMD Instinct MI300X как альтернативу дефицитным чипам NVIDIA

Meta, OpenAI, Microsoft и Oracle заявили, что планируют внедрить в свои системы новейшие ускорители для систем искусственного интеллекта AMD Instinct MI300X. Лидеры отрасли ясно дали понять, что ищут альтернативы дорогим и дефицитным ИИ-ускорителям NVIDIA, которые необходимы для создания и внедрения ИИ-платформ, включая ChatGPT.

 Источник изображения: amd.com

Источник изображения: amd.com

Поставки высокопроизводительных ускорителей AMD Instinct MI300X стартуют в начале будущего года, и если он окажется подходящим для технологических компаний и поставщиков облачных услуг, это может снизить затраты на разработку ИИ-моделей и оказать конкурентное давление на NVIDIA, занявшую значительную долю этого рынка. Как отметила вчера AMD, MI300X основан на новой архитектуре CDNA3 и способен обеспечить очень высокую производительность. Одной из его отличительных особенностей являются 192 Гбайт современной высокоскоростной памяти HBM3, что отлично подходит для крупных моделей ИИ.

Глава AMD доктор Лиза Су (Lisa Su) сравнила Instinct MI300X с одним из лучших ускорителей на рынке — NVIDIA H100. «Эта производительность непосредственно улучшает взаимодействие [нейросетей] с пользователем. Когда задаёшь модели вопрос, хочется, чтобы она отвечала быстрее, особенно когда ответы становятся сложнее», — сообщила она. Главный вопрос в том, готовы ли использующие оборудование NVIDIA клиенты тратить время и деньги на внедрение продукции ещё одного поставщика. AMD сообщила инвесторам и партнёрам, что усовершенствовала свой программный пакет ROCm, способный напрямую конкурировать с NVIDIA CUDA, к которому уже привыкли разработчики ИИ-систем. Ещё одним важным аспектом является цена: ускорители NVIDIA реализуются по $40 тыс. — AMD пока не раскрыла цены на Instinct MI300X, но, по словам Лизы Су, её продукт должен быть дешевле аналога от NVIDIA при покупке и эксплуатации.

AMD заявила, что уже заключила контракты с некоторыми клиентами. Meta планирует использовать новые ускорители в генераторах стикеров, ИИ-редакторе изображений и ИИ-помощнике. Технический директор Microsoft Кевин Скотт (Kevin Scott) заявил, что доступ к AMD Instinct MI300X будет открыт в веб-сервисе Azure. Новые чипы будет использовать и облачная инфраструктура Oracle. OpenAI доложила, что будет пользоваться чипами AMD в проекте Triton — это не большая языковая модель вроде GPT, а платформа для исследований с доступом к соответствующим функциям оборудования.

На 2024 год AMD запланировала в сегменте ускорителей для центров обработки данных выручку в $2 млрд, но сообщила, что мировой рынок ИИ-чипов в ближайшие четыре года вырастет до $400 млрд. И чтобы преуспеть на этом рынке, AMD даже не потребуется побеждать NVIDIA, отметила доктор Су.

Cоздан сверхкомпактный ускоритель частиц с энергией в 10 миллиардов электрон-вольт

Учёные из Техасского университета в Остине создали «Усовершенствованный лазерный ускоритель кильватерного поля», который имеет очень компактные размеры, но при этом генерирует высокоэнергетический пучок электронов — до 10 ГэВ или 10 миллиардов электрон-вольт. Это настоящий прорыв в области ускорителей частиц.

Источник изображения: Bjorn «Manuel» Hegelich

Учёные продолжают изучать возможности применения этой технологии, включая потенциал ускорителей частиц в полупроводниковой технологии, медицинской визуализации и терапии, исследованиях в области материалов, энергетики и медицины.

Недавно группа учёных разработала компактный ускоритель частиц, получивший название «усовершенствованный лазерный ускоритель кильватерного поля». Устройство при длине менее 20 метров генерирует электронный пучок с энергией 10 миллиардов электрон-вольт, утверждается в заявлении Техасского университета в Остине. Сам лазер работает в 10-сантиметровой камере, что значительно меньше традиционных ускорителей частиц, которым требуются километры пространства.

Работа ускорителя опирается на инновационный механизм, в котором вспомогательный лазер воздействует на гелий. Газ подвергается нагреву до тех пор, пока не переходит в плазму, которая, в свою очередь, порождает волны. Эти волны обладают способностью перемещать электроны с высокой скоростью и энергией, формируя высокоэнергетический электронный луч. Таким образом получается уместить ускоритель в одном помещении, а не строить огромные системы километрового масштаба. Данный ускоритель был впервые описан ещё в 1979 году исследовательской группой из Техасского университета под руководством Бьорна «Мануэля» Хегелича (Bjorn «Manuel» Hegelich), физика и генерального директора TAU Systems. Однако недавно в конструкцию был внесен ключевой элемент: использование металлических наночастиц. Эти наночастицы вводятся в плазму и играют решающую роль в увеличении энергии электронов в плазменной волне. В результате электронный луч становится не только более мощным, но и более концентрированным и эффективным. Бьорн «Мануэль» Хегелич, ссылаясь на размер камеры, в которой был получен пучок, отметил: «Теперь мы можем достичь таких энергий на расстоянии в 10 сантиметров».

Исследователи использовали в своих экспериментах Техасский петаваттный лазер, самый мощный импульсный лазер в мире, который излучал сверхинтенсивный световой импульс каждый час. Один импульс петаваттного лазера примерно в 1000 раз превышает установленную в США электрическую мощность, но длится всего 150 фемтосекунд — примерно миллиардную долю от продолжительности удара молнии.

Учёные намерены использовать эту технологию для оценки устойчивости космической электроники к радиации, получения трёхмерных визуализаций новых полупроводниковых чипов, а также для создания новых методов лечения рака и передовой медицинской визуализации. Кроме того, этот ускоритель может быть использован для работы другого устройства, называемого рентгеновским лазером на свободных электронах, который может снимать замедленные видеоролики процессов в атомном или молекулярном масштабе. Примеры таких процессов включают взаимодействие между лекарствами и клетками, изменения внутри батарей, которые могут привести к воспламенению, а также химические реакции, происходящие в солнечных батареях, и трансформацию вирусных белков при заражении клеток.

Команда проекта намерена сделать систему ещё более компактной. Они хотят создать лазер, который помещается на столешнице и способен выдавать импульсы множество раз в секунду. Это значительно повысит компактность всего ускорителя и расширит возможности его применения в гораздо более широком диапазоне по сравнению с обычными ускорителями.

NVIDIA продала почти полмиллиона ИИ-ускорителей в третьем квартале, а новые партии расписаны на год вперёд

Основная доля выручки NVIDIA в размере $14,5 млрд в сегменте оборудования для центров обработки данных в третьем квартале пришлась на продажи специализированных графических ускорителей H100 для ИИ и высокопроизводительных вычислений (HPC). По мнению аналитической компании Omdia, NVIDIA продала в третьем квартале этого года почти полмиллиона ускорителей A100 и H100, а спрос на эти продукты настолько высок, что срок поставок серверов с ними увеличился с 36 до 52 недель.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Эксперты Omdia считают, что крупнейшими покупателями графических ускорителей NVIDIA H100 являются компании Meta и Microsoft. По мнению аналитиков, каждая из них закупила по 150 тыс. указанных ускорителей. В свою очередь Google, Amazon, Oracle и Tencent купили по 50 тыс. указанных специализированных ускорителей. Примечательно, что основная часть серверных ускорителей поставляется операторам гипермасштабируемых облачных услуг. В свою очередь, OEM-производители серверов (Dell, Lenovo, HPE) пока не могут забронировать достаточное количество графических процессоров для ИИ и высокопроизводительных вычислений, чтобы выполнить свои заказы на поставки серверов, утверждают специалисты Omdia.

 Источник изображения: Omdia

Источник изображения: Omdia

Аналитики полагают, что продажи ускорителей NVIDIA H100 и A100 превысят полмиллиона единиц в четвертом квартале 2023 года. Между тем, спрос на H100 и A100 настолько велик, что срок поставки серверов на базе этих GPU достигает 52 недель. В то же время Omdia сообщает, что в целом объём поставок серверов в 2023 году сократится на 17–20 % по сравнению с прошлым годом, но при этом выручка в этом направлении вырастет на 6–8 % в годовом исчислении.

Следует также отметить, что многие из крупнейших покупателей специализированных ускорителей NVIDIA H100 и A100 сами разрабатывают собственные специализированные GPU для задач ИИ, высокопроизводительных вычислений и графики. Поэтому в перспективе объёмы закупок оборудования у NVIDIA этими компаниями снизятся по мере перехода на собственные решения.

В Omdia также прогнозируют, что рынок серверов в целом вырастет до $195,6 млрд к 2027 году. Одним из драйверов этого роста послужит переход к специализированным серверным системам, в которых будут применяться наборы разнообразных сопроцессоров, предназначенных под конкретные виды задач. Примером уже могут служить серверы компании Amazon для ИИ, в которых применяются 16 специализированных сопроцессоров Inferentia 2, а также серверы кодирования видео компании Google, оснащающиеся 20 специальными VCU или чипами видеокодирования. Компания Meta также последовала этому примеру и выпустила серверы, оснащённые 12 специальными процессорами для обработки видео.

Отмечается, что интерес к использованию специализированных сопроцессоров, оптимизированных для выполнения определённых задач, будет расти по мере внедрения технологий, которые позволят снизить стоимость производства данных чипов. Ключевыми областями применения таких чипов сейчас являются ИИ и медиа, однако в дальнейшем, как ожидается, они также найдут своё применение в сегментах управления базами данных и веб-сервисах.

Microsoft анонсировала 128-ядерный Arm-процессор Cobalt 100 и ИИ-ускоритель Maia 100

В рамках конференции Ignite компания Microsoft анонсировала специализированный центральный процессор Cobalt 100, а также специализированный ускоритель вычислений Maia 100. Обе новинки предназначены для ускорения задач, связанных с искусственным интеллектом, а также работой облачных систем.

 Источник изображений: Microsoft

Источник изображений: Microsoft

Microsoft Azure Cobalt 100 — это 128-ядерный процессор с 64-битным набором инструкций Armv9, предназначенный для использования в облачных серверах. Технических подробностей о чипе Microsoft не привела. Однако компания заявила, что производительность Cobalt 100 до 40 % выше решений на базе Arm, в настоящий момент использующихся в составе серверных систем Microsoft Azure. В процессорах использована платформа Arm Neoverse CSS, адаптированная для Microsoft, предположительно, с ядрами Arm Neoverse N2.

Microsoft активно внедряет различные технологии искусственного интеллекта (ChatGPT от OpenAI и собственный Copilot) во многие свои сервисы и продукты, поэтому компании требуется стабильный доступ к специализированным серверным ускорителям вычислений для соответствующих задач. Для этого компания при поддержке AMD разрабатывала ускорители Athena. В итоге Microsoft сменила их название на Maia 100. Графические чипы в составе этих ускорителей содержат 105 млрд транзисторов и будут производиться с использованием 5-нм техпроцесса TSMC. Microsoft заявляет, что Maia 100 является одной из самых крупных микросхем, производящихся с использованием этого техпроцесса.

В настоящее время Microsoft тестирует Maia 100 с языковой моделью GPT-3.5 Turbo. Компания заявляет, что Maia 100 обеспечивает совокупную пропускную способность 4,8 Тбит на ускоритель. Для объединения этих ускорителей в составе серверов Microsoft используется интерконнект на основе Ethernet.

Для охлаждения Maia 100 компания Microsoft применяет системы жидкостного охлаждения. Поскольку в настоящий момент у Microsoft нет более эргономичных решений, которые могли бы помещаться непосредственно в состав сервера, компания полагается на вспомогательные внешние установки охлаждения, работающие по принципу необслуживаемых СЖО для домашних ПК, только значительно увеличенных в размерах. Охлаждающая жидкость из внешней установки (охладителя) подаётся по трубкам на контактные пластины, установленные на чипы Maia 100, после этого для отвода тепла жидкость двигается обратно во внешнюю вспомогательную систему охлаждения.

Специализированные процессоры Microsoft Azure Cobalt 100 и ИИ-ускорители Microsoft Azure Maia 100 производитель начнёт использовать в своих серверных системах с начала будущего года. Microsoft также продолжит предоставлять услуги своих облачных сервисов Azure на базе решений компаний NVIDIA и AMD.

Анонс ускорителя H200 подстегнул рост акций NVIDIA — с начала года капитализация выросла на 230 %

Акции NVIDIA дорожают десятую биржевую сессию подряд, что является самым продолжительным периодом роста с момента рекордного скачка в декабре 2016 года. В ходе этих сессий ценные бумаги выросли на 20 %, увеличив рыночную стоимость компании примерно на $200 млрд. Вчерашний анонса обновлённого ИИ-ускорителя NVIDIA H200 лишь подстегнул рост — за день акции выросли на 7 %. С начала года акции NVIDIA выросли на 230 %, что сделало их самыми эффективными как в Nasdaq 100, так и в S&P 500.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Пока конкуренты изо всех сил пытаются найти альтернативы, чтобы бросить вызов доминированию NVIDIA в области искусственного интеллекта, компания представила новый процессор ИИ под названием H200, который будет использовать память с высокой пропускной способностью (HBM3e), что позволит ему лучше справляться с большими наборами данных, необходимыми для разработки и внедрения ИИ.

«Ускоренный темп запуска продукта H200 в середине 2024 года, вероятно, поможет компании защитить свою территорию, — сказал аналитик Bloomberg Intelligence Кунджан Собхани (Kunjan Sobhani). — Новый процессор искусственного интеллекта оснащён памятью с высокой пропускной способностью и может стать самым производительным графическим процессором на рынке, подняв планку конкуренции».

«В прошлом NVIDIA не обновляла предыдущие графические процессоры для центров обработки данных, — отмечает аналитик Wolfe Research Крис Касо (Chris Caso). — Таким образом, это является ещё одним свидетельством того, что NVIDIA ускоряет темпы выпуска своих продуктов в ответ на рост рынка ИИ и требования к производительности и ещё больше увеличивает свой отрыв от конкурентов».

Предыдущий всплеск роста акций NVIDIA произошёл на фоне общего восстановления акций технологических компаний в свете надежд на стабилизацию процентных ставок Федеральной резервной системы. NVIDIA, которая в прошлом месяце оказалась под давлением из-за новых правил США, запретивших поставки её передовых чипов в Китай, опубликует полный отчёт о прибылях и убытках 21 ноября.


window-new
Soft
Hard
Тренды 🔥
Всё своё ношу с собой: Nvidia представила контейнеры NIM для быстрого развёртывания оптимизированных ИИ-моделей 2 ч.
Nvidia AI Enterprise 5.0 предложит ИИ-микросервисы, которые ускорят развёртывание ИИ 3 ч.
NVIDIA запустила облачную платформу Quantum Cloud для квантово-классического моделирования 4 ч.
NVIDIA и Siemens внедрят генеративный ИИ в промышленное проектирование и производство 4 ч.
SAP и NVIDIA ускорят внедрение генеративного ИИ в корпоративные приложения 4 ч.
Microsoft проведёт в мае презентацию, которая положит начало году ИИ-компьютеров 5 ч.
Амбициозная ролевая игра Wyrdsong от бывших разработчиков Fallout: New Vegas и Skyrim в опасности — в студии прошли массовые увольнения 6 ч.
THQ Nordic раскрыла системные требования Alone in the Dark на все случаи жизни — для игры на «ультра» понадобится RTX 4070 Ti 6 ч.
Сливать игры до релиза станет опаснее — создатели Denuvo рассказали о технологии TraceMark for Games 7 ч.
Календарь релизов 18–24 марта: Dragon's Dogma 2, Rise of the Ronin, Horizon Forbidden West на ПК 8 ч.