Сегодня 28 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Скрыть мою почту» не гарантирует анонимность — Apple раскрыла пользователя полиции 2 ч.
Apple удалила из российского App Store ряд популярных VPN по требованию РКН 3 ч.
Microsoft сделает Windows 11 стабильнее за счёт ужесточения требований к драйверам 6 ч.
Apple наняла бывшего руководителя Google, чтобы эффективнее продвигать Siri на рынке 6 ч.
Суд в Нидерландах тоже запретил чат-боту Grok генерировать изображения реальных людей без одежды 7 ч.
Новая статья: Slay the Spire 2 — свободное время, прощай! Предварительный обзор 11 ч.
Новая статья: Обзор нового сезона Warface «Стальные кварталы»: брутальность в каждой катке! 13 ч.
В Telegram обнаружена крайне опасная уязвимость нулевого дня, но детали держат в секрете 14 ч.
«Отправьте меня в будущее, чтобы я смог поиграть в эту игру»: новый геймплей ролевого боевика Exodus в духе Mass Effect взбудоражил фанатов 15 ч.
Инсайдеры: легендарная The Legend of Zelda: Ocarina of Time получит ремейк для Nintendo Switch 2, причём уже скоро 16 ч.
Ayaneo повысит цены и снимет ряд портативных консолей с производства — дефицит памяти взвинтил себестоимость 4 мин.
Sony заморозила продажи карт памяти CFexpress и SD из-за дефицита флеш-памяти 33 мин.
«На Xbox это было не похоже»: Microsoft пояснила, почему остановила кампанию «Это Xbox» 2 ч.
«Смартфон Трампа» всё же существует — недавно его сертифицировала FCC 5 ч.
Microsoft приберёт к рукам ЦОД почти на 1 ГВт в Техасе, который не осилили построить Oracle и OpenAI 6 ч.
Meta построит ещё семь газовых электростанций для своего гигантского ИИ ЦОД Hyperion 13 ч.
Meta построит сразу семь газовых ТЭС на 5,2 ГВт, чтобы не отстать в гонке ИИ 14 ч.
SoftBank одолжила $40 млрд на год, чтобы инвестировать их в OpenAI 14 ч.
«Не хотите ускорители? Возьмите хотя бы сеть!» — NVIDIA открыла свои ИИ-стойки для чужих чипов 16 ч.
Вебинар T1 Облако и Curator. Выбор без выбора: почему защита от DDoS-атак — не опция, а необходимость 18 ч.