Сегодня 28 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
YouTube научился собирать персональную ленту видео по описанию 7 ч.
Google и CrowdStrike обезвредили ботнет Glassworm, два года атаковавший разработчиков открытого ПО 8 ч.
«Удивит и впечатлит людей»: инсайдеры раскрыли название, место анонса и дату выхода ремейка Rayman Legends 9 ч.
Avanpost открыла публичное тестирование облачного сервиса Avanpost Identity Cloud 9 ч.
Telegram в России оштрафовали в третий раз за месяц 11 ч.
Robinhood выпустила кредитку для ИИ-агентов, чтобы те могли оплачивать покупки за пользователей 11 ч.
Кодзима наконец покорил космос, но лишь в ИИ-рекламе для Prada 11 ч.
Спустя пять лет после анонса разработка новой Dragon Quest стартовала с нуля — первый трейлер и подробности Dragon Quest XII: Beyond Dreams 13 ч.
YouTube научился автоматически помечать видео, созданные с помощью ИИ 14 ч.
Большая игра в компактном формате: критики вынесли вердикт олдскульному приключению Mina the Hollower от создателей Shovel Knight 14 ч.
HP Inc призвала готовиться к сохранению роста цен на память во втором полугодии 20 мин.
OpenAI Foundation направит $250 млн на адаптацию работников в условиях экспансии ИИ 3 ч.
Китайский производитель памяти CXMT готовит крупнейшее за последние годы IPO, чтобы бросить вызов Samsung и Micron 9 ч.
Американский стартап в 1000 раз ускорил протипирование печатных плат — жидкий металл меняет разводку печатных плат почти мгновенно 10 ч.
Будущие смартфоны Huawei Mate 90 получат процессор Kirin на аналоге 3-нм техпроцесса 11 ч.
«Это не было запланировано»: Motorola признала скрытую подмену ссылок Amazon на своих смартфонах 11 ч.
Из-за ИИ-бума TSMC повысит цены на 3-нм чипы на 15 % в этом году и ещё на 10 % — в следующем 11 ч.
$800 млрд под угрозой: половине запланированных в США ЦОД угрожают стихийные бедствия 13 ч.
MediaTek представила чип Dimensity 8550 для мощных смартфонов среднего уровня — он поддерживает Gemini Nano v3 13 ч.
В очередь за холодом: Modine получила предзаказ на системы охлаждения для ЦОД на $4 млрд 13 ч.