Сегодня 05 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В 2026 году на ПК выйдет научно-фантастический хоррор-шутер Derelikt, который выглядит как потерянная игра с PS1 10 мин.
Anthropic предложила механизм экстренного торможения для развития ИИ 2 ч.
Google завершила обновление значков приложений Workspace в рамках концепции «Эра Gemini» 3 ч.
Новая статья: ОСновной расклад: гид по российским Linux-дистрибутивам 8 ч.
OpenAI прокачала память ChatGPT — вскоре бот сможет помнить разное и для бесплатных пользователей 10 ч.
Отправление задерживается: безумный платформер про неподвластный гравитации поезд Denshattack! не выйдет 17 июня 14 ч.
AMD не планирует наделять поддержкой FSR 4.1 встроенную графику RDNA 3.5 14 ч.
Apple App Store обеспечил разработчикам приложений $1,4 трлн продаж — втрое больше, чем в 2019 году 16 ч.
«Всё, о чём я мечтал, и даже больше»: 10 минут геймплея Ace Combat 8: Wings of Theve привели фанатов в восторг 16 ч.
God of War Laufey не придётся ждать годами 17 ч.
Репортаж со стенда ASUS на Computex 2026: первые ноутбуки с Nvidia RTX Spark, геймерские лэптопы и рабочие системы 4 мин.
Производители модулей памяти и материнских плат начали наращивать объёмы выпуска продукции, связанной с DDR4 2 ч.
В этом году дефицит чипов вынудит Intel наращивать даже объёмы выпуска 10-нм процессоров 3 ч.
В Meta AI может появится распознавание лиц людей через камеру очков 3 ч.
Сбербанк представил универсальный оптический вычислитель для ИИ-задач 8 ч.
Новая статья: Обзор Infinix SMART 20: каким может быть бюджетный смартфон в эпоху оперативного кризиса? 10 ч.
HP и Ferrari выпустили ярко красный ноутбук HP Limited Edition Scuderia Ferrari AI PC за $5599 11 ч.
Waymo даст вторую жизнь аккумуляторам роботакси — их превратят в накопители энергии 12 ч.
Cooler Master представила процессорный кулер V8 Ace 3DHP с «экстремальной» эффективностью теплоотвода 14 ч.
Представлен доступный смартфон Huawei nova Y74 — камера 50 Мп и батарея на 6620 мА·ч 15 ч.