Сегодня 13 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Главный китайский поисковик интегрирует трендового ИИ-агента OpenClaw в мобильное приложение 6 мин.
Россияне массово пожаловались на сбои в работе Discord, Valorant и других сервисов 13 мин.
«Google Документы» научились кратко пересказывать текстовые файлы 53 мин.
Культовый шутер Unreal Tournament 2004 вернулся из цифрового небытия и официально доступен бесплатно 55 мин.
Хакеры-пираты Anna’s Archive начали публиковать музыку, украденную у Spotify — несмотря на иск на $13 трлн 3 ч.
Вирусы научились напрямую обращаться к ИИ в реальном времени во время кибератак 3 ч.
ИИ-агент впервые попытался публично очернить программиста за отказ принять его код 3 ч.
Valve скоро добавит в Steam возможность прикреплять к обзорам данные о своём ПК — игроки в восторге 3 ч.
Microsoft взяла курс на «самодостаточность» в ИИ — собственные модели вместо зависимости от OpenAI 4 ч.
Возвращение в Раккун-Сити, старый знакомый и судьба Леона: новый геймплейный трейлер Resident Evil Requiem заинтриговал и встревожил фанатов 5 ч.
Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа» 2 ч.
Житель Германии отправился в Африку за 5000 км, чтобы вернуть украденный iPhone 2 ч.
Lenovo нарастила выручку от СЖО на 300 % — здесь снова замешан ИИ 2 ч.
NASA запустило миссию Crew-12 с россиянином на борту — капсула SpaceX Dragon успешно достигла орбиты 3 ч.
Cisco нашла оправдание повышению цен, несмотря на рекордную выручку 4 ч.
Учёные обнаружили редкий случай рождения чёрной дыры без взрыва сверхновой 4 ч.
От «можем заменить» к «инженерной трезвости»: российские разработчики пересматривают подходы к импортозамещению 5 ч.
G42 из ОАЭ подписала соглашение о строительстве трёх дата-центров во Вьетнаме за $1 млрд 5 ч.
ECL представила всеядную энергетическую архитектуру для периферийных ИИ ЦОД 5 ч.
Backblaze назвала самые надёжные и проблемные HDD — общий уровень отказов за 2025 год упал до 1,36 % 6 ч.