Сегодня 18 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Журналисты нашли подтверждения, что новой студии создателя Yakuza больше не существует 18 мин.
Операция «Откат»: ранние инвесторы стартапа Manus вернут Цукербергу $2 млрд за заблокированную Китаем сделку 53 мин.
В ОАЭ запретили соцсети для детей до 15 лет и ввели проверку возраста 2 ч.
«Крёстный отец ИИ» назвал xAI провалом и пригрозил взрывом «пузыря ИИ» 2 ч.
Новый вариант CAPTCHA от Google требует от пользователей махать руками перед компьютером 3 ч.
Создатель Deus Ex рассказал, что произошло с многострадальной System Shock 3 4 ч.
Инструмент для дизайнеров Claude Design получил тонкие настройки редактирования и экономию токенов 6 ч.
В скандале с блокировкой Anthropic Fable 5 оказался замешан корейский оператор связи 6 ч.
Nvidia представила бета-версию открытого ACE Game Agent SDK для добавления ИИ-персонажей в игры 7 ч.
Apple тайно следит за каждым введённым пользователем символом в поиске App Store 7 ч.
Sennheiser представила TWS-наушники открытого типа Accentum Clip 2 ч.
Илон Маск может объединить SpaceX и Tesla, и помешать ему вряд ли получится 2 ч.
Сирия подозревает, что подводный интернет-кабель, связывающий страну с Египтом, повреждён в результате «систематического саботажа» 2 ч.
Российский производитель оптических кабелей «Инкаб» хочет привлечь во время IPO до 2,4 млрд рублей при капитализации до 8,8 млрд рублей 3 ч.
FortiBleed: хакеры украли пароли 75 тыс. межсетевых экранов Fortinet 3 ч.
Крупнейший производитель электролитических конденсаторов поднимает цены — и тут тоже виноват ИИ-бум 3 ч.
AMD опубликовала предварительную информацию о Ryzen Threadripper TR6 Mustang Peak 4 ч.
Новости о готовности техпроцесса Intel 18A-P отправили акции ASML к годовому максимуму 4 ч.
Мировые объёмы продаж смартфонов падают уже девятую неделю подряд 5 ч.
Midjourney неожиданно изобрела водяной УЗ-сканер с ИИ, который заменяет МРТ и сканирует всё тело за 60 секунд 5 ч.