Сегодня 18 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Epic Games пообещала, что ИИ в Unreal Engine 6 «изменит создание игр» и «сократит рутину» у разработчиков 16 мин.
Adobe добавила в Photoshop и Premiere ИИ-помощников 22 мин.
Журналисты нашли подтверждения, что новой студии создателя Yakuza больше не существует 2 ч.
Операция «Откат»: ранние инвесторы стартапа Manus вернут Цукербергу $2 млрд за заблокированную Китаем сделку 2 ч.
В ОАЭ запретили соцсети для детей до 15 лет и ввели проверку возраста 3 ч.
«Крёстный отец ИИ» назвал xAI провалом и пригрозил взрывом «пузыря ИИ» 3 ч.
Новый вариант CAPTCHA от Google требует от пользователей махать руками перед компьютером 4 ч.
Создатель Deus Ex рассказал, что произошло с многострадальной System Shock 3 5 ч.
Инструмент для дизайнеров Claude Design получил тонкие настройки редактирования и экономию токенов 7 ч.
В скандале с блокировкой Anthropic Fable 5 оказался замешан корейский оператор связи 7 ч.
США оштрафовали немецкую Bosch на $36 млн за поставки Huawei без разрешения 4 мин.
BYD выпустила флагманский электрический кроссовер за $35 500 — на него оформили 150 000 предзаказов 8 мин.
В США начали строить лишь половину ЦОД, которые должны заработать в 2026 году 38 мин.
Первые устройства с поддержкой HDMI 2.2 выйдут в следующем году 41 мин.
Космические дата-центры будут втрое дороже наземных — если не придумать, как сэкономить на запусках 52 мин.
Sennheiser представила TWS-наушники открытого типа Accentum Clip 3 ч.
Илон Маск может объединить SpaceX и Tesla, и помешать ему вряд ли получится 3 ч.
Сирия подозревает, что подводный интернет-кабель, связывающий страну с Египтом, повреждён в результате «систематического саботажа» 3 ч.
Российский производитель оптических кабелей «Инкаб» хочет привлечь во время IPO до 2,4 млрд рублей при капитализации до 8,8 млрд рублей 4 ч.
FortiBleed: хакеры украли пароли 75 тыс. межсетевых экранов Fortinet 4 ч.