Сегодня 04 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа»

С развёртыванием ускорителей искусственного интеллекта на архитектуре Nvidia Blackwell стоимость инференса, то есть запуска обученных систем ИИ, удалось сократить в 4–10 раз. Такие данные привела сама Nvidia. Но за счёт одной только аппаратной части добиться подобных результатов не получилось бы.

 Источник изображений: nvidia.com

Источник изображений: nvidia.com

Значительного снижения затрат удалось добиться за счёт запуска ускорителей на архитектуре Nvidia Blackwell и моделей с открытым исходным кодом в инфраструктуре облачных операторов Baseten, DeepInfra, Fireworks AI и Together AI для задач, связанных со здравоохранением, играми, агентским ИИ и обслуживанием клиентов. Ещё один фактор — оптимизированные программные стеки. Перевод оборудования на Nvidia Blackwell помог сократить стоимость инференса вдвое по сравнению с ускорителями предыдущего поколения, а дальнейшему снижению затрат способствовал перевод систем в форматы пониженной точности, такие как NVFP4.

Компания Sully.ai добилась сокращения затрат на вывод данных ИИ в области здравоохранения на 90 %, то есть в десять раз; время отклика улучшилось на 65 % за счёт перехода от закрытых к открытым моделям ИИ в инфраструктуре Baseten. Автоматизация задач по написанию кода и ведению медицинских записей помогла сэкономить специалистам 30 млн минут рабочего времени. Latitude на своей платформе AI Dungeon сократила затраты на вывод данных ИИ в четыре раза. Для этого она запустила в инфраструктуре DeepInfra модели с конфигурацией «смеси экспертов» (MoE), снизив стоимость 1 млн токенов с $0,20 до $0,10, а перевод системы на низкоточный формат данных NVFP4 помог сократить цену до $0,05.

Sentient Foundation повысила экономическую эффективность платформы агентного чата на 25–50 % за счёт оптимизированного для Blackwell стека обработки данных Fireworks AI — платформа управления сложными рабочими процессами в неделю вирусного запуска обработала 5,6 млн запросов без ущерба для величины задержки. Decagon шестикратно снизила затраты на запрос для голосовой поддержки клиентов с ИИ, запустив многомодельный стек в инфраструктуре Together AI на ускорителях Blackwell. Время ответа сохранялось менее 400 мс даже при обработке нескольких тысяч токенов на запрос, что критически важно при голосовом взаимодействии, когда клиенты в любой момент могут прервать разговор.

Значение имеют характеристики рабочей нагрузки. ИИ-ускорители Blackwell успешно работают с «рассуждающими» ИИ-моделями, потому что для получения более качественных ответов те генерируют большее число токенов. Платформы эффективно обрабатывают эти расширенные последовательности за счёт дезагрегированного обслуживания — отдельной обработки предварительного заполнения контекста и собственно генерации токенов. При оценке затрат эти аспекты следует учитывать: при высоких объёмах генерации токенов можно добиться десятикратного повышения эффективности; уменьшенная генерация токенов в моделях высокой плотности ведёт лишь к четырёхкратному росту показателей.

В приведённых выше примерах речь идёт об ускорителях Nvidia Blackwell, но есть и альтернативные способы снижения затрат на вывод данных. Например, перевод систем на ускорители AMD Instinct MI300, Google TPU, а также специализированное оборудование Groq и Cerebras. Собственные средства оптимизации развёртывают и облачные провайдеры. Поэтому вопрос не в том, является ли архитектура Blackwell единственным вариантом, а в том, соответствует ли конкретное сочетание оборудования, ПО и моделей ИИ требованиям конкретной рабочей нагрузки.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft принудительно обновит до Windows 11 25H2 компьютеры с более старыми версиями ОС 51 мин.
В руководстве OpenAI провели очередные кадровые перестановки — частично вынужденные 2 ч.
Nvidia показала нейронное сжатие текстур: потребление видеопамяти упало почти в 7 раз 2 ч.
Суд обязал Netflix вернуть деньги за необоснованное повышение стоимости подписок, но только в одной стране 5 ч.
Anthropic ввела дополнительную плату за подключение OpenClaw к Claude 5 ч.
На Perplexity подали в суд за тайную передачу личных данных и переписок пользователей рекламщикам 5 ч.
Техподдержка NASA удалённо починила Microsoft Outlook на планшете командира лунной миссии Artemis II 5 ч.
Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами 11 ч.
Поддержка ИИ-моделью DeepSeek V4 ускорителей Huawei вызвала рост спроса на них в Китае 11 ч.
Новая статья: Life is Strange: Reunion — отчаяние приводит к успеху. Рецензия 16 ч.
ИИ на селе: NetApp и NTT протестировали геораспределённое обучение LLM 33 мин.
Учёные впервые наблюдали, как нечто внутри потока света двигалось быстрее него 44 мин.
Стартап CavilinQ получил $8,8 млн на разработку квантового интерконнекта для объединения квантовых компьютеров 2 ч.
Корабль Orion миссии Artemis II преодолел больше половины пути к Луне 3 ч.
Специалисты iFixit разобрали наушники Apple AirPods Max 2 — внутренняя компоновка не изменилась 3 ч.
Беспроводная оптическая связь внутри помещений показала новые рекорды скорости и эффективности 4 ч.
Apple распродала все Mac Studio с 256 Гбайт оперативки — сроки доставки растянулись до 4–5 месяцев 6 ч.
Удачно прилунившийся модуль Firefly Aerospace Blue Ghost рассказал о Луне нечто неожиданное 7 ч.
Китайские производители чипов завершили прошлый год рекордными объёмами выручки 9 ч.
Тестовый полёт космического корабля SpaceX Starship V3 в очередной раз перенесён на месяц 11 ч.