Сегодня 02 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → deepseek
Быстрый переход

Выход DeepSeek V4 взвинтил спрос на ИИ-ускорители Huawei Ascend 950

После выхода ИИ-модели DeepSeek V4, специально оптимизированной для работы на чипах Huawei, в Китае резко вырос спрос на ИИ-ускорители Ascend 950, пишет агентство Reuters. По словам его источников, крупнейшие китайские интернет-компании, включая ByteDance, Tencent и Alibaba, обращаются к Huawei с заявками на новые заказы.

 Источник изображения: huaweicentral.com

Источник изображения: huaweicentral.com

Также стремятся разместить заказы на поставку Ascend 950 компании, специализирующиеся на облачных вычислениях и услугах аренды графических процессоров (GPU). Чип Ascend 950PR значительно превосходит по производительности Nvidia H20 — самый мощный чип, который Nvidia разрешалось продавать в Китае до того, как Пекин заблокировал его импорт в прошлом году. Но он всё же уступает чипу H200, который пока так и поставляется в Китай из-за разногласий Пекина и Вашингтона относительно условий его продажи.

Решение DeepSeek оптимизировать версию DeepSeek V4 специально для использования с чипами Huawei знаменует собой стратегический сдвиг от зависимости от американских полупроводников к развитию собственного китайского оборудования для ИИ-технологий, что является приоритетом для Пекина в стремлении к технологическому превосходству, отметило Reuters.

Серия Huawei Ascend 950 — в частности, вариант 950PR — является единственным китайским чипом с поддержкой технологии обработки ИИ-вычислений в более сжатом вычислительном формате, что позволяет производить больше вычислений в секунду при меньших затратах.

Сразу же после анонса платформа Bailian от Alibaba Cloud предоставила доступ к DeepSeek V4, предложив варианты V4-Pro и V4-Flash по официальным ценам разработчика. Аналогично поступила Tencent Cloud. Быстрый запуск ИИ-модели крупными облачными платформами означает, что миллионы пользователей и разработчиков теперь могут получить доступ к V4, что резко увеличивает объём запросов, и, соответственно, спрос на базовые чипы для их обработки.

DeepSeek заявила, что цена V4-Pro может значительно снизиться во второй половине 2026 года, как только кластеры на Huawei Ascend 950 начнут «поставляться в больших масштабах». Следует отметить, что из-за экспортных ограничений США на поставку передового оборудования для производства микросхем Huawei не сможет удовлетворить потребности отрасли в чипах Ascend 950.

По словам источников, Huawei планирует отгрузить около 750 тыс. единиц Ascend 950PR в этом году. Старт его серийного производства был намечен на апрель, а полномасштабные поставки должны начаться во второй половине 2026 года.

DeepSeek-V4 вышла без «вау-эффекта» — рынок уже привык к дешёвому ИИ

Реакция рынка на предварительную версию новой ИИ-модели DeepSeek-V4 пока выглядит сдержанной по сравнению с тем, что можно было наблюдать в прошлом году, когда китайский стартап анонсировал свои недорогие и производительные алгоритмы. Это указывает на то, что за прошедшее с тех пор время рынки адаптировались и привыкли к появлению недорогих и высокоэффективных ИИ-моделей.

 Источник изображения: Unsplash, Sollen Feyissa

Источник изображения: Unsplash, Sollen Feyissa

Релиз алгоритмов DeepSeek-V3 и R1, которые по заявлению разработчиков были обучены с использованием лишь части вычислительных мощностей, используемых американскими конкурентами, вызвал бурную реакцию в отрасли. Инвесторы усомнились в целесообразности огромных вложений в ИИ-инфраструктуру, которые требуются западным компаниям для обучения передовых моделей.

Сдержанная реакция на выпущенную в конце прошлой недели предварительную версию DeepSeek-V4 подчёркивает, как быстро меняется положение дел в отрасли. Рынки успели привыкнуть к недорогим и эффективным моделям, разработанным в условиях ограниченных вычислительных мощностей. За счёт этого исчез элемент неожиданности. «Этот анонс прошёл по довольно предсказуемому пути», — отметил главный аналитик Omdia Лиан Джи Су (Lian Jye Su). Он добавил, что с момента прошлого анонса DeepSeek достижения разработчиков в области архитектуры и эффективности ИИ-моделей активно изучаются в промышленных и академических кругах.

Данные бенчмарков подтверждают эту точку зрения. Согласно Artificial Analysis, DeepSeek-V4 Pro показывает значительное улучшение производительности по сравнению с предыдущими версиями, но в целом входит в число ведущих моделей с открытым кодом, а не явно превосходит конкурентов. При этом конкуренты, такие как Kimi и Qwen, постепенно сокращают отставание.

Это контрастирует с тем, что было в прошлом году. На тот момент DeepSeek, казалось, вырвалась вперёд среди китайских конкурентов, что привело к быстрому распространению алгоритма на домашнем рынке и помогло компании закрепиться в глобальных масштабах. Аналитики считают, что такой результат был вызван совпадением факторов: завышенные оценки американских технологических компаний, ожидания продолжающегося доминирования нескольких крупнейших игроков и появление относительно неизвестного китайского стартапа, показавшего неожиданно сильный результат.

«Ожидание появления новых игроков теперь заложено в оценки», — рассказал Су, отметив, что рынки стали более реалистично оценивать возможности и ограничения ИИ. В это же время усилилась конкуренция внутри Китая, поскольку несколько компаний выпускают всё более производительные модели, тем самым подрывая лидерство DeepSeek.

В понедельник фондовые рынки Южной Кореи и Тайваня достигли новых максимумов на фоне оптимизма инвесторов в отношении ценных бумаг, связанных с ИИ. В компании Ankura China Advisors заявили, что значение модели DeepSeek-V4 заключается меньше в рыночном влиянии и больше в гонке США и Китая за технологическое превосходство. Там отметили адаптацию новой модели к работе на базе ускорителей Huawei, что стало необходимостью на фоне жёстких экспортных ограничений со стороны США, из-за которых китайские компании не имеют доступа к передовым ускорителям Nvidia.

«Фактор "вау" был в прошлом году — он уже учтён в ценах. Теперь важно, сможет ли Китай продолжать продвигаться в разработке ИИ и, возможно, делать это на ускорителях собственного производства — геополитические последствия были бы значительными», — отметил представитель Ankura China Advisors.

DeepSeek снизила на 75 % цены за доступ к ИИ-модели DeepSeek-V4-Pro

DeepSeek предложила разработчикам скидку 75 % на новую флагманскую ИИ-модель DeepSeek-V4-Pro. Одновременно китайская компания в 10 раз удешевила повторные и похожие запросы на всех своих платформах за счёт кеширования входных данных.

 Источник изображения: deepseek.com

Источник изображения: deepseek.com

Резкое снижение цен DeepSeek грозит вернуть ИИ-индустрию к ценовой войне, которая вспыхнула после того, как DeepSeek устроила переполох в Кремниевой долине своей ИИ-моделью R1 в начале прошлого года. OpenAI, Anthropic и Google наперегонки выпускают новые ИИ-продукты, но их использование обходится дорого. Китайские компании рассчитывают, что разница в тарифах ускорит переход разработчиков на их платформы и изменит расклад сил в технологическом соперничестве с США.

 Источник изображения: @deepseek_ai / x.com

Источник изображения: @deepseek_ai / x.com

Однако DeepSeek рассчитывает привлечь пользователей не только ценой. Контекстное окно DeepSeek-V4 — максимальный объём данных, который модель обрабатывает за один раз, — позволяет работать со сложными кодовыми базами и объёмными документами. Модель легко подключается к Claude Code, OpenClaw и OpenCode, что упрощает её взаимодействие с более широкой ИИ-экосистемой.

«Ценообразование, открытый исходный код и контекстное окно в миллион токенов снижают порог входа для разработчиков, стартапов и малого бизнеса», — сказал Акшар Керемане (Akshar Keremane), сооснователь ИИ-стартапа O-Health. По словам Керемане, раньше разработчики не могли экспериментировать с моделями такого уровня и масштаба.

Представлена DeepSeek V4 — открытая ИИ-модель, которая потягается с лучшими решениями OpenAI и Google

Китайская компания DeepSeek выпустила предварительную версию большой языковой модели V4. Релиз состоялся спустя более чем год после того, как DeepSeek представила свою модель с поддержкой рассуждения R1, которая потрясла глобальные технологические рынки благодаря высокому уровню производительности и экономической эффективности. Также интересно, что DeepSeek V4 вышла через несколько часов после анонса OpenAI GPT-5.5.

 Источник изображения: AI

Источник изображения: AI

Как и предыдущая модель DeepSeek V3, новая версия алгоритма имеет открытый исходный код, что позволяет разработчикам разворачивать нейросеть локально и модифицировать её по собственному усмотрению. DeepSeek заявила, что V4 демонстрирует высокую производительность по сравнению с китайскими конкурентами, особенно в агентных задачах, обработке данных и логических выводах. В дополнение к этому DeepSeek V4 оптимизирована для использования с популярными ИИ-агентами, такими как OpenClaw и Anthropic Claude Code. Доступны версии «pro» и «flash», отличающиеся размером и производительностью. DeepSeek-V4-Pro предлагает 1,6 триллионов параметров (49 миллиардов активных) и производительность, «сопоставимую с лучшими в мире закрытыми моделями». DeepSeek-V4-Flash обеспечивает только 284 млрд параметров, из которых 13 млрд активных.

Версия Pro превосходит все существующие открытые модели в математике и программировании, и способна потягаться здесь даже с лучшими закрытыми моделями. А знания о мире этой модели «уступают только Gemini 3.1 Pro». В свою очередь версия Flash даёт возможности рассуждения близкие к уровню V4-Pro, и выполняет простые задачи в режиме агента на уровне V4-Pro.

DeepSeek основана в 2023 году, а внимание компания привлекла в 2024 году, когда выпустила бесплатную ИИ-модель V3 с открытым исходным кодом. Этот алгоритм оказался экономически эффективным, поскольку на его создание ушло значительно меньше средств по сравнению с западными конкурентами, например, от OpenAI и Google.

В январе 2025 года DeepSeek выпустила модель R1, которая показала аналогичную производительность или превзошла многих конкурентов. Модель R1 встревожила инвесторов, когда DeepSeek объявила, что на её создание с использованием не самых мощных ускорителей Nvidia потребовалось всего два месяца и менее $6 млн. Это поставило под сомнение лидерство США в сфере ИИ, а также огромные расходы технологических компаний на инфраструктуру для ИИ.

Аналитик MorningStar Айвен Су (Ivan Su) считает, что алгоритм V4 вряд ли окажет на индустрию такое же влияние, как R1, поскольку рынки учли то, что китайский ИИ конкурентоспособен и дешевле в использовании. Он добавил, что новая позиция DeepSeek делает другие китайские ИИ-модели с открытым исходным кодом прямыми конкурентами. «Такой формулировки не существовало во времена R1, и уже это говорит о том, насколько усилилась внутренняя конкуренция», — добавил Су.

Главный вопрос после запуска DeepSeek V4 в том, какие ускорители использовались для обучения модели. Китайский технологический гигант Huawei на этой неделе подтвердил, что его новейший вычислительный ИИ-кластер, работающий на ускорителях Ascend, может поддерживать модель DeepSeek V4. Однако не ясно, в какой степени ускорители Huawei использовались для обучения новой ИИ-модели.

Новые модели DeepSeek уже доступны в веб-версии и приложении чат-бота DeepSeek, где режим Instant основан на V4-Flash, а Expert — на V4-Pro. Разработчики также получили доступ к новинкам через API.

Tencent и Alibaba готовы инвестировать в DeepSeek — стартап уже оценивается в более чем $20 млрд

Китайские технологические гиганты Tencent Holdings и Alibaba Group ведут переговоры об инвестициях в стартап DeepSeek, занимающийся разработкой искусственного интеллекта. DeepSeek с рыночной оценкой в $20 млрд. принадлежащая китайскому хедж-фонду High-Flyer Capital Management, стремится привлечь дополнительное финансирование. Возможность инвестирования средств в DeepSeek вызвала огромный интерес у венчурных капиталистов.

Издание The Information сообщило, что DeepSeek впервые начала переговоры о привлечении внешнего капитала с целью получения не менее $300 млн дополнительного финансирования. Такие «аппетиты» подчёркивают огромные капиталовложения, необходимые для разработки и эксплуатации передовых моделей ИИ, особенно с учётом растущей сложности логических рассуждений и автономных ботов-агентов.

Переговоры все ещё продолжаются, и, согласно сообщению, как оценка, так и объем привлекаемого капитала могут измениться. Американские венчурные капиталисты оценивают риски инвестиций в DeepSeek из-за непримиримой борьбы между китайскими и американскими разработчиками ИИ и не менее непримиримой позиции правительств двух стран.

Ранее в этом году агентство Reuters сообщало, что компания не показала американским производителям чипов свою флагманскую модель для оптимизации производительности и обучила одну из своих новейших моделей на передовом чипе Nvidia, несмотря на то, что его экспорт в Китай был запрещён правительством США.

Китайскую DeepSeek оценили в $10 млрд — компания хочет привлечь $300 млн на развитие

Основные капиталы в сфере ИИ сейчас формируются в США, но это не мешает китайским стартапам типа DeepSeek демонстрировать сопоставимые результаты в своей деятельности при заметно меньшем финансировании. По слухам, DeepSeek сейчас ведёт переговоры о привлечении $300 млн, чтобы поднять свою капитализацию до $10 млрд.

 Источник изображения: Unsplash, Sollen Feyissa

Источник изображения: Unsplash, Sollen Feyissa

Напомним, что американская OpenAI сейчас оценивается в $850 млрд, а конкурирующая Anthropic её стремительно догоняет, претендуя на величину капитализации около $800 млрд. По данным The Information, на которые ссылается Reuters, ранее китайский стартап DeepSeek отверг ряд предложений местных венчурных фондов о финансировании, но теперь ведёт переговоры с инвесторами о привлечении $300 млн. Текущий уровень капитализации DeepSeek оценивается в $10 млрд.

Американские венчурные фонды не готовы вкладываться в китайский DeepSeek, опасаясь претензий американских регуляторов, поскольку сфера искусственного интеллекта считается полем острой конкуренции между США и КНР, и власти первой из стран не одобряют финансирование соответствующих отраслей китайской экономики. Китайские власти также вмешиваются в развитие DeepSeek, предположительно настаивая на использовании ускорителей китайского происхождения для обучения местных ИИ-моделей. Считается, что DeepSeek при этом пытается ради достижения лучших результатов получать доступ к наиболее современным ускорителям американской Nvidia.

Основатель DeepSeek назвал дату выхода флагманской модели V4

Основатель компании DeepSeek Лян Вэньфэн (Liang Wenfeng) подтвердил в ходе внутреннего общения с сотрудниками, что флагманская модель следующего поколения DeepSeek V4 будет официально представлена в конце апреля 2026 года. По сообщению AIBase, система впервые получит многоуровневый режим работы, а релиз совпадёт с выходом конкурирующей модели Tencent.

 Источник изображения: AI

Источник изображения: AI

Быстрый режим (Fast Mode) ориентирован на повседневные диалоги и мгновенные ответы, поддерживает распознавание текста на изображениях и в файлах с акцентом на скорость работы. Экспертный режим (Expert Mode) разработан для решения задач со сложной логикой и глубоким анализом, обладает усиленными возможностями интеллектуального поиска. Однако этот режим пока не поддерживает загрузку файлов и мультимодальные функции, а в часы пик может потребоваться ожидание.

 Источник изображения: aibase.com

Источник изображения: aibase.com

Несмотря на приближающийся релиз новой модели, текущая ситуация в DeepSeek характеризуется контрастами. Пользователи отметили существенные улучшения в логической обработке данных и возможностях программирования. Однако платформа три дня подряд испытывает масштабные технические сбои, включая один сбой продолжительностью до 12 часов. Эксперты отрасли рассматривают это как «болезненный период» переходного этапа между старой и новой моделями.

Дата релиза DeepSeek V4 выбрана в условиях высокой конкуренции. Команда Яо Шунью (Yao Shunyu) в Tencent также планирует выпустить новую модель под названием Hunyuan в следующем месяце. Таким образом, конец апреля станет временем прямого соперничества между двумя ведущими китайскими разработчиками базовых ИИ-моделей, что может повлиять на расстановку сил в индустрии.

Поддержка ИИ-моделью DeepSeek V4 ускорителей Huawei вызвала рост спроса на них в Китае

Для разработчиков систем искусственного интеллекта поддержка определённых аппаратных решений на уровне привычного программного обеспечения имеет огромное значение, поскольку миграция на новую платформу требует не только финансовых затрат, но и вынуждает терять драгоценное время. Китайская DeepSeek свою модель V4 адаптировала под ускорители Huawei, в результате чего популярность последних заметно выросла.

 Источник изображения: Huawei Technologies

Источник изображения: Huawei Technologies

Об этом сообщает Reuters со ссылкой на The Information. Наличие такой совместимости, по данным источника, уже позволило Alibaba, ByteDance и Tencent разместить заказы на новейшую версию ускорителей Huawei семейства Ascend в количестве нескольких сотен тысяч штук. Дебют модели DeepSeek V4 намечен на ближайшие недели. Как уточняется, этот разработчик ИИ-систем плотно сотрудничал с Huawei и конкурирующей Cambricon Technologies, чтобы адаптировать новую ИИ-модель к особенностям аппаратного обеспечения двух последних компаний.

Модель DeepSeek V4 выйдет как минимум в двух дополнительных вариантах, учитывающих особенности ускорителей китайской разработки. Ранее сообщалось, что DeepSeek не стала делиться предварительными итогам разработки своей передовой модели с американскими поставщиками чипов для ИИ, нарушив негласную отраслевую практику. Вместо этого ранний доступ к программному коду DeepSeek V4 получили китайские разработчики чипов, включая Huawei Technologies. Интерес к новой ИИ-модели DeepSeek в мировом сообществе высок, поскольку предыдущие решения этой китайской компании серьёзно перекроили расстановку сил на рынке, нарушив намечавшуюся гегемонию американских моделей с закрытым исходным кодом.

В Сети всплыла «ничейная» мощная ИИ-модель — в ней заподозрили разработку DeepSeek

Мощная ИИ-модель без указания авторства, появившаяся недавно на платформе OpenRouter, породила слухи о том, что китайский стартап DeepSeek может в скрытом режиме тестировать свою систему следующего поколения перед официальным запуском. Бесплатная модель под названием Hunter Alpha возникла на OpenRouter 11 марта без какой-либо атрибуции разработчика и позже была промаркирована самой платформой как «скрытая модель».

 Источник изображения: AI

Источник изображения: AI

Во время тестов, проведённых агентством Reuters, чат-бот Hunter Alpha описал себя как китайскую ИИ-модель, обученную преимущественно на китайском языке, и сообщил, что его данные обучения охватывают период до мая 2025 года. Эта дата знаний совпадает с точкой, указанной собственным чат-ботом компании DeepSeek. Однако, когда собеседник спросил о создателе системы, она отказалась идентифицировать разработчика, заявив, что знает только своё имя, масштаб параметров и длину контекстного окна. Ни компания DeepSeek, ни платформа OpenRouter также не назвали создателя модели и не ответили на запросы о комментарии.

Страница профиля Hunter Alpha раскрывает её внушительные технические характеристики: модель обладает 1 трлн параметров, что подразумевает высокие требования к вычислительным мощностям. Кроме того, система поддерживает контекстное окно до 1 млн токенов, позволяя обрабатывать огромные объёмы текста за один сеанс. Инженер, специализирующийся на создании ИИ-агентов, Набиль Хауам (Nabil Haouam), отметил, что сочетание окна в 1 млн токенов, возможностей логического рассуждения и бесплатного доступа сразу бросается в глаза, поскольку аналогичные по характеристикам модели обычно требуют значительных затрат при масштабировании.

Именно эти значения (1 трлн параметров и 1 млн токенов контекста) связывают с грядущей моделью DeepSeek V4, чей выход прогнозируется в апреле. Совпадение породило волну слухов о том, что Hunter Alpha может быть ранней тестовой версией нового продукта китайского стартапа. Анализ модели, также проведённый инженером Дэниелом Дьюхерстом (Daniel Dewhurst), показал, что ключевым сигналом может служить паттерн цепочки рассуждений. По его словам, стиль логических построений, который использует чат-бот, очень трудно подделать, и он обычно отражает метод обучения модели.

Тем не менее не все разделяют эту уверенность. Умур Озкул (Umur Ozkul), проведя независимый бенчмарк, заявил, что его анализ указывает на то, что Hunter Alpha, вероятно, не является DeepSeek V4. Он сослался на различия в поведении, связанном с токенами, и архитектурных паттернах по сравнению с существующими системами DeepSeek.

Независимо от авторства модель быстро набрала популярность. Согласно статистике OpenRouter, по состоянию на воскресенье она обработала более 160 млрд токенов. Значительная часть активности исходила от инструментов разработки и фреймворков для ИИ-агентов. Отметим, что практика анонимного запуска моделей не является чем-то исключительным — это распространённый способ получения разработчиками объективной обратной связи от сообщества.

Мультимодальная ИИ-модель DeepSeek-V4 с контекстным окном в 1 млн токенов выйдет в апреле

С тех пор, как в январе прошлого года DeepSeek выпустила рассуждающую ИИ-модель DeepSeek-R1, которая получила широкую известность, крупных обновлений не выходило. Слухи о появлении новой ИИ-модели от DeepSeek время от времени вызывают волну обсуждений в интернете, но, по всей видимости, в следующем месяце состоится релиз мультимодальной модели DeepSeek-V4, которая получит значительные улучшения по сравнению с предыдущей версией.

 Источник изображения: mp.weixin.qq.com

Источник изображения: mp.weixin.qq.com

По данным источника, последние полгода команда разработчиков DeepSeek во главе с сооснователем компании Лян Вэньфэном (Liang Wenfeng) работала над устранением недостатков DeepSeek в плане обработки визуального контента и улучшением ИИ-поиска. Компания стремилась улучшить способности ИИ-модели в области генерации программного кода, а также работала над расширением контекстного окна. Для достижения поставленных целей ещё в прошлом году DeepSeek начала сотрудничать с Baidu.

Пользователи платформ для профессионалов по всему миру пытаются уловить признаки появления новой версии DeepSeek. Несколько дней назад на OpenRouter, крупнейшем агрегаторе API для ИИ-моделей, появились алгоритмы Healer Alpha и Hunter Alpha. Модель Healer Alpha — это мультимодальная языковая модель, способная воспринимать визуальную и звуковую информацию, проводить кросс-модальные рассуждения и с высокой точностью выполнять многошаговые задачи. При этом размер контекстного окна алгоритма составляет всего 260 тыс. токенов. Hunter Alpha создана специально для агентных приложений. Это модель с триллионами параметров и контекстным окном в 1 млн токенов. В описании сказано, что алгоритм хорошо справляется с долгосрочным планированием, сложными рассуждениями и непрерывным выполнением многошаговых задач. Она может точно следовать полученным инструкциям, что важно при работе с фреймворками вроде OpenClaw, позволяющими создавать ИИ-агентов.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

На фоне появления этих двух языковых моделей в соцсети X снова поднялась волна обсуждений о скором выходе DeepSeek-V4. Однако, судя по предыдущим публичным сообщениям о DeepSeek-V4, модель обладает десятками триллионов параметров, контекстным окном в 1 млн токенов, а также способностью понимать и генерировать мультимодальные данные, т.е. обрабатывать и создавать текст, изображения и видео. Это означает, что характеристики недавно появившихся на OpenRouter алгоритмов не в полной мере соответствуют ожидаемым параметрам DeepSeek-V4.

По данным источника, направление развития следующей версии DeepSeek связано с улучшением долгосрочной памяти, считающейся одной из важнейших характеристик языковых моделей. За последние полгода Лян Вэньфэн стал соавтором трёх научных работ, связанных, в том числе, с изучением возможностей расширения долгосрочной памяти языковых моделей.

Результаты исследований Вэньфэна и его команды также демонстрируют чёткую траекторию технологической эволюции. Утвердив парадигму обучения с подкреплением для способностей к рассуждению в DeepSeek-R1, разработчики исследуют дальнейшие инновации в базовой архитектуре. В частности, через новые модули, такие как «условная память», они пытаются повысить производительность алгоритма, решив известные проблемы традиционной архитектуры в части памяти и вычислительных мощностей. Эта деятельность также является технологической подготовкой к запуску DeepSeek-V4. Кроме того, новый алгоритм будет глубоко адаптирован под китайские ИИ-ускорители и может стать первой ИИ-моделью, полностью работающей в рамках «экосистемы отечественных вычислительных мощностей».

В апреле на рынке китайских ИИ-моделей ожидается высокая активность. Помимо появления новой версии DeepSeek, ожидается запуск очередной ИИ-модели Tencent с 30 млрд параметров.

Новейшая ИИ-модель DeepSeek V4 должна быть оптимизирована под китайские ускорители вычислений

На этой неделе, как сообщает Financial Times, китайская DeepSeek должна представить долгожданную мультимодальную ИИ-модель V4, которая была оптимизирована под использование ускорителей Huawei и Cambricon. В совокупности это позволит китайским компаниям добиться определённых успехов во внедрении технологий ИИ без чрезмерной зависимости от импортных решений.

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

По данным источника, сроки анонса модели DeepSeek V4 будут привязаны к парламентскому заседанию в КНР, которое начнётся 4 марта. Данный релиз для DeepSeek станет крупнейшим с января прошлого года, когда была представлена рассуждающая модель R1. Тогда утверждалось, что китайской компании удалось создать сопоставимую по эффективности с западными решениями ИИ-модель при значительно меньших затратах. Позже выяснилось, что DeepSeek не только могла использовать данные американских моделей для обучения своих, но и опираться на ускорители вычислений Nvidia, которые в необходимом компании ассортименте моделей находятся в КНР под санкциями.

Как ожидается, оптимизация DeepSeek V4 под ускорители Huawei и Cambricon будет способствовать росту спроса на эти аппаратные решения в Китае, а также снижению импортозависимости. DeepSeek якобы даже намеренно не оптимизировала свою новейшую модель под ускорители Nvidia. Ранее сообщалось, что первые попытки DeepSeek обучать модель V4 на ускорителях Huawei не увенчались особым успехом. Аннотация к DeepSeek V4 выйдет на этой неделе в сокращённом виде, но примерно через месяц будет опубликована в полном размере. Американская Anthropic недавно обвинила DeepSeek в «дистилляции» собственных ИИ-моделей.

DeepSeek отвернулась от Nvidia в пользу Huawei при подготовке новой ИИ-модели

Как утверждает Reuters, в мировой практике разработки больших языковых моделей подразумевается заключительный этап, на котором перед их выходом на рынок они подвергаются оптимизации силами поставщиков ускорителей вычислений. DeepSeek при доводке своей новейшей ИИ-модели отдала предпочтение Huawei и другим китайским производителям ускорителей.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Суть заключается в том, как поясняет Reuters, что традиционно «право первой брачной ночи» предоставлялось ведущим американским поставщикам ускорителей, а именно — компании Nvidia. Подготовка ИИ-моделей DeepSeek ранее тоже следовала этому правилу, но в случае с новейшей V4 китайские разработчики отдали предпочтение соотечественникам типа Huawei и других поставщиков ускорителей из КНР. За несколько недель до выхода новой ИИ-модели DeepSeek открыла доступ к ней именно китайским поставщикам ускорителей. Это позволит оптимизировать программное обеспечение под особенности данной аппаратной базы и затем добиться более высокой эффективности работы модели.

По словам независимых разработчиков, современные средства оптимизации позволяют провести такую работу в считанные недели против нескольких месяцев ранее. По всей видимости, подобная расстановка приоритетов в случае с DeepSeek является частью политики, проводимой китайскими властями. Оборудование и программное обеспечение местного происхождения должно получать приоритет по сравнению с американскими. Правда, эти новости не очень уживаются с ранними сообщениями об использовании DeepSeek секретного ЦОД на основе ускорителей Nvidia поколения Blackwell для обучения своей новейшей ИИ-модели. Американские чиновники считают, что DeepSeek постарается скрыть факт использования ускорителей Blackwell при подготовке новой модели к выходу, а также заявить об использовании ускорителей Huawei.

Санкции не помеха: DeepSeek могла обучить ИИ на запрещённых Nvidia Blackwell

Несмотря на некоторое смягчение политики экспортных ограничений США в отношении поставок в Китай ускорителей вычислений для систем ИИ, решения Nvidia семейства Blackwell остаются в этой стране под запретом. Это не помешало китайской DeepSeek, по данным некоторых источников, обучить свою новейшую ИИ-модель именно на этих ускорителях.

 Источник изображения: Nvidia

Источник изображения: Nvidia

На следующей неделе, как поясняет Reuters, китайская DeepSeek представит свою новейшую ИИ-модель, и у источника есть все основания полагать, что она была обучена с использованием санкционных ускорителей Nvidia Blackwell, которые эксплуатируются во Внутренней Монголии — регионе Китая, обладающем определённой автономией. Соответствующей информацией располагают американские чиновники, а это может стать поводом для определённых действий в отношении китайских разработчиков ИИ. Как последние получили доступ к ускорителям Blackwell в условиях санкций, источники не поясняют.

В целом, американские политики разделились на два лагеря. Одни под воздействием основателя Nvidia Дженсена Хуанга (Jensen Huang) склонились к идее о необходимости сохранения зависимости Китая от поставок американских ускорителей вычислений, которые могут отставать от передовых на одно или два поколения. Другие считают, что предоставление Китаю доступа к таким инструментам сродни передаче ему ядерного оружия по доброй воле. Американские чиновники опасаются, что китайские ИИ-решения будут поставлены на службу оборонной отрасли КНР.

Принято считать, что в августе прошлого года американский президент Дональд Трамп (Donald Trump) был близок к выдаче разрешения на поставку в Китай модифицированных ускорителей Blackwell, которые отставали бы от предлагаемых в США по уровню быстродействия. Вместо этого в декабре Трамп разрешил поставки в КНР ускорителей H200 с более старой архитектурой Hopper. Учитывая растущее количество жалоб американских разработчиков на хищение данных со стороны китайских конкурентов, американские власти могут ввести дополнительные ограничения в сфере ИИ на китайском направлении экспорта.

Anthropic обвинила DeepSeek и ещё двух китайских конкурентов в 16 млн попыток дистилляции моделей Claude

OpenAI в этом месяце уже предупреждала американских законодателей в применении китайской компанией DeepSeek метода дистилляции её ИИ-моделей для ускорения собственного прогресса. Теперь со схожими обвинениями выступила Anthropic, причём в адрес сразу трёх китайских конкурентов: DeepSeek, MiniMax Group и Moonshot.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

По словам представителей Anthropic, на которые ссылается Bloomberg, три указанные китайские компании нарушили правила использования её моделей семейства Claude, осуществив не менее 16 млн сессий обмена данными с использованием тысяч поддельных учётных записей. Метод дистилляции в сфере обучения моделей позволяет разработчикам добиваться прогресса в сжатые сроки, совершенствуя свои системы на основе данных, получаемых от уже обученных сторонних моделей.

Как отмечает Anthropic в своём блоге, действия китайских разработчиков в этой сфере становятся всё более активными и изощрёнными. При этом окно времени для решительных ответных действий становится всё более узким, а угроза распространяется за пределы одной компании и конкретного региона.

Триумф китайской DeepSeek состоялся примерно год назад, когда она представила свою модель R1, которая при сопоставимой результативности обошлась в обучении в разы дешевле создаваемых западными конкурентами. С тех пор китайские разработчики буквально наводнили рынок более доступными ИИ-моделями, которые позволяют работать с текстом, видео и изображениями. Американским компаниям, которые опираются на закрытую экосистему, стало сложнее монетизировать свои разработки.

По данным Anthropic, китайские конкуренты использовали подставные учётные записи и прокси-серверы для доступа к данным Claude с минимальным риском обнаружения. Если DeepSeek осуществила более 150 000 обменов данными с Claude, то MiniMax преодолела планку в 13 млн обменов, пытаясь воссоздать передовые функции по примеру Claude, как считают в Anthropic. Отследить подобную активность Anthropic помогли партнёры, и в достоверности своих выводов компания очень уверена. Она формирует новые методы защиты от дистилляции своих моделей и готова делиться ими с другими представителями отрасли: «Ни одна из компаний не сможет с этим справиться в одиночку. Дистилляционные атаки такого масштаба требуют скоординированного ответа всей ИИ-отрасли, включая провайдеров облачных услуг и регуляторов».

OpenAI обвинила китайскую DeepSeek в краже данных для обучения ИИ-модели R1

Агентство Bloomberg со ссылкой на служебную записку OpenAI сообщает, что создатели ChatGPT обвинили китайскую DeepSeek в использовании ухищрений, позволяющих добывать информацию американских ИИ-моделей для обучения китайского чат-бота R1 следующего поколения. Соответствующий доклад был направлен американским парламентариям, по данным источника.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

По мнению представителей OpenAI, китайский конкурент использовал метод так называемой дистилляции, чтобы «бесплатно выехать на успехе технологий, разработанных OpenAI и других передовых американских компаний». Создателям ChatGPT якобы удалось выявить новые изощрённые методы получения доступа китайской DeepSeek к информации американских ИИ-моделей, которые призваны обходить существующие методы защиты. Беспокойство на эту тему OpenAI и Microsoft проявили ещё в прошлом году, когда начали соответствующее расследование в отношении деятельности DeepSeek. Метод дистилляции позволяет ускорить обучение сторонних ИИ-моделей с использованием данных уже обученных систем.

Анализ активности на собственной платформе, как отмечает OpenAI, позволяет говорить об участившихся случаях применения дистилляции сторонними разработчиками ИИ-моделей — преимущественно расположенными в Китае, хотя в отчёте упоминается и Россия. Поскольку DeepSeek не предлагает своим клиентам платных подписок, как и многие другие китайские провайдеры подобных услуг, они получают большее распространение, чем проприетарные коммерческие решения западного происхождения, по мнению авторов доклада. Это угрожает мировому главенству ИИ-моделей американской разработки, как резюмируют они в своём обращении к специальному комитету американского парламента.

Полученные методом дистилляции сторонние ИИ-модели, по словам представителей OpenAI, нередко лишены тех ограничений, которые устанавливаются создателями исходных систем, а потому могут использоваться во вред человечеству или отдельным странам. Попытки OpenAI оградить себя от дистилляции китайскими разработчиками успехом не увенчались, поскольку представители DeepSeek якобы получали доступ к американским ИИ-моделям разного рода окольными путями. По словам представителей OpenAI, существуют целые сети посредников, которые предоставляют доступ к услугам компании в обход существующих ограничений. Для американских чиновников существование подобных практик тоже не является откровением, отмечает Bloomberg.

Американские политики обеспокоены и возможностью получения компанией DeepSeek доступа к более современным ускорителям вычислений Nvidia H200, поскольку их поставки в Китай в прошлом году успел разрешить американский президент Дональд Трамп (Donald Trump). В сочетании с существующими методами обучения своих моделей, DeepSeek могла бы в результате добиться существенного прогресса. Прежние расследования уже выявили, что DeepSeek использовала для обучения своих предыдущих ИИ-моделей оборудование Nvidia, хотя основная его часть была доставлена в Китай в рамках существовавших на тот момент правил экспортного контроля США. Политики теперь опасаются, что доступ DeepSeek к более современным чипам H200 сильнее навредит позициям США на мировой технологической арене.


window-new
Soft
Hard
Тренды 🔥