Сегодня 07 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → deepseek
Быстрый переход

Китайские ИИ-модели с открытым исходным кодом уже заняли 15 % мирового рынка

Прошлогодний успех первой ИИ-модели DeepSeek в целом привлёк внимание общественности к китайским разработкам в этой сфере, которые чаще всего сохраняют исходный код открытым, позволяя сторонним разработчикам использовать соответствующее ПО для своих нужд. Доступность китайских решений способствовала быстрому росту их популярности в мире.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

По данным Nikkei, на которые ссылается TrendForce, в ноябре прошлого года китайские ИИ-модели благодаря использованию открытого исходного кода смогли увеличить своё присутствие на мировом рынке с 1 до 15 %. По статистике, более 40 % создаваемых китайскими компаниями ИИ-моделей используются в достаточно сложных задачах типа разработки ПО. Самой популярной в мире ИИ-платформой с открытым исходным кодом остаётся Qwen компании Alibaba, поскольку пользователи по состоянию на текущий месяц скачали её более 700 млн раз. Alibaba в целом предлагает клиентам широкий выбор ИИ-моделей с открытым исходным кодом, количество параметров у них варьируется от 600 млн до десятков миллиардов.

Если говорить о DeepSeek, то она готовится в ближайшее время представить свою ИИ-модель нового поколения, а в рейтинге Nikkei её выпущенная в декабре модель при работе с японским языком демонстрирует быстродействие, соответствующее девятому месту из 92. Среди моделей с открытым исходным кодом DeepSeek предлагает самую быструю, за ней следует Alibaba Qwen, а версии моделей Google и OpenAI с открытым исходным кодом уступают им обеим. В Японии шесть из десяти разрабатываемых местными компаниями ИИ-моделей построены на DeepSeek и Qwen.

Глава Google DeepMind оценил отставание китайских ИИ-моделей в шесть месяцев

Генеральный директор DeepMind Демис Хассабис (Demis Hassabis) на прошлой неделе уже заявлял, что отставание китайских ИИ-моделей от западных за последние пару лет заметно сократилось, но оно всё же измеряется несколькими месяцами. В интервью Bloomberg на форуме в Давосе он предпочёл определить этот разрыв величиной в шесть месяцев.

 Источник изображения: Isomorphic Labs

Источник изображения: Isomorphic Labs

Как отметил Демис Хассабис, китайские разработчики неплохо себя проявили в преследовании лидеров отрасли, но им лишь представить доказать, что они способны опередить их и преодолеть соответствующий барьер на уровне инноваций. Прошлогоднюю модель китайской DeepSeek глава DeepMind до сих пор называет «впечатляющей». Любопытно, что не все ведущие западные игроки ИИ-сегмента положительно оценивают решение властей США открыть поставки ускорителей Nvidia H200 в Китай. По мнению главы Anthropic Дарио Амодеи (Dario Amodei), поставки таких ускорителей в Китай схожи с продажей ядерного оружия в Северную Корею.

DeepMind в составе Google работает не только над совершенствованием ИИ-ассистента на базе Gemini, но и интересуется направлением робототехники, которая всё чаще ассоциируется у участников рынка со следующим по важности воплощением искусственного интеллекта. По мнению Хассабиса, в сфере «физического ИИ» в скором времени должны произойти прорывные изменения. При этом перед разработчиками стоят сложные проблемы. «Очень сложно добиться надёжности, силы и подвижности человеческой кисти», — признаётся глава DeepMind.

DeepSeek научилась тренировать языковые ИИ-модели без оглядки на ограничения по скорости памяти

Как отмечалось недавно, пропускная способность памяти, используемой в инфраструктуре ИИ, становится одним из серьёзных ограничителей дальнейшего роста быстродействия языковых моделей. Представители DeepSeek утверждают, что разработали метод обучения ИИ-моделей, который позволяет обойти подобные ограничения со стороны памяти.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Группа исследователей Пекинского университета в сотрудничестве с одним из основателей DeepSeek Лян Вэньфэном (Liang Wenfeng) опубликовала научную работу, в которой рассматривается новый подход к обучению языковых моделей, позволяющий «агрессивно увеличивать количество параметров» в обход ограничений, накладываемых подсистемой памяти используемых в ускорителях GPU.

От DeepSeek ожидают выхода новой версии большой языковой модели, но ритмичность их создания в случае с китайскими разработчиками сильно страдает от экспортных ограничений США и нехватки ресурсов в Китае. Текст нового исследования, соавтором которого является один из основателей DeepSeek, будет подробно изучаться специалистами в области искусственного интеллекта как в Китае, так и за его пределами.

Описываемая в документе методика «условного» использования памяти получила обозначение Engram, как отмечает South China Morning Post. Существующие подходы к вычислениям при обучении больших языковых моделей, по мнению китайских исследователей, вынуждают напрасно тратить ресурсы на тривиальные операции, которые можно было бы высвободить для высокоуровневых операций, связанных с рассуждениями.

Исследователи предложили в некотором смысле разделить вычисления и работу с памятью, обеспечивая поиск базовой информации более эффективными способами. Одновременно новая технология позволяет большим языковым моделям лучше обрабатывать длинные цепочки контекста, что приближает цель превращения ИИ-агентов в полноценных помощников человека.

В рамках эксперимента новый подход при обучении модели с 27 млрд параметров позволил поднять общий уровень быстродействия на несколько процентов. Кроме того, система получила больше доступных ресурсов для осуществления сложных операций с рассуждениями. По мнению авторов исследования, данный подход будет незаменим при обучении языковых моделей нового поколения в условиях ограниченности ресурсов. По данным The Information, китайская компания DeepSeek намеревается представить новую модель V4 с развитыми способностями в области написания программного кода к середине февраля этого года.

Китайский ИИ стал популярнее американского за пределами западных стран — Microsoft бьёт тревогу

Президент Microsoft Брэд Смит (Brad Smith) в интервью Financial Times признался, что американские разработчики ИИ уже проигрывают гонку китайским ИИ-моделям с точки зрения охвата аудитории за пределами западных стран. Непосредственно внутри Китая бурному развитию ИИ способствуют не только ориентация на открытый исходный код, но и предполагаемые государственные субсидии.

 Источник изображения: Nguyen Dang Hoang Nhu / unsplash.com

Источник изображения: Nguyen Dang Hoang Nhu / unsplash.com

По словам Смита, за прошедший год ситуация в сфере ИИ резко поменялась. Китайские разработчики успели предложить пользователям по всему миру сразу несколько ИИ-моделей с открытым исходным кодом, на обучение которых можно тратить гораздо меньше ресурсов, чем в случае с западными решениями. При этом уровень быстродействия китайских разработок делает их вполне конкурентоспособными. Президент Microsoft убеждён, что именно активные субсидии со стороны властей КНР позволяют китайским разработчикам опережать американских с точки зрения ценовой привлекательности.

Доступность и низкая стоимость китайских языковых моделей за прошедшее с момента выхода DeepSeek R1 позволили искусственному интеллекту шагнуть далеко вперёд в масштабах всего мира, а особенно это ощущалось в странах так называемого «глобального юга». Нередко китайские ИИ-модели разработчики в прочих странах могут использовать безвозмездно для адаптации под свои потребности, и это сказывается на их популярности. Западные разработчики стараются монетизировать свои ИИ-решения, предлагая продвинутые функции по платной подписке. По данным исследователей Microsoft, в самом Китае доля DeepSeek на рынке ИИ достигает 89 %, на втором месте оказывается Беларусь с 56 %, третье занимает Куба с 49 %, а России досталось четвёртое место с 43 %. Страны Африки замыкают первую десятку, начиная с восьмого места: Эфиопия (18 %), Зимбабве (17 %) и Эритрея (17 %). Популярность DeepSeek в РФ, Беларуси и на Кубе отчасти объясняется и запретами на использование моделей западного происхождения во многих инфраструктурных проектах.

 Источник изображения: Financial Times

Источник изображения: Financial Times

По оценкам Microsoft, для адекватного развития ИИ-инфраструктуры африканские страны потребуют международных кредитов, которые отчасти могли бы пойти на субсидирование расходов на электроэнергию. По мнению президента корпорации, соревноваться с китайскими разработчиками, нередко серьёзно субсидируемыми, просто бессмысленно, если говорить об отдельных региональных рынках. Многим африканским странам приходится выбирать наиболее дешёвые ИИ-платформы, и китайские с их открытым кодом нередко соответствуют этому критерию. Кроме того, в Африке существуют небольшие локальные языковые модели типа Masakhane и InkubaLM.

В мировых масштабах, как удалось установить Microsoft, практическое использование ИИ сосредоточено в странах «глобального севера», где оно достигает 25 % от всего экономически активного населения. На глобальном юге эта доля не превышает 14 %, а в целом по миру составляет 16 %. Тем не менее, лидером по использованию ИИ является ОАЭ, поскольку в этой стране почти 60 % работающего населения используют данные технологии. Сингапур отстаёт совсем чуть-чуть, а в самих США этот показатель едва дотягивает до 26 %.

 Источник изображения: Financial Times

Источник изображения: Financial Times

По мнению руководства Microsoft, «ИИ-неравенство» между странами глобального юга и севера будет расти и дальше, если не предпринимать компенсирующих мер. Президент корпорации заявил, что инвестиции в развитие инфраструктуры и обучение кадров должны направлять не только государственные институты, но и частные компании. Тот факт, что американские разработчики имеют доступ к более прогрессивным чипам, по словам Смита, ещё не гарантирует достижения ими более низких цен для клиентов, желающих воспользоваться ИИ. Игнорирование потребностей той же Африки странами Запада, по мнению президента Microsoft, создаст благоприятные условия для развития идей, не очень соответствующих западным ценностям и ориентирам.

Китайские разработчики ИИ признают, что в ближайшие несколько лет им вряд ли удастся опередить США

Представители китайской ИИ-отрасли достаточно трезво смотрят на перспективы её ближайшего развития, упоминая ограниченность вычислительных ресурсов и экспортные ограничения США в качестве главных препятствий к переходу к доминированию над геополитическим соперником в этой сфере в течение ближайших трёх или пяти лет.

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

Как отмечает Bloomberg, руководящий созданием больших языковых моделей семейства Qwen в компании Alibaba Джастин Линь (Justin Lin), оценивает шансы любой из китайских компаний на прорыв в этой сфере менее чем в 20 %, если говорить о перспективе ближайших трёх или пяти лет. Подобные взгляды на ситуацию разделяют и другие представители китайской ИИ-отрасли типа Tencent и Zhipu AI.

Представитель Alibaba пояснил, что в сравнении с OpenAI китайский конкурент обделён необходимыми для качественного прорыва ресурсами. Этот вопрос, по его словам, давно известен: чьи шансы на инновации выше, если сравнивать богатых и бедных? При этом китайские разработчики пытаются привлекать средства на своё развитие на фондовом рынке. На прошлой неделе Zhipu и MiniMax Group сообща смогли привлечь более $1 млрд на своё развитие. По мнению сооснователя Zhipu, отставание китайских разработчиков от американских будет только увеличиваться.

Год назад неожиданный успех китайской DeepSeek заставил многие компании пойти путём создания больших языковых моделей с открытым исходным кодом. На тот момент казалось, что они исключили отставание от проприетарных моделей OpenAI, Anthropic и Google. Участники тематического китайского мероприятия признали, что ограничения США на поставку в Китай оборудования и технологий для выпуска передовых чипов существенным образом сдерживают развитие китайской ИИ-отрасли. Она в целом сильнее ограничена в ресурсах.

Перешедший на работу из OpenAI в Tencent Яо Шунью (Yao Shunyu) призвал представителей китайской отрасли уделять больше внимания устранению узких мест в больших языковых моделях следующего поколения. К ним он отнёс долгосрочную память и функцию самообучения. Tencent в этом году намерена открыть доступ ИИ-ассистенту Yuanbao к истории чатов в WeChat, чтобы на основе этих данных ускорить совершенствование собственных моделей. Alibaba собирается делать упор на мультимодальность и агентов для работы с реальными приложениями. Участники мероприятия высказались за сотрудничество и отказ от бессмысленной конкуренции внутри Китая. Местные разработчики должны объединить усилия, чтобы успешно представлять КНР на международном рынке систем генеративного ИИ.

Новая ИИ-модель DeepSeek V4 выйдет в феврале, и она должна понравиться вайб-кодерам

Китайский стартап DeepSeek, занимающийся разработкой искусственного интеллекта и в прошлом году потрясший Кремниевую долину и Уолл-стрит, готовится к запуску своей модели следующего поколения в ближайшие недели, сообщает Yahoo Finance со ссылкой на отчёт издания The Information.

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

Ожидается, что новая модель, получившая название V4, будет обладать расширенными возможностями программирования, которые, согласно внутренним тестам, позволят ей превзойти лидеров отрасли, включая серию GPT от OpenAI и Claude от Anthropic. По словам двух источников, непосредственно знакомых с ситуацией и цитируемых The Information, DeepSeek планирует выпустить модель примерно в середине февраля, в период празднования китайского Нового года, хотя сроки пока окончательно не определены.

Время предполагаемого запуска соответствует стратегии, которая ранее принесла пекинскому стартапу огромный культурный и рыночный эффект. В прошлом году DeepSeek выпустила свою флагманскую модель R1 20 января, всего за неделю до недельных китайских новогодних праздников. Этот шаг обеспечил модели доминирование в глобальном технологическом дискурсе в период пикового внимания.

DeepSeek, поддерживаемая хедж-фондом High-Flyer Quant, стала глобальным феноменом после выпуска R1. «Рассуждающая» модель, разработанная для «обдумывания» сложных запросов перед ответом, произвела фурор в секторе ИИ не только своей производительностью, но и эффективностью. На рынке, где американские гиганты тратят миллиарды на вычислительные ресурсы, способность DeepSeek достигать сопоставимых результатов за гораздо меньшую стоимость привела к резкой переоценке стоимости ИИ и зависимости от аппаратного обеспечения на западных рынках.

Хотя модель DeepSeek V3.2, выпущенная в декабре, превзошла GPT-5 от OpenAI и Gemini 3.0 Pro от Google по некоторым показателям, компания ещё не выпустила нового поколения своей основной архитектуры. Модель V4 призвана заполнить этот пробел.

Особый акцент в новой модели сделан на программировании. Умение программировать является основным критерием эффективности ИИ в корпоративной среде, и версия V4 может ещё больше укрепить позиции DeepSeek как недорогой и высокопроизводительной альтернативы американским моделям с закрытым исходным кодом.

Для инвесторов предстоящий релиз DeepSeek V4 добавляет новый уровень волатильности в «гонку вооружений в области ИИ». Когда в прошлом году дебютировала DeepSeek R1, это вызвало временное падение акций американских производителей микросхем и лидеров в области ИИ, поскольку рынки столкнулись с реальностью сценария, когда китайский игрок достиг паритета, имея значительно меньше ресурсов, чем конкуренты.

В DeepSeek придумали новый способ экономить ресурсы при обучении ИИ

Китайская DeepSeek проводила 2025 год публикацией материала, в котором предлагается переосмыслить фундаментальную архитектуру, используемую при обучении базовых моделей искусственного интеллекта. Одним из авторов работы выступил глава компании Лян Вэньфэн (Liang Wenfeng).

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

DeepSeek предложила метод под названием «гиперсвязи с ограничением на многообразие» (Manifold-Constrained Hyper-Connections — mHC). Этот метод помогает повысить экономическую эффективность моделей и даёт им возможность не отставать от конкурирующих американских решений, разработчики которых располагают доступом к значительным вычислительным ресурсам. Опубликованная DeepSeek научная работа отражает сложившуюся в Китае открытую и основанную на взаимопомощи культуру разработчиков ИИ, которые публикуют значительную долю своих исследований в открытом доступе. Статьи DeepSeek также могут указывать на инженерные решения, которые компания использует в готовящихся к выпуску моделях.

Группа из 19 исследователей компании отметила, что метод mHC тестировался на моделях с 3 млрд, 9 млрд и 27 млрд параметров, и его использование не дало существенного увеличения вычислительной нагрузки по сравнению с традиционным методом гиперсвязей (Hyper-Connections — HC). Базовый метод гиперсвязей в сентябре 2024 года предложили исследователи ByteDance в качестве модификации ResNet (Residual Networks) — доминирующей архитектуры глубокого обучения, которую ещё в 2015 году представили учёные Microsoft Research Asia.

ResNet позволяет производить обучения глубоких нейросетей таким образом, чтобы ключевая информация (остаточные данные) сохранялась при увеличении числа слоёв. Эта архитектура используется при обучении моделей OpenAI GPT и Google DeepMind AlphaFold, и у неё есть важное ограничение: проходя через слои нейросети, обучающий сигнал может вырождаться в универсальное представление, одинаковое для всех слоёв, то есть рискует оказаться малоинформативным. Гиперсвязи успешно решают эту проблему, расширяя поток остаточных данных и повышая сложность нейросети «без изменения вычислительной нагрузки у отдельных блоков», но при этом, указывают в DeepSeek, растёт нагрузка на память, и это мешает масштабировать данную архитектуру при обучении больших моделей.

Чтобы решить и эту проблему, DeepSeek предлагает метод mHC, который «поможет устранить существующие ограничения и в перспективе откроет новые пути эволюции фундаментальных архитектур нового поколения». Публикуемые компанией научные работы часто указывают на техническое направление, лежащее в основе последующих моделей, говорят эксперты. Новую крупную модель DeepSeek, как ожидается, может представить в середине февраля.

США снова нацелились на Xiaomi: компанию хотят вернуть в чёрный список Пентагона вместе с DeepSeek и Unitree

Давно понятно, что американские власти не брезгуют темой национальной безопасности для решения преимущественно коммерческих вопросов и защиты своих интересов в сфере внешней торговли. Хотя Xiaomi удалось в 2021 году доказать через суд свою непричастность к развитию китайского оборонного сектора, американские парламентарии опять требуют включить её в чёрный список Пентагона вместе с DeepSeek и Unitree.

 Источник изображения: Xiaomi

Источник изображения: Xiaomi

Речь идёт, как поясняет South China Morning Post, о попытках включения указанных китайских компаний в так называемый раздел 1260H списка Пентагона, который содержит имена компаний, с которыми американским ведомствам и бизнесменам не рекомендуется иметь дело по соображениям национальной безопасности. Появление имени китайской компании в списке 1260H не означает моментального введения санкций против неё, но значительно усложняет ведение ими бизнеса.

Девять сенаторов, представляющих интересы Республиканской партии США, на прошлой неделе обратились с открытым письмом к министру обороны Питу Хегсету (Pete Hegseth) с просьбой включить в список 1260H более десяти китайских компаний, среди которых оказались Xiaomi, DeepSeek и Unitree. Первая производит потребительскую электронику и электромобили, вторая разрабатывает систем генеративного искусственного интеллекта, а третья известна своими человекоподобными роботами. Кроме того, авторы инициативы предлагают включить в этот список и другие китайские компании из сектора робототехники, разработчиков чипов и представителей сегмента биотехнологий. Китайский производитель беспилотных летательных аппаратов DJI до сих пор судится с Министерством обороны США, пытаясь отменить своё включение в соответствующий список ведомства. Аналогичные попытки предпринимают интернет-гигант Tencent и китайский производитель тяговых батарей CATL.

Xiaomi удалось в 2021 году добиться своего исключения из списка 1260H по итогам судебного разбирательства, новые обвинения в свой адрес компания тоже отвергает, подчёркивая свою причастность лишь к выпуску потребительской продукции гражданского назначения. Попытки включить Xiaomi в список 1260H американского военного ведомства являются безосновательными, по словам представителей китайской компании.

DeepSeek заподозрили в обучении новейшего ИИ на контрабандных чипах Nvidia Blackwell

Ещё на этапе первичного успеха DeepSeek эту китайскую компанию американские чиновники подозревали в использовании для обучения своих ИИ-моделей полученных нелегально ускорителей Nvidia с архитектурой Hopper. В новом варианте подозрений уже фигурируют более совершенные укорители Blackwell. Сама Nvidia пока считает эти подозрения бездоказательными.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Как сообщает The Information, ускорители Blackwell в условиях экспортных ограничений США попали в руки DeepSeek якобы в результате сложной многоэтапной операции. Сперва они будто бы были доставлены в те страны, которые имеют возможность их получать без ограничений, затем были разобраны на части, в таком виде отправлены в Китай, а после собраны в исходное состояние уже на территории КНР.

Представители Nvidia эту историю прокомментировали следующим образом: «Мы не получили каких-либо улик или подтверждений скрытных ЦОД, собранных для введения в заблуждение нас или наших OEM-партнёров, а затем разобранных, отправленных нелегальными путями и заново собранных в каком-то другом месте. Хотя подобные подозрения кажутся нам надуманными, мы изучаем любые получаемые сигналы».

На этой неделе стало известно, что после многочисленных попыток руководства Nvidia убедить американские власти разрешить поставки ускорителей Blackwell в Китай, президент Дональд Трамп (Donald Trump) позволил отгружать проверенным получателям более старые ускорители H200, которые всё равно в несколько раз превосходят по быстродействию те же H20, разрешённые для поставок ранее. Компаниям Intel и AMD будут предоставлены сопоставимые экспортные возможности, но поставки ускорителей Blackwell и более совершенных Rubin в Китай по официальным каналам будут по-прежнему запрещены.

DeepSeek ответил на GPT-5 и Gemini 3 Pro — представлены мощные ИИ-модели DeepSeek-V3.2

Китайский стартап DeepSeek выпустил две новые открытые модели с мощными возможностями для рассуждений — DeepSeek-V3.2 и усиленную DeepSeek-V3.2-Speciale. Таким образом компания подтвердила, что Китай играет на равных с американскими лидерами в лице OpenAI и Google.

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

По тестам разработчиков, модели достигают уровня GPT-5 и Gemini 3 Pro в программировании и математике. Так, DeepSeek-V3.2-Speciale взяла «золото» на Международной математической олимпиаде, Китайской математической олимпиаде, Международной студенческой олимпиаде по программированию и Международной олимпиаде по информатике.

На Американском отборочном экзамене по математике DeepSeek-V3.2-Speciale показала результат в 96,0 %, тогда как GPT-5 High набрала 94,6 %, а Gemini 3 Pro — 95,0 %. В свою очередь в тесте SWE Verified, измеряющем способности ИИ к программированию, китайская новинка набрала 73,1 % (результат GPT-5 High — 74,9 %; Gemini 3 Pro — 76,2 %).

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

DeepSeek утверждает, что модели серии V3.2 — это её первые нейросети, созданные для ИИ-агентов. Компания заявляет, что DeepSeek V3.2 обеспечивает производительность уровня GPT 5 при выполнении общих задач. Китайский стартап также утверждает, что DeepSeek-V3.2-Speciale обладает способностями к рассуждению, сопоставимыми с новейшей моделью Gemini 3 Pro от Google, особенно в сложных сценариях решения проблем.

DeepSeek добился прорыва за счёт двух приёмов: масштабного дообучения модели с подкреплением на специально сгенерированных сложных задачах, а также DeepSeek Sparse Attention (DSA) — подходу, когда модель не перебирает все токены, а выделяет для работы только самые важные.

DeepSeek-V3.2 уже доступна в приложении, на веб-сайте и в API-сервисах компании. К продвинутой V3.2-Speciale сейчас можно обращаться только через API, она предлагает максимальную мощность рассуждений для сложных задач.

Китайские модели от DeepSeek или Alibaba теснят решения ведущих американских разработчиков. Согласно исследованию MIT и Hugging Face, доля скачиваний новых открытых моделей по состоянию на август выросла до 17 % у китайских разработчиков против 15,8 % у американских.

Успех китайских игроков опирается на быстрый цикл обновления и фокус на открытых и эффективных моделях, которые работают на менее мощном оборудовании. Новые модели DeepSeek вышли спустя два месяца после экспериментальной V3.2-Exp и способны вновь усилить позиции Китая в ИИ-гонке.

ИИ-модель DeepseekMath-V2 достигла уровня золотой медали на Международной математической олимпиаде

Китайский стартап DeepSeek представил новую ИИ-модель DeepseekMath-V2, которая показывает впечатляющие результаты при решении сложных математических задач. Алгоритм справился с многими заданиями Международной математической олимпиады (IMO 2025) и Китайской математической олимпиады (CMO 2024), показав при этом результат на уровене золотой медали.

 Источник изображений: the-decoder.com

Источник изображений: the-decoder.com

В сообщении сказано, что DeepseekMath-V2 набрала 118 из 120 баллов в задачах Putnam, что существенно выше лучшего результата человека в 90 баллов. DeepSeek отмечает, что ранее ИИ-модели часто выдавали верные ответы в сложных математических задачах, но при этом не показывали правильного хода решения. Для исправления ситуации ИИ-модель задействует многоэтапный процесс с отдельным верификатором для оценки корректности шагов решения задачи и необходимости их перепроверки. Такая структура позволяет алгоритму проверять и совершенствовать свои решения в режиме реального времени.

С технической стороны DeepseekMath-V2 построена на основе базовой модели Deepseek-V3.2-Exp-Base. В описании DeepSeek ни разу не упоминается использование внешних инструментов, таких как калькуляторы или интерпретаторы кода. В ключевых экспериментах одна и та же модель DeepseekMath-V2 используется как для генерации доказательств, так и для их проверки. Высокая производительность алгоритма обусловлена способностью подвергать критике и улучшать собственные выводы вместо того, чтобы задействовать внешнее программное обеспечение. Для решения более сложных задач модель наращивает вычислительные мощности на этапе тестирования, параллельно создавая и проверяя множество возможных доказательств, чтобы повысить уровень уверенности в правильности конечного ответа.

Релиз DeepSeek последовал за анонсом ещё не выпущенных ИИ-моделей OpenAI и Google Deepmind, которые достигли схожих результатов в решении сложных математических задач. Примечательно, что эти алгоритмы достигли такого результата за счёт способности к рассуждению, а не целевой оптимизации для математических олимпиад. Если на деле успехи этих алгоритмов действительно окажутся столь впечатляющими, то это будет означать, что языковые модели приблизились к моменту, когда они смогут решать сложные, абстрактные задачи, что традиционно считалось исключительно человеческим навыком.

Отметим, что решение DeepSeek раскрыть технические детали модели DeepseekMath-V2 резко контрастирует с секретностью, которую соблюдают Google и OpenAI. Американские компании держат в тайне подробности об архитектуре собственных ИИ-моделей, тогда как китайский стартап буквально раскрывает все карты, наглядно показывая, что компания идёт вровень с ведущими отраслевыми представителями.

Исследование показало, что американские и китайские ИИ-модели часто перегибают с подхалимством

Наиболее популярные ИИ-модели из США и Китая, как показало исследование учёных Стэнфордского университета и коллег из Карнеги Меллон, склонны слишком сильно льстить пользователям и не всегда доносят до них объективную информацию. Руководствуясь советами чат-ботов, полученных таким образом, люди могут с меньшей вероятностью добиться установления гармоничных отношений между собой.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Авторы исследования изучали, как 11 популярных больших языковых моделей отвечают на запросы пользователей, касающиеся межличностных взаимоотношений. Было установлено, что многие языковые модели склонны слишком часто соглашаться с пользователями в надежде им угодить. Например, выпущенная в декабре прошлого года DeepSeek V3 одобряла действия пользователей на 55 % чаще, чем живой собеседник. Для прочих моделей, попавших в выборку, средний показатель «превышения подхалимства над нормой» достигал 47 %.

Что характерно, авторы исследования за эталон человеческой реакции брали ответы пользователей со страниц Reddit, которые описывали оценку действий других людей в разного рода межличностных конфликтах. В качестве эталона выбирались те ситуации, в которых сообщество выступало с осуждением автора публикации, указывая на его неправоту. Эти же сценарии прогонялись через популярные большие языковые модели, и они гораздо чаще оправдывали совершивших те или иные проступки людей, чем живые собеседники. В исследовании использовались преимущественно публикации и обсуждения на английском языке.

Разработанная Alibaba языковая модель Qwen2.5-7B-Instruct вообще оказалась чемпионом подхалимства, оправдав проступки человека в 79 % случаев. На втором месте оказалась DeepSeek V3, которая оправдывала обсуждаемых людей в 76 % случаев. Американская Gemini 1.5 корпорации Google оправдала человека только в 18 % случаев. Из 11 протестированных моделей только две были разработаны в Китае, остальные были созданы в США, если не считать французскую Mistral.

Авторы исследования также пришли к выводу, что подхалимство чат-ботов снижает склонность людей к разрешению конфликтов полюбовно, поскольку вселяет в них ложное ощущение собственной правоты. На психическом здоровье пользователей больших языковых моделей такое подхалимство тоже сказывается не лучшим образом. При использовании ИИ в сфере бизнес-аналитики склонность к подхалимству тоже вредна, поскольку языковая модель стремится чаще соглашаться с аналитиком, чем следовало бы.

Новая ИИ-модель DeepSeek cделает работу с длинным контекстом вдвое дешевле и быстрее

Инженеры DeepSeek представили новую экспериментальную модель V3.2-exp, которая обеспечивает вдвое меньшую стоимость инференса и значительное ускорение для сценариев с длинным контекстом.

 Источник изображения: DeepSeek/TechCrunch

Источник изображения: DeepSeek/TechCrunch

«В качестве промежуточного шага к архитектуре следующего поколения, V3.2-Exp дополняет V3.1-Terminus, внедряя DeepSeek Sparse Attention — механизм разреженного внимания, предназначенный для исследования и валидации оптимизаций эффективности обучения и вывода в сценариях с длинным контекстом», — сообщила компания в публикации на платформе Hugging Face, отметив в сообщении в соцсети X, что цены на API снижены более чем на 50 %.

С помощью механизма DeepSeek Sparse Attention (DSA), который работает как интеллектуальный фильтр, модель выбирает наиболее важные фрагменты контекста, из которых с использованием системы точного выбора токенов выбирает определённые токены для загрузки в ограниченное окно внимания модуля.

Метод сочетает крупнозернистое сжатие токенов с мелкозернистым отбором, гарантируя, что модель не теряет более широкий контекст. DeepSeek утверждает, что новый механизм отличается от представленной раннее в этом году технологии Native Sparse Attention и может быть модифицирован для предобученных моделей.

В бенчмарках V3.2-Exp не уступает предыдущей версии ИИ-модели. В тестах на рассуждение, кодирование и использование инструментов различия были незначительными — часто в пределах одного-двух пунктов, — в то время как рост эффективности был значительным, пишет techstartups.com. Модель работала в 2–3 раза быстрее при инференсе с длинным контекстом, сократила потребление памяти на 30–40 % и вдвое повысила эффективность обучения. Для разработчиков это означает более быструю реакцию, снижение затрат на инфраструктуру и более плавный путь к развёртыванию.

Для операций с длинным контекстом преимущества системы весьма существенны, отметил ресурс TechCrunch. Для более надёжной оценки модели потребуется дальнейшее тестирование, но, поскольку она имеет открытый вес и свободно доступна на площадке Hugging Face, пользователи сами могут оценить с помощью тестов, насколько эффективна новая разработка DeepSeek.

«А кто спрашивает?», — точность ответов DeepSeek зависит от региона пользователя

Американская компания CrowdStrike, являющаяся мировым лидером в области кибербезопасности, провела эксперимент, в ходе которого выяснила, что качество генерируемого кода сильно зависит от того, кто его собирается использовать и в каких случаях. Например, запрос написать программу для управления промышленными системами содержал ошибки в 22,8 % случаев, а при указании, что этот код предназначен для использования на Тайване, доля ошибок выросла до 42,1 % или был получен полный отказ в генерации.

 Источник изображения: AI

Источник изображения: AI

Качество кода ухудшалось, если он предназначался для Тибета, Тайваня или религиозной группы Фалуньгун, которая запрещена в Китае, пишет TechSpot со ссылкой на The Washington Post. В частности, для Фалуньгун DeepSeek отказывался генерировать код в 45 % случаев. По мнению специалистов CrowdStrike, это может быть связано с тем, что ИИ-бот следует политической линии Коммунистической партии Китая, сознательно генерируя уязвимый код для определённых групп, либо с тем, что обучающие данные для некоторых регионов, таких как Тибет, содержат код низкого качества, созданный менее опытными программистами.

Также высказывается альтернативное мнение относительно того, что система могла самостоятельно принять решение генерировать некорректный код для регионов, ассоциируемых с оппозицией. При этом исследователи CrowdStrike отметили, что код, предназначенный для США, оказался наиболее надёжным, что может быть связано как с качеством обучающих данных, так и с желанием DeepSeek завоевать американский рынок.

Ранее 3DNews сообщал, что DeepSeek часто воспроизводит официальную позицию китайских властей по чувствительным темам, независимо от её достоверности, а в июле немецкие власти потребовали от Google и Apple запретить к установке на устройства приложение компании в Германии из-за подозрений в незаконной передаче данных пользователей в Китай. Отметим, использование данного приложения также запрещено на устройствах федеральных агентств и государственных учреждений США.

OpenAI остаётся только завидовать — обучение китайской модели ИИ DeepSeek R1 обошлось всего в $294 тыс.

Китайская компания DeepSeek сообщила, что на обучение её модели искусственного интеллекта R1 было затрачено $294 тыс., что радикально меньше, чем аналогичные расходы американских конкурентов. Эта информация была опубликована в академическом журнале Nature. Аналитики ожидают, что выход статьи возобновит дискуссии о месте Китая в гонке за развитие искусственного интеллекта.

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

Выпуск компанией DeepSeek в январе сравнительно дешёвых систем ИИ побудил мировых инвесторов избавляться от акций технологических компаний из опасения обвала их стоимости. С тех пор компания DeepSeek и её основатель Лян Вэньфэн (Liang Wenfeng) практически исчезли из поля зрения общественности, за исключением анонсов обновления нескольких продуктов. Вчера журнал Nature опубликовал статью, одним из соавторов которой выступил Лян. Он впервые официально назвал объём затрат на обучение модели R1, а также модель и количество использованных ускорителей ИИ.

Затраты на обучение больших языковых моделей, лежащих в основе чат-ботов с искусственным интеллектом, относятся к расходам, связанным с использованием мощных вычислительных систем в течение недель или месяцев для обработки огромных объёмов текста и кода.

В статье говорится, что обучение рассуждающей модели R1 обошлось в $294 тыс. долларов и потребовало 512 ускорителей Nvidia H800. Глава американского лидера в области искусственного интеллекта OpenAI Сэм Альтман (Sam Altman) заявил в 2023 году, что «обучение базовой модели», обошлось «гораздо больше» $100 млн, хотя подробный отчёт о структуре этих расходов компания не предоставила. Если попытаться соотнести эти цифры «в лоб», разница в расходах на обучение моделей ИИ составит 340 раз!

Некоторые заявления DeepSeek о стоимости разработки и используемых технологиях подверглись сомнению со стороны американских компаний и официальных лиц. Ускорители H800 были разработаны Nvidia для китайского рынка после того, как в октябре 2022 года США запретили компании экспортировать в Китай более мощные решения H100 и A100. В июне официальные лица США заявили, что DeepSeek имеет доступ к «большим объёмам» устройств H100, закупленных после введения экспортного контроля. Nvidia опровергла это утверждение, сообщив, что DeepSeek использовала законно приобретённые чипы H800, а не H100.

Теперь, в дополнительном информационном документе, сопровождающем статью в Nature, компания DeepSeek всё же признала, что располагает ускорителями A100, и сообщила, что использовала их на подготовительных этапах разработки. «Что касается нашего исследования DeepSeek-R1, мы использовали графические процессоры A100 для подготовки к экспериментам с меньшей моделью», — написали исследователи. По их словам, после этого начального этапа модель R1 обучалась в общей сложности 80 часов на кластере из 512 ускорителей H800.

Ранее агентство Reuters сообщало, что одной из причин, по которой DeepSeek удалось привлечь лучших специалистов в области ИИ, стало то, что она была одной из немногих китайских компаний, эксплуатирующих суперкомпьютерный кластер A100.


window-new
Soft
Hard
Тренды 🔥
Стриминговый сервис Disney+ лишился поддержки Dolby Vision, HDR10+ и 3D на фоне патентного спора 50 мин.
Apple откроет сторонним чат-ботам с ИИ доступ в CarPlay 52 мин.
Telegram для Android претерпел радикальный редизайн в стиле Liquid Glass 2 ч.
Проблемное обновление Windows серьёзно замедлило видеокарты Nvidia 5 ч.
Из-за ошибки в коде программа-вымогатель Nitrogen шифрует файлы жертв безвозвратно 16 ч.
Новая статья: Highguard — хаос с потенциалом. Рецензия 19 ч.
Названы 26 ключевых технологий, которые в ближайшие 5 лет получат широкое применение в российском бизнесе 20 ч.
Аутентичность и детализация: разработчики ремейка «Готики» рассказали, как оживляли мир и персонажей в игре 22 ч.
Пользователи устроили массовые протесты против отключения GPT-4o — он стал их другом, партнёром и наставником 23 ч.
Windows 11 научится передавать музыку сразу на несколько Bluetooth-наушников, но большинство ПК не будет поддерживать эту функцию 24 ч.
Asus выпустила внешний контейнер ROG Strix Aiolos для M.2 SSD со скоростью до 20 Гбит/с 13 мин.
AWS: ни один сервер с NVIDIA A100 не выведен из эксплуатации, а некоторые клиенты всё ещё используют Intel Haswell — не всем нужен ИИ 50 мин.
SpaceX разрешили возобновить запуски Falcon 9 после аварии — полёт на МКС намечен на 11 февраля 2 ч.
Акции американских бигтехов вернулись к росту после трёхдневного падения 3 ч.
Nintendo ожидает, что рост цен на память не особо повлияет на бизнес компании до конца марта 3 ч.
Военные США заплатят за разработку фотонных чипов для ИИ — для этого придётся в чём-то обмануть физику 3 ч.
Trump Mobile показала очередной вариант смартфона T1 Phone и рассказала о причинах задержки его запуска 4 ч.
Broadcom представила первые в отрасли решения Wi-Fi 8 для точек доступа и коммутаторов корпоративного класса 5 ч.
Montage Technology представила активные кабели PCIe 6.x/CXL 3.x 5 ч.
В Китае создали аккумулятор, который любит, когда светло 6 ч.