Сегодня 04 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → deepseek
Быстрый переход

ИИ-модель DeepSeek R1 заработала на суверенных китайских ускорителях Sophgo

Высокий спрос на ускорители вычислений Nvidia и других популярных марок сам по себе ограничивает их доступность, а в случае с китайскими разработчиками систем ИИ всё усугубляется американскими санкциями. Нет ничего удивительного, что в сложившихся условиях они предпочли опираться на ускорители местного происхождения, для DeepSeek в этом смысле подошли ускорители Sophgo.

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

По крайней мере, об их успешном применении докладывает South China Morning Post со ссылкой на заявления Sophgo. Ускорители SC11 FP300 этой компании, по данным китайской лаборатории CTTL, продемонстрировали высокое быстродействие и стабильную работу в задачах, связанных с формированием логических выводов (инференсе) при использовании большой языковой модели DeepSeek R1. Подобные задачи требуют меньших вычислительных ресурсов по сравнению с этапом обучения больших языковых моделей.

Ускоритель FP300 был выпущен Sophgo в прошлом году, он оснащается 256 Гбайт высокоскоростной памяти, обеспечивающей пропускную способность до 1,1 Тбайт/с, технически он пригоден и для обучения больших языковых моделей. В то же время, данное аппаратное решение всё же в большей мере заточено под работу с рассуждающими моделями.

Как отмечалось ранее, китайской компании DeepSeek уже пришлось задержать выпуск своей модели R2, который был намечен на май, из-за проблем с доступом к вычислительным ресурсам, необходимым для её обучения. Китайская компания iFlyTek, между тем, уже сообщила о полном переходе на ускорители вычислений Huawei. Китайские решения серии Ascend 910B позволяют добиться эффективности вычислений на уровне 73 % против 25 %, которые были доступны при использовании Nvidia A800 в конце прошлого года. Правда, миграция на китайские ускорители всё же вызвала задержку в выпуске новых языковых моделей на три месяца. Компании iFlyTek и Sophgo находятся под различными санкциями США, поэтому им невольно приходится сближаться для достижения поставленных целей в условиях внешних ограничений.

DeepSeek упёрся в санкции: разработка модели R2 забуксовала из-за нехватки чипов Nvidia

В начале этого года китайская компания DeepSeek удивила всех выпуском своей языковой модели R1, которая достигала сопоставимых с лучшими западными образцами результатов в сфере ИИ, но требовала от разработчиков предположительно меньших затрат. Создание более новой модели R2, по некоторым данным, упёрлось в доступность ускорителей вычислений Nvidia, которые сложно найти на территории Китая.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Как напоминает Reuters со ссылкой на The Information, первоначально DeepSeek планировала представить R2 в конце мая, но руководство компании было недовольно достигаемым ею уровнем быстродействия, поэтому доводка этой языковой модели затянулась во времени. По данным источника, прогресс в известной степени тормозится отсутствием в Китае достаточного количества производительных ускорителей вычислений, а DeepSeek пока предпочитает полагаться главным образом на решения Nvidia, поставки которых в КНР серьёзно ограничены из-за санкций США.

Облачная инфраструктура на территории Китая, которая сейчас используется для работы с языковой моделью R1, опирается преимущественно на ускорители Nvidia H20, которые до апреля этого года можно было поставлять вполне легально. В своей отчётности Nvidia отметила, что весенний запрет на поставки ускорителей H20 будет стоить ей нескольких миллиардов долларов США, поскольку предусмотреть иное назначение для такой продукции не получится, и весь запас придётся просто списать. Одновременно с этим Nvidia пытается найти возможность поставлять в Китай менее производительные ускорители, которые соответствовали бы существующим требованиям США в данной сфере. Предполагается, что эти ускорители будут созданы с использованием архитектуры Blackwell и памяти типа GDDR7.

Китай пообещал сотню прорывов в сфере ИИ, сопоставимых с выходом DeepSeek

Китайские власти довольно серьёзное внимание уделяют прогрессу национальной инфраструктуры в сфере искусственного интеллекта, поэтому перед участниками рынка стоит задача в ближайшие 18 месяцев осуществить более сотни прорывов, сравнимых по своему эффекту с выходом DeepSeek.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Об этом на Международном экономическом форуме в Тяньцзине сообщил бывший заместитель главы Народного банка Китая Чжу Минь (Zhu Min), как отмечает Bloomberg. Подобный прогресс позволит «фундаментальным образом изменить природу и техническую основу всей китайской экономики», по словам чиновника. Подобный успех, по его мнению, обеспечивает сочетание таланта китайских инженеров, обширной пользовательской базы и государственной поддержки.

Напомним, появление на мировом рынке DeepSeek в январе этого года шокировало многих политиков и отраслевых экспертов, поскольку предположительно менее затратная с точки зрения разработки и обучения большая языковая модель смогла демонстрировать уровень быстродействия, сопоставимый с лучшими западными образцами. По данным Bloomberg, доля высокотехнологичных отраслей в ВВП Китая вырос с 14 до 15 % по итогам прошлого года, а в будущем превысит 18 %.

По словам бывшего заместителя председателя Народного банка Китая, влияние таможенных тарифов на мировую экономику в этом году выразится в замедлении поставок продукции в технической сфере, а также снижении уровня инвестиций. Уже с августа инфляция может ускорить свой рост в самих США, по мнению китайского чиновника. В Китае по итогам второго квартала ВВП может вырасти более чем на 5 %, как считают эксперты. При этом они указывают на необходимость стимулирования внутреннего потребления товаров в Китае, поскольку бесконечно отправлять излишки на экспорт не получится.

Власти США заподозрили DeepSeek в сотрудничестве с китайским правительством и обходе американских санкций

Редкий технологический или научный прорыв КНР в наше время остаётся без внимания властей США. Уже зарекомендовавшая себя на международном рынке систем искусственного интеллекта китайская компания DeepSeek, по мнению американских чиновников, не только сотрудничает с правительством КНР, но и нарушает правила экспортного контроля США.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Уже наличие подобных обвинений способно само по себе стать причиной наложения определённых санкций на DeepSeek и использование её сервисов в США и ближайшими странами-союзниками. Впрочем, агентство Reuters в своей публикации ссылается на непривычно подробные комментарии некоего высокопоставленного сотрудника Госдепартамента США, не раскрывая его личности, а потому подобные обвинения пока нельзя считать официальными.

По его словам, у американских чиновников есть понимание готовности DeepSeek сотрудничать с китайскими органами власти в части военных разработок и разведывательных операций. Данная активность ведётся обособленно от развития коммерческих больших языковых моделей DeepSeek, которые опираются на открытый исходный код. Как утверждает первоисточник, пользовательская информация и статистика попадает от DeepSeek к китайским спецслужбам.

Как отмечается, DeepSeek также упоминается около 150 раз в тексте контрактов на обеспечение Народно-освободительной армии Китая и предприятий оборонной отрасли Поднебесной. По крайней мере, военным разработчикам в Китае компания DeepSeek якобы предоставляла свои услуги.

Кроме того, американский госдеп подозревает DeepSeek в обходе американских ограничений на поставку ускорителей вычислений в Китай. По словам чиновника, китайский стартап имеет доступ к большим количествам ускорителей Nvidia H100, поставки которых в КНР запрещены с осени 2022 года. Представители Nvidia на этот счёт лишь заявили, что DeepSeek в своё время официально закупила ускорители H800, пока те тоже не попали под запрет. По данным американских властей, DeepSeek использует подставные компании в соседних странах Юго-Восточной Азии, чтобы получить доступ к американским ускорителям вычислений, а также через аналогичные структуры пытается получить удалённый доступ к серверным вычислительным мощностям профильных провайдеров. Пока DeepSeek не попала в «чёрные списки» в США, но если подобная заинтересованность появилась в верхних эшелонах власти, то это лишь вопрос времени.

Обнаружен вирус-шпион BrowserVenom, маскирующийся под приложение DeepSeek

Эксперты «Лаборатории Касперского» обнаружили вирус BrowserVenom, который заражает компьютеры под управлением Windows, маскируясь под приложение чат-бота с искусственным интеллектом DeepSeek. Вредонос тайно следит за пользователем компьютера и манипулирует его трафиком.

 Источник изображений: securelist.ru

Источник изображений: securelist.ru

Киберпреступники распространяют вирус через поисковую рекламу Google, которая появляется в выдаче, в частности, по запросу «deep seek r1». Они рассчитывают, что новые пользователи системы генеративного ИИ могут не знать об официальных доменах, на которых размещена рассуждающая модель R1. При переходе по рекламному объявлению пользователь оказывается на поддельном сайте DeepSeek с кнопкой для якобы загрузки модели R1 — цель в том, чтобы обманом заставить пользователя загрузить вредоносный исполняемый файл.

 Фишинговый сайт

Фишинговый сайт

«Мы изучили исходный код фишингового сайта и страницы доставки и обнаружили комментарии на русском языке, относящиеся к функциональности сайтов. Это даёт основания полагать, что сайты разработаны русскоговорящими злоумышленниками», — говорится в публикации блога «Лаборатории Касперского». После запуска вредоносного файла на экране появляется окно с имитацией установки DeepSeek R1. В действительности на компьютер попадает вирус BrowserVenom, который перенастраивает установленные браузеры на маршрутизацию через контролируемый злоумышленниками прокси-сервер — он позволяет перехватывать конфиденциальные данные, отслеживать просмотр сайтов жертвой и расшифровывать её трафик.

Сейчас связанный с вредоносной кампанией домен заблокирован, но эксперты «Лаборатории Касперского» зафиксировали факты заражения вирусом компьютеров в Бразилии, Кубе, Мексике, Индии, Непале, Южной Африке и Египте. Пользователям напоминают, что перед загрузкой каких-либо файлов следует убедиться, что открытый сайт действительно принадлежит искомому разработчику. Кроме того, запуск открытой модели DeepSeek R1 на ПК требует нескольких шагов, и это не один простой в обращении исполняемый файл для Windows.

DeepSeek ужесточила цензуру в обновлённой ИИ-модели R1

Новая версия модели R1-0528 китайского стартапа DeepSeek показала высокие результаты в задачах программирования, математики и общих знаний, почти сравнявшись с флагманской моделью OpenAI GPT-4o. Однако независимое тестирование выявило, что ИИ-модель стала ещё строже цензурировать ответы, особенно касающиеся критики китайских властей.

 Источник изображения: Solen Feyissa / Unsplash

Источник изображения: Solen Feyissa / Unsplash

Как сообщает TechCrunch, тест был проведён анонимным разработчиком под ником xlr8harder на платформе SpeechMap, которая сравнивает реакцию моделей на политически чувствительные темы. По его данным, R1-0528 значительно реже допускает дискуссионные высказывания по сравнению с предыдущими версиями DeepSeek и стала самой строго цензурированной моделью компании.

В частности, R1-0528 уклоняется от ответов о «Лагерях интернирования» в Синьцзяне, где, по данным правозащитников, были произвольно задержаны более миллиона уйгуров. Хотя в некоторых случаях модель и называет эти лагеря «нарушением прав человека», но чаще всего высказывает официальную позицию китайского правительства. Эту тенденцию подтвердили и журналисты TechCrunch в ходе собственного краткого тестирования.

Согласно закону от 2023 года, китайские разработчики искусственного интеллекта обязаны избегать создания контента, который может «навредить единству страны или социальной гармонии». Это часто трактуется как запрет на любые нарративы, противоречащие государственной политике. Для соблюдения требований компании применяют фильтры на уровне запросов или дообучают свои ИИ-модели.

Отмечается, что ещё год назад исследование показало, что оригинальная версия DeepSeek R1 отказывается отвечать на 85 % вопросов по темам, которые китайское правительство считает политически спорными. Теперь этот показатель, судя по всему, стал ещё выше.

DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты

Китайский стартап DeepSeek представил вместе с улучшенной версией ИИ-модели R1 со способностью к рассуждению на базе 685 млрд параметров ещё одну, гораздо меньшую версию R1, созданную методом дистилляции — DeepSeek-R1-0528-Qwen3-8B. По словам разработчиков, новая версия превосходит сопоставимые по размеру модели в ряде тестов.

 Источник изображения: Solen Feyissa/unsplash.com

Источник изображения: Solen Feyissa/unsplash.com

Сообщается, что DeepSeek-R1-0528-Qwen3-8B, созданная методом дистилляции с использованием в качестве основы модели Qwen3-8B, выпущенной компанией Alibaba в мае этого года, показала лучшие результаты, чем Gemini 2.5 Flash от Google в математическом бенчмарке AIME 2025. Кроме того, DeepSeek-R1-0528-Qwen3-8B «почти соответствует» недавно представленной модели рассуждений Phi 4 Plus от Microsoft в другом тесте математических навыков — HMMT.

Хотя модели, полученные методом дистилляции, как правило, уступают полноразмерным аналогам по эффективности, они значительно менее требовательны к вычислительным ресурсам. Согласно данным облачной платформы NodeShift, для работы Qwen3-8B требуется GPU с 40–80 Гбайт оперативной памяти (например, Nvidia H100). Для сравнения, полноразмерной обновлённой версии R1 требуется около дюжины GPU с объёмом памяти 80 Гбайт каждый.

В процессе обучения модели DeepSeek-R1-0528-Qwen3-8B стартап использовал текст, сгенерированный обновлённой моделью R1, для тонкой настройки Qwen3-8B. В описании на платформе разработки ИИ Hugging Face стартап указал, что эта модель рассуждений может применяться «как для академических исследований, так и для промышленной разработки, ориентированной на модели малого масштаба».

DeepSeek-R1-0528-Qwen3-8B распространяется по разрешительной лицензии MIT, что позволяет использовать её в коммерческих целях без ограничений. Несколько приложений, включая LM Studio, уже предлагают эту модель через API.

DeepSeek выпустила улучшенную версию ИИ-модели R1 с 685 млрд параметров

Китайский стартап DeepSeek выпустил обновлённую версию ИИ-модели R1 и разместил её на платформе Hugging Face под открытой MIT-лицензией. В заявлении компании в WeChat сообщается, что модель получила незначительное обновление и её можно свободно использовать в коммерческих проектах.

 Источник изображения: John Cameron / Unsplash

Источник изображения: John Cameron / Unsplash

В репозитории Hugging Face пока нет подробного описания модели. Только конфигурационные файлы и «веса» (weights) — числовые параметры, которые определяют её поведение и возможности. Обновлённая R1 содержит 685 миллиардов параметров, что делает её крайне ресурсоёмкой и, как отмечает TechCrunch, без дополнительной оптимизации запустить такую модель на обычных пользовательских компьютерах вряд ли возможно.

Напомним, проект DeepSeek привлёк широкое внимание в начале этого года после релиза первой версии R1, которая составила конкуренцию моделям OpenAI. Однако успех стартапа вызвал обеспокоенность у некоторых регуляторов в США — они считают, что технологии компании могут представлять потенциальную угрозу национальной безопасности.

Несмотря на это, DeepSeek продолжает развивать свою ИИ-платформу. Открытая лицензия MIT позволяет разработчикам и бизнесу свободно тестировать и внедрять R1 в свои продукты, хотя для работы с моделью и требуются серьёзные вычислительные мощности.

«Яндекс» видит риски для своего бизнеса в ИИ-моделях китайской DeepSeek

Компания «Яндекс» впервые добавила в перечень отраслевых рисков большую языковую модель (LLM) китайской компании DeepSeek. Соответствующее упоминание есть в отчёте МКПАО «Яндекс» за 2024 год, который опубликован на портале раскрытия корпоративной информации. В пресс-службе компании пояснили, что разработка DeepSeek «может способствовать дальнейшему росту конкуренции в дообучении больших языковых моделей».

 Источник изображения: Steve Johnson / Unsplash

Источник изображения: Steve Johnson / Unsplash

В отчётах «Яндекса» традиционно отмечается, что новые ИИ-модели и продукты на их основе, которые разрабатывают и используют сама компания и её конкуренты, могут оказать влияние на бизнес. В упомянутом ранее отчёте «Яндекс» обратила внимание на быстрое развитие LLM нового поколения, таких как GPT-4. Там также указывается, что на конкурентную среду может оказать влияние появление ИИ-модели с открытым исходным кодом от DeepSeek, которая использовала существенно меньше ресурсов на этапе дообучения, чем многие конкуренты.

«Яндекс» отметила, что компания продолжает развивать собственные ИИ-модели и новое поколения YandexGPT 5 вполне сопоставимо по качеству с основными конкурентами. Эта модель уже используется в виртуальном помощнике «Алиса», ежемесячная аудитория которого составляет свыше 70 млн человек. «Однако новые модели конкурентов могут обострять конкуренцию, что приведёт к отставанию моделей Группы и переходу пользователей к конкурентам», — сказано в отчёте «Яндекса».

Поскольку «Яндекс» является публичной компанией, она в соответствии со стандартами раскрытия информации, сообщает акционерам о потенциальных рисках, даже гипотетических. Упоминание алгоритма DeepSeek связано с тем, что это одна из первых ИИ-моделей в открытом доступе с подробным техническим отчётом, и это может повлиять на дальнейший рост конкуренции в области дообучения LLM. В компании также напомнили о развитии собственных решений на базе нейросетей для всех сегментов бизнеса, включая корпоративное и потребительское направление.

Xiaomi выпустила открытую рассуждающую ИИ-модель MiMo и заявила, что она быстрее OpenAI o1-mini

Значимость программного обеспечения, связанного с так называемым искусственным интеллектом, в наши дни велика для большинства компаний, поэтому китайская Xiaomi решила не отставать от конкурентов, представив собственную рассуждающую ИИ-модель MiMo с открытым исходным кодом.

 Источник изображения: Unsplash, BoliviaInteligente

Источник изображения: Unsplash, BoliviaInteligente

Эта модель подражает человеку в логике решения различных проблем. По информации Bloomberg, в своём аккаунте в китайской социальной сети WeChat компания Xiaomi опубликовала результаты тестирования собственной языковой модели, которые свидетельствуют о её превосходстве по быстродействию по сравнению с o1-mini американского стартапа OpenAI и Qwen китайского интернет-гиганта Alibaba. Аналогом MiMo также можно считать китайскую DeepSeek R1.

По традиции руководство Xiaomi не ограничилось дебютом первой языковой модели компании, заявив на этой неделе о наличии амбиций создать так называемый сильный искусственный интеллект (AGI), сопоставимый по своим возможностям с человеческим. Более того, на фоне этого заявления акции самой Xiaomi подорожали на 5 %, что также повлияло на рост котировок многих других эмитентов. Отчасти этому способствовал и визит главы китайского государства Си Цзиньпина (Xi Jinping) в один из «инкубаторов» для стартапов, занимающихся искусственным интеллектом.

В своём сообщении на страницах WeChat представители Xiaomi отметили: «Хотя 2025 год может показаться поздним этапом для воплощения мечты о больших моделях, мы верим, что в долгосрочной перспективе займёмся AGI».

За последние пару лет это уже второй пример выхода Xiaomi в новую для себя сферу деятельности. В 2024 году компания вышла на рынок электромобилей, весьма успешно стартовав для новичка без соответствующего опыта в регионе с высочайшей конкуренцией, каковым является Китай. Отсутствие кроссовера YU7 на недавней выставке в Шанхае, как отмечает Bloomberg, не помешало Xiaomi подтвердить, что его рыночный дебют по-прежнему намечен на июнь или июль текущего года.

DeepSeek вернулся в Южную Корею после двух месяцев перерыва

В Южной Корее дебют китайского чат-бота DeepSeek состоялся в январе этого года, но на прошлой неделе местные регуляторы пояснили, что пользовательские данные и запросы передавались в Китай и США без разрешения. Это не помешало одноимённому приложению вернуться в магазины приложений для пользователей в Южной Корее на текущей неделе.

 Источник изображения: Unsplash, Solen Feyissa

Источник изображения: Unsplash, Solen Feyissa

Доступ к приложению для пользователей из Южной Кореи был закрыт в феврале этого года, но с понедельника он возобновился как в Apple App Store, так и в Google Play. Об этом сообщило агентство Reuters. В аннотации к скачиваемому приложению на этих платформах появилась надпись: «Мы обрабатываем ваши персональные данные в соответствии с Законом о защите персональных данных в Южной Корее». Пользователи DeepSeek, по словам представителей одноимённой компании, сохраняют возможность отказаться от передачи персональных данных ряду китайских и американских компаний.

По словам южнокорейских регуляторов, DeepSeek по собственной инициативе вернула своё приложение в магазины ПО, соответствующее право она могла получить, если хотя бы частично последовала требованиям властей Южной Кореи. В прочих странах использование DeepSeek запрещается для чиновников, располагающих служебными электронными устройствами, полный запрет вводится в редких случаях. Власти отдельных стран опасаются, что DeepSeek может передавать персональные данные пользователей и прочую чувствительную информацию китайским спецслужбам.

DeepSeek без разрешения передавал данные пользователей и их запросы в Китай, заявили в Южной Корее

Южнокорейская Комиссия по защите данных заявила, что китайский стартап в области искусственного интеллекта DeepSeek без согласия пользователей передавал их персональные данные и запросы, когда приложение сервиса ещё было доступно в стране.

 Источник изображения: Solen Feyissa / unsplash.com

Источник изображения: Solen Feyissa / unsplash.com

Компания Hangzhou DeepSeek Artificial Intelligence Co Ltd, заявил южнокорейский регулятор, не получала согласия пользователей на передачу их личной информации нескольким организациям в Китае и США, когда вышедшее в январе приложение ещё было доступно для скачивания потребителями в стране. В феврале ведомство приостановило новые загрузки приложения DeepSeek на территории Южной Кореи, поскольку администрация сервиса, по версии органа, не соблюдала некоторые нормы по защите персональных данных.

Приложение также отправляло некой компании Beijing Volcano Engine Technology Co. Ltd. содержимое запросов пользователей к искусственному интеллекту, информацию об их устройствах, сети и приложениях, заявили в ведомстве. В DeepSeek ответили, что решение о передаче данных в Volcano Engine было принято для улучшения работы продукта, и с 10 апреля содержимое запросов к ИИ больше не передаётся.

Южнокорейский регулятор решил выписать DeepSeek корректирующее предписание о немедленном удалении содержимого переданных в Volcano Engine запросов к ИИ и о необходимости заложить правовую основу для передачи личной информации за границу. Министерство иностранных дел Китая заявило, что власти КНР не просили и никогда не будут просить компании собирать и хранить данные в незаконном порядке.

Разработчики ИИ-приложений предпочитают технологии OpenAI, но всё быстро меняется

OpenAI является наиболее частым выбором среди разработчиков приложений искусственного интеллекта; компания доминирует в области больших языковых моделей, но динамика рынка меняется, и её клиенты изучают альтернативные варианты, сообщает TechRadar со ссылкой на исследование, проведённое облачной платформой Vercel.

 Источник изображения: Dima Solomin / unsplash.com

Источник изображения: Dima Solomin / unsplash.com

Данные опроса, проведённого платформой Vercel среди 656 разработчиков, показали, что 87 % используют модели OpenAI и 83 % пользуются предоставляемым компанией API. При этом сейчас разработчики уже используют в среднем двух поставщиков ИИ-моделей, а 60 % в течение последних шести месяцев меняли поставщиков. Почти треть предприятий используют DeepSeek, а большие языковые модели от Microsoft выбирают лишь 10 % респондентов.

Разработка продуктов на базе ИИ выстраивается вокруг чётких сценариев их применения, а создатели приложений отдают приоритет инструментам, а не командам: в 45 % случаев у компаний отсутствуют специализирующиеся на ИИ подразделения, 57 % сообщили об отсутствии экспертов по ИИ в руководстве. Приоритетными для 75 % ориентированных на клиентов приложений являются связанные с ИИ функции; 39 % используют чат-ботов в поддержке.

Важным аспектом является управления затратами: более 70 % тестируют модели вручную и тратят менее $1000 в месяц. В аспекте сокращения расходов только 14 % опрошенных обучают свои модели, а 60 % вместо этого используют технологию генерации с дополненным извлечением (Retrieval-Augmented Generation — RAG) и векторные базы данных. Связанный с «чрезмерной шумихой» (overhype) вокруг ИИ акцент на инструментах получил среди респондентов среднюю оценку 6,4 из 10; рейтинг 7,7 из 10 получил вопрос о том, преобразует ли ИИ отрасль участников опроса в ближайшие 12 месяцев.

Нейросеть DeepSeek останется открытой — это полезно всему миру

Нейросеть китайской компании DeepSeek сохранит открытый исходный код, поскольку это будет полезно всему миру. Об этом пишет информационное агентство ТАСС со ссылкой на слова посла КНР в России Чжан Ханьхуэя.

 Источник изображения: Steve Johnson / Unsplash

Источник изображения: Steve Johnson / Unsplash

«Китайская нейронная сеть DeepSeek предоставляет открытый исходный код, способствуя совместному использованию технологий ИИ по всему миру, а половина популярных моделей с открытым исходным кодом на известной платформе Hugging Face созданы китайскими разработчиками», — напомнил господин Ханьхуэй.

По словам дипломата, в Китае считают, что искусственный интеллект должен оставаться общедоступной технологией, а не привилегией избранных. «Открытый исходный код играет ключевую роль в обеспечении широкого доступа к технологиям искусственного интеллекта. Успешные примеры, такие как разработка компанией «Яндекс» локализованных моделей ИИ на основе экосистемы с открытым исходным кодом, подтверждают эффективность открытого обмена», — добавил посол.

В беседе с журналистами он также рассказал, что в рамках «Инклюзивной программы по наращиванию потенциала ИИ» Китай готов предложить развивающимся странам комплексный план действий, в том числе формирование необходимой инфраструктуры, развитие производственно-сбытовых цепочек, организацию открытых сообществ на основе открытого исходного кода и подготовку квалифицированных специалистов в сфере ИИ.

DeepSeek придумал, как повысить эффективность ИИ-моделей с помощью самообучения

Китайский стартап DeepSeek прославился в начале года, выпустив рассуждающую модель R1, которая смогла конкурировать с ИИ-моделями американских технологических гигантов, несмотря на скромный бюджет. Теперь DeepSeek опубликовал в сотрудничестве с исследователями университета Цинхуа статью с подробным описанием нового подхода к обучению моделей с подкреплением, позволяющего значительно повысить их эффективность. Об этом сообщил ресурс SCMP.

 Источник изображения: Solen Feyissa/unsplash.com

Источник изображения: Solen Feyissa/unsplash.com

Согласно публикации, новый метод направлен на то, чтобы помочь ИИ-моделям лучше соответствовать человеческим предпочтениям, используя механизм вознаграждений за более точные и понятные ответы. Обучение с подкреплением доказало свою эффективность в ускорении решения задач ИИ в ограниченных сферах и приложениях. Однако его использование для более общих задач оказалось не столь эффективным. Команда DeepSeek пытается решить этот вопрос, объединив генеративное моделирование вознаграждения (GRM) и так называемую настройку самокритики на основе принципов. Как утверждается в статье, новый подход с целью улучшения возможностей рассуждений больших языковых моделей (LLM) превзошёл существующие методы, что подтверждено проверкой моделей в различных тестах, и позволил получить самую высокую производительность для общих запросов при использовании меньших вычислительных ресурсов.

Новые модели получили название DeepSeek-GRM — сокращение от термина Generalist Reward Modeling (универсальное моделирование вознаграждения). Компания сообщила, что новые модели будут с открытым исходным кодом, однако сроки их выхода пока не объявлены. В прошлом месяце агентство Reuters сообщило со ссылкой на информированные источники, что в апреле компания также выпустит DeepSeek-R2, преемника рассуждающей модели R1.

Другие ведущие разработчики в сфере ИИ, включая китайскую Alibaba Group Holding и OpenAI из Сан-Франциско (США), также работают над улучшением возможностей рассуждения и самосовершенствования ИИ-моделей, отметил Bloomberg.


window-new
Soft
Hard
Тренды 🔥
Минюст США убедил Google и Apple не блокировать TikTok, пообещав их не штрафовать 2 ч.
Destiny: Rising не заставит себя долго ждать — дата выхода и новый геймплейный трейлер 6 ч.
Anthem уйдёт в вечный офлайн — Electronic Arts скоро отключит серверы провального шутера 7 ч.
«Базальт СПО» представила в Китае российский ПАК с китайскими чипами Loongson 8 ч.
Петиция «Прекратите убивать игры» набрала миллион подписей для рассмотрения в Евросоюзе, но борьба ещё не окончена 8 ч.
Аналитики раскрыли продажи Death Stranding 2: On the Beach — игра уже стала хитом на PlayStation 5 10 ч.
Windows 11 становится всё популярнее среди геймеров — на неё переходят не только с Windows 10 10 ч.
Новый шутер от соавтора Doom Джона Ромеро оказался под угрозой — из-за увольнений в Microsoft студия осталась без денег и сотрудников 11 ч.
«Нужно больше Адских Десантников»: популярный кооперативный шутер Helldivers 2 от Sony всё-таки выйдет на Xbox, причём уже скоро 12 ч.
39 млн записей с персональными данными россиян утекло за первое полугодие 13 ч.
CoreWeave стала первым облачным клиентом Nvidia, запустившим эксплуатацию ускорителей Blackwell Ultra 26 мин.
E Ink придумала встроить в тачпад ноутбука экран на электронных чернилах — для общения с ИИ и не только 5 ч.
Новая статья: ИИтоги июня 2025 г.: ой, да было бы что заменять! 6 ч.
Transcend выпустила свой самый быстрый SSD для ПК — MTE260S со скоростью до 14 000 Мбайт/с 8 ч.
«Большой прекрасный закон» Трампа сулит тёмные времена солнечной энергетике США 8 ч.
Nothing Phone (3) для Индии получил более ёмкую батарею, чем для США и Европы 8 ч.
Дело о растрате 6 млрд рублей при создании «планшета Чубайса» дошло до суда 8 ч.
Tesla подтвердила падение спроса на Cybertruck до 5000 единиц в квартал — на порядок ниже изначального плана 9 ч.
Nvidia сегодня может отобрать у Apple звание самой дорогой компании в истории 9 ч.
В России поступили в продажу беспроводные наушники Realme Buds T200x, Buds T200 Lite и Buds Air7 — от 1699 рублей 10 ч.