Сегодня 03 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → deepseek
Быстрый переход

Alibaba представила мощную ИИ-модель Qwen2.5-Max, которая лучше GPT-4o и DeepSeek V3

Alibaba Cloud, облачное подразделение китайской компании Alibaba, анонсировала выпуск обновлённой, крупномасштабной языковой модели Qwen2.5-Max. ИИ-модель основана на архитектуре Mixture-of-Experts (MoE) и обучена на более чем 20 триллионах токенов. Разработчики подчёркивают, что инструмент показал «значительный прогресс в интеллектуальных возможностях» и уже доступен для использования.

 Источник изображения: Alibaba Cloud

Источник изображения: Alibaba Cloud

Новая версия модели отличается улучшенной производительностью и точностью, способна лучше справляться с задачами, требующими глубокого понимания контекста, таких как анализ текста, перевод и генерация контента. «Qwen2.5-Max демонстрирует значительный прогресс в обработке сложных запросов и предоставлении релевантных ответов», — пишет компания на страницах своего блога.

Qwen2.5-Max была протестирована в ряде ключевых бенчмарков, включая MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard. Модель показала превосходство над DeepSeek V3 в таких тестах, как Arena-Hard, LiveBench и LiveCodeBench, а также продемонстрировала конкурентоспособные результаты в MMLU-Pro. В сравнении с другими ведущими моделями, такими как GPT-4o и Claude-3.5-Sonnet, Qwen2.5-Max также подтвердила свои лидирующие позиции.

 Источник изображения: Alibaba Cloud

Источник изображения: Alibaba Cloud

 Источник изображения: Alibaba Cloud

Источник изображения: Alibaba Cloud

Alibaba Cloud планирует интегрировать Qwen2.5-Max в свои облачные сервисы, что позволит клиентам использовать инструмент для решения широкого спектра задач, включая автоматизацию обработки данных, улучшение взаимодействия с клиентами через чат-ботов и оптимизацию бизнес-процессов.

ИИ-модель уже доступна через сервис Qwen Chat, в котором пользователи могут взаимодействовать с Qwen2.5-Max, тестировать её возможности и экспериментировать с различными функциями. Для разработчиков также открыт программный интерфейс API. Для доступа необходимо зарегистрироваться в Alibaba Cloud, активировать сервис Model Studio и создать API-ключ.

Успех DeepSeek ударил по акциям азиатских ИИ-компаний, а глава Nvidia вчера потерял $20 млрд

Китайская лаборатория DeepSeek, которая выпустила несколько обученных почти за бесценок моделей искусственного интеллекта, спровоцировала падение акций крупнейших в мире игроков, связанных с отраслью, сообщает Reuters. Досталось и владельцам этих компаний, чьи состояния также уменьшились.

 Гендиректор Nvidia Дженсен Хуанг. Источник изображения: nvidia.com

Гендиректор Nvidia Дженсен Хуанг. Источник изображения: nvidia.com

Падение акций Nvidia накануне завершилось на отметке 17 % — компания подешевела на $593 млрд, и это крупнейший однодневный спад в истории фондового рынка. Ко вторнику акции Nvidia на торгах во Франкфурте отыграли 6 %, Oracle подорожала на 3,4 %, а Palantir — на 2,97 %. В целом же европейский рынок оказался к технологическим компаниям отнюдь не благосклонным. Advantest, производитель оборудования для тестирования чипов и поставщик Nvidia, накануне потерял 9 % и сегодня ещё 10 %; японский финансовый конгломерат SoftBank Group, который активно инвестирует в технологическую отрасль, подешевел на 5 %.

Нидерландский производитель оборудования для выпуска чипов ASML потерял 7,1 % вчера и 1 % сегодня; снижение Schneider Electric, ASM International и Infineon составило от 1,2 % до 4,7 %. На торгах в США акции Broadcom рухнули на 17,4 %, Microsoft подешевела на 2,1 %, холдинг Alphabet к закрытию потерял 4,2 %. Филадельфийский фондовый индекс PHLX Semiconductor Sector упал на 9,2 %, и это антирекорд с марта 2020 года. До свершившегося накануне крупномасштабного падения Nvidia стоимость ценных бумаг компании в 60 раз превышала её прибыль — в индексе S&P 500 этот показатель в среднем равен 22.

Положение на рынке сложилось безрадостное: на волне бума ИИ капитализация компаний «великолепной семёрки» (Apple, Microsoft, Alphabet, Amazon, Nvidia, Tesla и Meta) выросла на $10 трлн. Сначала инвесторы занимали средства, чтобы покупать эти акции, теперь они продают другие активы, чтобы покрыть убытки. Усугубляет положение широкое присутствие «торговых роботов» — инвесторов, которые принимают решения, исходя из оценки алгоритмами.

 Динамика акций «великолепной семёрки» и других компаний индекса S&P 500 с начала 2025 года. Источник изображения: reuters.com

Динамика акций «великолепной семёрки» и других компаний индекса S&P 500 с начала 2025 года. Источник изображения: reuters.com

Успех DeepSeek губительно отозвался и на личных состояниях владельцев крупнейших технологических компаний: 500 самых богатых людей мира потеряли $108 млрд. Состояние главы Nvidia Дженсена Хуанга (Jensen Huang) сократилось на $20,1 млрд или на 20 %; соучредитель Oracle Ларри Эллисон (Larry Ellison) потерял 12 % своего состояния или $22,6 млрд; глава Dell Майкл Делл (Michael Dell) стал беднее на $13 млрд, а убыток создателя криптобиржи Binance Чанпэна Чжао (Changpeng Zhao) составил $12,1 млрд. Богатейшие люди технологического сектора потеряли $94 млрд, приняв на себя падение примерно 85 % общего падения индекса Bloomberg. Индекс Nasdaq Composite показал снижение на 3,1%, а S&P 500 — на 1,5%.

До этого состояния богатейших предпринимателей в технологической сфере на фоне бума ИИ показывали колоссальный рост. С начала 2023 года по минувшую пятницу, 24 января 2025 года, чистый капитал Дженсена Хуанга вырос в 8 раз до $121 млрд; состояние главы Meta Марка Цукерберга (Mark Zuckerberg) за тот же период показало рост на 385 % до $229 млрд; бывший глава Amazon Джефф Безос (Jeff Bezos) стал богаче на 133 % до $254 млрд. И не все они проиграли на фоне успеха DeepSeek: Meta восстановилась после падения в начале торговой сессии, а Марк Цукерберг увеличил состояние на $4,3 млрд; Джефф Безос положил в копилку ещё $632 млн.

Трамп и Альтман высоко оценили успехи китайского ИИ-стартапа DeepSeek и заявили, что США смогут лучше

Распространение новейшей языковой модели китайской компании DeepSeek зародило в умах инвесторов сомнения по поводу способности американских компаний и далее удерживать лидерство в сфере ИИ, а главное — доказало, что высокого быстродействия можно добиться при меньших затратах. Президент Дональд Трамп (Donald Trump) и глава OpenAI Сэм Альтман (Sam Altman) похвалили DeepSeek, но подчеркнули, что США способны на большее.

 Источник изображения: DeepSeek

Источник изображения: DeepSeek

По крайней мере, в своём выступлении во Флориде Дональд Трамп заявил, что много читал в последние дни о прогрессе китайской компании DeepSeek, которая продемонстрировала современную языковую модель, созданную со значительно меньшими аппаратными и материальными ресурсами по сравнению с американскими разработками. По мнению президента США, подобный прецедент идёт на пользу его стране, поскольку «мы сможем сделать то же самое, при этом не затрачивая так много средств и получая такой же результат, как хотелось бы надеяться». На встрече с политическим руководством Китая, по словам Трампа, он услышал признания заслуг американских учёных. По его мнению, если китайской стороне удалось создать более дешёвую технологию в сфере искусственного интеллекта, американские компании последуют за ней.

Один из основателей и глава OpenAI Сэм Альтман (Sam Altman) заявил со страниц социальной сети X, что «DeepSeek R1 является впечатляющей моделью, особенно с точки зрения соотношения результата и стоимости». Он тут же добавил: «Мы очевидно сможем предложить значительно лучшие модели. Иметь нового конкурента — это реально очень воодушевляет. Мы ускорим выпуск некоторых моделей».

Компания Nvidia также не удержалась от комментариев и накануне тоже выразила восхищение итогами работы DeepSeek, подчеркнув, что подобный высокий результат был достигнут в условиях экспортных ограничений США и относительно небольшого бюджета. «Работа DeepSeek показывает, как могут создаваться новые модели без нарушения экспортного контроля», — говорится в сообщении Nvidia. Рекордное падение капитализации самой Nvidia на фоне успехов DeepSeek представителей компании не расстроило. Напротив, они отметили, что создание искусственного интеллекта с возможностью рассуждения потребует значительных количеств GPU данной марки, а также высокоскоростных телекоммуникационных решений.

Попутно бывший генеральный директор Intel Патрик Гелсингер (Patrick Gelsinher) также положительно оценил достижения как китайской DeepSeek, так и всего ПО с открытым исходным кодом в сфере создания систем искусственного интеллекта. Он отметил, что хотя специфика работы китайских компаний и не позволяет судить об истинной величине затрат DeepSeek на создание своей модели R1, но имеющиеся доказательства говорят о том, что они оказались в 10 или 50 раз ниже, чем в случае с моделью o1 компании OpenAI. По словам Гелсингера, инженеры его собственного стартапа Gloo, создающего чат-бот Kallm, уже используют языковую модель DeepSeek R1, хотя технически у них есть возможность применять o1 компании OpenAI. В дальнейшем Gloo перейдёт на языковую модель с открытым исходным кодом собственной разработки. Как признался Гелсингер, «открытое побеждает, DeepSeek полностью изменит мир всё более закрытых моделей в сфере ИИ». Вычисления, по словам Гелсингера, подчиняются тем же законам, что и газы. Чем дешевле становится ПО, тем сильнее расширяется рынок для его применения.

Посещаемость ИИ-чат-бота DeepSeek взлетела с 300 000 до 6 млн человек, не обошлось и без DDoS

Китайский ИИ-стартап DeepSeek столкнулся с резким ростом интереса к своим продуктам. Согласно данным аналитического сервиса Similarweb, ежедневное количество посещений сайта компании увеличилось с 280 тысяч до 6,2 миллиона. Такой скачок произошёл после выпуска 26 декабря третьей версии их чат-бота V3. В последующие дни трафик начал стремительно расти, достигнув 2 миллионов посещений в день.

 Источник изображения: Unsplash, Faizi Sheikh

Источник изображения: Unsplash, Faizi Sheikh

К началу января ежедневный трафик на сайт DeepSeek достиг 3,1 млн посещений, а к концу недели пересёк отметку в 5 млн. Пик интереса пришёлся на 24 января, когда аналитический сервис Similarweb зафиксировал 6,2 миллиона посещений. Как пишет PCMag, этот рост совпал с распространением информации о том, что технологии DeepSeek могут составить серьёзную конкуренцию американским компаниям на рынке искусственного интеллекта (ИИ). Хотя цифры, касающиеся посещаемости, всё ещё значительно уступают OpenAI, чей чат-бот ежедневно привлекает более 100 миллионов человек, успех DeepSeek очевидно свидетельствует о растущем интересе к разработкам компании.

Отмечается, что одной из причин популярности DeepSeek стали их последние модели V3 и R1, которые требуют значительно меньше вычислительных ресурсов и снижают затраты на их использование. По мнению экспертов, компания использует такие технологии, которые способны нанести удар по бизнес-моделям американских технологических гигантов, таких как Nvidia, OpenAI и Microsoft. «Развёртывание замороженных атомных электростанций никогда не было решением. У нас есть огромные возможности для повышения эффективности ИИ», — выразил своё мнение в Twitter генеральный директор Cloudflare Мэттью Принс (Matthew Prince).

Однако рост популярности DeepSeek привлёк не только пользователей, но и хакеров. Вчера утром компания сообщила о «крупномасштабной злонамеренной атаке» на свой сайт, что даже вынудило её временно ограничить регистрацию новых пользователей.

При этом уже существующие пользователи сохранили доступ к сервису, а DeepSeek временно разрешила регистрацию только для пользователей с китайскими номерами телефонов (+86). Тем не менее, позднее ограничения были смягчены, так как удалось частично справится с техническими трудностями, которые были вызваны DDoS-атакой.

ИИ-пузырь лопнул: стоимость Nvidia рухнула на $600 млрд за сутки из-за китайского стартапа DeepSeek

Понедельник, 27 января 2025 года, войдёт в историю как один из худших дней для технологических компаний со всего мира — акции большинства из них упали на фоне успеха китайского ИИ-стартапа DeepSeek. Хуже всех пришлось компании Nvidia — её капитализация рухнула примерно на $600 млрд, что является крупнейшим обвалом в истории фондового рынка США. И, возможно, это ещё не конец.

 Источник изображения: Nasdaq

Источник изображения: Nasdaq

На момент подготовки данного материала акции Nvidia показывали суточное падение в 17,8 % — для данной компании это самый серьёзный спад с марта 2020 года. Рыночная стоимость крупнейшего производителя ИИ-чипов в мире сократилась на 600 млрд долларов до отметки в 2,89 трлн, что является рекордным падением в истории. Прежний рекорд в 279 млрд также принадлежал Nvidia и произошёл в сентябре 2024 года. Ещё вчера Nvidia была самой дорогой компанией в мире, а уже сегодня скатилась на третье место после Apple и Microsoft, и рискует опуститься ещё ниже.

Примеру ценных бумаг Nvidia последовали акции многих других компаний технологического сектора, так или иначе связанных с ИИ. Акции Broadcom потеряли 17,3 %, AMD — 8 %, Microsoft — 3 %, Palantir — 7 %. Пожалуй, OpenAI повезло, что она не торгуется на бирже, поскольку её акции скорее всего тоже были бы в лидерах падения. Индекс Nasdaq Composite потерял 3,5 %, а индекс S&P 500 упал на 1,8 %. Добавим, что пострадали и компании, не связанные с ИИ напрямую: например, поставщики электроэнергии Constellation Energy и Vistra потеряли за день 21 и 29 % своей стоимости соответственно. Всего фондовый рынок США за день потерял более 1 трлн долларов капитализации.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Почему же инвесторы устроили распродажу акций и обвалили рынки? Всё дело в китайском стартапе DeepSeek, который нашёл способ обучать продвинутые ИИ-модели на малом количестве ускорителей вычислений. Например, при обучении одной из своих моделей на внушительных 671 млрд параметров DeepSeek использовала всего 2048 ИИ-ускорителей Nvidia H800 и потратила $5,6 млн. Это мизерная часть расходов OpenAI и Google на обучение моделей сопоставимого размера.

Кроме того, на прошлой неделе DeepSeek выпустила «рассуждающую» модель ИИ R1, которая превзошла мыслящую OpenAI o1 в важных тестах. Более того, компания опубликовала инструкции, как с минимальными затратами построить большую языковую модель, способную самостоятельно обучаться и совершенствоваться без контроля со стороны человека. Добавим, что многие свои разработки DeepSeek распространяет совершенно бесплатно. Да и платный доступ к наиболее продвинутым её системам оказывается намного дешевле, чем у конкурентов — например, R1 доступна через API компании по цене, которая на 90–95 % ниже, чем у OpenAI o1.

В итоге инвесторы поняли, что нейросети можно обучать не только по схеме «купи и установи как можно больше ускорителей вычислений», но и куда более эффективно на меньшем числе GPU. Это грозит резким падением спроса на продукцию Nvidia, выручка которой более чем на 80 % зависит как раз от ускорителей вычислений.

Ряд аналитиков предрекает Nvidia мрачное будущее и не рекомендуют пока покупать акции компании, хотя цены на них стали заманчивыми. Другие же наоборот уверены, что компания сможет быстро восстановиться, а нынешний спад как раз следует использовать для покупки акций.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Что интересно, сама Nvidia похвалила разработки DeepSeek. Компания отметила, что новая модель DeepSeek R1, является «отличным достижением в области ИИ», которое не нарушает экспортные ограничения США. Заявление также отвергает подозрения некоторых аналитиков и экспертов в том, что китайский стартап не мог совершить тот прорыв, о котором он заявлял.

Вместе с тем в Nvidia отметили, что её ускорители нужны не только для обучения ИИ-моделей, но и для инференса — запуска уже обученных систем. Причём для этого нужно очень много GPU, особенно при большом числе пользователей. «Для инференса требуется значительное количество графических процессоров Nvidia и высокопроизводительные сети», — заявили в компании.

Нашумевший стартап DeepSeek выпустил Janus Pro — мощный ИИ-генератор изображений, который потягается с OpenAI DALL-E 3

Китайская компания DeepSeek, получившая огромную известность благодаря своему ИИ-чат-боту, анонсировала семейство мультимодальных моделей искусственного интеллекта Janus Pro. По заявлению компании, эти алгоритмы, доступные под открытой лицензией MIT, способны генерировать и анализировать изображения лучше, чем OpenAI DALL-E 3, PixArt-alpha и Stable Diffusion XL.

 Источник изображения: hdhAI

Источник изображения: hdhAI

Janus Pro предлагается в версиях, насчитывающих от 1 до 7 миллиардов параметров — чем их больше, тем выше производительность. Флагманская модель Janus Pro 7B, как информирует TechCrunch, успешно продемонстрировала свои возможности в бенчмарках GenEval и DPG-Bench. «Janus Pro превосходит предыдущие универсальные модели и сопоставима, и даже превосходит узкоспециализированные решения других компаний. Простота, гибкость и эффективность делают нашу ИИ-модель кандидатом на новое поколение мультимодальных систем», — говорится в сообщении компании.

Архитектура Janus Pro позволяет не только создавать изображения, но и анализировать их. Однако текущая версия ограничена генерацией картинок с разрешением 384 × 384 пикселей, что ниже стандартов современных моделей. Тем не менее, для компактных ИИ-моделей такие результаты называют впечатляющими, особенно на фоне конкурентов.

 DeepSeek

Источник изображения: DeepSeek

Стоит сказать, успех DeepSeek привлёк широкое внимание после того, как её чат-бот возглавил топ приложений App Store. При этом стартап, финансируемый компанией High-Flyer Capital Management и используя энергоэффективные методы обучения, заставляет аналитиков с Уолл-стрит и ИТ-экспертов сомневаться в том, что США наверняка сохранят лидерство в гонке решений, связанных с искусственным интеллектом. Некоторые также задаются вопросом, сохранится ли текущий ажиотажный спрос на чипы для ИИ, так как DeepSeek использовал совсем другие подходы.

Как отмечают эксперты, революционность Janus Pro — в его универсальности. Он объединяет анализ и генерацию, что редко встречается в моделях такого размера. Хотя разрешение изображений пока не дотягивает до уровня DALL-E 3, открытая лицензия и адаптивность могут ускорить внедрение Janus Pro в коммерческие проекты.

Nvidia потеряла $384 млрд рыночной стоимости за день из-за шумихи вокруг китайского ИИ-стартапа DeepSeek

Приложение китайского стартапа DeepSeek для работы с фирменным ИИ-чат-ботом по своей популярности успело обойти в Apple App Store знаменитый ChatGPT. Это пошатнуло веру инвесторов в могущество американской ИИ-отрасли — курсы акций многих западных компаний, включая Nvidia и ASML, начали ощутимо снижаться в цене в понедельник.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Откровением для участников фондового рынка стала способность китайской компании предложить сопоставимый по быстродействию с ChatGPT чат-бот с ИИ не только бесплатно для пользователей, но и с гораздо меньшими затратами для самого разработчика. Получается, что для создания эффективных языковых моделей можно ограничиться гораздо более скромными аппаратными ресурсами и материальными затратами. На предварительных торгах в понедельник акций Nvidia падали в моменте на величину свыше 11 %, из-за чего капитализация компании просела на 384 млрд долларов. Ценные бумаги ASML просели на 11 %, что является новым антирекордом для одной торговой сессии за период с 15 октября прошлого года. Фьючерсы на технологический индекс Nasdaq 100 также потеряли в цене.

Как известно, Nvidia на протяжении последних двух с лишним лет считается одним из главных бенефициаров так называемого бума искусственного интеллекта, поскольку разрабатывает и поставляет ускорители для соответствующих вычислительных систем. ASML, которая на этой неделе должна опубликовать свой квартальный отчёт, является крупнейшим поставщиком литографических сканеров, которые нужны для выпуска чипов, используемых в вычислительной инфраструктуре.

Активность американских компаний и властей в сфере развития подобной инфраструктуры в последние дни широко освещалась в прессе. Так, компания Meta Platforms заявила о готовности потратить на строительство центров обработки данных до $65 млрд. Анонсированный при участии президента США Дональда Трампа (Donald Trump) проект Stargate подразумевал инвестиции в сумме до $500 млрд в последующие четыре года. Всё указывало на то, что для сохранения своего лидерства в сфере искусственного интеллекта США не остановятся перед высокими расходами. Прорыв DeepSeek доказал, что они не всегда требуются, если сосредоточиться на оптимизации ПО в условиях ограниченности ресурсов. Если все игроки отрасли осознают данный дисбаланс, потребность в продукции тех же ASML и Nvidia может быть пересмотрена в сторону уменьшения. Это и толкает акции западных компаний технологического сектора вниз на торгах в понедельник.

Китайский ИИ-стартап DeepSeek устроил переполох в Кремниевой долине

Китайский миллиардер и владелец хедж-фонда Лян Вэньфэн (Liang Wenfeng) запустил стартап DeepSeek в области искусственного интеллекта, который разрабатывает передовые модели при ограниченных бюджете и технических ресурсах, а также рассказывает, как это можно сделать. В этом компания опередила американских лидеров рынка и устроила настоящий переполох, пишет Financial Times.

 Источник изображения: Nguyen Dang Hoang Nhu / unsplash.com

Источник изображения: Nguyen Dang Hoang Nhu / unsplash.com

На этой неделе DeepSeek выпустила «рассуждающую» модель ИИ R1 и опубликовала инструкции, как с минимальными затратами построить большую языковую модель, способную самостоятельно обучаться и совершенствоваться без контроля со стороны человека. Пионерами в разработке «рассуждающих» моделей, которые подражают когнитивным способностям человека, являются OpenAI и Google DeepMind. В декабре OpenAI выпустила полную версию своей нейросети o1, но не раскрыла, как вела её разработку. Выход DeepSeek R1 поднял вопрос, смогут ли обеспеченные ресурсами американские компании с проектами в области ИИ, в том числе Meta и Anthropic, сохранить за собой технологическое преимущество.

Ещё в 2021 году Лян Вэньфэн начала закупать тысячи графических процессоров Nvidia для своего побочного ИИ-проекта — основным его местом работы значился фонд High-Flyer. Тогда его действия рассматривались как эксцентричное поведение миллиардера, который ищет для себя новое увлечение. Его не воспринимали всерьёз, когда он говорил о запуске кластера из 10 000 ускорителей Nvidia, да и сам он не мог внятно сформулировать своих целей — просто утверждал: «Я хочу это построить, и это изменит правила игры». Считалось, что это под силу только гигантам масштаба ByteDance и Alibaba. Свои миллиарды в High-Flyer он заработал, используя ИИ и алгоритмы для выявления закономерностей, способных повлиять на котировки акций. Его команда достигла высот, используя чипы Nvidia в торговле акциями. В 2023 году Лян Вэньфэн запустил стартап DeepSeek и объявил о намерении создать ИИ человеческого уровня.

 Источник изображения: Stefan Cosma / unsplash.com

Источник изображения: Stefan Cosma / unsplash.com

Американские санкции, ограничившие доступ китайских компаний к ИИ-ускорителям, не помешали работе компании — её инженеры уже знали, «как раскрыть потенциал этих графических процессоров, даже если они не новейшие». Особенно опасной DeepSeek становится в связи с тем, что она готова делиться своими достижениями, а не скрывать их ради коммерческой выгоды. Компания не привлекала средств из внешних источников и не предпринимала значительных шагов для монетизации своих моделей; её область — это исследования и инженерная работа, что роднит её с ранней DeepMind. Лян характеризует DeepSeek как «местную» компанию, в которой работают доктора наук из лучших китайских вузов, а не американских институтов; а в прошлом году он сообщил в интервью, что в основной команде нет людей, которые вернулись из-за границы.

При обучении одной из своих моделей с 671 млрд параметров DeepSeek использовала всего 2048 ИИ-ускорителей Nvidia H800 и потратила $5,6 млн, и это лишь малая часть расходов OpenAI и Google на обучение систем сопоставимого размера. В Китае действительно много экспертов, которые знают, как обучать и запускать ИИ-модели, имея ограниченные вычислительные ресурсы, признают эксперты; но нет гарантии, продолжают они, что DeepSeek сможет сохранить конкурентоспособность по мере развития отрасли. При этом доходность компании High-Flyer, за чей счёт преимущественно существует DeepSeek, по итогам 2024 года снизилась, потому что её глава сейчас больше интересуется технологиями ИИ.

Китайцы создали нейросеть, которая превзошла мыслящую OpenAI o1 в важных тестах

Китайская лаборатория искусственного интеллекта (ИИ) DeepSeek представила открытую версию своей модели искусственного интеллекта R1 со способностью к рассуждению, которая, по заявлению разработчиков, превосходит ИИ-модель o1 от компании OpenAI в некоторых бенчмарках по ряду ключевых показателей.

 Источник изображения: Alexander Sinn / Unsplash

Источник изображения: Alexander Sinn / Unsplash

Как сообщает издание TechCrunch, модель R1 превосходит OpenAI o1 в таких бенчмарках, как AIME, MATH-500 и SWE-bench Verified. Эти тесты охватывают различные области, включая математические задачи, программирование и общую производительность модели. AIME оценивает производительность моделей с помощью других ИИ-моделей, MATH-500 представляет собой набор задач по математике, а SWE-bench Verified ориентирован на программирование.

Особенностью R1 является её способность к самопроверке, что помогает исключить ошибки, характерные для других моделей. Однако этот подход требует больше времени для получения ответа — от нескольких секунд до нескольких минут. Тем не менее, такие модели считаются более надёжными в сложных областях, таких как математика, физика и различные науки.

В DeepSeek заявили, что R1 содержит 671 миллиард параметров, что делает её одной из крупнейших моделей в мире. Для удобства пользователей компания также выпустила упрощённые версии R1 с объёмом параметров от 1,5 до 70 миллиардов. При этом, самая компактная версия может работать даже на обычном ноутбуке, в то время как для полного варианта требуется более мощное оборудование. Тем не менее, R1 доступна через API компании по цене, которая, как утверждается, на 90–95% ниже, чем у OpenAI o1.

Отмечается, что у R1 есть и некоторые недостатки. Поскольку модель разработана в Китае, она подлежит обязательной проверке со стороны регуляторов на соответствие «основным социалистическим ценностям». Например, R1 отказывается отвечать на вопросы о событиях на площади Тяньаньмэнь или о независимости Тайваня, что характерно для многих китайских ИИ-моделей, которые избегают обсуждения острых для Поднебесной политических тем.

Стоит сказать, что DeepSeek стала первой китайской лабораторией, вступившей в реальную конкуренцию с OpenAI o1, представив предварительный вариант R1 ещё в ноябре. Однако за ней последовали и другие игроки, включая Alibaba и Kimi, принадлежащую компании Moonshot AI. По мнению исследователя искусственного интеллекта из Университета Джорджа Мейсона Дина Балла (Dean Ball), всё это свидетельствует о том, что китайские ИИ-компании продолжают оставаться «быстрыми последователями» в технологической гонке. «Успех упрощённых версий DeepSeek […] показывает, что мощные рассуждающие модели будут становиться всё более доступными и смогут работать даже на локальном оборудовании», — отметил Балл в своём посте на X.

Китайцы представили открытую ИИ-модель DeepSeek V3 — она быстрее GPT-4o и её обучение обошлось намного дешевле

Китайская компания DeepSeek представила мощную открытую модель искусственного интеллекта DeepSeek V3 — лицензия позволяет её беспрепятственно скачивать, изменять и использовать в большинстве проектов, включая коммерческие.

 Источник изображения: and machines / unsplash.com

Источник изображения: and machines / unsplash.com

DeepSeek V3 справляется со множеством связанных с обработкой текста задач, в том числе написание статей, электронных писем, перевод и генерация программного кода. Модель превосходит большинство открытых и закрытых аналогов, показали результаты проведённого разработчиком тестирования. Так, в связанных с программированием задачах она оказалась сильнее, чем Meta Llama 3.1 405B, OpenAI GPT-4o и Alibaba Qwen 2.5 72B; DeepSeek V3 также проявила себя лучше конкурентов в тесте Aider Polyglot, проверяющем, среди прочего, её способность генерировать код для существующих проектов.

Модель была обучена на наборе данных в 14,8 трлн проектов; будучи развёрнутой на платформе Hugging Face, DeepSeek V3 показала размер в 671 млрд параметров — примерно в 1,6 раза больше, чем Llama 3.1 405B, у которой, как можно догадаться, 405 млрд параметров. Как правило, число параметров, то есть внутренних переменных, которые используются моделями для прогнозирования ответов и принятия решений, коррелирует с навыками моделей: чем больше параметров, тем она способнее. Но для запуска таких систем ИИ требуется больше вычислительных ресурсов.

DeepSeek V3 была обучена за два месяца в центре обработки данных на ускорителях Nvidia H800 — сейчас их поставки в Китай запрещены американскими санкциями. Стоимость обучения модели, утверждает разработчик, составила $5,5 млн, что значительно ниже расходов OpenAI на те же цели. При этом DeepSeek V3 политически выверена — она отказывается отвечать на вопросы, которые официальный Пекин считает щекотливыми.

В ноябре тот же разработчик представил модель DeepSeek-R1 — аналог «рассуждающей» OpenAI o1. Одним из инвесторов DeepSeek является китайский хедж-фонд High-Flyer Capital Management, который принимает решения с использованием ИИ. В его распоряжении есть несколько собственных кластеров для обучения моделей. Один из последних, по некоторым сведениям, содержит 10 000 ускорителей Nvidia A100, а его стоимость составила 1 млрд юаней ($138 млн). High-Flyer стремится помочь DeepSeek в разработке «сверхразумного» ИИ, который превзойдёт человека.


window-new
Soft
Hard
Тренды 🔥