Сегодня 22 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Китайцы представили открытую ИИ-модель DeepSeek V3 — она быстрее GPT-4o и её обучение обошлось намного дешевле

Китайская компания DeepSeek представила мощную открытую модель искусственного интеллекта DeepSeek V3 — лицензия позволяет её беспрепятственно скачивать, изменять и использовать в большинстве проектов, включая коммерческие.

 Источник изображения: and machines / unsplash.com

Источник изображения: and machines / unsplash.com

DeepSeek V3 справляется со множеством связанных с обработкой текста задач, в том числе написание статей, электронных писем, перевод и генерация программного кода. Модель превосходит большинство открытых и закрытых аналогов, показали результаты проведённого разработчиком тестирования. Так, в связанных с программированием задачах она оказалась сильнее, чем Meta Llama 3.1 405B, OpenAI GPT-4o и Alibaba Qwen 2.5 72B; DeepSeek V3 также проявила себя лучше конкурентов в тесте Aider Polyglot, проверяющем, среди прочего, её способность генерировать код для существующих проектов.

Модель была обучена на наборе данных в 14,8 трлн проектов; будучи развёрнутой на платформе Hugging Face, DeepSeek V3 показала размер в 671 млрд параметров — примерно в 1,6 раза больше, чем Llama 3.1 405B, у которой, как можно догадаться, 405 млрд параметров. Как правило, число параметров, то есть внутренних переменных, которые используются моделями для прогнозирования ответов и принятия решений, коррелирует с навыками моделей: чем больше параметров, тем она способнее. Но для запуска таких систем ИИ требуется больше вычислительных ресурсов.

DeepSeek V3 была обучена за два месяца в центре обработки данных на ускорителях Nvidia H800 — сейчас их поставки в Китай запрещены американскими санкциями. Стоимость обучения модели, утверждает разработчик, составила $5,5 млн, что значительно ниже расходов OpenAI на те же цели. При этом DeepSeek V3 политически выверена — она отказывается отвечать на вопросы, которые официальный Пекин считает щекотливыми.

В ноябре тот же разработчик представил модель DeepSeek-R1 — аналог «рассуждающей» OpenAI o1. Одним из инвесторов DeepSeek является китайский хедж-фонд High-Flyer Capital Management, который принимает решения с использованием ИИ. В его распоряжении есть несколько собственных кластеров для обучения моделей. Один из последних, по некоторым сведениям, содержит 10 000 ускорителей Nvidia A100, а его стоимость составила 1 млрд юаней ($138 млн). High-Flyer стремится помочь DeepSeek в разработке «сверхразумного» ИИ, который превзойдёт человека.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ИИ-модель Google Gemini получила золотую медаль Международной математической олимпиады 9 мин.
OpenAI раскрыла масштабы популярности ChatGPT: каждый день бот получает 2,5 млрд запросов 10 ч.
Microsoft реализовала на ПК и консолях Xbox кроссплатформенную историю запущенных игр, но пока не для всех 10 ч.
Календарь релизов —21–27 июля: Killing Floor 3, Wuchang: Fallen Feathers и The King is Watching 11 ч.
Дуров призвал сообщать ему о вымогателях в Telegram, охотящихся за подарками — но это не бесплатно 11 ч.
Сэм Альтман: к концу года ChatGPT будет работать на миллионе GPU, а в будущем — на ста миллионах 11 ч.
Спустя два года после релиза в Avatar: Frontiers of Pandora всё-таки добавят функции, которые фанаты просили больше всего 13 ч.
Microsoft ускорила запуск приложений Office, но это может замедлить загрузку Windows 13 ч.
Цензура была не зря: Ready or Not продаётся на PS5, Xbox Series X и S в 10 раз быстрее, чем на ПК 14 ч.
X отказалась раскрывать рекомендательный алгоритм и данные о публикациях французской прокуратуре 14 ч.
Китайская YMTC рассчитывает запустить импортозамещённую производственную линию и к концу 2026 года занять 15 % рынка NAND 25 мин.
Телефон Escobar Fold 2 оказался фальшивкой — создателю бренда грозит 20 лет тюрьмы 57 мин.
Google раскрыла дизайн Pixel 10 за месяц до презентации, не дожидаясь утечек 2 ч.
Один из первых ЦОД для проекта Stargate появится в США к концу этого года 2 ч.
В ближайшие пару лет Apple будет привлекать покупателей сверхтонкими и складными iPhone соответственно 4 ч.
Новая статья: Система жидкостного охлаждения MSI MAG CoreLiquid A13 360: добавляем в закладки ещё одну 9 ч.
Амстердам и Франкфурт выбыли из первой двадцатки локаций гиперскейлеров 13 ч.
Ryzen Threadripper Pro 9995WX разогнали до 5 ГГц на всех 96 ядрах: 950 Вт потребления и 186 тыс. баллов в Cinebench R23 13 ч.
Tesla попытается остановить падение продаж электромобилей скидками, бесплатной зарядкой и другими бонусами 13 ч.
AMD обучила ноутбуки на Ryzen AI безоблачной генерации изображений в Stable Diffusion 13 ч.