Сегодня 08 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Китайцы представили открытую ИИ-модель DeepSeek V3 — она быстрее GPT-4o и её обучение обошлось намного дешевле

Китайская компания DeepSeek представила мощную открытую модель искусственного интеллекта DeepSeek V3 — лицензия позволяет её беспрепятственно скачивать, изменять и использовать в большинстве проектов, включая коммерческие.

 Источник изображения: and machines / unsplash.com

Источник изображения: and machines / unsplash.com

DeepSeek V3 справляется со множеством связанных с обработкой текста задач, в том числе написание статей, электронных писем, перевод и генерация программного кода. Модель превосходит большинство открытых и закрытых аналогов, показали результаты проведённого разработчиком тестирования. Так, в связанных с программированием задачах она оказалась сильнее, чем Meta Llama 3.1 405B, OpenAI GPT-4o и Alibaba Qwen 2.5 72B; DeepSeek V3 также проявила себя лучше конкурентов в тесте Aider Polyglot, проверяющем, среди прочего, её способность генерировать код для существующих проектов.

Модель была обучена на наборе данных в 14,8 трлн проектов; будучи развёрнутой на платформе Hugging Face, DeepSeek V3 показала размер в 671 млрд параметров — примерно в 1,6 раза больше, чем Llama 3.1 405B, у которой, как можно догадаться, 405 млрд параметров. Как правило, число параметров, то есть внутренних переменных, которые используются моделями для прогнозирования ответов и принятия решений, коррелирует с навыками моделей: чем больше параметров, тем она способнее. Но для запуска таких систем ИИ требуется больше вычислительных ресурсов.

DeepSeek V3 была обучена за два месяца в центре обработки данных на ускорителях Nvidia H800 — сейчас их поставки в Китай запрещены американскими санкциями. Стоимость обучения модели, утверждает разработчик, составила $5,5 млн, что значительно ниже расходов OpenAI на те же цели. При этом DeepSeek V3 политически выверена — она отказывается отвечать на вопросы, которые официальный Пекин считает щекотливыми.

В ноябре тот же разработчик представил модель DeepSeek-R1 — аналог «рассуждающей» OpenAI o1. Одним из инвесторов DeepSeek является китайский хедж-фонд High-Flyer Capital Management, который принимает решения с использованием ИИ. В его распоряжении есть несколько собственных кластеров для обучения моделей. Один из последних, по некоторым сведениям, содержит 10 000 ускорителей Nvidia A100, а его стоимость составила 1 млрд юаней ($138 млн). High-Flyer стремится помочь DeepSeek в разработке «сверхразумного» ИИ, который превзойдёт человека.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Saber Interactive «выкатила» системные требования амбициозного симулятора RoadCraft 2 ч.
Microsoft отстояла сделку века: Activision Blizzard остаётся в империи Xbox 3 ч.
AMD выпустила графический драйвер с поддержкой Doom: The Dark Ages и Radeon RX 9070 GRE 4 ч.
Кодзима рассказал о лазейке, которая позволит делать сиквелы Death Stranding бесконечно — идеи для Death Stranding 3 уже есть 4 ч.
Apple обрушила акции Google неосторожным заявлением о будущем ИИ-поиска 5 ч.
Илон Маск снова судится с OpenAI — теперь он пытается доказать, что не желает компании зла 5 ч.
Второй трейлер GTA VI стартовал лучше всех других видео в интернете — более 475 миллионов просмотров за первые сутки 5 ч.
Подарок на 80-летие со Дня Победы: 1C Game Studios устроила бесплатную раздачу «Ил-2 Штурмовик: Битва за Москву» 6 ч.
Цукерберг заявил, что ИИ сможет решить проблему одиночества и заменить психолога 18 ч.
Apple добавит в Safari ИИ-поиск на фоне падения популярности поисковика Google 18 ч.
Arctic представила доступные башенные кулеры Freezer 8, заточенные под современные AMD Ryzen и Intel Core 12 мин.
OpenAI намерена развивать «демократический ИИ» за пределами США в рамках мегапроекта Stargate 21 мин.
Sony представила контроллер DualSense Death Stranding 2: On the Beach Limited Edition для PS5 2 ч.
Экс-сотрудника SK hynix обвинили в передаче Huawei технологии выпуска памяти HBM 2 ч.
Далёкое будущее оперативной памяти: NEO Semiconductor рассказала о своей сверхплотной и энергонезависимой 3D DRAM 3 ч.
Intel пообещала представить на Computex 2025 «несколько видеокарт» Arc Pro для работы и ИИ 4 ч.
Нейробиологи в восторге: Google разглядела «мысли» в мозге под обычным микроскопом 5 ч.
Старт с препятствиями: Nintendo признала, что ожидает слабые продажи Switch 2 вперемешку с дефицитом 6 ч.
Калининградский «Автотор» показал электрокары Eonix — их легко спутать с китайскими аналогами 6 ч.
Пошлины проложили путь на родину: AMD перенесёт часть производства в США 6 ч.