Сегодня 14 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → qwen

Alibaba нашла способ снизить затраты на обучение ИИ-моделей на 88 %

При обучении языковых моделей серьёзной проблемой является не только наличие адекватных аппаратных ресурсов и объёмов исходных данных, но и сумма затрат на обучение. Отказ от обращений к сторонним поисковым платформам, как отмечает Alibaba, позволяет снизить стоимость обучения на величину до 88 %.

 Источник изображения: Alibaba

Источник изображения: Alibaba

Соответствующий подход, как сообщает South China Morning Post, получил обозначение ZeroSearch. Задача генерации необходимых для обучения новых моделей данных в данном случае ложится на уже имеющиеся языковые модели. По сути, они имитируют обращение к сторонним поисковым сервисам, но метод подразумевает гораздо более низкие затраты. Например, обращение к Google через API с 64 000 запросов обойдётся разработчикам в $586,70, тогда как ИИ-модель с 14 млрд параметров способна то же количество запросов обработать при уровне затрат не более $70,80. Тем самым обеспечивается более чем 8-кратная экономия.

Подобный подход будет способствовать более выраженному прогрессу в разработке систем ИИ небольшими компаниями, которые не имеют доступа к серьёзной инфраструктуре и большим бюджетам. Сама Alibaba уже комбинирует возможности своих моделей семейства Qwen с поисковыми системами, обеспечивая более высокую точность ответов на сложные поисковые запросы.

Alibaba выпустила ИИ-модель Qwen2.5-Omni-3B — её можно запустить на ПК или ноутбуке

На этой неделе китайская компания Alibaba анонсировала семейство флагманских ИИ-моделей Qwen3, использующих метод «смешения экспертов» для достижения результатов, сопоставимых с итогами работы гибридных рассуждающих моделей. Спустя всего несколько дней гигант электронной коммерции и облачных вычислений представил облегчённую модель Qwen2.5-Omni-3B на базе архитектуры предыдущего поколения, которая предназначена для автономной работы на ПК и ноутбуках потребительского уровня.

 Источник изображения: BoliviaInteligente / Unsplash

Источник изображения: BoliviaInteligente / Unsplash

Qwen2.5-Omni-3B представляет собой уменьшенный до 3 млрд параметров вариант флагманского алгоритма с 7 млрд параметров. Несмотря на уменьшенный размер, эта версия ИИ-модели сохранила более 90 % мультимодальной производительности и может обеспечить генерацию в режиме онлайн как текста, так и естественной речи.

Разработчики сумели добиться значительного повышения эффективности использования памяти графического ускорителя. Отмечается, что у Qwen2.5-Omni-3B потребление видеопамяти снижено на 50 % при обработке длинных контекстов до 25 тыс. лексем. После оптимизации настроек потребление памяти снизилось с 60,2 Гбайт у модели с 7 млрд параметров до 28,2 Гбайт у модели с 3 млрд параметров. За счёт этого алгоритм Qwen2.5-Omni-3B можно развернуть на устройстве, в котором используется графический ускоритель с 24 Гбайт видеопамяти. Такие видеокарты обычно можно встретить в ПК и ноутбуках премиального уровня.

Уже сейчас Qwen2.5-Omni-3B доступна для скачивания на Hugging Face, GitHub и ModelScope. При этом условия лицензирования позволяют задействовать алгоритм только в исследовательских целях. Это означает, что без получения лицензии Alibaba на использование семейства моделей Qwen нельзя создавать какие-либо коммерческие продукты на основе Qwen2.5-Omni-3B. Результаты тестирования алгоритма в бенчмарках указывают на то, что несмотря на уменьшение размера ИИ-модели, она остаётся вполне конкурентоспособной.

 Источник изображения: venturebeat.com

Источник изображения: venturebeat.com

Qwen2.5-Omni-3B способна обрабатывать поступающие одновременно данные разного типа, генерируя текстовые или голосовые ответы в режиме реального времени. Есть возможность выбора между женским и мужским голосами, которые используются для озвучивания ответов на пользовательские запросы. Отключение генерации звука, когда в этом нет необходимости, позволит дополнительно сократить потребление памяти. Команда разработчиков подчёркивает открытый характер проекта, предоставляя доступ к наборам сопутствующих инструментов, предварительно обученным версиям алгоритма, а также возможность использования соответствующего API и руководства по развёртыванию ИИ-модели.

Несмотря на то, что Qwen2.5-Omni-3B снижает технические и аппаратные барьеры для экспериментов с мультимодальными ИИ-моделями, необходимость получения лицензии Alibaba для коммерческого использования алгоритма сохраняет определённые ограничения. Однако корпоративные разработчики смогут задействовать алгоритм для тестирования собственных идей, оценки архитектур или принятия решения о получении лицензии для коммерческого использования. В таком контексте Qwen2.5-Omni-3B становится не столько вариантом для развёртывания, сколько инструментом стратегической оценки или способом приблизиться к использованию мультимодальной ИИ-модели, выделяя на это меньше ресурсов.

Alibaba представила семейство ИИ-моделей Qwen3, которые быстрее и эффективнее DeepSeek

В начале этой недели китайская компания Alibaba Group Holdings представила новое семейство флагманских языковых моделей Qwen3, которое использует актуальный метод «смешения экспертов» для достижения результатов, сопоставимых с итогами работы гибридных рассуждающих систем.

 Источник изображения: Alibaba

Источник изображения: Alibaba

По данным Alibaba, её модели семейства Qwen3 в ряде сфер применения оказываются на уровне или даже быстрее и эффективнее разработок DeepSeek, включая решение математических задач и написание программного кода. Масштабирование этих моделей также обходится значительно дешевле большинства популярных аналогов. Модели такого типа пытаются подражать людям в логике решения задач, подобные системы уже предложены компаниями Anthropic и Alphabet (Google).

Более эффективное решение задачи осуществляется за счёт дробления её на несколько сегментов, за каждый из которых отвечает свой фрагмент кода. Это напоминает процесс решения проблемы группой экспертов, каждому из которых поручена своя задача. Alibaba ещё в марте представила модели семейства Qwen 2.5, которые могут работать с текстом, изображениями, аудио и видео, ограничиваясь при этом аппаратными ресурсами ноутбука или смартфона. Семейство моделей Qwen3 придерживается принципа открытости исходного кода.

Под давлением DeepSeek американский стартап OpenAI также пообещал представить более открытую модель, подражающую логике рассуждения человека. Стремление Alibaba усилить свои позиции на рынке систем искусственного интеллекта помогло китайскому гиганту выйти из кризиса, порождённого конфликтом основателя Джека Ма (Jack Ma) с китайскими властями, которые несколько лет назад всерьёз взялись за регулирование бизнеса в тех сферах, на которых строилось благополучие Alibaba Group.

Alibaba представила мощную ИИ-модель Qwen2.5-Max, которая лучше GPT-4o и DeepSeek V3

Alibaba Cloud, облачное подразделение китайской компании Alibaba, анонсировала выпуск обновлённой, крупномасштабной языковой модели Qwen2.5-Max. ИИ-модель основана на архитектуре Mixture-of-Experts (MoE) и обучена на более чем 20 триллионах токенов. Разработчики подчёркивают, что инструмент показал «значительный прогресс в интеллектуальных возможностях» и уже доступен для использования.

 Источник изображения: Alibaba Cloud

Источник изображения: Alibaba Cloud

Новая версия модели отличается улучшенной производительностью и точностью, способна лучше справляться с задачами, требующими глубокого понимания контекста, таких как анализ текста, перевод и генерация контента. «Qwen2.5-Max демонстрирует значительный прогресс в обработке сложных запросов и предоставлении релевантных ответов», — пишет компания на страницах своего блога.

Qwen2.5-Max была протестирована в ряде ключевых бенчмарков, включая MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard. Модель показала превосходство над DeepSeek V3 в таких тестах, как Arena-Hard, LiveBench и LiveCodeBench, а также продемонстрировала конкурентоспособные результаты в MMLU-Pro. В сравнении с другими ведущими моделями, такими как GPT-4o и Claude-3.5-Sonnet, Qwen2.5-Max также подтвердила свои лидирующие позиции.

 Источник изображения: Alibaba Cloud

Источник изображения: Alibaba Cloud

 Источник изображения: Alibaba Cloud

Источник изображения: Alibaba Cloud

Alibaba Cloud планирует интегрировать Qwen2.5-Max в свои облачные сервисы, что позволит клиентам использовать инструмент для решения широкого спектра задач, включая автоматизацию обработки данных, улучшение взаимодействия с клиентами через чат-ботов и оптимизацию бизнес-процессов.

ИИ-модель уже доступна через сервис Qwen Chat, в котором пользователи могут взаимодействовать с Qwen2.5-Max, тестировать её возможности и экспериментировать с различными функциями. Для разработчиков также открыт программный интерфейс API. Для доступа необходимо зарегистрироваться в Alibaba Cloud, активировать сервис Model Studio и создать API-ключ.

Ещё один китайский удар по OpenAI: Alibaba выпустила ИИ, который может управлять ПК и смартфоном

Самой яркой звездой китайской отрасли искусственного интеллекта в последние дни стала лаборатория DeepSeek, но не сидят сложа руки и технологические гиганты: подразделение Alibaba Qwen представило семейство моделей Qwen2.5-VL, способных управлять ПК и смартфоном, как это делает виртуальный помощник OpenAI Operator.

 Источник изображения: alibabacloud.com

Источник изображения: alibabacloud.com

Самая мощная модель в семействе Qwen2.5-VL превзошла крупнейшие американские проекты, в том числе OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 2.0 Flash в ряде испытаний, включая «понимание» видео, решение математических задач, анализ документов и ответы на вопросы, утверждают разработчики. Испытать эту модель можно в приложении Alibaba Qwen Chat, доступна её загрузка с платформы Hugging Face. Она анализирует диаграммы и графики, извлекает данные из бухгалтерских документов, изучает многочасовые видео, а также распознаёт фрагменты фильмов и сериалов — возможно, её обучение велось с использованием защищённых авторским правом работ. Как и другие китайские модели, она отказывается комментировать политику Пекина.

 Источник изображения: x.com/_philschmid

Источник изображения: x.com/_philschmid

Одной из наиболее интересных особенностей Qwen2.5-VL является её способность управлять программами на ПК и мобильных устройствах. В одном из примеров модель запустила приложение на Android и забронировала авиабилеты. В другом примере ей поручили управление ПК под Linux, но она смогла совершить лишь базовые действия, в частности, переключала вкладки в браузере. Младшие версии Qwen2.5-VL-3B и Qwen2.5-VL-7B доступны по открытой лицензии без ограничений; флагманская Qwen2.5-VL-72B требует, чтобы владельцы платформ с более чем 100 млн пользователей получали разрешение у Alibaba Qwen перед коммерческим развёртыванием модели.

Alibaba выпустила ИИ-модели, которые могут распознавать изображения и вести диалог

Китайский технологический гигант Alibaba представил две языковые модели — Qwen Large Vision Language Model (Qwen-VL) и Qwen-VL-Chat — демонстрирующие расширенные возможности интерпретации изображений и ведения диалогов на естественном языке. Учитывая растущий спрос на доступ к продвинутым ИИ-алгоритмам, появление языковых моделей Alibaba может оказаться весьма своевременным.

 Источник изображения: maginative.com

Источник изображения: maginative.com

Представленные языковые модели не ограничиваются понимаем текстовых сообщений. Qwen-VL способен воспринимать и понимать изображения, текст и соблюдать ограничения. Алгоритм может обрабатывать запросы, связанные с разными изображениями, и генерировать ответы на них. Qwen-VL-Chat предназначен для более сложного взаимодействия. Например, он может сравнивать несколько изображений, отвечать на серии вопросов, писать истории на основе предоставленных пользователем картинок. К примеру, пользователь может спросить ИИ о местоположении больницы по фото её вывески и получить точный ответ на этот вопрос.

Одно из преимуществ представленных языковых моделей состоит в том, что они работают с высокой точностью. По данным Alibaba, Qwen-VL значительно превосходит существующие схожие языковые модели с открытым исходным кодом по нескольким критериям оценки английского языка. Алгоритм также поддерживает новую функцию «общение с чередованием нескольких изображений», которая предполагает, что пользователь предоставит ИИ несколько изображений, после чего будет задавать связанные с ними вопросы.

Используя стандартные эталоны, специалисты Alibaba оценили возможности новых алгоритмов при выполнении разных задач, начиная от генерации комментариев к изображениям и заканчивая ответами на вопросы по загруженным снимкам. Обе модели также тестировались по разработанному в Alibaba эталону, который основан на оценке GPT-4 для определения диалоговых возможностей и соответствия человеческому восприятию. Отмечается, что Qwen-VL и Qwen-VL-Chat достигли наилучших результатов в разных категориях.

Alibaba стала одной из первых китайских компаний, представивших конкурентоспособную систему генеративного ИИ, что свидетельствует о быстром прогресс исследований в сфере нейросетей в Поднебесной. Выпуская модели с открытым исходным кодом, Alibaba гарантирует, что исследователи, учёные и компании по всему миру смогут использовать их для создания собственных приложений, не прибегая к трудоёмкому и дорогостоящему процессу обучения нейросетей с нуля.


window-new
Soft
Hard
Тренды 🔥
Европа построила первый в мире танкер для захоронения CO₂ на дне моря 6 мин.
Окно в облака: Microsoft подготовила виртуальный тур по дата-центру компании 2 ч.
После череды провалов SpaceX провела особенно тщательные огневые испытания Starship перед девятым полётом 2 ч.
Повышенные пошлины обернутся для Sony потерей в $700 млн уже в этом году 2 ч.
Трамповские пошлины чуть не сорвали подготовку к выпуску Cybercab, но скоро Tesla восстановит поставки запчастей из Китая 2 ч.
AMD столкнулась со слабым спросом на ИИ-ускорители Instinct MI325X 3 ч.
Moody’s предупреждает о рисках перенасыщения рынка ИИ ЦОД 3 ч.
Власти США запретили третьим странам использовать китайские ускорители Huawei 4 ч.
Panasonic представила полнокадровую беззеркальную камеру Lumix S1 II — мощную, но дорогую 5 ч.
Nvidia разрешили поставить в Саудовскую Аравию сотни тысяч ИИ-чипов — благосостояние Хуанга достигло $120 млрд 7 ч.