Alibaba представила малые ИИ-модели Qwen3.5, которые работают на ноутбуке и обходят аналоги OpenAI

Читать в полной версии

Специализирующееся на технологиях искусственного интеллекта подразделение Alibaba Qwen представило новую линейку моделей — их отличают небольшие размеры и высокая производительность при качестве ответов, значительно превосходящем ведущие американские аналоги.

Источник изображений: Alibaba

Младшие в новой линейке модели Alibaba Qwen3.5-0.8B и 2B характеризуются как «миниатюрная» и «быстрая»; они предназначаются для разработки прототипов и быстрого развёртывания на мобильных устройствах с минимальной производительностью, когда время автономной работы имеет первостепенное значение. Мультимодальная Qwen3.5-4B предназначена для создания легковесных агентов и изначально поддерживает контекстное окно в 262 144 токена. Рассуждающая Qwen3.5-9B превосходит по возможностям американского конкурента — открытую OpenAI gpt-oss-120B, которая крупнее по размеру в 13,5 раза; модель от Alibaba демонстрирует знание языков и логическое мышление на уровне аспирантуры. Веса моделей доступны для всех желающих под лицензией Apache 2.0, которая допускает корпоративное и коммерческое использование, в том числе дополнительное обучение по мере необходимости.

При разработке малых моделей серии Qwen3.5 компания отошла от стандартных архитектур Transformer — здесь использована гибридная архитектура, сочетающая нейросети Gated Delta Networks и разреженную смесь экспертов (Mixture-of-Experts — MoE). Гибридный подход помогает решить проблему «ограничения памяти», характерную для небольших моделей; Gated Delta Networks, в свою очередь, обеспечивает повышенную пропускную способность и уменьшенную задержку при ответе. Модели изначально мультимодальные. В отличие от предыдущих поколений, когда генераторы изображений «прикреплялись» к текстовым моделям, Qwen3.5 обучались на мультимодальных токенах. В результате версии 4B и 9B умеют распознавать элементы пользовательского интерфейса и подсчитывают объекты на видео.

В визуальном тесте MMMU-Pro модель Qwen3.5-9B набрала 70,1 балла, обогнав Google Gemini 2.5 Flash-Lite (59,7) и даже специализированную Qwen3-VL-30B-A3B (63,0). В тесте на логическое мышление она получила 81,7 балла, превзойдя результат OpenAI gpt-oss-120b (80,1), у которой более чем вдесятеро больше параметров. В математическом бенчмарке HMMT Feb 2025 модель Qwen3.5-9B показала 83,2 балла, а вариант 4B — 74,0, доказав, что для решения сложных задач в области точных наук больше не нужны значительные облачные ресурсы. Старшая модель стала лидером в тесте OmniDocBench v1.5 с результатом 87,7 балла; в многоязычном MMMLU она набрала 81,2 балла, обойдя gpt-oss-120b, у которой 78,2 балла.

Выпуск моделей Qwen3.5 малой серии совпал с этапом расцвета ИИ-агентов. Простых чат-ботов современному пользователю уже недостаточно — растёт спрос на функции автономности. Автономный ИИ-агент должен «думать» (рассуждать), «видеть» (быть мультимодальным) и «действовать» (уметь пользоваться инструментами). Выполнять эти функции с моделями размером в триллионы параметров, очень дорого, а эксплуатация Qwen3.5-9B обходится значительно дешевле.

Масштабировав технологию обучения с подкреплением в средах с миллионами агентов, Alibaba наделила эти модели функциями «человеческого суждения» — они могут организовать рабочий стол или провести обратное проектирование игры в код по видеозаписи. Запущенная на смартфоне версия на 0,8 млрд параметров или на рабочей станции модель на 9 млрд параметров делают «эпоху агентов» демократичной. Организации могут запускать ИИ-агентов на собственных локальных ресурсах, не расходуя средства на подключение к облачным ресурсам и не используя средства API.

Используя механизм «привязки на уровне пикселей», эти модели способны перемещаться по пользовательским интерфейсам ПК и мобильных устройств, заполнять формы и сортировать файлы, выполняя инструкции на простом языке. С продемонстрированной в тестах точностью 90 % они производят оптическое распознавание текста, анализируют макеты и извлекают структурированные данные из форм и диаграмм в документах. Можно загружать целые репозитории кода (до 400 000 строк) в контекстное окно размером до 1 млн токенов для рефакторинга или автоматизированной отладки. Предназначенные для мобильных устройств модели Qwen3.5-0.8B и 2B могут в локальном режиме составлять сводки по видео при длине до 60 секунд и частоте до 8 кадров в секунду; а также демонстрировать пространственное мышление.

Указываются и аспекты, на которые следует обращать внимание при развёртывании малых моделей Qwen3.5. В многоэтапных агентных сценариях одна ошибка на раннем этапе выполнения задачи может привести к каскаду сбоев, при котором агент будет следовать неверному или бессмысленному плану. Модели хорошо справляются с написанием кода с нуля, но могут испытывать затруднения с отладкой или доработкой сложных устаревших проектов. Для производительной работы модели Qwen3.5-9B требуется значительный объём видеопамяти. При развёртывании моделей на предприятиях следует отдавать приоритет «проверяемым» задачам: написанию кода, математическим вычислениям или следованию инструкциям — всему тому, где результаты можно проверить на соответствие определённым нормам, чтобы избежать скрытых сбоев.