Сегодня 15 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Microsoft выпустила пару открытых эффективных ИИ-моделей Phi-4 — одну дообучили по новой методике

Microsoft расширила линейку собственных больших языковых моделей искусственного интеллекта Phi-4 двумя новыми проектами с относительно скромными системными требованиями. Одна из них является мультимодальной, то есть работает с несколькими форматами данных.

 Источник изображений: microsoft.com

Источник изображений: microsoft.com

Модель Microsoft Phi-4-mini является исключительно текстовой, а Phi-4-multimodal — её улучшенная версия, способная обрабатывать также запросы в визуальном и звуковом форматах. Обе модели, утверждает разработчик, в значительной мере превосходят альтернативы сопоставимых размеров при выполнении определённых задач.

Microsoft Phi-4-mini имеет 3,8 млрд параметров, то есть она достаточно компактна для запуска на мобильных устройствах. В основу модели легла особая версия архитектуры «Трансформер» (Transformer). В стандартном варианте модели-трансформеры, чтобы понять значение каждого слова, анализируют текст до и после него; при разработке Phi-4-mini в Microsoft использовали версию Decoder-Only Transformer, которая предполагает анализ только предшествующего слову текста, что снижает нагрузку на вычислительные ресурсы и повышает скорость обработки данных.

Для дополнительной оптимизации использована технология Grouped Query Attention — этот механизм помогает модели определять, какие фрагменты данных наиболее релевантны при обработке текущей задачи. Phi-4-mini может генерировать текст, переводить документы и управлять внешними приложениями; модель, по словам разработчиков, преуспела в решении математических задач и написании компьютерного кода, даже когда требуются «сложные рассуждения». Точность ответов Phi-4-mini, по оценкам самой Microsoft, «значительно» превосходит результаты, которые дают несколько других моделей аналогичного размера.

Phi-4-multimodal — это расширенная версия Phi-4-mini с 5,6 млрд параметров; в качестве запросов она воспринимает не только текст, но также изображения, аудио и видео. Для дообучения модели в Microsoft использовали новый метод Mixture of LoRAs. Обычно адаптация ИИ к новой задаче требует изменения его весов — параметров конфигурации, которые определяют, как он обрабатывает данные. Чтобы облегчить эту задачу, используется метод LoRA (Low-Rank Adaptation) — для выполнения незнакомой задачи модели добавляется небольшое количество новых весов, оптимизированных для этой задачи. Метод Mixture of LoRAs адаптирует этот механизм к мультимодальной обработке данных: при разработке Phi-4-multimodal исходную Phi-4-mini дополнили весами, оптимизированными для работы с аудио и видео. В результате, рассказали в Microsoft, удалось смягчить некоторые компромиссы, связанные в прочими подходами к построению мультимодальных моделей.

В тестах, связанных с обработкой визуальных данных, Phi-4-multimodal набрала 72 балла, незначительно уступив ведущим моделям от OpenAI и Google. В одновременной обработке видео и звука она «с большим отрывом» обошла Google Gemini-2.0 Flash, а также открытую InternOmni. Phi-4-mini и Phi-4-multimodal доступны на платформе Hugging Face по лицензии MIT, которая допускает их коммерческое использование.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Спустя 23 года мы снова дома, милорды»: новый ремастер культовой стратегии Stronghold Crusader стартовал в Steam с «очень положительными» отзывами 26 мин.
В персональной ленте Google Discover появились ИИ-сводки — это грозит новостным сайтам падением посещаемости 46 мин.
Анонсирован нелинейный ролевой триллер Agent of Strange от создателей «Жизнь и страдания господина Бранте» — первый трейлер и подробности 2 ч.
xAI отучила ИИ-чат-бот Grok оглядываться на мнение Илона Маска и приписывать себе странные фамилии 3 ч.
Банк России объявил, когда начнётся массовое внедрение цифрового рубля 3 ч.
Следующее крупное обновление для Cyberpunk 2077 готовится к премьере — презентация патча 2.3 пройдёт уже завтра 4 ч.
RoboCop: Rogue City, Wuchang: Fallen Feathers, Grounded 2 и не только: Microsoft раскрыла последние новинки Game Pass в июле 5 ч.
В SelectOS появились функции автоматической установки на выделенных серверах и запуска через облако 6 ч.
Европа начала тестировать сервис проверки возраста для доступа к контенту 18+ 6 ч.
Cyberpunk 2077 выйдет на Mac уже совсем скоро — амбициозный патч 2.3 тоже не заставит себя долго ждать 6 ч.
Ugreen анонсировала «первый в мире» беспроводной пауэрбанк стандарта Qi2.2 — он обеспечит до 25 Вт 38 мин.
Honor представила геймерский планшет Pad GT2 Pro со Snapdragon 8 Gen 3 и OLED-экраном на 165 Гц 60 мин.
Thermalright выпустила флагманский кулер Royal Pretor 130 Ultra с парой башен и вентиляторами разного размера 2 ч.
Dreame запустила производство телевизоров в Калужской области 2 ч.
Всё ради OpenAI: дата-центр CoreWeave удвоит энергопотребление техасского городка 2 ч.
AMD по примеру Nvidia возобновит поставки своих ИИ-ускорителей Instinct в Китай 3 ч.
Тонкий магнитный пауэрбанк Xiaomi Super Slim Magnetic Power Bank 5000 выйдет на глобальном рынке 3 ч.
Представлен смартфон Honor X70 с огромной батареей на 8300 мА·ч, чипом Snapdragon 6 Gen 4 и защитой IP69K за $195 3 ч.
30 Тбайт за $600: Seagate начала поставки SATA-дисков Exos M и IronWolf Pro с HAMR-записью 4 ч.
В iPhone появятся магниты из США — Apple инвестирует в американское производство редкоземельных металлов $500 млн 6 ч.