Сегодня 27 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Microsoft выпустила пару открытых эффективных ИИ-моделей Phi-4 — одну дообучили по новой методике

Microsoft расширила линейку собственных больших языковых моделей искусственного интеллекта Phi-4 двумя новыми проектами с относительно скромными системными требованиями. Одна из них является мультимодальной, то есть работает с несколькими форматами данных.

 Источник изображений: microsoft.com

Источник изображений: microsoft.com

Модель Microsoft Phi-4-mini является исключительно текстовой, а Phi-4-multimodal — её улучшенная версия, способная обрабатывать также запросы в визуальном и звуковом форматах. Обе модели, утверждает разработчик, в значительной мере превосходят альтернативы сопоставимых размеров при выполнении определённых задач.

Microsoft Phi-4-mini имеет 3,8 млрд параметров, то есть она достаточно компактна для запуска на мобильных устройствах. В основу модели легла особая версия архитектуры «Трансформер» (Transformer). В стандартном варианте модели-трансформеры, чтобы понять значение каждого слова, анализируют текст до и после него; при разработке Phi-4-mini в Microsoft использовали версию Decoder-Only Transformer, которая предполагает анализ только предшествующего слову текста, что снижает нагрузку на вычислительные ресурсы и повышает скорость обработки данных.

Для дополнительной оптимизации использована технология Grouped Query Attention — этот механизм помогает модели определять, какие фрагменты данных наиболее релевантны при обработке текущей задачи. Phi-4-mini может генерировать текст, переводить документы и управлять внешними приложениями; модель, по словам разработчиков, преуспела в решении математических задач и написании компьютерного кода, даже когда требуются «сложные рассуждения». Точность ответов Phi-4-mini, по оценкам самой Microsoft, «значительно» превосходит результаты, которые дают несколько других моделей аналогичного размера.

Phi-4-multimodal — это расширенная версия Phi-4-mini с 5,6 млрд параметров; в качестве запросов она воспринимает не только текст, но также изображения, аудио и видео. Для дообучения модели в Microsoft использовали новый метод Mixture of LoRAs. Обычно адаптация ИИ к новой задаче требует изменения его весов — параметров конфигурации, которые определяют, как он обрабатывает данные. Чтобы облегчить эту задачу, используется метод LoRA (Low-Rank Adaptation) — для выполнения незнакомой задачи модели добавляется небольшое количество новых весов, оптимизированных для этой задачи. Метод Mixture of LoRAs адаптирует этот механизм к мультимодальной обработке данных: при разработке Phi-4-multimodal исходную Phi-4-mini дополнили весами, оптимизированными для работы с аудио и видео. В результате, рассказали в Microsoft, удалось смягчить некоторые компромиссы, связанные в прочими подходами к построению мультимодальных моделей.

В тестах, связанных с обработкой визуальных данных, Phi-4-multimodal набрала 72 балла, незначительно уступив ведущим моделям от OpenAI и Google. В одновременной обработке видео и звука она «с большим отрывом» обошла Google Gemini-2.0 Flash, а также открытую InternOmni. Phi-4-mini и Phi-4-multimodal доступны на платформе Hugging Face по лицензии MIT, которая допускает их коммерческое использование.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Airbus уже семь лет переезжает с Microsoft Office на Google Workspace, но полностью отказаться от Excel и Word всё не получается 13 мин.
Трассировка лучей на ПК, «Новая игра +» и прокачка «Легенды»: для Dying Light: The Beast вышло самое крупное обновление с релиза 24 мин.
Лучше поздно, чем никогда: спустя почти десять лет Ubisoft наконец добавила достижения для Rainbow Six Siege в Steam 2 ч.
Спустя семь лет разработки Light No Fire до сих пор занимается «крошечная команда» — No Man's Sky остаётся приоритетом Hello Games 3 ч.
Слухи: датамайнеры нашли в файлах Assassin’s Creed Shadows название ремейка Assassin’s Creed IV: Black Flag 4 ч.
Премьера финального сезона «Очень странных дел» сломала Netflix 4 ч.
«Базис» идёт на IPO в декабре 5 ч.
Вот тебе, закупщик, и «Юрьев день» 6 ч.
OpenAI признала утечку данных пользователей через Mixpanel — переписки с ChatGPT остались в безопасности 6 ч.
OpenAI в суде заявила о «неправильном использовании» ChatGPT погибшим подростком 6 ч.
«Руцентр» вошёл в реестр провайдеров хостинга для государственных информационных систем 50 мин.
После провала iPhone Air китайские бренды передумали выпускать сверхтонкие смартфоны 4 ч.
Ракета «Союз-2.1а» за три часа доставила двух россиян и американца на МКС 4 ч.
Foxconn вложит $569 млн в производство ИИ-оборудования и компонентов в Висконсине 4 ч.
«Гарда технологии» представила NPM-решение для контроля производительности и безопасности сети 4 ч.
Комариный хоботок приспособили под сопло для 3D-микропечати — тоньше, дешевле и лучше искусственных 5 ч.
ИИ-пузырь получил соседа: Пекин предупредил о перегреве рынка человекоподобных роботов 5 ч.
Процессоры Huawei Kirin 9030 и Kirin 9030 Pro оказались не такими уж похожими 6 ч.
«Гаражная» компания запустила предзаказ на одноместный летающий мотоцикл с предоплатой в $999 6 ч.
Sony представила свой первый 200-Мп сенсор Lytia-901 для флагманских смартфонов — он больше конкурента от Samsung 6 ч.