Сегодня 21 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ferret-ui lite

Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя

Компания Apple работает над созданием ИИ-агента, который понимает интерфейсы приложений и может взаимодействовать с ними от имени пользователя, работая локально на устройстве. Речь об алгоритме Ferret-UI Lite с 3 млрд параметров, который в тестах соответствует или превосходит эталонные показатели ИИ-моделей, размером до 24 раз больше.

 Источник изображения: 9to5mac.com

Источник изображения: 9to5mac.com

В декабре 2023 года команда из девяти исследователей опубликовала работу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». В ней они описали мультимодальную языковую модель, которая может обучаться на разных типах данных и способна понимать отсылки на естественном языке к определённым фрагментам изображения. С тех пор Apple опубликовала серию статей, расширяя семейство ИИ-моделей Ferret, в которое вошли алгоритмы Ferretv2, Ferret-UI и Ferret-UI 2.

Так, модели Ferret-UI в значительной степени расширили исходные возможности FERRET и были обучены для того, что исследователи обычно называют недостатком мультимодальных больших языковых моделей (MLLM). «Недавние достижения в области MLLM заслуживают внимания, однако эти MLLM общего назначения зачастую неспособны эффективно распознавать пользовательские интерфейсы (UI) и взаимодействовать с ними. В этой статье мы представляем Ferret-UI — новую MLLM, предназначенную для повышения качества распознавания мобильных UI, оснащённую возможностями реферинга, граундинга и рассуждения. Учитывая, что мобильные интерфейсы обычно имеют более вытянутое соотношение сторон и содержат более мелкие элементы (например, значки и текст), чем естественные изображения, мы добавили „произвольное разрешение“ поверх Ferret для увеличения детализации и задействовали улучшенные визуальные признаки», — говорится в статье Apple.

Несколько дней назад Apple расширила семейство моделей Ferret-UI, а также опубликовала результаты исследования «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI построена на базе LLM с 13 млрд параметров, которая сосредоточена на понимании мобильных интерфейсов и скриншотов с фиксированным разрешением. Ferret-UI 2 расширила систему для поддержки нескольких платформ и восприятия более высокого разрешения. В то же время Ferret-UI Lite является гораздо более легковесной моделью, предназначенной для работы на локальном устройстве. При этом она сохраняет конкурентоспособность по сравнению со значительно более крупными GUI-агентами.

В публикации исследователей сказано, что «большинство существующих методов создания GUI-агентов […] фокусируются на больших фундаментальных моделях». Это связано с тем, что «мощные способности к рассуждению и планированию больших серверных моделей позволяют таким агентным системам достигать впечатляющих результатов в различных задачах навигации по графическим интерфейсам».

Отмечается, что был достигнут большой прогресс как в многокомпонентных, так и в сквозных GUI-системах, использующих разные подходы для оптимизации множества задач, связанных с агентным взаимодействием с графическими интерфейсами (низкоуровневое связывание с элементами GUI, понимание происходящего на экране, многошаговое планирование и самоанализ). Однако все они, по сути, слишком велики и требовательны к вычислительным ресурсам, чтобы эффективно работать на локальном устройстве.

Для решения этой проблемы исследователи разработали Ferret-UI Lite, которая представляет собой версию Ferret-UI с 3 млрд параметров, построенную с «использованием нескольких ключевых компонентов» и с применением идей, полученных при обучении небольших LLM.

Ferret-UI Lite использует реальные и синтетические обучающие данные из нескольких GUI-областей, техники динамического кадрирования и оптимизацию для повышения качества понимания конкретных сегментов графического интерфейса. Также были задействованы методы контролируемой тонкой настройки и обучение с подкреплением. В результате удалось создать ИИ-модель, которая практически соответствует или даже превосходит конкурирующие модели GUI-агентов, превосходящие её по количеству параметров до 24 раз.

Ряд нововведений, включая то, что модель сама генерирует данные для своего обучения, выглядят любопытно. Исследователи создали мультиагентную систему, которая напрямую взаимодействует с реальными GUI-интерфейсами для массовой генерации синтетических примеров для своего обучения. Задействован генератор заданий по программе обучения, который ставит цели по возрастающей сложности, а агент планирования разбивает процесс их достижения на этапы. Агент привязки выполняет последовательно все этапы на экране, а агент оценки выполняет проверку результатов.

Такой конвейер позволяет обучающей системе улавливать неопределённость реального взаимодействия, включая ошибки и неожиданные состояния. Это было бы сложнее сделать, если бы модель обучалась только на реальных, размеченных вручную данных. Любопытно, что Ferret-UI и Ferret-UI 2 обучались на изображениях интерфейсов iOS и других платформ Apple, тогда как Ferret-UI Lite обучалась на изображениях интерфейсов Android, веб-приложений и десктопных GUI.

Тестирование показало, что Ferret-UI Lite хорошо справляется с краткосрочными низкоуровневыми задачами, но не так успешна в выполнении более сложных многошаговых задач. Это является вполне ожидаемым компромиссом, если учесть ограничения, связанные с относительно небольшим размером модели, способной работать локально на устройстве. С другой стороны, Ferret-UI Lite может обеспечить высокий уровень конфиденциальности данных, поскольку алгоритм работает локально и не передаёт данные на серверы Apple.


window-new
Soft
Hard
Тренды 🔥
Не только Cyberpunk 2077: на мощных Android-устройствах заработали AAA-игры для ПК, но с ограничениями 2 ч.
Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя 5 ч.
Roblox обеспечила больше роста игровой индустрии, чем Steam, PlayStation и Fortnite вместе взятые 5 ч.
Microsoft: смена руководства в Xbox не повлечёт сокращений и закрытия студий 8 ч.
WhatsApp научится скрывать сообщения под спойлеры — прямо как другой популярный мессенджер 8 ч.
Фил Спенсер и президент Xbox Сара Бонд ушли из Microsoft — Microsoft Gaming возглавила специалист по ИИ 17 ч.
Новая статья: Mewgenics — девяти жизней может не хватить. Рецензия 19 ч.
«Гонка вооружений» в сфере ИИ бессмысленна — США и Китай преследуют совершенно разные цели 19 ч.
У Steam произошёл массовый сбой: миллионы игроков не могут войти в CS2, Dota 2 и другие игры 21 ч.
«Один нас подвёл. Другой отверг»: датамайнер нашёл в файлах God of War Ragnarok указания, что новая God of War отправится в Египет 22 ч.
В Китае создали настолько экологически чистый аккумулятор, что в его электролите можно было бы солить огурцы 4 ч.
G42 из ОАЭ и Cerebras построят в Индии национальный ИИ-суперкомпьютер с царь-ускорителями WSE-3 4 ч.
Nautilus представила универсальный 4-МВт CDU 4 ч.
SpaceX создала систему мониторинга спутников ради безопасности орбиты — бесплатную для всех, но при одном условии 7 ч.
Anthropic обвалила акции CrowdStrike и Cloudflare, представив ИИ-багхантера Claude Code Security 9 ч.
Tesla не смогла оспорить вердикт на $243 млн по делу о смертельной аварии с Autopilot 11 ч.
Верховный суд США признал тарифы Трампа незаконными, но их отмена уже уже не спасёт цены 11 ч.
Видеокарты AMD подорожали в Японии настолько, что их перестали покупать — теперь цены упали на 15–20 % 13 ч.
Не $100 млрд, а $30 млрд, и не выиграл, а переиграл — NVIDIA и OpenAI готовят новую инвестиционную сделку 21 ч.
«Москвич» запустил производство электромобилей Umo для «Яндекс Такси» — внутри у них ИИ «Яндекса» 21 ч.