Сегодня 22 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя

Компания Apple работает над созданием ИИ-агента, который понимает интерфейсы приложений и может взаимодействовать с ними от имени пользователя, работая локально на устройстве. Речь об алгоритме Ferret-UI Lite с 3 млрд параметров, который в тестах соответствует или превосходит эталонные показатели ИИ-моделей, размером до 24 раз больше.

 Источник изображения: 9to5mac.com

Источник изображения: 9to5mac.com

В декабре 2023 года команда из девяти исследователей опубликовала работу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». В ней они описали мультимодальную языковую модель, которая может обучаться на разных типах данных и способна понимать отсылки на естественном языке к определённым фрагментам изображения. С тех пор Apple опубликовала серию статей, расширяя семейство ИИ-моделей Ferret, в которое вошли алгоритмы Ferretv2, Ferret-UI и Ferret-UI 2.

Так, модели Ferret-UI в значительной степени расширили исходные возможности FERRET и были обучены для того, что исследователи обычно называют недостатком мультимодальных больших языковых моделей (MLLM). «Недавние достижения в области MLLM заслуживают внимания, однако эти MLLM общего назначения зачастую неспособны эффективно распознавать пользовательские интерфейсы (UI) и взаимодействовать с ними. В этой статье мы представляем Ferret-UI — новую MLLM, предназначенную для повышения качества распознавания мобильных UI, оснащённую возможностями реферинга, граундинга и рассуждения. Учитывая, что мобильные интерфейсы обычно имеют более вытянутое соотношение сторон и содержат более мелкие элементы (например, значки и текст), чем естественные изображения, мы добавили „произвольное разрешение“ поверх Ferret для увеличения детализации и задействовали улучшенные визуальные признаки», — говорится в статье Apple.

Несколько дней назад Apple расширила семейство моделей Ferret-UI, а также опубликовала результаты исследования «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI построена на базе LLM с 13 млрд параметров, которая сосредоточена на понимании мобильных интерфейсов и скриншотов с фиксированным разрешением. Ferret-UI 2 расширила систему для поддержки нескольких платформ и восприятия более высокого разрешения. В то же время Ferret-UI Lite является гораздо более легковесной моделью, предназначенной для работы на локальном устройстве. При этом она сохраняет конкурентоспособность по сравнению со значительно более крупными GUI-агентами.

В публикации исследователей сказано, что «большинство существующих методов создания GUI-агентов […] фокусируются на больших фундаментальных моделях». Это связано с тем, что «мощные способности к рассуждению и планированию больших серверных моделей позволяют таким агентным системам достигать впечатляющих результатов в различных задачах навигации по графическим интерфейсам».

Отмечается, что был достигнут большой прогресс как в многокомпонентных, так и в сквозных GUI-системах, использующих разные подходы для оптимизации множества задач, связанных с агентным взаимодействием с графическими интерфейсами (низкоуровневое связывание с элементами GUI, понимание происходящего на экране, многошаговое планирование и самоанализ). Однако все они, по сути, слишком велики и требовательны к вычислительным ресурсам, чтобы эффективно работать на локальном устройстве.

Для решения этой проблемы исследователи разработали Ferret-UI Lite, которая представляет собой версию Ferret-UI с 3 млрд параметров, построенную с «использованием нескольких ключевых компонентов» и с применением идей, полученных при обучении небольших LLM.

Ferret-UI Lite использует реальные и синтетические обучающие данные из нескольких GUI-областей, техники динамического кадрирования и оптимизацию для повышения качества понимания конкретных сегментов графического интерфейса. Также были задействованы методы контролируемой тонкой настройки и обучение с подкреплением. В результате удалось создать ИИ-модель, которая практически соответствует или даже превосходит конкурирующие модели GUI-агентов, превосходящие её по количеству параметров до 24 раз.

Ряд нововведений, включая то, что модель сама генерирует данные для своего обучения, выглядят любопытно. Исследователи создали мультиагентную систему, которая напрямую взаимодействует с реальными GUI-интерфейсами для массовой генерации синтетических примеров для своего обучения. Задействован генератор заданий по программе обучения, который ставит цели по возрастающей сложности, а агент планирования разбивает процесс их достижения на этапы. Агент привязки выполняет последовательно все этапы на экране, а агент оценки выполняет проверку результатов.

Такой конвейер позволяет обучающей системе улавливать неопределённость реального взаимодействия, включая ошибки и неожиданные состояния. Это было бы сложнее сделать, если бы модель обучалась только на реальных, размеченных вручную данных. Любопытно, что Ferret-UI и Ferret-UI 2 обучались на изображениях интерфейсов iOS и других платформ Apple, тогда как Ferret-UI Lite обучалась на изображениях интерфейсов Android, веб-приложений и десктопных GUI.

Тестирование показало, что Ferret-UI Lite хорошо справляется с краткосрочными низкоуровневыми задачами, но не так успешна в выполнении более сложных многошаговых задач. Это является вполне ожидаемым компромиссом, если учесть ограничения, связанные с относительно небольшим размером модели, способной работать локально на устройстве. С другой стороны, Ferret-UI Lite может обеспечить высокий уровень конфиденциальности данных, поскольку алгоритм работает локально и не передаёт данные на серверы Apple.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Samsung улучшит ИИ-функции Galaxy AI за счёт партнёрства с Perplexity 8 ч.
AMD прекратила выпускать обновления драйверов для Ryzen Z1 Extreme 8 ч.
Активисты Stop Killing Games будут «кошмарить» издателей за закрытие старых игр на юридической основе 9 ч.
Новая статья: Reanimal — мастер-класс, но не без изъянов. Рецензия 20 ч.
Не только Cyberpunk 2077: на мощных Android-устройствах заработали AAA-игры для ПК, но с ограничениями 21-02 16:59
Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя 21-02 13:50
Roblox обеспечила больше роста игровой индустрии, чем Steam, PlayStation и Fortnite вместе взятые 21-02 13:43
Платные подписчики YouTube Music начали слышать рекламу — Google пообещала разобраться 21-02 12:32
Microsoft: смена руководства в Xbox не повлечёт сокращений и закрытия студий 21-02 10:55
WhatsApp научится скрывать сообщения под спойлеры — прямо как другой популярный мессенджер 21-02 10:53
Apple представит «как минимум пять продуктов» на презентации 4 марта 3 мин.
19 ГВт уже есть, ещё 21 ГВт на подходе: Microsoft на 100 % компенсировала свои энергозатраты «зелёными» контрактами 3 ч.
Johnson Controls купила разработчика СЖО Alloy Enterprises 4 ч.
Samsung вернула себе лидерство на глобальном рынке DRAM в четвертом квартале 2025 года 4 ч.
Российский бизнес распробовал ИИ: рынок ИИ-серверов достиг 60 млрд рублей 4 ч.
Phison E28 добрался до MSI: компания представила SSD с защитой от потери данных 12 ч.
Google готова помогать деньгами тем облачным провайдерам, которые используют её ускорители 12 ч.
Мартовский старт лунной миссии Artemis II оказался под угрозой срыва из-за обнаруженной технической проблемы 13 ч.
Игровая консоль Steam Deck оказалась в дефиците по всему миру 14 ч.
AMD подстрахует Crusoe, продаст ей свои чипы и сама же арендует их, если что-то пойдёт не так 20 ч.