Сегодня 13 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя

Компания Apple работает над созданием ИИ-агента, который понимает интерфейсы приложений и может взаимодействовать с ними от имени пользователя, работая локально на устройстве. Речь об алгоритме Ferret-UI Lite с 3 млрд параметров, который в тестах соответствует или превосходит эталонные показатели ИИ-моделей, размером до 24 раз больше.

 Источник изображения: 9to5mac.com

Источник изображения: 9to5mac.com

В декабре 2023 года команда из девяти исследователей опубликовала работу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». В ней они описали мультимодальную языковую модель, которая может обучаться на разных типах данных и способна понимать отсылки на естественном языке к определённым фрагментам изображения. С тех пор Apple опубликовала серию статей, расширяя семейство ИИ-моделей Ferret, в которое вошли алгоритмы Ferretv2, Ferret-UI и Ferret-UI 2.

Так, модели Ferret-UI в значительной степени расширили исходные возможности FERRET и были обучены для того, что исследователи обычно называют недостатком мультимодальных больших языковых моделей (MLLM). «Недавние достижения в области MLLM заслуживают внимания, однако эти MLLM общего назначения зачастую неспособны эффективно распознавать пользовательские интерфейсы (UI) и взаимодействовать с ними. В этой статье мы представляем Ferret-UI — новую MLLM, предназначенную для повышения качества распознавания мобильных UI, оснащённую возможностями реферинга, граундинга и рассуждения. Учитывая, что мобильные интерфейсы обычно имеют более вытянутое соотношение сторон и содержат более мелкие элементы (например, значки и текст), чем естественные изображения, мы добавили „произвольное разрешение“ поверх Ferret для увеличения детализации и задействовали улучшенные визуальные признаки», — говорится в статье Apple.

Несколько дней назад Apple расширила семейство моделей Ferret-UI, а также опубликовала результаты исследования «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI построена на базе LLM с 13 млрд параметров, которая сосредоточена на понимании мобильных интерфейсов и скриншотов с фиксированным разрешением. Ferret-UI 2 расширила систему для поддержки нескольких платформ и восприятия более высокого разрешения. В то же время Ferret-UI Lite является гораздо более легковесной моделью, предназначенной для работы на локальном устройстве. При этом она сохраняет конкурентоспособность по сравнению со значительно более крупными GUI-агентами.

В публикации исследователей сказано, что «большинство существующих методов создания GUI-агентов […] фокусируются на больших фундаментальных моделях». Это связано с тем, что «мощные способности к рассуждению и планированию больших серверных моделей позволяют таким агентным системам достигать впечатляющих результатов в различных задачах навигации по графическим интерфейсам».

Отмечается, что был достигнут большой прогресс как в многокомпонентных, так и в сквозных GUI-системах, использующих разные подходы для оптимизации множества задач, связанных с агентным взаимодействием с графическими интерфейсами (низкоуровневое связывание с элементами GUI, понимание происходящего на экране, многошаговое планирование и самоанализ). Однако все они, по сути, слишком велики и требовательны к вычислительным ресурсам, чтобы эффективно работать на локальном устройстве.

Для решения этой проблемы исследователи разработали Ferret-UI Lite, которая представляет собой версию Ferret-UI с 3 млрд параметров, построенную с «использованием нескольких ключевых компонентов» и с применением идей, полученных при обучении небольших LLM.

Ferret-UI Lite использует реальные и синтетические обучающие данные из нескольких GUI-областей, техники динамического кадрирования и оптимизацию для повышения качества понимания конкретных сегментов графического интерфейса. Также были задействованы методы контролируемой тонкой настройки и обучение с подкреплением. В результате удалось создать ИИ-модель, которая практически соответствует или даже превосходит конкурирующие модели GUI-агентов, превосходящие её по количеству параметров до 24 раз.

Ряд нововведений, включая то, что модель сама генерирует данные для своего обучения, выглядят любопытно. Исследователи создали мультиагентную систему, которая напрямую взаимодействует с реальными GUI-интерфейсами для массовой генерации синтетических примеров для своего обучения. Задействован генератор заданий по программе обучения, который ставит цели по возрастающей сложности, а агент планирования разбивает процесс их достижения на этапы. Агент привязки выполняет последовательно все этапы на экране, а агент оценки выполняет проверку результатов.

Такой конвейер позволяет обучающей системе улавливать неопределённость реального взаимодействия, включая ошибки и неожиданные состояния. Это было бы сложнее сделать, если бы модель обучалась только на реальных, размеченных вручную данных. Любопытно, что Ferret-UI и Ferret-UI 2 обучались на изображениях интерфейсов iOS и других платформ Apple, тогда как Ferret-UI Lite обучалась на изображениях интерфейсов Android, веб-приложений и десктопных GUI.

Тестирование показало, что Ferret-UI Lite хорошо справляется с краткосрочными низкоуровневыми задачами, но не так успешна в выполнении более сложных многошаговых задач. Это является вполне ожидаемым компромиссом, если учесть ограничения, связанные с относительно небольшим размером модели, способной работать локально на устройстве. С другой стороны, Ferret-UI Lite может обеспечить высокий уровень конфиденциальности данных, поскольку алгоритм работает локально и не передаёт данные на серверы Apple.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Resident Evil Requiem обеспечила Capcom девятый подряд рекордный год — издатель делает ставку на генеративный ИИ 9 мин.
Meta отступила перед Еврокомиссией — конкурирующие ИИ-чат-боты получили бесплатный доступ к WhatsApp 18 мин.
«Дорогие и быстро устаревают»: создатель BioShock и Judas объяснил, почему не гонится за передовыми технологиями 25 мин.
Хакеры из Nitrogen заявили о краже 8 Тбайт данных у партнёра Apple — заводы Foxconn перешли на бумажные табели 2 ч.
Вышел геймплейный трейлер Noir Bloom — адреналинового экшена, напоминающего смесь Katana Zero и «Джона Уика» 3 ч.
Meta начнёт рассказывать родителям о новых интересах их детей в Instagram 3 ч.
Google рассказала о крупнейших нововведениях Android 17 3 ч.
Ролевой боевик Star Wars: Fate of the Old Republic от соавтора Mass Effect не станет игрой на сотни часов и обойдётся без «творчески бездушного» ИИ 4 ч.
Продажи Silent Hill f превысили два миллиона копий, а ремейк Silent Hill 2 продолжает привлекать игроков 5 ч.
Google представила Gemini Intelligence — следующий эволюционный шаг Gemini на Android-смартфонах 5 ч.
Новые процессоры NASA для космоса оказались в 500 раз мощнее современных 19 мин.
ФБР удалённо сбросило настройки на домашних роутерах в США, чтобы доказать их взлом 22 мин.
Панос Панай из Amazon прокомментировал слухи о смартфоне и всех запутал 24 мин.
Не просто ЦОД: NTT Data меняет стратегию и расширяет амбиции в сфере ИИ 33 мин.
Бывший глава Fermi America стремится вернуться к власти, заполнить совет директоров своими приспешниками и организовать продажу компании 46 мин.
Биржи начнут торговать фьючерсами на вычислительные мощности 51 мин.
Установлена дата дебютного запуска мощнейшей модификации Starship V3 — ждать осталось чуть-чуть 53 мин.
В некоторых Googlebook будут использоваться процессоры Intel 3 ч.
Micron начала пробные поставки передовых модулей DDR5-9200 RDIMM объёмом 256 Гбайт 3 ч.
Сотрудники Meta взбунтовались против ПО, следящего за движениями их мышей 3 ч.