Сегодня 02 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя

Компания Apple работает над созданием ИИ-агента, который понимает интерфейсы приложений и может взаимодействовать с ними от имени пользователя, работая локально на устройстве. Речь об алгоритме Ferret-UI Lite с 3 млрд параметров, который в тестах соответствует или превосходит эталонные показатели ИИ-моделей, размером до 24 раз больше.

 Источник изображения: 9to5mac.com

Источник изображения: 9to5mac.com

В декабре 2023 года команда из девяти исследователей опубликовала работу «FERRET: Refer and Ground Anything Anywhere at Any Granularity». В ней они описали мультимодальную языковую модель, которая может обучаться на разных типах данных и способна понимать отсылки на естественном языке к определённым фрагментам изображения. С тех пор Apple опубликовала серию статей, расширяя семейство ИИ-моделей Ferret, в которое вошли алгоритмы Ferretv2, Ferret-UI и Ferret-UI 2.

Так, модели Ferret-UI в значительной степени расширили исходные возможности FERRET и были обучены для того, что исследователи обычно называют недостатком мультимодальных больших языковых моделей (MLLM). «Недавние достижения в области MLLM заслуживают внимания, однако эти MLLM общего назначения зачастую неспособны эффективно распознавать пользовательские интерфейсы (UI) и взаимодействовать с ними. В этой статье мы представляем Ferret-UI — новую MLLM, предназначенную для повышения качества распознавания мобильных UI, оснащённую возможностями реферинга, граундинга и рассуждения. Учитывая, что мобильные интерфейсы обычно имеют более вытянутое соотношение сторон и содержат более мелкие элементы (например, значки и текст), чем естественные изображения, мы добавили „произвольное разрешение“ поверх Ferret для увеличения детализации и задействовали улучшенные визуальные признаки», — говорится в статье Apple.

Несколько дней назад Apple расширила семейство моделей Ferret-UI, а также опубликовала результаты исследования «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI построена на базе LLM с 13 млрд параметров, которая сосредоточена на понимании мобильных интерфейсов и скриншотов с фиксированным разрешением. Ferret-UI 2 расширила систему для поддержки нескольких платформ и восприятия более высокого разрешения. В то же время Ferret-UI Lite является гораздо более легковесной моделью, предназначенной для работы на локальном устройстве. При этом она сохраняет конкурентоспособность по сравнению со значительно более крупными GUI-агентами.

В публикации исследователей сказано, что «большинство существующих методов создания GUI-агентов […] фокусируются на больших фундаментальных моделях». Это связано с тем, что «мощные способности к рассуждению и планированию больших серверных моделей позволяют таким агентным системам достигать впечатляющих результатов в различных задачах навигации по графическим интерфейсам».

Отмечается, что был достигнут большой прогресс как в многокомпонентных, так и в сквозных GUI-системах, использующих разные подходы для оптимизации множества задач, связанных с агентным взаимодействием с графическими интерфейсами (низкоуровневое связывание с элементами GUI, понимание происходящего на экране, многошаговое планирование и самоанализ). Однако все они, по сути, слишком велики и требовательны к вычислительным ресурсам, чтобы эффективно работать на локальном устройстве.

Для решения этой проблемы исследователи разработали Ferret-UI Lite, которая представляет собой версию Ferret-UI с 3 млрд параметров, построенную с «использованием нескольких ключевых компонентов» и с применением идей, полученных при обучении небольших LLM.

Ferret-UI Lite использует реальные и синтетические обучающие данные из нескольких GUI-областей, техники динамического кадрирования и оптимизацию для повышения качества понимания конкретных сегментов графического интерфейса. Также были задействованы методы контролируемой тонкой настройки и обучение с подкреплением. В результате удалось создать ИИ-модель, которая практически соответствует или даже превосходит конкурирующие модели GUI-агентов, превосходящие её по количеству параметров до 24 раз.

Ряд нововведений, включая то, что модель сама генерирует данные для своего обучения, выглядят любопытно. Исследователи создали мультиагентную систему, которая напрямую взаимодействует с реальными GUI-интерфейсами для массовой генерации синтетических примеров для своего обучения. Задействован генератор заданий по программе обучения, который ставит цели по возрастающей сложности, а агент планирования разбивает процесс их достижения на этапы. Агент привязки выполняет последовательно все этапы на экране, а агент оценки выполняет проверку результатов.

Такой конвейер позволяет обучающей системе улавливать неопределённость реального взаимодействия, включая ошибки и неожиданные состояния. Это было бы сложнее сделать, если бы модель обучалась только на реальных, размеченных вручную данных. Любопытно, что Ferret-UI и Ferret-UI 2 обучались на изображениях интерфейсов iOS и других платформ Apple, тогда как Ferret-UI Lite обучалась на изображениях интерфейсов Android, веб-приложений и десктопных GUI.

Тестирование показало, что Ferret-UI Lite хорошо справляется с краткосрочными низкоуровневыми задачами, но не так успешна в выполнении более сложных многошаговых задач. Это является вполне ожидаемым компромиссом, если учесть ограничения, связанные с относительно небольшим размером модели, способной работать локально на устройстве. С другой стороны, Ferret-UI Lite может обеспечить высокий уровень конфиденциальности данных, поскольку алгоритм работает локально и не передаёт данные на серверы Apple.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Всему хорошему приходит конец: Microsoft подтвердила, когда GTA V покинет Game Pass 2 ч.
Мультиплеерный стелс-экшен Thick as Thieves от создателя Deus Ex и System Shock стал одиночной игрой с кооперативом на двоих 3 ч.
Отменённая The Last of Us Online была почти готова — ведущего разработчика «убивает, что люди не смогут поиграть в неё» 4 ч.
Ветеран Microsoft: обновления Windows не всегда ломают ПК — иногда они просто вскрывают проблемы 4 ч.
На следующей неделе «Яндекс» проведёт конференцию «День поиска» 5 ч.
Blizzard заинтриговала фанатов StarCraft новой вакансией — шутер с открытым миром на Unreal Engine 5 ч.
Игроки профинансировали русскую озвучку South Park: The Stick of Truth от GamesVoice — она выйдет «до того, как у вас закончатся запасы терпения» 6 ч.
Статистика Steam за март: Linux обогнала macOS, популярность RTX 5070 вернулась к реальности, а AMD отобрала ещё чуть-чуть доли Intel 6 ч.
Cloudflare представила CMS EmDash — «духовного преемника» WordPress 7 ч.
«Яндекс» добавил в определитель номера блокировку всех неизвестных номеров 7 ч.
К созданию спонсируемого Биллом Гейтсом нетипичного ядерного реактора подключили ИИ — процесс пойдёт живее 13 мин.
Космический сбой Microsoft: в летящем к Луне корабле «Орион» оказалось два Outlook и ни один из них не работает 37 мин.
Piter-IX поднял цены на свои услуги 4 ч.
Поставки электромобилей Tesla рухнули на 14 % за первый квартал — продано всего 358 000 штук 4 ч.
Тепло от дата-центров для ИИ начало сказываться на климате — пока лишь локально, но чувствительно для соседей 5 ч.
Представлен смартфон среднего уровня Honor X80i с чипом Dimensity 6500 Elite, 50-Мп камерой и батареей на 7000 мА·ч 5 ч.
Британские учёные выяснили, что дата-центры подогревают окрестности на километры вокруг 6 ч.
В России хотят «зачистить» рынок связи от небольших операторов — это может спровоцировать рост цен 7 ч.
Иран нанёс новый удар по облачному ЦОД AWS в Бахрейне 8 ч.
Американцы создали память, способную работать при 700 °C — для Венеры, реакторов и ИИ 8 ч.