Сегодня 07 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ с «глазами» оказался в разы дороже обычного API — агенты сжигают бюджеты, ходя по сайтам

Компании, которые используют агентов искусственного интеллекта, могут потратить значительно больше денег, если эти агенты оперируют визуальными данными, имитируя человеческое зрение.

 Источник изображения: reflex.dev

Источник изображения: reflex.dev

Специалисты платформы корпоративных приложений Reflex сравнили визуальных ИИ-агентов с теми, что осуществляют доступ к внешним ресурсам через API. Обоими агентами управляла нейросеть Anthropic Claude Sonnet: в первом случае она контролировала Python-фреймворк browser-use 0.12 для автоматизированной работы с браузером; во втором — обращалась к тем же веб-приложениям по API. При обращении по API агент вызывал те же механизмы обработки, что при работе с пользовательским интерфейсом, но получал в ответ структурированные данные, а не скриншот веб-страницы, который требовалось дополнительно анализировать.

Обоим агентам организаторы эксперимента дали задание: «Клиент по имени Смит пожаловался на недавний заказ. Найди Смита с наибольшим количеством заказов, прими все его отзывы на модерации и отметь последний как доставленный». ИИ-агент с обращением по API выполнил задачу за восемь запросов к ИИ-модели; визуальный вариант нашёл только один из четырёх ожидающих отзывов — остальные три он пропустил, потому что не догадался прокрутить страницу. Когда условия задачи упростили в угоду визуальному ИИ-агенту, тот выполнял её около 17 минут; вариант с обращением по API добился результата за 20 секунд и израсходовал в 45 раз меньше токенов модели ИИ.

По оценкам Anthropic, обработка изображения размером 1000 × 1000 пикселей с помощью модели Claude Sonnet 4.6 расходует около 1334 токенов. Визуальный ИИ-агент израсходовал на выполнение задачи около 500 000 входных и около 38 000 выходных токенов; обращавшийся по API агент потратил около 12 150 входных и 934 выходных токенов. Авторы эксперимента сделали такой вывод: агентов с машинным зрением следует использовать только для работы с приложениями, которые пользователь не контролирует; внутренние процессы должны обрабатываться по API.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
IBM когда-то хотела отказаться от навигации с клавишей Tab — Microsoft не согласилась, сославшись на маму Билла Гейтса 37 мин.
«Профиль низкой задержки» ускорит Windows 11 — но процессору придётся кратковременно работать на максимум 38 мин.
ИИ с «глазами» оказался в разы дороже обычного API — агенты сжигают бюджеты, ходя по сайтам 41 мин.
Глава Take-Two взял вину за неудачи Sid Meier’s Civilization VII на себя, а обновление Test of Time исправит главную проблему игры 58 мин.
Доля российского ПО в госсекторе превысила 75 % 2 ч.
Фейковый сайт ИИ-бота Claude распространяет новый вредонос Beagle для Windows 2 ч.
Созданные с помощью ИИ сайты кишат уязвимостями — разработчики ИИ-сервисов валят всё на клиентов 3 ч.
Евросоюз хочет отрезать американские облака от конфиденциальных госданных 3 ч.
На «Яндекс» пожаловались в ФАС из-за изменений в поисковой выдаче 4 ч.
У Роскомнадзора нет ни планов, ни оснований для блокировки GTA, Red Dead Redemption, Battlefield, Fortnite и других популярных в России игр 5 ч.