Anthropic: API-агенты работают в 5 раз быстрее и дешевле

Исследователи провели эксперимент, чтобы определить реальную стоимость внедрения агентов на базе компьютерного зрения для работы с внутренними админ-панелями. В качестве тестовой платформы выбрали демо-версию панели управления, похожую на продукт react-admin, где нужно было найти клиента «Смит», обработать все зависшие отзывы и отметить заказ как доставленный. Задача имитировала типичную работу с фильтрами, пагинацией и переходами между сущностями. Один из агентов, Claude Sonnet, действовал через интерфейс браузера, анализируя скриншоты и клики, а второй вызывал HTTP-запросы к API той же панели. Без дополнительных инструкций API-агент справился за 8 шагов за 20 секунд, используя всего 12 тысяч токенов, при этом агент с компьютерным зрением не смог найти все необходимые данные. Из-за отсутствия сигнала о наличии скрытых строк на странице модель пропустила три из четырех отзывов, так как они не влезали в текущий экран, и не поняла необходимости прокрутки. Чтобы сравнить результаты честно, команду пришлось переписать промпт для агента зрения, добавив十四条 конкретных указаний, как кликать по меню и полям формы. Только после такой детальной инструкции агент завершил задачу за 17 минут, потребив полмиллиона токенов. При повторных запусках время выполнения и количество использованных токенов сильно варьировались от одной к другой, тогда как API-агент показывал стабильную производительность. Ограничения были вызваны не мощностью модели, а архитектурой: агенту зрения приходится рендерить каждый промежуточный шаг в виде картинки, что генерирует огромные объемы данных для входа. Использование инструмента Reflex позволило автоматически генерировать эндпоинты, упростив настройку API-пути, но сама суть эксперимента осталась прежней. Для приложений, которые нельзя контролировать, например стороннего софта или устаревших систем, агенты со зрением остаются единственно возможным решением. Однако для внутренних инструментов, над которыми есть полный контроль, вычислительная математика теперь говорит в пользу прямого доступа к API, так как количество шагов определяется интерфейсом, а не умом модели. Более совершенные модели лишь снижают ошибки на каждом скриншоте, но не уменьшают их общее число. Если команда игнорирует этот вывод, она либо тратит ресурсы на создание сверхточных промптов, либо принимает тот факт, что агент будет тихо упускать важную работу, что в итоге дороже.