Anthropic выпустила утилиту для оценки навыков агентов по метрикам

Anthropic представила открытый стандарт Agent Skills, позволяющий привить агентам глубокую отраслевую экспертизу. Главная сложность в этой экосистеме — доказать реальную эффективность новых навыков. За эту задачу взялась утилита agent-skills-eval. Инструмент запускает тесты дважды: сначала с загруженным в контекст файлом SKILL.md, затем без него (базовый вариант).随后 модель-судья сравнивает результаты и выдает четкий отчет. Если навык ничего не добавляет, это видно сразу. Если результат есть — у вас есть доказательства.

Работает всё на любом рунтайме, так как фреймворк отделен от конкретного агента. Команда вызывает скрипт одной строкой через npx, указывая папку с навыками, модель для генерации ответов и модель-судью. Например, можно использовать GPT-4o-mini для обоих ролей. Вы получаете рабочую область с метаданными и статическим HTML-отчетом по адресу iteration-1/report/index.html. Визуализация показывает, как конкретный навык влияет на работу с данными, позволяя увидеть реальный прирост качества или его отсутствие.

Оценка проводится по утверждениям (assertions), а не на основе впечатлений. Поддерживается TypeScript SDK и CLI для CI-пайплайнов. По умолчанию инструмент совместим с API OpenAI, но работает с Together, Groq, локальными серверами Llama через слой совместимости. Добавлены детерминированные проверки для агентов, вызывающих инструменты. Все артефакты сохраняются в JSON и JSONL, что позволяет подключать их к любой собственной панели мониторинга. Отчеты генерируются в виде статического сайта без необходимости инфраструктуры.

Инструмент полностью соответствует спецификации agentskills.io. Он валидирует YAML-блок в начале файла SKILL.md, включая обязательные поля name и description, а также формат имен навыков. Поддерживаются директории для ссылок, скриптов и ассетов. В JSON-файле с эвалу можно пропустить утверждения, если задать expected_output, и SDK автоматически превратит это в критерий для судьи. Настройки задаются через YAML-конфиг или флаги CLI, но команды всегда имеют приоритет.

Для программных нужд SDK поддерживает определение собственного провайдера, реализующего интерфейс Provider. Это открывает доступ к локальным серверам Ollama или vLLM, а также к внутренним API. Можно передавать события в файл JSONL для анализа или использовать потоковую передачу. Минимальный набор навыка — папка со SKILL.md и файлом evals/evals.json. Отчет показывает процент проходов по каждому навыку, обоснование судьи и тайминг. Всё это упаковано в удобный формат для итераций и масштабирования.