← На главную

Два навыка AI-агентов: claim‑driven тесты — 6 находок в AgentDB

20.05.2026 14:40 · hackernews

Два навыка для AI-агентов — проектирование и исполнение claim-driven тестов для распределённых и stateful-систем. Первый навык (designing-distributed-system-tests) создаёт структурированный Markdown-план (§0–§9). Второй (executing-distributed-system-tests) запускает сценарии, фиксирует вердикты и генерирует отчёт с находками. Агент работает с Claude Code, Codex, Copilot CLI, Cursor, Gemini — любым, кто читает Markdown и выполняет shell.

В отличие от обычного подхода («написал пару интеграционных тестов и забыл») эти навыки вытаскивают полевое знание. Тесты не про сценарии, а про утверждения продукта (claims). Каждый сценарий опровергает одно утверждение при одной неисправности. Имя теста = имя утверждения, а не настройке. В плане обязательна аргументация покрытия: почему этих тестов достаточно, и что осталось непроверенным.

Для критичных по консистентности сценариев (safety, durability, idempotency, isolation, ordering, membership) каждый сценарий привязывает абстрактную модель (register, queue, log, lock, lease, ledger), схему истории операций, именованный чекер (linearizability, serializability, session-consistency, no-lost-ack, exactly-once) и nemesis с наблюдаемыми доказательствами срабатывания (landing evidence). Chaos без модели и чекера — не считается.

Вердикты — 9 состояний, а не просто PASS/FAIL. Для PASS обязательно доказательство, что сбой реально сработал. Каждый FAIL маркируется меткой вины: SUT, harness, checker, environment. Перезапускать ничего не нужно — ревьюер читает план и отчёт и решает, выкатывать ли релиз.

Два навыка формируют на выходе: testing-plans/<slug>.md (план) и test-sessions/<UTC>/ (лог, логи сценариев, метрики, артефакты, отчёты по каждому сценарию + сводный report.md). План включает архитектуру, scope, утверждения под тестом, существующий инвентарь тестов, гипотезы отказов, матрицу покрытия, выбранные техники, сценарии с обязательным §7.M блоком, аргумент покрытия, остаточную неопределённость и confidence statement.

Установка одной строкой — на любой AI-агент. Репозиторий: shenli/distributed-system-testing. Команда git clone или git pull --ff-only (идемпотентно). Symlinks автоматически обновляются.

Навыки уже протестированы на AgentDB (распределённый runtime на Rust). Найдено шесть находок: один P0-кандидат закрыт, два P1 смержены, два открыты. Результаты реальных прогонов лежат в verification/. Каталог техник собран из литературы — работы Yuan, Gunawi, Kingsbury, Bornholt и других.

Читать оригинал →