Greptile запустила TREX — песочницу для поиска багов в code review

Greptile, компания, занимающаяся AI-ревью кода, представила TREX — execution layer, встроенный прямо в процесс code review. Идея в том, что статический просмотр diff'ов не ловит баги, которые проявляются только во время работы программы: логические ошибки, зависящие от последовательности состояний, UI-регрессии после загрузки страницы или race conditions. Можно идеально прочитать код, но не понять, что он делает на самом деле.

TREX (Test, Run, Execute) — это ответ на этот потолок. Изначально его сделали как отдельный продукт: агент генерировал и запускал тесты. Но тесты оказались нерелевантны — шум и пропущенные кейсы. Потом попробовали объединить всё в одного агента — тот перегружался контекстом. Решение: TREX работает как суб-агент внутри основного Greptile reviewer. Оркестратор читает diff, находит подозрительные места и запускает под каждое отдельного TREX-агента — все параллельно. Суб-агент наследует контекст оркестратора, не стартует с нуля.

Каждый TREX-агент получает свободу: сам поднимает окружение, авторизуется, включает фича-флаги, делает скриншоты. Результаты — не просто списки «протестировано, найдена ошибка». Это мультимодальные артефакты: скриншоты, логи, API-трейсы, скрипты выполнения и даже видео. Например, при изменении анимации TREX снимет видео того, как она выглядит. Каждый артефакт даёт возможность проверить — плохие доказательства хуже, чем их отсутствие. Это как в школе: пока не покажешь шаги, не поймёшь, где ошибка.

Архитектура model-agnostic: TREX не завязан на одного провайдера. Можно горячо менять модели, и даже главный агент с суб-агентами могут использовать разных провайдеров. Оценка идёт по recall (сколько реальных багов поймано) и precision (стабильность результатов при повторном ревью). Латенси намеренно не гонят — лучше дольше, но точнее.

Каждое ревью получает disposable sandbox: изолированный compute-инстанс, поднимается за миллисекунды, уничтожается после. Чтобы не стартовать с нуля каждый раз — reusable base images и per-repository snapshot'ы. Кеш ускоряет, но не захламляет окружение «призраками». Именно песочница делает артефакты заслуживающими доверия: код действительно выполнился в реальной среде.

В итоге TREX — не отдельная фича, а система: оркестратор, суб-агенты, песочница, пайплайн артефактов и eval-фреймворк. Всё вместе превращает code review в воспроизводимый эксперимент с доказательствами. Компания видит себя не инструментом ревью, а полноценным validation suite — шагом к миру без багов.