TensorZero — это open-source LLMOps-платформа. Она собирает в одном месте весь воркфлоу работы с языковыми моделями. Шлюз даёт единый API для вызова любого LLM-провайдера — от Anthropic до Groq и xAI. Всё написано на Rust, поэтому p99 latency меньше 1 миллисекунды даже при 10 000 запросов в секунду.
Платформа собирает все инференсы и фидбек в вашу базу данных — смотреть можно через UI или программно. Это позволяет бенчмаркать отдельные вызовы и целые пайплайны: используются хьюристики и LLM-судьи. На основе метрик и обратной связи TensorZero оптимизирует промпты, модели и стратегии инференса. Встроены A/B-тесты, роутинг, fallback’и и повторные попытки.
Подключаться можно по частям. Платформа дружит с OpenAI SDK, OpenTelemetry и каждым крупным LLM-провайдером. TensorZero используется от стартапов до Fortune 10 и сейчас обрабатывает примерно 1% всех глобальных LLM-запросов по API.
Отдельно есть TensorZero Autopilot — платный продукт. Это автоматический AI-инженер, который анализирует данные observability, настраивает eval’ы, оптимизирует промпты и модели и запускает A/B-тесты. Он серьёзно поднимает производительность LLM-агентов на разных задачах.
Пример: с TensorZero можно докрутить GPT-4o Mini так, что он обходит GPT-4o на задаче извлечения данных — и по качеству, и по цене. Платформа поддерживает tool use, структурированные выходы (JSON), батч, эмбеддинги, мультимодальность и кэширование.
Интеграция простая. Разворачиваете один Docker-контейнер, меняете base_url в OpenAI-клиенте на http://localhost:3000/openai/v1, указываете модель вроде tensorzero::model_name::anthropic::claude-sonnet-4-6 — и готово. За аутом для пользователей можно спрятать ключи провайдеров.
TensorZero полностью self-hosted и open-source. Команда включает бывшего мейнтейнера компилятора Rust, исследователей из Стэнфорда и CMU, а также ex-CPO декакорн-стартапа. Стартап привлёк $7.3 млн seed — среди инвесторов те же фонды, что поддерживали ClickHouse, CockroachDB, OpenAI и Anthropic.