Forge превращает Ministral-3 в лидера локальных LLM

Команда Forge предлагает надёжный слой для управления вызовами инструментов в локальных больших языковых моделяях. Проект превращает 8-миллиардную модель в лидера своего класса, используя строгие рамки безопасности, управление контекстом и механизмы восстановления ошибок. Текущая топ-конфигурация, основанная на модели Ministral-3 8B Instruct Q8 и сервере llama-server, достигает 86,5% успеха в наборе из 26 сценариев оценки и 76% на самом сложном уровне.

Платформа работает через несколько компонентов. WorkflowRunner позволяет определять инструменты, выбирать бэкенд и запускать структурированные циклы агентов, полностью управляя жизненным циклом с системными промптами и сжатием контекста. SlotWorker обеспечивает приоритетный доступ к общему вычислительному слоту с автопремптцией, что идеально для мультиспециалистических архитектур. Guardrails middleware встраивает надёжный стек Forge внутрь вашего собственного цикла оркестрации, где вы контролируете логику, а система валидирует ответы и принудительно выполняет обязательные шаги. Proxy server действует как встроенный аналог для локальных серверов, вставая между клиентом и моделью. Он прозрачно применяет рамки, заставляя клиента думать, что общается с умной моделью, даже если это просто локальный код.

Проект поддерживает Ollama, llama-server, Llamafile и Anthropic как бэкенды. Для разработки можно использовать git clone репозитория antoinezambelli/forge, а для работы с API Anthropic требуется установка дополнительных клиентских библиотек. Основная рекомендация — использовать llama-server с флагом --jinja, так как топ-10 конфигураций в тестах работают именно на нём. Оллама подходит для быстрого старта, но чуть слабее в сложных задачах. Anthropic же обеспечивает доступ к передовым возможностям без локальной GPU.

Ключевая особенность архитектуры — автоматическая инъекция синтетического инструмента respond при наличии инструментов в запросе. Модель использует вызов respond(message) вместо сырого текста, сохраняя режим вызова инструментов. Система автоматически убирает этот вызов из итогового ответа, и клиент видит нормальный текст. Это критически важно для небольших локальных моделей около 8 миллиардов параметров, которые нельзя доверять в выборе между текстом и инструментами.

В сборке есть модуль ContextManager со стратегиями сжатия, включая TieredCompact, которая оптимизирует использование памяти VRAM. Модуль guardrails включает ответственный валидатор ответов и трекер ошибок. Для оценки качества есть отдельная утилита, запускающая 26 сценариев с разбивкой на базовый и продвинутый уровни. Тесты можно запускать как единично, так и пакетно, получая отчёты в формате ASCII, HTML или Markdown. Исследование опубликовано с DOI, а исходный код распространяется под лицензией MIT.