← На главную

Движок ds4.c на Metal ускоряет DeepSeek V4 на Mac

07.05.2026 15:40 · hackernews

Проект ds4.c представляет собой специализированный inference-движок для модели DeepSeek V4 Flash. Разработчики создали его не как универсальный инструмент для любых GGUF-файлов, а узконаправленный продукт с графом Metal, оптимизированным именно для этой архитектуры. Без llama.cpp и GGML такой проект бы не существовал, и команда выражает огромную благодарность Георги Георганову и всем авторам базовых библиотек. DeepSeek V4 Flash выделяется скоростью благодаря меньшему количеству активных параметров и умному режиму мышления, где длина размышлений пропорциональна сложности задачи, позволяя модели работать там, где другие уже не справляются. Модель поддерживает контекст в 1 млн токенов, что открывает возможности для поиска информации на краю знания, отлично пишет по-английски и по-итальянски, ощущаясь как передовая модель благодаря сжатию KV-кеша. Это позволяет запускать её на MacBook с 128 ГБ ОЗУ в 2-битной квантовке. Проект намеренно фокусируется на одной модели, проводя валидацию logits и тесты на длинном контексте для работы на мощных персональных машинах или Mac Studio.

Движок работает только на Metal, CPU-версия служит только для проверки корректности, хотя её сейчас сложно использовать из-за бага в реализации виртуальной памяти в macOS. Ключевая идея — рассматривать сжатый KV-кеш как полноценного гражданина диска, а не только оперативной памяти. Реализация объединяет три элемента: движок с HTTP API, специально созданный GGUF и тестирование через агентов. Ключевые сжатые буферы хранятся на диске, что позволяет перезапускать сессии без пересчёта префиксов. Сервер поддерживает стандартные эндпоинты OpenAI и Anthropic, включая SSE-стриминг и вывод размышлений в чистом виде. Можно настраивать агентов для opencode и Pi, а также использовать локальный сервер с DeepSeek вместо платных API. Система кеширования на диске использует SHA1-хеши токенов и обычные операции ввода-вывода, избегая mmap, чтобы не перегружать виртуальную память. Файлы кеширования имеют заголовок KVC с магической строкой и метаданные о размере контекста, версии квантования и причинах сохранения, например при вытеснении или при холодном запуске. Это позволяет экономить ресурсы и делает локальный запуск конкурентоспособным решением для сложных задач.

Читать оригинал →