← На главную

Разработчики Cactus представили локальную модель Needle

12.05.2026 18:03 · hackernews

Разработчики Cactus представили Needle, экспериментальную модель на базе архитектуры Simple Attention Network с всего 26 миллионами параметров. Команда выделила её из большой модели Gemini 3.1, но теперь она работает на вашем Mac или PC и позволяет обучать её локально. В промышленных условиях Needle крутится на Cactus, обрабатывая 6000 токенов за секунду при подготовке ответа и 1200 токенов при генерации. Весь код с весами доступен на Cactus-Compute/needle вместе с набором для создания данных обучения, настроенным на параметры d=512, 8H/4KV и BPE=8192.

Архитектура модели состоит из одного энкодера на 12 слоёв, где в блоках Self Attn применяются GQA+RoPE, но нет FFN-слоёв. Декодер насчитывает 8 слоёв с механизмами Cross Attn, Masked Self Attn, RoPE и Gated Residual. Для нормализации используется ZCRMSNorm, а линейные слои привязаны друг к другу. Модель преобучали на 200 миллиардах токенов на 16 TPU v6e за 27 часов, а дообучение заняло 45 минут на 2 миллиардах токенов одношагового набора для вызова функций.

На тесте Needle показывает лучшие результаты по сравнению с FunctionGemma-270m, Qwen-0.6B, Graninte-350m и LFM2.5-350m в задачах по вызову функций для персонального ИИ. Однако у тех моделей больше возможностей для диалогов. Проект предназначен для перепроизводства малых ИИ на потребительские устройства вроде телефонов, умных часов и очков.

Для запуска используется интерфейс командной строки через git clone репозитория, после чего выполняется setup и запуск игрового поля needle playground. Это открывает веб-интерфейс на http://127.0.0.1:7860, где можно тестировать работу с собственными инструментами. Библиотека позволяет загрузить чекпоинт, настроить параметры и сгенерировать ответ на запрос погоды, например, для Сан-Франциско. Доступны команды для дообучения на собственных данных, полного обучения или предобучения на PleIAs/SYNTH. Система автоматически скачивает веса, если они не хранятся локально, и предоставляет утилиты для токенизации, синтеза данных с помощью Gemini и управления TPU.

Читать оригинал →