antirez встроил steering в DwarfStar 4 для DeepSeek-V4-Flash

antirez выпустил DwarfStar 4 — урезанную версию llama.cpp, заточенную под модель DeepSeek-V4-Flash. Главная фишка: steering встроен прямо в инструмент как базовая возможность. Это управление выходами нейросети через прямое вмешательство в её активации «на лету».

Идея не новая: ещё Golden Gate Claude от Anthropic показывал, как можно «заставить» модель тащить каждую фразу к мосту Золотые Ворота. Но раньше это было игрушкой для лабораторий. Теперь, с появлением достаточно умных открытых моделей вроде DeepSeek-V4-Flash, steering стал доступен инженерам на локальных машинах.

Как это работает? Берёте сто промптов, прогоняете их дважды: с нормальным запросом и с тем же запросом, но с добавкой «отвечай кратко». Вычитаете матрицы активаций — получаете вектор управления. Добавляете его к активациям модели на нужном слое — и она начинает отвечать кратко. Есть и более сложный путь: разреженные автоэнкодеры, которыми занимается Anthropic. Они вытаскивают не просто разницу, а целые паттерны поведения, но это дорого.

Почему steering до сих пор не используется повсеместно? Крупным лабораториям типа OpenAI проще переобучить модель, чем ковыряться в активациях. Обычным пользователям API он недоступен — нет доступа к весам. А для простых вещей вроде «будь многословнее» проще написать в промпте, чем возиться с векторами.

Реальная польза steering может проявиться там, где промпт бессилен. Например, «интеллект» — современные модели уже обучены быть «экспертами», и просьба в промпте ничего не меняет. Но можно ли найти вектор интеллекта? Автор скептичен: такой вектор почти совпадает со всеми весами модели, и его поиск сводится к обучению новой сильной модели. Другой вариант — «знание моей кодовой базы». Если модель прочитала код и запомнила его в активациях, можно попробовать вытащить этот вектор. Но и это, скорее всего, потребует полноценного fine-tune.

Пока steering — это красивая, но непрактичная идея. Однако open-source сообщество только начинает в неё вгрызаться. Возможно, через полгода для каждой популярной открытой модели будут выпускать не только квантизированные версии и обёртки, но и библиотеку «усиливаемых фич» — готовых векторов управления. DwarfStar 4 уже первый шаг в этом направлении.