Liquid AI выпустила LFM2.5-8B-A1B — резкое снижение галлюцинаций

Liquid AI выпустила модель LFM2.5-8B-A1B — лёгкий «краевой» ассистент для обычного ноутбука. Это развитие LFM2-8B-A1B от октября 2025 года. Главное — модель научили рассуждать: она выдаёт цепочку мыслей (chain of thought) перед ответом. Разработчики выбрали такую архитектуру, потому что MoE-модели (смесь экспертов) работают быстро — активных параметров мало, и каждый шаг рассуждения обходится дёшево.

Контекстное окно выросло с 32K до 128K токенов — модель переваривает длинные документы. Словарный запас удвоили: с 65 536 до 128 000 токенов. Это сильно улучшило токенизацию для нелатинских языков. Хинди — прирост 120%, тайский — 238%, вьетнамский — 118%. Английский почти не изменился (+1.8%).

С бенчмарками история интересная. Индекс AA-Omniscience (оценивает точность ответов и штрафует за галлюцинации) поднялся с −78.42 до −24.70. Но главный прорыв — в борьбе с галлюцинациями. Показатель Non-Hallucination Rate взлетел с 7.46 до 63.47. Для этого добавили специальный этап RL с наградой avg@k, которая усиливает «воздержание» — модель лучше говорит «не знаю», чем выдумывает.

Для решения проблемы «петель сомнения» (doom loops) — когда модель зацикливается на фразах вроде «Подожди…» — внедрили этап preference optimization. Он перераспределяет вероятность с таких токенов на более адекватные продолжения. Во время RL добавили штраф за чрезмерное использование «петлеобразующих» слов.

Веса модели открыты. Они доступны на Hugging Face и в Playground. Поддержка инференса с первого дня: llama.cpp (GGUF), MLX (Apple Silicon), vLLM, SGLang, ONNX и фирменная платформа LEAP для iOS и Android. На тестах на M5 Max модель выдаёт 253 токена/с, на Ryzen AI Max+ 395 — 146 токенов/с, при этом укладывается в 6 ГБ памяти. На смартфоне — около 30 токенов/с. На одном NVIDIA H100 — до 18.5K выходных токенов/с.

Демо LocalCowork — десктопный агент на LFM2.5-8B-A1B. 67 инструментов на 13 MCP-серверах, всё работает на одном ноутбуке без облачных ключей и без утечки данных. Цикл «запрос — предложение — подтверждение — выполнение» занимает меньше секунды. Модель конкурентна с гораздо более крупными решениями вроде Granite-4.0-H-Tiny или Qwen3-30B-A3B, особенно по следованию инструкциям (IFEval — 91.84) и агентским задачам (Tau² Telecom — 88.07).