Утилита WhichLLM подбирает локальные модели под ваше железо и выдаёт Python-скрипты

Команда Andyyyy64 представила утилиту whichllm, которая автоматически подбирает лучшие локальные языковые модели для вашего железа. Инструмент сканирует GPU, процессор и оперативную память, а затем выдает рейтинг моделей с HuggingFace, точно подходящих под систему. Например, на видеокарте RTX 4090 с 24 ГБ видеопамяти лучшими окажутся Qwen/Qwen3.6-27B или Qwen3-32B, причем программа предпочитает более качественный 27-миллиардную версию перед более объемной 32-миллиардной из-за лучших результатов в тестах. Даже для слабой CPU-only конфигурации найденный оптимум — это gpt-oss-20b. Ядро программы не просто ищет модели, которые физически влезут в VRAM, а проводит доказательную оценку качества по данным LiveBench, Artificial Analysis, Aider и других лидеровбордов. Устаревшие оценки сразу снижаются в рейтинге, а заимствованные баллы от более крупных моделей считаются подозрительными. Система учитывает архитектуру чипов: для Apple Silicon и CPU используются только стабильные GGUF-форматы, тогда как Linux с NVIDIA поддерживает также AWQ и GPTQ. Скорость работы и тип квантования также влияют на итоговый балл. Инструмент поддерживает выгрузку данных в JSON для автоматизации, позволяет имитировать работу на гипотетической карте при планировании покупок и генерировать готовые скрипты на Python. Установка возможна через uv или brew, при этом зависимости загружаются в изолированную среду. Функция авто-определения поддерживает NVIDIA, AMD, Apple Silicon и даже CPU. Для пользователей, предпочитающих Ollama, существует прямая интеграция через пайплайн с jq, позволяющая запустить выбранную модель одной командой.