Визуализатор: как tok/s LLM меняются от контента в реальном времени

Чтобы понять, что на самом деле означают цифры tok/s в бенчмарках локальных LLM, разработчик сделал визуализатор, который показывает поток токенов в реальном времени. Инструмент поддерживает четыре режима контента: code — синтаксически подсвеченный псевдокод (самый частый случай), text — lorem ipsum для сценария чата/ответа, think — тусклый курсив рассуждений, чередующийся с кодом (имитация рассуждений модели вслух), и agent — чередование вызовов инструментов и генерации кода с паузами обработки, симулирующее AI-агента.

По умолчанию стоит 30 tok/s — можно читать вместе. Затем нажатием клавиш переключаются разные скорости: 1 (5 tok/s — уровень Raspberry Pi), 5 (60 tok/s — типичный hosted Claude или GPT), 7 (200 tok/s — уровень Groq), 9 (800 tok/s — Cerebras, где узкое место — глаза). Переключение между c и t на одной скорости даёт разительный контраст: код плотнее токенов, поэтому одинаковые tok/s ощущаются по-разному.

Токенизация приближена к BPE-стилю, но не привязана к конкретному вендорскому энкодеру (tiktoken, Claude tokenizer и т.д. — в деталях они расходятся). Короткие слова обычно один токен, длинные идентификаторы вроде processUserInput дробятся на process + User + Input, пунктуация и операторы тоже считаются. Код токеноплотнее прозы, поэтому одни и те же tok/s могут восприниматься совершенно по-разному в зависимости от типа контента — как раз этот разрыв инструмент и призван показать. Английская проза в среднем даёт 1.3 токена на слово, так что 30 tok/s ≈ 23 слова/с.