Реальный рабочий контекст LLM — около 100k токенов, остальное маркетинг

Большие контекстные окна LLM — это в основном маркетинг. Автор статьи разбирает реальную картину: внутри любого контекста есть две зоны. Первая — «умная», где модель работает чётко. Вторая — «тупая», где внимание рассеивается, и LLM начинает забывать, что ты сказал пять минут назад. Граница проходит примерно на 100 000 токенов. Не важно, что на коробке написано 200k, 1M или 2M.

Проблема особенно острая для кодинг-агентов. Они сжигают токены мгновенно: прочитал несколько файлов, запустил длинную отладку, прогон тестов — и к обеду ты уже в «тупой зоне». Исследования вроде RULER и отчёта Chroma про «гниение контекста» подтверждают: реально рабочий объём — это лишь часть рекламной цифры, а качество падает постепенно по мере заполнения окна.

Разработчики инструментов это понимают. Например, Claude Code теперь умеет автосжатие: когда сессия становится длинной, агент сам суммирует историю и начинает заново. Это помогает, но проблема в том, что сжатие включается, когда ты уже просидел в «тупой зоне», и сам пересказ делает модель, качество которой уже упало.

Автор предлагает другой подход. Он открывает новую сессию и передаёт ей собственноручно написанный spec. Это гораздо чище любой автоматической сводки, потому что он сам решает, что важно дальше. Это «метод хлебных крошек» для агентов: оставляй артефакт, который следующая сессия или следующий человек сможет подхватить без потерь.

Можно пойти дальше. Проекты вроде obra/superpowers и mattpocock/skills строят целые воркфлоу вокруг маленьких именованных артефактов: PRD, планов, скиллов, передач между под-агентами. Каждый такой файл — способ удержать рабочую сессию в «умной зоне», сознательно вынося информацию из живого чата в то, что прочитает следующий запуск.

Вывод простой: относись к контекстному окну как к бюджету. Считай, что по-настоящему работает только первый кусок. Всё, что можно вынести из живого сеанса в письменный артефакт, — это минус один пункт в борьбе за внимание модели.