Парадокс инспекции: MTTR скрывает 6-часовое ожидание для пользователей

Алиса пользуется вашим веб-сервисом и говорит, что он медленный. Вы показываете метрики: среднее время ответа — 100 мс. Алиса настаивает: её среднее ожидание — целая секунда. Вы оба правы. То же самое с Алексом: когда у вас падают сервисы, он жалуется, что сбои длятся часами. Вы отвечаете, что ваш MTTR меньше минуты. Алекс видит среднюю длительность аварии в один час. И снова вы оба правы.

В чём дело? Вы считаете время в запросах или сбоях, а пользователи — в секундах и минутах. Длинный запрос или долгая авария — для них это огромный вес, а для вас просто один случай. Это парадокс инспекции. Алиса и Алекс не видят распределение задержек f(t), они видят t-взвешенную версию. Если ваш MTTR или среднее время ответа — E[X], то пользователи испытывают E_a[X] = E[X²] / E[X] = E[X] + Var(X)/E[X]. Большую часть времени ожидания люди проводят в ожидании того, что длится дольше всего.

Вот наглядный пример. Допустим, медианное время восстановления (TTR) вашего сервиса — 30 минут, а 99-й перцентиль (p99) — 600 минут (10 часов). Если подогнать логнормальное распределение, ваш MTTR окажется чуть больше часа. Но среднее время восстановления, которое видят пользователи, — около шести часов. Разница колоссальная.

Почему это важно? Для времени ответа иногда помогает таймаут с повторным запросом (если запрос не блокирует ресурсы). Но для времени восстановления такой фокус не работает — хвост распределения бьёт напрямую по пользователям. Именно поэтому усечённые средние (trimmed means) — плохая идея для оценки задержек или времени восстановления. Они выбрасывают самый критичный контекст: форму правого хвоста, который на самом деле диктует пользовательский опыт. (Есть и другая причина, связанная с законом Литтла и загрузкой, но это уже отдельная история.)

Автор уточняет, что выбрал логнормальное распределение только из-за удобства расчётов — оно хорошо ведёт себя около нуля, и преобразование μ → μ + σ² даёт аккуратную формулу. Но он не считает логнормальное распределение удачной моделью для метрик задержек или времени восстановления и предпочёл бы непараметрический подход.