7 августа 1996 года America Online упала и не вставала 19 часов. Новость о сбое вытеснила с первых полос даже сообщение NASA о возможной жизни на Марсе. До этого AOL регулярно выключали серверы на обслуживание, и никто не паниковал. Но в этот раз мир пересёк незримый порог: интернет стал слишком важной частью жизни, чтобы люди спокойно терпели напоминания о его хрупкости.
Спустя почти 30 лет бывший вице-президент AOL по операциям Мэтт Корн рассказал, что точно помнит только одно: систему отправили на техобслуживание, а обратно она так и не завелась. В итоге инфраструктуру переделали так, что она больше не требовала полной остановки. Всё остальное — туман.
Автор (SRE-инженер, пост написан при поддержке ngrok) полез искать архивы и наткнулся на дневник Стива Шальхлина. В 1996 году Стив умирал от СПИДа. За четыре месяца до сбоя AOL он нашёл на онлайн-форуме для больных информацию о новом препарате Crixivan. Через два месяца его вирусная нагрузка упала до нуля. Стив выжил. Если бы в тот день сервер не ответил, сообщение могло уйти с первой страницы — и его судьба сложилась бы иначе.
Автор делает вывод: SRE-инженеры привыкли видеть в сбоях графики и метрики, а не человеческие истории. Но реальность сложнее. Экономика подталкивает компании резать углы — это не новость, AOL занималась тем же в 1996-м, а потом в 2011-м её продали за копейки. Проблема в том, что аргументы «надёжность окупается» работают, только пока у пользователей есть выбор. Когда конкуренция исчезает, компании просто делают отписку дороже, и качество становится невыгодным.
Автор предлагает два неочевидных решения. Первое — позаимствовать из уголовного права концепцию «заявлений потерпевшего»: пусть клиенты сами рассказывают, как именно сбой повлиял на их жизнь, а компания записывает это в постмортем. Второе — подключить университеты: пусть аспиранты собирают такие свидетельства после каждого громкого падения. Но в целом, признаёт автор, настоящая работа SRE сегодня — быть «подстраховкой», не давать качеству скатываться обратно, выдвигать странные идеи и называть вещи своими именами. И помнить: это марафон, а не спринт.