Платформа Railway прервалась на восемь часов из-за того, что Google Cloud ошибочно перевел наш аккаунт в подвешенный статус, что вывело из строя весь наш GCP-инфраструктуру, поддерживающую дашборд, API и часть сети. Проблема началась 19 мая 2026 года в 22:20 UTC и продлилась до утра 20-го. Как только учетная запись Google Cloud Platform была заблокирована, все вычислительные инстансы и базы данных остановились, пользователи не могли войти в систему и получали ошибки 503. Хотя рабочие нагрузки на собственных инфраструктурах Railway Metal и AWS продолжали работать, их edge-прокси зависели от контрольной плоскости в облаке Google. Когда кэши маршрутов истекли, сеть не могла resolve-ить активные инстансы, и пользователи увидели ошибки 404 на всех регионах. Восстановление шло поэтапно: сначала вернулись диски, затем вычислительные узлы, но полная работа сервиса началась только спустя 4 часа после того, как сеть на стороне Google заработала. В это время GitHub временно ограничил лимиты OAuth и вебхуков из-за всплеска повторных запросов, сбросив записи принятия условий использования. Мы приняты полную ответственность за архитектурные решения, позволившие сбой у одного провайдера обрушить всю платформу. Сейчас мы убираем жесткую зависимость от API контрольной плоскости Google Cloud, делаем сеть по-настоящему мезовой, чтобы путь между облаками оставался даже при выходе из строя одного шлюза. Также расширяем базы данных между AWS и Metal, чтобы кворум сохранял работоспособность при исчезновении инстансов в одном облаке. В будущем мы уберем сервисы Google Cloud с горячего пути обработки данных, оставив их только для аварийного переключения, чтобы наши ядровые сервисы не зависели от одного вендора.
Railway упал 8 часов из-за сбоя Google Cloud
20.05.2026 00:23 · hackernews