← На главную

Amazon внедрил RNG: −69% роутеров, +33% пропускной способности

09.06.2026 03:39 · hackernews

Идея «оптимальных» маршрутных сетей появилась ещё в 1970-х. Математики придумали «экспандеры» — графы, где любой набор вершин остаётся сильно связан с остальными. В 1991 году Фридман показал: случайно соединённая сеть почти так же хороша, как лучшие ручные конструкции. А недавнее доказательство 2023 года подтвердило, что случайные графы достигают того же предела. Вывод: хочешь идеальную сеть — просто соединяй всё наугад.

Индустрия тем временем пошла другим путём. С середины 1980-х сети строили на топологии fat-tree (сложенный Clos). В 2009 году группа Альберта Гринберга (Albert Greenberg) опубликовала работу VL2, которая подняла fat-tree на новый уровень — плоская адресация и случайная балансировка трафика Valiant Load Balancing. В 2019 году VL2 получила премию SIGCOMM Test of Time. Но основа оставалась жёсткой, иерархической и сложной в разводке кабелей.

В 2012 году исследователи из Иллинойса предложили проект Jellyfish — соединить случайные графы и дата-центры. Но на пути стояли три проблемы: маршрутизация (слишком много путей), разводка (случайные соединения) и эксплуатация (всё непредсказуемо).

В 2023 году Джакомо Бернарди (Giacomo Bernardi), principal scientist в AWS, заинтересовался мозаикой Пенроуза — геометрической структурой с почти случайными свойствами. Вместе с Ратулом Махаджаном (Ratul Mahajan) из Amazon и Университета Вашингтона они потратили месяцы на симуляции, но упёрлись в стену. Прорыв случился, когда структуру заменили на чистую случайность. Шутка «просто будь случайным» стала рабочей. Бернарди написал в Slack: «Есть тут эксперты по случайным графам?». Откликнулся Сешадри Командур (Seshadhri Comandur), профессор теории вычислительных систем.

Команда решила три проблемы. Для маршрутизации — разработали Spraypoint, схему раздачи трафика без перегрузки памяти роутеров. Для разводки — создали ShuffleBox, пассивное оптическое устройство, которое в сочетании со случайным соединением даёт «квазислучайные» графы. Для эксплуатации — софт, переводящий абстрактный граф в портовые инструкции, и модели, позволяющие проверить производительность до физической сборки.

Вице-президент по сетевым технологиям Мэтт Редер (Matt Rehder) бросил вызов: постройте это в реальном дата-центре. Первый RNG (Resilient Network Graphs) дата-центр построили под Дублином в 2024 году. В 2025 году команда демонтировала его, доработала дизайн и возвела два новых — в Германии и Испании. Результаты: на 69% меньше роутеров, на 33% выше пропускная способность, на 40% меньше энергопотребления и на 27% ниже операционные расходы по сравнению с fat-tree. С начала 2026 года RNG — стандарт для большинства новых дата-центров Amazon.

Преимущества: потеря 1% роутеров даёт потерю 1% ёмкости — деградация предсказуема, а не катастрофична. Емкость не привязана к слоям — любая полоса доступа доступна для любой нагрузки. Сеть масштабируется плавно, без скачков. Минусы: случайные пути сложнее диагностировать (помогает фирменное ПО), а гарантии производительности — стохастические, а не жёсткие. Но на практике fat-tree с учётом реальных отказов тоже стохастичен. RNG просто признаёт это и проектируется с учётом случайности с самого начала.

Читать оригинал →