Modal ускорила запуск AI-серверов до 50 секунд

Компания Modal опубликовала подробный разбор инженерных решений, позволивших сократить время запуска серверов для искусственного интеллекта с нескольких тысяч секунд до 50 секунд. Ключевая проблема инференса, где нагрузка меняется мгновенно, в том, что традиционное масштабирование требует минут на развертывание новых инстансов. Modal решила эту задачу четырьмя методами: поддержкой буфера здоровых GPU, кастомной файловой системой, снапшотами состояния процесса на CPU и снапшотами памяти на GPU. Буфер готовых машин позволяет мгновенно назначать их новым задачам, жертвуя небольшим показателем утилизации для надежности. Специальная файловая система ImageFS загружает образы контейнеров лениво, беря метаданные за 100 мс, а остальной контент вытаскивая из многоуровневого кэша в оперативной памяти или на быстрых SSD, минуя медленный объектное хранилище. Команда также использует интерфейсы прозрачного снапшота CRIU и собственные реализации для гелиевых окружений, позволяя сохранять состояние процессов и восстанавливать их быстрее, чем запускать их с нуля. Для GPU Nvidia современные драйверы умеют сохранять состояние видеопамяти в системную память, что ускоряет восстановление контекста CUDA в разы. Благодаря этому подходу запуск реплик серверов на Modal в 40 раз быстрее, чем при стандартном подходе, а холодный старт сократился с десятков минут до десятков секунд. Это позволяет платформе обслуживать пиковые нагрузки без необходимости держать резервные мощности, что критически важно для клиентов вроде Reducto и физических лабораторий, обрабатывающих терабайты данных в реальном времени.