NVIDIA выпустила открытую Cosmos 3 — Nano и Super для физического ИИ

NVIDIA выпустила Cosmos 3 — фундаментальную модель для физического ИИ. Она умеет анализировать реальный мир, предсказывать события и генерировать действия. При этом всё это работает в одной открытой модели, а не в наборе отдельных, как раньше.

Архитектура Cosmos 3 построена на Mixture-of-Transformers (MoT) и состоит из двух башен. Reasoner tower — это vision-language model (VLM), которая выступает «мозгом»: она обрабатывает изображения, видео и текст, понимает движение, взаимодействие объектов и контекст. Generator tower — наоборот, генерирует, используя диффузионный процесс. Она создаёт новые видео и последовательности действий, опираясь на выводы башни-рассуждателя. Обе башни можно вызывать вместе или по отдельности.

Доступны две версии: компактная Cosmos 3 Nano (16B параметров) для работы на рабочей станции, например на NVIDIA RTX PRO 6000 GPU, и мощная Cosmos 3 Super (64B параметров) для датацентров на NVIDIA Hopper и NVIDIA Blackwell. Они поддерживают массу сценариев: от генерации редких крайних случаев для автономных машин до обучения роботов через модель «мир-действие».

NVIDIA выложила в открытый доступ не только веса моделей на Hugging Face, но и коды на GitHub, наборы данных для тонкой настройки (SFT и action post-training), а также шесть синтетических датасетов для робототехники, физической симуляции, пространственного мышления, движений человека, вождения и складских операций.

Для оценки качества модели компания представила бенчмарк NVIDIA Cosmos Human Evaluation (HUE). Вместо субъективной оценки он использует атомарную бинарную верификацию: каждое сгенерированное видео разбивается на простые факты, по которым задаются вопросы «да/нет» по четырём измерениям — смысл, физика, геометрия и визуальная целостность. По результатам Cosmos 3 лидирует на VANTAGE-Bench, PAI-Bench, R-Bench, Physics-IQ и RoboLab среди открытых моделей.

Для продакшена модели доступны как NVIDIA NIM microservices. Reasoner NIM уже работает, Generator NIM появится позже. В NIM добавлены оптимизации: квантизация FP8 и NVFP4 (ускорение до 2x), интеграция с vLLM для высокой пропускной способности и техника Efficient Video Sampling (EVS), которая сокращает количество токенов видео на входе VLM.