用NVIDIA Cosmos 3搞物理AI推理和世界/行动模型

testweihub · 2026 年6 月 2 日 07:11

物理AI系统得先搞懂现实世界，才能在里头动起来。机器人、自动驾驶车、智能空间这些，都需要明白周围在发生什么，预测下一步可能咋样，然后针对具体环境、身体形态和任务生成行动。

NVIDIA Cosmos 3是个挺前沿的物理AI基础模型，它把物理推理、世界生成和行动生成这些能力，都塞进一个开放的模型里了。

NVIDIA这次把Cosmos 3模型、训练脚本、部署工具还有数据集都开源了，想让物理AI开发更开放、更好复现。这篇帖子就说点Cosmos 3的基础，重点提一下技术报告里的关键概念，给技术流程指个路，也说说搞机器人操作系统、自动驾驶汽车和仓库监控方案的团队该怎么上手。

图片 1：Cosmos 3 为自动驾驶领域生成的视频片段。视频以车辆在十字路口的视角呈现。另一辆车在该车辆前方穿过十字路口，然后该车辆左转。视频看起来真实，显示了周围的房屋、树木和汽车。

图 1. Cosmos 3 为自动驾驶领域生成的视频片段

图片 2：视频显示一条走廊，两侧是装满箱子的货架，地上有一堆箱子。三个人站在那堆箱子旁边。地板上其中一个箱子发生小爆炸并开始冒烟。

图 2. 使用 Cosmos 3 为仓库安全数据生成的视频。

这次发布的主要东西有：

NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 的模型检查点，在Hugging Face上能下，代码在GitHub。
给机器人、自动驾驶这些物理AI应用用的开放数据集。
用来把Cosmos 3适配到你那个领域的开放后训练脚本。
Cosmos NIM微服务，方便在NVIDIA GPU上做优化部署。

Cosmos 3有啥新东西

以前的Cosmos版本，世界生成、物理理解、可控场景生成这些是拆到不同模型和流程里的。这次发布用一个混合变换器架构，把能力统一了。这架构主要靠两个塔：

推理塔：一个视觉语言模型，负责理解图像、视频、文字这些多模态输入。用它来解读运动、物体交互还有其他物理上下文。算是生成开始前，理解世界的“大脑”。
生成塔：负责生成未来的观察序列和行动序列。它用基于扩散的过程，生成有物理感知的视频和行动输出，这些输出都受推理塔的理解结果影响。推理塔可以单独用，但生成的时候，两个塔总是一起干活来引导生成。

图 3. Cosmos 3 架构

这么搞，一个模型就能干推理和生成，不用再费劲协调多个模型和推理管道了。

选哪个型号合适

现在有两个Cosmos 3模型：

Cosmos 3 Nano：紧凑版，160亿参数，为高效推理优化过。设计用在像NVIDIA RTX PRO 6000 GPU这种工作站级设备上，适合实时机器人推理和物理AI应用。
Cosmos 3 Super：640亿参数，追求最高质量和能力。基准测试分数最高，目标是在NVIDIA Hopper和NVIDIA Blackwell GPU上做数据中心部署，适合大规模合成数据生成和高级物理推理这种重活。

支持哪些输入输出

Cosmos 3通过统一架构支持下面这些输入输出模态：

表 1. Cosmos 3 为不同应用支持的输入和输出模态

给物理AI用的开放数据集

随着Cosmos 3发布，NVIDIA在Hugging Face上开源了六个合成数据生成数据集。这些数据集覆盖机器人、物理模拟、空间推理、人体运动、驾驶和仓库环境，可以用来给Cosmos 3或其他模型做后训练：

物理AI世界模型合成数据集包括：

具身机器人场景
物理交互场景
空间推理
数字人场景
自动驾驶场景
仓库操作场景

图片 4：具身机器人场景数据集中的视频集合。视频显示了不同的人形机器人在不同环境中执行操作任务。

图 4. 来自具身机器人场景数据集的操作示例

图片 5：物理交互场景数据集中的视频集合。视频显示了模拟场景，如破坏球撞击物体、玩具塔倒塌和骨牌倒下。对于每个场景，数据集都有相应的真实物理标注，如每个物体的速度、质心位移和每帧语义分割。

图 5. 来自物理交互场景数据集的示例

图 6. 来自空间推理数据集的示例

图片 7：数字人场景数据集中的视频集合。视频显示了一些模拟的室内和室外环境，数字人站立和移动。这些视频提供了多样化的人类外观、运动、场景上下文、照明和相机运动。

图 7. 来自数字人场景数据集的示例

图片 8：自动驾驶场景数据集中的视频集合。视频以自动驾驶汽车的第一人称视角呈现，显示车辆在不同场景下的道路上行驶。视频展示了多样化的天气和照明条件以及驾驶行为，如变道和行人交互。

图 8. 来自自动驾驶场景数据集的示例

图片 9：仓库操作场景数据集中的视频集合。视频从不同相机角度显示了模拟的仓库场景。一些视频显示叉车移动并与人员或物体碰撞。在另一个视频中，一个人将纸箱掉在地上。

图 9. 来自仓库操作场景数据集的示例

NVIDIA Cosmos人工评估基准

NVIDIA Cosmos人工评估框架是用来评估Cosmos 3生成器在代表性领域任务上的质量的。

现在那些顶级视频生成模型把自动化排行榜都快刷满了，不同版本之间分数差得又小，比不出啥名堂。HUE框架把评估从主观打分转向客观事实验证，这样顶级模型之间也能做细粒度比较。结果就是一个更可靠的质量信号，既能快速迭代，也能用来做严格的发布决策。

HUE用原子二元验证来评估视频生成质量。每个生成的视频会被拆成跨越四个维度（语义对齐、物理定律、几何推理和视觉完整性）的单事实是/否问题，覆盖机器人、自动驾驶汽车和物理学等七个物理AI领域。这些问题由一个VLM流程生成，经过人类专家完善，也在Hugging Face上开源了。

基准测试结果

Cosmos 3已经在好几个基准测试套件里评估过了，覆盖物理AI推理、生成质量和特定领域性能。

推理基准

Cosmos 3 Super和Cosmos 3 Nano分别在320亿参数和80亿参数层级上，在VANTAGE-Bench里领先：

VANTAGE-Bench：第一个评估视觉语言模型在仓库、交通这些真实世界固定摄像头录像上表现的公共基准。

solana_boi · 2026 年6 月 2 日 07:24

mark一下，回头有空研究研究

dbpengone · 2026 年6 月 2 日 07:30

是不是得用特定系列的显卡才能跑Super？我不太确定，感觉参数这么大对显存要求会很高吧，有没有试过的兄弟分享一下实际部署要多少G显存？

syschenglab · 2026 年6 月 2 日 08:30

好东西！上个月正好在搞一个仓库环境模拟的项目，自己标注视频数据简直要人命。要是能用这个模型批量生成一些异常场景（比如火灾、摔倒）的合成数据，能省不少功夫。打算先用Nano在本地工作站上试试水。

bare_metal_brad · 2026 年6 月 2 日 09:06

这东西就那样，噱头大于实际。

wrldz · 2026 年6 月 2 日 10:04

所以那个推理塔输出的中间表示具体是啥格式？是潜变量还是某种特征向量？如果是特征向量，维度和其他的视觉模型（比如CLIP）能对齐吗？这点技术报告里好像没细说。

fedora_frank · 2026 年6 月 2 日 12:20

对于想上手的朋友，简单说下步骤：先去Hugging Face下模型权重和对应的数据集，GitHub拉代码。根据你选的Nano或Super版本，准备对应的GPU环境。用他提供的部署脚本先跑通示例，然后再看后训练脚本，根据需要微调。

qa_xie_one · 2026 年6 月 2 日 13:42

最近天气热了，办公室空调不行，跑大模型显卡直接上80度，有点担心散热顶不住。你们跑这种大参数模型有啥降温妙招不？跟这个帖子关系不大，就是突然想到。

finetune_friday · 2026 年6 月 2 日 15:10

小白弱弱问一句，这个和之前说的Sora那种视频生成模型主要区别在哪？是不是就因为多了个专门的推理塔，所以对物理规律模拟得更准一些？用它生成的视频能直接当仿真环境训练机器人吗，还是说需要后期处理？

xiancunpa · 2026 年6 月 3 日 13:50

Super版参数大显存吃得狠，想跑得舒服没张大显存卡够呛

greenleaf9 · 2026 年6 月 6 日 10:32

这种大模型显存要求不低，24G估计都只是起步

hugfan · 2026 年6 月 7 日 00:20

用它生成火灾摔倒这种异常数据是真香实拍太难采