用NVIDIA Cosmos 3搞物理AI推理和世界/行动模型

物理AI系统得先搞懂现实世界,才能在里头动起来。机器人、自动驾驶车、智能空间这些,都需要明白周围在发生什么,预测下一步可能咋样,然后针对具体环境、身体形态和任务生成行动。

NVIDIA Cosmos 3是个挺前沿的物理AI基础模型,它把物理推理、世界生成和行动生成这些能力,都塞进一个开放的模型里了。

NVIDIA这次把Cosmos 3模型、训练脚本、部署工具还有数据集都开源了,想让物理AI开发更开放、更好复现。这篇帖子就说点Cosmos 3的基础,重点提一下技术报告里的关键概念,给技术流程指个路,也说说搞机器人操作系统、自动驾驶汽车和仓库监控方案的团队该怎么上手。

图片 1:Cosmos 3 为自动驾驶领域生成的视频片段。视频以车辆在十字路口的视角呈现。另一辆车在该车辆前方穿过十字路口,然后该车辆左转。视频看起来真实,显示了周围的房屋、树木和汽车。

图 1. Cosmos 3 为自动驾驶领域生成的视频片段

图片 2:视频显示一条走廊,两侧是装满箱子的货架,地上有一堆箱子。三个人站在那堆箱子旁边。地板上其中一个箱子发生小爆炸并开始冒烟。

图 2. 使用 Cosmos 3 为仓库安全数据生成的视频。

这次发布的主要东西有:

  • NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 的模型检查点,在Hugging Face上能下,代码在GitHub。
  • 给机器人、自动驾驶这些物理AI应用用的开放数据集。
  • 用来把Cosmos 3适配到你那个领域的开放后训练脚本。
  • Cosmos NIM微服务,方便在NVIDIA GPU上做优化部署。

Cosmos 3有啥新东西

以前的Cosmos版本,世界生成、物理理解、可控场景生成这些是拆到不同模型和流程里的。这次发布用一个混合变换器架构,把能力统一了。这架构主要靠两个塔:

  • 推理塔:一个视觉语言模型,负责理解图像、视频、文字这些多模态输入。用它来解读运动、物体交互还有其他物理上下文。算是生成开始前,理解世界的“大脑”。
  • 生成塔:负责生成未来的观察序列和行动序列。它用基于扩散的过程,生成有物理感知的视频和行动输出,这些输出都受推理塔的理解结果影响。推理塔可以单独用,但生成的时候,两个塔总是一起干活来引导生成。

图 3. Cosmos 3 架构

这么搞,一个模型就能干推理和生成,不用再费劲协调多个模型和推理管道了。

选哪个型号合适

现在有两个Cosmos 3模型:

  • Cosmos 3 Nano:紧凑版,160亿参数,为高效推理优化过。设计用在像NVIDIA RTX PRO 6000 GPU这种工作站级设备上,适合实时机器人推理和物理AI应用。
  • Cosmos 3 Super:640亿参数,追求最高质量和能力。基准测试分数最高,目标是在NVIDIA Hopper和NVIDIA Blackwell GPU上做数据中心部署,适合大规模合成数据生成和高级物理推理这种重活。

支持哪些输入输出

Cosmos 3通过统一架构支持下面这些输入输出模态:

输入输出应用
文本 图像 物理上合理的图像生成
文本 | 视频 视频 用于罕见边缘情况视频数据生成的世界模型
文本 | 图像 视频 用于预测的世界模型
文本 | 图像 | 视频 文本 用于推理的 VLM
行动 | 视频 | 文本 视频 以行动为条件的世界模型
视频 | 文本 视频 | 行动 世界行动模型、视频行动模型、视觉语言行动模型、用于机器人学习的策略模型

表 1. Cosmos 3 为不同应用支持的输入和输出模态

给物理AI用的开放数据集

随着Cosmos 3发布,NVIDIA在Hugging Face上开源了六个合成数据生成数据集。这些数据集覆盖机器人、物理模拟、空间推理、人体运动、驾驶和仓库环境,可以用来给Cosmos 3或其他模型做后训练:

物理AI世界模型合成数据集包括:

  • 具身机器人场景
  • 物理交互场景
  • 空间推理
  • 数字人场景
  • 自动驾驶场景
  • 仓库操作场景

图片 4:具身机器人场景数据集中的视频集合。视频显示了不同的人形机器人在不同环境中执行操作任务。

图 4. 来自具身机器人场景数据集的操作示例

图片 5:物理交互场景数据集中的视频集合。视频显示了模拟场景,如破坏球撞击物体、玩具塔倒塌和骨牌倒下。对于每个场景,数据集都有相应的真实物理标注,如每个物体的速度、质心位移和每帧语义分割。

图 5. 来自物理交互场景数据集的示例

图 6. 来自空间推理数据集的示例

图片 7:数字人场景数据集中的视频集合。视频显示了一些模拟的室内和室外环境,数字人站立和移动。这些视频提供了多样化的人类外观、运动、场景上下文、照明和相机运动。

图 7. 来自数字人场景数据集的示例

图片 8:自动驾驶场景数据集中的视频集合。视频以自动驾驶汽车的第一人称视角呈现,显示车辆在不同场景下的道路上行驶。视频展示了多样化的天气和照明条件以及驾驶行为,如变道和行人交互。

图 8. 来自自动驾驶场景数据集的示例

图片 9:仓库操作场景数据集中的视频集合。视频从不同相机角度显示了模拟的仓库场景。一些视频显示叉车移动并与人员或物体碰撞。在另一个视频中,一个人将纸箱掉在地上。

图 9. 来自仓库操作场景数据集的示例

NVIDIA Cosmos人工评估基准

NVIDIA Cosmos人工评估框架是用来评估Cosmos 3生成器在代表性领域任务上的质量的。

现在那些顶级视频生成模型把自动化排行榜都快刷满了,不同版本之间分数差得又小,比不出啥名堂。HUE框架把评估从主观打分转向客观事实验证,这样顶级模型之间也能做细粒度比较。结果就是一个更可靠的质量信号,既能快速迭代,也能用来做严格的发布决策。

HUE用原子二元验证来评估视频生成质量。每个生成的视频会被拆成跨越四个维度(语义对齐、物理定律、几何推理和视觉完整性)的单事实是/否问题,覆盖机器人、自动驾驶汽车和物理学等七个物理AI领域。这些问题由一个VLM流程生成,经过人类专家完善,也在Hugging Face上开源了。

基准测试结果

Cosmos 3已经在好几个基准测试套件里评估过了,覆盖物理AI推理、生成质量和特定领域性能。

推理基准

Cosmos 3 Super和Cosmos 3 Nano分别在320亿参数和80亿参数层级上,在VANTAGE-Bench里领先:

  • VANTAGE-Bench:第一个评估视觉语言模型在仓库、交通这些真实世界固定摄像头录像上表现的公共基准。

mark一下,回头有空研究研究

是不是得用特定系列的显卡才能跑Super?我不太确定,感觉参数这么大对显存要求会很高吧,有没有试过的兄弟分享一下实际部署要多少G显存?

好东西!上个月正好在搞一个仓库环境模拟的项目,自己标注视频数据简直要人命。要是能用这个模型批量生成一些异常场景(比如火灾、摔倒)的合成数据,能省不少功夫。打算先用Nano在本地工作站上试试水。

这东西就那样,噱头大于实际。

所以那个推理塔输出的中间表示具体是啥格式?是潜变量还是某种特征向量?如果是特征向量,维度和其他的视觉模型(比如CLIP)能对齐吗?这点技术报告里好像没细说。

对于想上手的朋友,简单说下步骤:先去Hugging Face下模型权重和对应的数据集,GitHub拉代码。根据你选的Nano或Super版本,准备对应的GPU环境。用他提供的部署脚本先跑通示例,然后再看后训练脚本,根据需要微调。

最近天气热了,办公室空调不行,跑大模型显卡直接上80度,有点担心散热顶不住。你们跑这种大参数模型有啥降温妙招不?跟这个帖子关系不大,就是突然想到。

小白弱弱问一句,这个和之前说的Sora那种视频生成模型主要区别在哪?是不是就因为多了个专门的推理塔,所以对物理规律模拟得更准一些?用它生成的视频能直接当仿真环境训练机器人吗,还是说需要后期处理?

Super版参数大显存吃得狠,想跑得舒服没张大显存卡够呛

这种大模型显存要求不低,24G估计都只是起步

用它生成火灾摔倒这种异常数据是真香 实拍太难采