具身智能现在火的不是硬件,是数据模型。一边是融资新闻里动不动就说部署了上千台机器人,另一边是研究者发现,采了两万小时数据,能用的可能就三千。行业现在有点集体焦虑。
实验室demo跑得飞起,一进工厂就歇菜。仿真里活蹦乱跳,真机上手直接躺平。
量子位、蚂蚁灵波和乐聚机器人攒了个局,把做模型的、搞数据的、跑评测的、弄本体的,快200号一线的人都拉到一个屋里,就想聊聊:具身智能到底咋从实验室走进现实世界。
讨论挺热,分歧也不小。几个核心观点先撂这儿:
关于数据采集:最难的不是定规范,是让每个数采员都明白算法团队到底想要啥。这叫认知对齐,比写质检标准难多了。
关于模型训练:为了摸清预训练这条路到底有多少坑,我们选了用2万小时的真机数据去做预训练。
关于数据评测:基准测试分数低不一定好,但一开始就人人都能拿高分,那这基准肯定有问题。要是刚发布大家都能冲到80分,这评测就废了。
关于训练效率:一个人每天跟物理世界交互10小时,干10年也就攒3万小时数据。可一个10岁小孩用这点数据就能搞定一堆复杂任务。这说明咱们现在的模型对数据的利用效率太低了。
下面是沙龙里几位嘉宾聊的具体内容,整理了一下。
乐聚的工程师说,现在制约机器人落地的,主要不是硬件或控制算法了,是缺个“具身大脑”。但具身数据不好搞:真机采集成本高、效率低;数据格式复杂,跨机器人复用难;采集、处理、训练各干各的,没个统一标准。想复现大语言模型那种靠数据规模取胜的路子,现在的数据量还远远没到那个门槛。
蚂蚁灵波的郑可成介绍了他们的LingBot-VLA模型。现在的主流范式是给特定机器、特定任务采集数据再训练,本质是轨迹拟合,泛化能力不行。他们想学大模型,先做预训练学通用知识。他们用了2万小时真机数据,覆盖9种机器人构型。架构上用了Pi系列的MoT,还加了个深度模型LingBot-Depth来处理透明、反光物体的难题。他也承认,现在数据总量还是不够,还没法完全证明Scaling Law在具身领域成立。
上海交大的李永露讲了他们搞的GM-100评测基准。他说机器人评测难统一,但必须做,得把评测变成科学问题。现在数据标注有个根本缺陷:语言描述分不清物理过程。比如“折断筷子”和“折断金属棒”,物理过程完全不同,但语言上是一个词。他们的基准特意放了些“看起来简单,做起来难”的任务,比如串糖葫芦、弹球入框。结果主流模型得分都很低,他觉得这挺好,说明基准有挑战性。他还提了个扎心的数据:从约12万小时的人类行为数据里筛,能用来做VLA预训练的不到5000小时;另一份公开的11万小时工厂视频,乐观估计只有3%能用。
圆桌讨论的时候,几位大佬聊得更直接。
北京人形的车正平觉得,大规模数据采集最头疼的是认知对齐。怎么让一线数采人员理解算法团队的抽象需求,比如多相机视角和真人视角的差异,不提前约束好,采回来的数据就没法用。
蚂蚁灵波的黄用韬(以前搞自动驾驶的)说了三种“不对齐”:学的东西和数据不对齐(遥操作的动作质量不行);任务和数据不对齐(采的是抓拿放,用户要切菜洗碗);机器人和机器人之间不对齐(零位误差、传感器标定都不一样)。
智源研究院的姚国才觉得,现在行业“太着急”。都想要百万小时的数据,但连“到底要采什么数据、目标是啥”都没想清楚。数据质量比数量重要得多。他算了笔账:一个小孩用3万小时数据就能学会那么多,说明现在模型的数据利用率太低。好数据应该能自然捕捉人的真实行为模式,而不是让人为了采集而摆拍。
库帕思的曹宇说,数据要分情况用。核心工艺用自研或定制的真机数据;通用技能启动时,可以合作共享数据;长尾和边缘场景,用仿真数据补。未来行业应该分工协作,场景方开放场景,数据方搞标准化链路,模型方基于统一基准迭代。
关于仿真,车正平提了个VIP标准:视觉(Visual)、交互(Interactive)、物理(Physical)。现在视觉仿真还行,物理和交互是短板,尤其是物体被操作后的状态变化和力学反馈,仿真很难还原。他觉得仿真数据永远不能完全替代真机,但能减少对真机的依赖。未来3-5年,数据采集会越来越“无感”,就像自动驾驶车自己传数据一样,机器人自己产生的数据会成为主流。
黄用韬也强调仿真和真机数据之间有物理gap,尤其在机器手和物体的接触交互上,这直接影响模型学习。所以蚂蚁灵波坚持用真机数据做预训练核心,就是想摸清VLA范式的天花板在哪。现在真机部署才几千台,和工业机器人总量(几百万台)差得远。等部署规模上来了,数据飞轮才能真正转起来。







