200个搞具身的挤一屋,聊了些大实话

具身智能现在火的不是硬件,是数据模型。一边是融资新闻里动不动就说部署了上千台机器人,另一边是研究者发现,采了两万小时数据,能用的可能就三千。行业现在有点集体焦虑。

实验室demo跑得飞起,一进工厂就歇菜。仿真里活蹦乱跳,真机上手直接躺平。

量子位、蚂蚁灵波和乐聚机器人攒了个局,把做模型的、搞数据的、跑评测的、弄本体的,快200号一线的人都拉到一个屋里,就想聊聊:具身智能到底咋从实验室走进现实世界。

讨论挺热,分歧也不小。几个核心观点先撂这儿:

关于数据采集:最难的不是定规范,是让每个数采员都明白算法团队到底想要啥。这叫认知对齐,比写质检标准难多了。

关于模型训练:为了摸清预训练这条路到底有多少坑,我们选了用2万小时的真机数据去做预训练。

关于数据评测:基准测试分数低不一定好,但一开始就人人都能拿高分,那这基准肯定有问题。要是刚发布大家都能冲到80分,这评测就废了。

关于训练效率:一个人每天跟物理世界交互10小时,干10年也就攒3万小时数据。可一个10岁小孩用这点数据就能搞定一堆复杂任务。这说明咱们现在的模型对数据的利用效率太低了。

下面是沙龙里几位嘉宾聊的具体内容,整理了一下。

乐聚的工程师说,现在制约机器人落地的,主要不是硬件或控制算法了,是缺个“具身大脑”。但具身数据不好搞:真机采集成本高、效率低;数据格式复杂,跨机器人复用难;采集、处理、训练各干各的,没个统一标准。想复现大语言模型那种靠数据规模取胜的路子,现在的数据量还远远没到那个门槛

蚂蚁灵波的郑可成介绍了他们的LingBot-VLA模型。现在的主流范式是给特定机器、特定任务采集数据再训练,本质是轨迹拟合,泛化能力不行。他们想学大模型,先做预训练学通用知识。他们用了2万小时真机数据,覆盖9种机器人构型。架构上用了Pi系列的MoT,还加了个深度模型LingBot-Depth来处理透明、反光物体的难题。他也承认,现在数据总量还是不够,还没法完全证明Scaling Law在具身领域成立。

上海交大的李永露讲了他们搞的GM-100评测基准。他说机器人评测难统一,但必须做,得把评测变成科学问题。现在数据标注有个根本缺陷:语言描述分不清物理过程。比如“折断筷子”和“折断金属棒”,物理过程完全不同,但语言上是一个词。他们的基准特意放了些“看起来简单,做起来难”的任务,比如串糖葫芦、弹球入框。结果主流模型得分都很低,他觉得这挺好,说明基准有挑战性。他还提了个扎心的数据:从约12万小时的人类行为数据里筛,能用来做VLA预训练的不到5000小时;另一份公开的11万小时工厂视频,乐观估计只有3%能用。

圆桌讨论的时候,几位大佬聊得更直接。

北京人形的车正平觉得,大规模数据采集最头疼的是认知对齐。怎么让一线数采人员理解算法团队的抽象需求,比如多相机视角和真人视角的差异,不提前约束好,采回来的数据就没法用。

蚂蚁灵波的黄用韬(以前搞自动驾驶的)说了三种“不对齐”:学的东西和数据不对齐(遥操作的动作质量不行);任务和数据不对齐(采的是抓拿放,用户要切菜洗碗);机器人和机器人之间不对齐(零位误差、传感器标定都不一样)。

智源研究院的姚国才觉得,现在行业“太着急”。都想要百万小时的数据,但连“到底要采什么数据、目标是啥”都没想清楚。数据质量比数量重要得多。他算了笔账:一个小孩用3万小时数据就能学会那么多,说明现在模型的数据利用率太低。好数据应该能自然捕捉人的真实行为模式,而不是让人为了采集而摆拍。

库帕思的曹宇说,数据要分情况用。核心工艺用自研或定制的真机数据;通用技能启动时,可以合作共享数据;长尾和边缘场景,用仿真数据补。未来行业应该分工协作,场景方开放场景,数据方搞标准化链路,模型方基于统一基准迭代。

关于仿真,车正平提了个VIP标准:视觉(Visual)、交互(Interactive)、物理(Physical)。现在视觉仿真还行,物理和交互是短板,尤其是物体被操作后的状态变化和力学反馈,仿真很难还原。他觉得仿真数据永远不能完全替代真机,但能减少对真机的依赖。未来3-5年,数据采集会越来越“无感”,就像自动驾驶车自己传数据一样,机器人自己产生的数据会成为主流。

黄用韬也强调仿真和真机数据之间有物理gap,尤其在机器手和物体的接触交互上,这直接影响模型学习。所以蚂蚁灵波坚持用真机数据做预训练核心,就是想摸清VLA范式的天花板在哪。现在真机部署才几千台,和工业机器人总量(几百万台)差得远。等部署规模上来了,数据飞轮才能真正转起来。


































这帖子干货挺多啊,我自己也在公司做数据清洗,对“认知对齐”这点感触太深了。我们算法说想要“人随手把杯子放到桌子边缘但没掉下去”的那种数据,结果数采团队给我们拍的全是把杯子稳稳当当放在桌子正中央的,还问够不够“安全”。沟通成本高到爆炸,最后逼得我们算法自己下场去演示到底什么叫“随手放”。

mark一下,回去慢慢看。

所以那个VIP仿真标准具体指什么啊?视觉、交互、物理各自有什么量化指标吗?光说短板是物理和交互,太笼统了。

没用过别碰。

小白问一下,VLA模型和之前的轨迹拟合具体有啥区别呀?是不是前者更像让机器人自己理解任务,而不是单纯模仿动作轨迹?我不太确定理解得对不对。

又来这种帖子了,聊来聊去不就是数据不够、仿真不行、落地难嘛,车轱辘话来回说。具身智能,听名字就够玄乎的。

楼上说的沟通问题我也有同感。我们之前做抓取,想让数据包含物体被轻微碰倒又扶正的场景,结果采回来的全是完美的“抓起-移动-放下”,一点意外状况都没有。后来发现是KPI定的问题,数采员按成功次数算绩效,那谁还给你采“意外”?所以现在我们把“包含典型失败及恢复过程”也纳入采集要求,并给了具体例子,才好一点。数据采集的规范设计真的得深入到业务逻辑里。

同问,坐等大佬解答。

认知对齐这个真踩坑,算法和数采永远说不到一块去

分享下我们实验室的踩坑经历吧。我们试图用公开的人类视频数据(比如Egocentric)做预训练,想法很美好,但坑巨大。最大的问题是视角和行动能力不匹配。视频是第一人称视角,但我们的机器人是第三人称固定摄像头;视频里人手可以做非常精细的捏、捻动作,我们机器手自由度不够。直接训出来的模型指令理解还行,但动作规划一塌糊涂,根本对不上。最后不得不花了大力气做数据映射和仿真补全,效果还一般。所以蚂蚁他们坚持用真机数据训,虽然慢和贵,但可能是目前最踏实的路子。那个12万小时筛出不到5000小时的数据,太真实了。

具身智能现在卷的是数据采集,技术反倒次要了

具身智能数据这事儿,缺的不是量是质量

KPI驱动的数据采集就这毛病,要加权重

数据可用率15%这数据真实,行业焦虑是结构性的

VLA物理短板是轻微碰撞那种边界场景,仿真补不上

具身这赛道融资比落地热闹太多了

VIP那个标准我也好奇,有论文链接吗

数据不够仿真不行落地难,老三件了