一年憋个大招,今年最炸机器人Demo来了!

看过的人都傻了,这可能是今年最炸的机器人demo。

刚刚,Genesis AI发布了他们的机器人基础模型GENE-26.5。机器人能自己打鸡蛋,拧试管盖,弹钢琴,玩魔方,切番茄。

全程自己动,1倍速,同一个模型。

发出来以后,前1x副总裁Eric Jang宋舒然教授这些大佬都转发了,都说牛。

如果你觉得这团队有点陌生,下面这个动图可能让你想起来点啥。

一年多以前,他们在GitHub上开源了那个炸翻天的Genesis物理引擎。

一句话生成物理世界,28.6k Star,学术圈很多人都在用。

创始团队在2025年中拿了1.05亿美元种子轮出来单干,然后快一年没动静。

现在回来了。

今年最值得看的机器人demo

GENE-26.5这个demo大概是机器人圈今年到现在最该看的,快速过一下。

做饭
四分钟,20个小任务串起来。单手打鸡蛋,五个指头配合控制蛋壳裂开。

双手切番茄,一只手扶着,另一只手下刀。毛巾、盐、打蛋器、刀、铲子、锅全都用了一遍。

搞笑的是,打完鸡蛋它还知道拿毛巾擦擦手,挺爱干净……

实验室移液操作
从拿移液器到放进离心机,全流程毫米级精度。最难的是拧开试管盖和手里换姿势。

解魔方
两只手一起上,连续在空中翻面,实时调整。

在这之前,不用专用夹具就能解魔方的标杆还是2019年OpenAI那个单手,Genesis说他们这是通用双臂系统的第一次。

做冰沙
用语言指令驱动的一长串任务,固体、能变形的东西、液体都涉及了。

吸管翻转
测试拿特别脆、半透明的东西,最后那一下在手里翻面需要好几根手指高度同步。

一把抓好几个东西
一只手同时抓四个大小不一样的东西,用了四种抓法,展示灵巧手比传统夹爪效率高多少。

整理线束
汽车行业的“老大难”任务。两只手摆弄软线,打捆、挂起来、缠胶带,公认最难搞的工业任务之一。

弹钢琴
弹的是Rush-E,大概130BPM,专门用来压榨控制系统的极限,策略是用强化学习在仿真里单独练的。

上面这些复杂技能,GENE大多数只需要不到1小时的任务专属数据,不到200个回合。

值得一提的是,Genesis CEO周衔跟Business Insider说:

做饭大部分步骤成功率在90%到95%,但单手打蛋和用刀移切好的番茄只有50%到60%。整体速度大概是人类的六七成。

他们怎么做的全栈

Genesis博客里一句话把思路说透了:操控不光是模型训练的问题,是个系统问题。任何一层拉胯,整个系统都受影响。

所以他们决定每一层都自己搞。

硬件:一双和人手一样大的手

Demo里用的灵巧手,20个能反向驱动的自由度,尺寸和人手1:1,手掌和手指包了软材料模拟皮肤触感。

这么设计的好处是,人手的动作可以直接映射给机械手,不用搞复杂的重定向算法。

有意思的是,不少圈里人指出这双手跟国内灵巧手公司舞肌科技的产品很像。

Genesis官方博客叫它Genesis Hand 1.0,但没细说硬件是哪来的。

为什么非要做得跟人手一样大?因为机器人领域有个老问题叫“具身差距”,人手和机械手形状不一样,人类的数据就不能直接拿来用。

Genesis的解决办法很粗暴:把机械手做得跟人手一模一样,差距就没了。

控制栈也重写了。他们把机械臂原厂的控制器整个换掉,自己写中间件跑在PREEMPT_RT实时内核上,EtherCAT通信,500Hz,端到端延迟最低能压到3毫秒。

原厂控制器画个15厘米的圆,追踪误差20毫米,换上Genesis自己的控制器后降到2毫米,差了一个数量级。单关节追踪延迟从80毫秒降到9毫秒。

这层的意义在于,当训练数据来自人类动作而不是机器人自己时,控制系统的延迟和误差会在训练信号和实际执行之间制造麻烦。延迟越低,人类数据就越好用。

数据:让工人上班顺便采集

在数据采集这块,Genesis主要用一双跟灵巧手配套的数据手套。

机器人手和人手尺寸一致,手套记录的手指运动可以直接给机器人用,不需要复杂的算法转换。硬件成本是传统方案的百分之一,采集效率是遥操作的五倍。

数据总共有三层来源。

手套数据提供最精细的手部运动和触觉信号。第一人称视频记录自然行为和任务多样性。第三人称的网上视频提供海量覆盖面。

三层数据在质量和规模上按帕累托分布安排,Genesis和合作伙伴已经收集了超过20万小时的多模态数据。

Genesis总裁Gervet跟TechCrunch说了句有意思的:这手套可以让实验室技术员、工厂工人在干日常活的时候顺便把数据采了,不耽误干活。

当然TechCrunch也问了个尖锐问题:工人会愿意戴着手套和摄像头,来训练可能最终取代自己的机器人吗?

Gervet的回答是,这得看客户和员工之间怎么商量,具体细节还没定。

模型:一个统一的轨迹模型

GENE-26.5的目标是学一个能同时理解语言、视觉、本体感觉、触觉和动作的统一模型。用flow matching对动作轨迹建模,捕捉多模态未来的各种可能性。

几个关键设计。

第一,能处理不同类型、部分能观测到的数据,比如第一人称视频流、手套数据、机器人控制数据、网上视频,不用特意对齐就能一起训练。

第二,同一个模型处理所有任务,控制、状态估计、逆向动力学、目标推断都变成对这个统一模型的条件查询,缺了的信息可以通过去噪推断出来。

第三,能灵活吸收其他预训练模型的知识,比如视觉语言模型提供语义理解,世界模型提供时间和物理动态。

简单说就是一个模型吃下所有类型的数据,干所有类型的活。demo里除了弹钢琴是单独用强化学习练的,其他场景全都用同一套模型权重。

训练和评估:仿真加速

Genesis团队在博客里放了三张规模扩展曲线,透露了训练方法的关键信息。

预训练阶段,开环评估显示模型规模和计算量增加时,验证损失持续下降,符合经典的规模定律。

但他们强调,开环指标对机器人来说远远不够,关键是闭环表现,也就是模型的动作会影响后面看到的情况。

这时候他们老本行Genesis物理引擎就派上用场了。他们用最新版的Genesis World仿真器做大规模闭环评估,不需要在仿真数据上做任何额外训练,仿真环境的真实度已经足够直接评估在真实世界训练的模型。

每个数据点对应200次评估设置和超过150小时的机器人执行时间,整张图如果在现实世界跑需要2700个人-机器人小时。结论是预训练数据越多,零样本泛化能力就越强。

到微调阶段再回到真实世界。他们专门设计了预训练里完全没见过的新任务,用极少的数据测试,每个任务只用20到30分钟的数据。

demo里展示的那些复杂技能,大多数只需要不到1小时的任务专属机器人数据,换算下来不到200个回合。预训练规模越大,微调也越快、需要的数据越少、最终效果越好。

周衔告诉TechCrunch,模型迭代速度的真正瓶颈是评估,仿真帮他们大大加速了这个循环。

从物理引擎到通用机器人

2024年底,CMU博士周衔牵头开源了Genesis物理引擎。

这个纯Python仿真平台比英伟达Isaac Gym快10到80倍,在GitHub上很快成了最大的具身智能开源项目,吸引了20多个研究机构参与。

周衔本科毕业于新加坡南洋理工,是Genesis物理引擎的发起人。

2025年初,Genesis AI在法国注册成立,周衔当CEO,总裁是Théophile Gervet,同样来自CMU,之前在具身智能独角兽Skild AI做早期研究员,后来去了Mistral AI当研究科学家。

俩人是同门,导师都是Katerina Fragkiadaki。

成立几个月后,团队拿到1.05亿美元种子轮,Eclipse和Khosla Ventures领投,谷歌前CEO Eric Schmidt、法国电信大亨Xavier Niel个人跟投,法国国家投资银行Bpifrance也在名单里。

作为对比,之前具身智能领域最大的种子轮是Physical Intelligence的7000万美元。

拿到钱以后,团队没急着发产品,而是花了快一年时间埋头搭建全栈。

现在,GENE-26.5。模型、硬件、控制栈、仿真器,一次性全端出来了。团队从最开始几个人扩大到60人,巴黎、加州、伦敦三地办公,欧美大约四六开。已经收集了超过20万小时的多模态数据,正在和多个行业客户谈合作。

周衔告诉TechCrunch,接下来很快会公布第一个通用机器人,全身的,不只是手。















是不是真的像人手那么灵巧啊?小白问一下,看视频里打鸡蛋好像有停顿,实际成功率真有那么高吗?

这东西就那样,看个热闹得了,真落地还早。

他们这灵巧手具体是哪家供应商做的啊?帖子里说很像舞肌科技,但官方没确认。还有那个反向驱动自由度的响应速度数据有没有公布?感觉这才是决定能不能商业化的关键,光看demo花里胡哨的没用。另外训练用的仿真环境是开源的Genesis引擎吗?如果是的话,他们怎么解决sim2real问题的,博客里没细说。

舞肌科技这个名字最近曝光率有点高但官方真没确认过

演示视频肯定挑成功的剪,真实成功率得看公开评测

机器人demo一年比一年好看,落地遥遥无期

炸不炸看benchmark,demo视频水分一向大

机器人demo做得好不好我不关心,关心成本能不能压下来给到平民价