看过的人都傻了,这可能是今年最炸的机器人demo。
刚刚,Genesis AI发布了他们的机器人基础模型GENE-26.5。机器人能自己打鸡蛋,拧试管盖,弹钢琴,玩魔方,切番茄。
全程自己动,1倍速,同一个模型。
发出来以后,前1x副总裁Eric Jang,宋舒然教授这些大佬都转发了,都说牛。
如果你觉得这团队有点陌生,下面这个动图可能让你想起来点啥。
一年多以前,他们在GitHub上开源了那个炸翻天的Genesis物理引擎。
一句话生成物理世界,28.6k Star,学术圈很多人都在用。
创始团队在2025年中拿了1.05亿美元种子轮出来单干,然后快一年没动静。
现在回来了。
今年最值得看的机器人demo
GENE-26.5这个demo大概是机器人圈今年到现在最该看的,快速过一下。
做饭
四分钟,20个小任务串起来。单手打鸡蛋,五个指头配合控制蛋壳裂开。
双手切番茄,一只手扶着,另一只手下刀。毛巾、盐、打蛋器、刀、铲子、锅全都用了一遍。
搞笑的是,打完鸡蛋它还知道拿毛巾擦擦手,挺爱干净……
实验室移液操作
从拿移液器到放进离心机,全流程毫米级精度。最难的是拧开试管盖和手里换姿势。
解魔方
两只手一起上,连续在空中翻面,实时调整。
在这之前,不用专用夹具就能解魔方的标杆还是2019年OpenAI那个单手,Genesis说他们这是通用双臂系统的第一次。
做冰沙
用语言指令驱动的一长串任务,固体、能变形的东西、液体都涉及了。
吸管翻转
测试拿特别脆、半透明的东西,最后那一下在手里翻面需要好几根手指高度同步。
一把抓好几个东西
一只手同时抓四个大小不一样的东西,用了四种抓法,展示灵巧手比传统夹爪效率高多少。
整理线束
汽车行业的“老大难”任务。两只手摆弄软线,打捆、挂起来、缠胶带,公认最难搞的工业任务之一。
弹钢琴
弹的是Rush-E,大概130BPM,专门用来压榨控制系统的极限,策略是用强化学习在仿真里单独练的。
上面这些复杂技能,GENE大多数只需要不到1小时的任务专属数据,不到200个回合。
值得一提的是,Genesis CEO周衔跟Business Insider说:
做饭大部分步骤成功率在90%到95%,但单手打蛋和用刀移切好的番茄只有50%到60%。整体速度大概是人类的六七成。
他们怎么做的全栈
Genesis博客里一句话把思路说透了:操控不光是模型训练的问题,是个系统问题。任何一层拉胯,整个系统都受影响。
所以他们决定每一层都自己搞。
硬件:一双和人手一样大的手
Demo里用的灵巧手,20个能反向驱动的自由度,尺寸和人手1:1,手掌和手指包了软材料模拟皮肤触感。
这么设计的好处是,人手的动作可以直接映射给机械手,不用搞复杂的重定向算法。
有意思的是,不少圈里人指出这双手跟国内灵巧手公司舞肌科技的产品很像。
Genesis官方博客叫它Genesis Hand 1.0,但没细说硬件是哪来的。
为什么非要做得跟人手一样大?因为机器人领域有个老问题叫“具身差距”,人手和机械手形状不一样,人类的数据就不能直接拿来用。
Genesis的解决办法很粗暴:把机械手做得跟人手一模一样,差距就没了。
控制栈也重写了。他们把机械臂原厂的控制器整个换掉,自己写中间件跑在PREEMPT_RT实时内核上,EtherCAT通信,500Hz,端到端延迟最低能压到3毫秒。
原厂控制器画个15厘米的圆,追踪误差20毫米,换上Genesis自己的控制器后降到2毫米,差了一个数量级。单关节追踪延迟从80毫秒降到9毫秒。
这层的意义在于,当训练数据来自人类动作而不是机器人自己时,控制系统的延迟和误差会在训练信号和实际执行之间制造麻烦。延迟越低,人类数据就越好用。
数据:让工人上班顺便采集
在数据采集这块,Genesis主要用一双跟灵巧手配套的数据手套。
机器人手和人手尺寸一致,手套记录的手指运动可以直接给机器人用,不需要复杂的算法转换。硬件成本是传统方案的百分之一,采集效率是遥操作的五倍。
数据总共有三层来源。
手套数据提供最精细的手部运动和触觉信号。第一人称视频记录自然行为和任务多样性。第三人称的网上视频提供海量覆盖面。
三层数据在质量和规模上按帕累托分布安排,Genesis和合作伙伴已经收集了超过20万小时的多模态数据。
Genesis总裁Gervet跟TechCrunch说了句有意思的:这手套可以让实验室技术员、工厂工人在干日常活的时候顺便把数据采了,不耽误干活。
当然TechCrunch也问了个尖锐问题:工人会愿意戴着手套和摄像头,来训练可能最终取代自己的机器人吗?
Gervet的回答是,这得看客户和员工之间怎么商量,具体细节还没定。
模型:一个统一的轨迹模型
GENE-26.5的目标是学一个能同时理解语言、视觉、本体感觉、触觉和动作的统一模型。用flow matching对动作轨迹建模,捕捉多模态未来的各种可能性。
几个关键设计。
第一,能处理不同类型、部分能观测到的数据,比如第一人称视频流、手套数据、机器人控制数据、网上视频,不用特意对齐就能一起训练。
第二,同一个模型处理所有任务,控制、状态估计、逆向动力学、目标推断都变成对这个统一模型的条件查询,缺了的信息可以通过去噪推断出来。
第三,能灵活吸收其他预训练模型的知识,比如视觉语言模型提供语义理解,世界模型提供时间和物理动态。
简单说就是一个模型吃下所有类型的数据,干所有类型的活。demo里除了弹钢琴是单独用强化学习练的,其他场景全都用同一套模型权重。
训练和评估:仿真加速
Genesis团队在博客里放了三张规模扩展曲线,透露了训练方法的关键信息。
预训练阶段,开环评估显示模型规模和计算量增加时,验证损失持续下降,符合经典的规模定律。
但他们强调,开环指标对机器人来说远远不够,关键是闭环表现,也就是模型的动作会影响后面看到的情况。
这时候他们老本行Genesis物理引擎就派上用场了。他们用最新版的Genesis World仿真器做大规模闭环评估,不需要在仿真数据上做任何额外训练,仿真环境的真实度已经足够直接评估在真实世界训练的模型。
每个数据点对应200次评估设置和超过150小时的机器人执行时间,整张图如果在现实世界跑需要2700个人-机器人小时。结论是预训练数据越多,零样本泛化能力就越强。
到微调阶段再回到真实世界。他们专门设计了预训练里完全没见过的新任务,用极少的数据测试,每个任务只用20到30分钟的数据。
demo里展示的那些复杂技能,大多数只需要不到1小时的任务专属机器人数据,换算下来不到200个回合。预训练规模越大,微调也越快、需要的数据越少、最终效果越好。
周衔告诉TechCrunch,模型迭代速度的真正瓶颈是评估,仿真帮他们大大加速了这个循环。
从物理引擎到通用机器人
2024年底,CMU博士周衔牵头开源了Genesis物理引擎。
这个纯Python仿真平台比英伟达Isaac Gym快10到80倍,在GitHub上很快成了最大的具身智能开源项目,吸引了20多个研究机构参与。
周衔本科毕业于新加坡南洋理工,是Genesis物理引擎的发起人。
2025年初,Genesis AI在法国注册成立,周衔当CEO,总裁是Théophile Gervet,同样来自CMU,之前在具身智能独角兽Skild AI做早期研究员,后来去了Mistral AI当研究科学家。
俩人是同门,导师都是Katerina Fragkiadaki。
成立几个月后,团队拿到1.05亿美元种子轮,Eclipse和Khosla Ventures领投,谷歌前CEO Eric Schmidt、法国电信大亨Xavier Niel个人跟投,法国国家投资银行Bpifrance也在名单里。
作为对比,之前具身智能领域最大的种子轮是Physical Intelligence的7000万美元。
拿到钱以后,团队没急着发产品,而是花了快一年时间埋头搭建全栈。
现在,GENE-26.5。模型、硬件、控制栈、仿真器,一次性全端出来了。团队从最开始几个人扩大到60人,巴黎、加州、伦敦三地办公,欧美大约四六开。已经收集了超过20万小时的多模态数据,正在和多个行业客户谈合作。
周衔告诉TechCrunch,接下来很快会公布第一个通用机器人,全身的,不只是手。







