蚂蚁的AI助手“灵光”App最近上线了个新功能,叫“体验世界模型”。你传张图,它就能在手机上给你生成一个60秒的3D世界,你能用第一人称视角进去溜达,跟玩游戏似的。不用自己部署,也不用折腾配置,打开App就能玩。这应该是头一次有世界模型做成移动端产品给普通人用。
背后是蚂蚁灵波开源的世界模型LingBot-World-Fast。这玩意儿在480P分辨率下能跑到16帧/秒,端到端的延迟不到1秒,画面连贯性、动态场景啥的表现都还行。
普通用户用App玩就行,开发者也可以去用开源的模型自己部署和二次开发。本地部署后,可以一直生成,用键盘鼠标控制视角移动,还能用文字提示随时改天气、换画面风格之类的。
为了做到实时交互,他们搞了个专门的优化方案。生成的时候只算新画面,已经稳定的部分就不重复算了,这样速度上来了,画面质量和一致性也尽量保持住。
这种实时世界模型,你每一次操作都能立刻看到结果,不用等离线渲染完。对搞具身智能的人来说,可以用它来给机器人做虚拟训练。对游戏开发和内容创作来说,做交互式内容原型可能门槛能低点。
今年1月他们开源过LingBot-World-Base版本,画质好、能生10分钟长视频,当时挺多人关注的。
现在LingBot-World-Fast的模型和代码已经在Hugging Face和Model Scope上开源了。普通用户去下灵光App就能体验,开发者也能自己拿去折腾。








