

以上内容由AI大模型生成,仅供参考
世界模型已成为具身智能与智能驾驶的关注焦点。近期,Momenta CEO曹旭东宣布,Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰车型。
本月初,前 Meta 首席 AI 科学家杨立昆创立的AMI Labs,宣布完成10.3亿美元融资,约合人民币70.8亿元。该公司同样聚焦世界模型领域。
继首届赛事成功举办后,近期,智元启动了今年的机器人赛事AGIBOT WORLD CHALLENGE @ ICRA,该赛事依托机器人学术与产业盛会ICRA,聚焦Reasoning to Action(推理-操作)和World Model(世界模型)两大赛道,前者包括线上仿真与线下真机两个阶段,后者则聚焦具身智能中的生成与预测能力,采用线上竞赛方式。据悉,该赛事总奖池高达53万美元,冠军单项奖金1万美元。
图片来源:智元官方微信公众号
3月25日,Genie业务部生态及解决方案总监沈咏剑在一场线上沟通会中向南都N视频记者表示,今年以来,世界模型在多模态大模型和具身智能领域爆火,这背后代表着业界对数据驱动这件事情新的认知。智元在赛事中持续布局这一赛道,希望从不同维度的技术路线将具身智能的研究向前推进。
长期以来,业界针对VLA(Vision-Language-Action,视觉-语言-行动)和世界模型路线的相关争议不断。
在VLA路线中,机器人需要靠海量“画面—指令—动作”学习特定的技能、需要机器人看不同的案例和数据,数据越多完成的任务越多,但当机器人从叠衣服动作换到倒水动作又得重新掌握技能,否则成功率会下降。在数据量上,走VLA路线可能存在的瓶颈是需要人工遥控机器人来采集数据,从采集成功率、耗费的人力物力来看,这一路线目前仍存在规模化瓶颈;而在世界模型路线中,机器人大脑需要做到的是掌握物理世界的运行规律,并把这套规律转换成不同的行动指令,这样机器人可以更快学会物理世界中的不同任务和适应新环境,也降低了对数据的依赖。
沈咏剑认为,目前世界模型仍在发展中,不管是在多模态、大语言模型领域,还是在具身智能领域,连定义都还不是很收敛。但世界模型关涉的还是对未来的预测和推演。通过“看到”现有所有模态的数据,去推演下一个时刻可能会发生什么,或者在给定指令下,判断下一步自身与环境会发生什么变化,它更像预先知道或设想未来情况,再做相应任务执行。
沈咏剑还提到,尽管从范式上来看,世界模型是相对独立的技术路线,但他认为VLA模型和世界模型并不存在相互替代的关系,更像是两种不同的解题思路。“长期来看,这两种思路会不会结合起来更合适?所以,我觉得两者不算替代和被替代的关系,更多是大家在研究这类问题时,出于不同的起点去做研究。在解决问题的层面,有可能会有一些融合或合作的状态。所以技术路线层面,基本没有所谓的代际替代或谁先谁后的关系。”
关于世界模型,沈咏剑透露智元内部已有完整布局。目前智元内部有很多科学家和工程师在这个方向上做技术探索。“从重要程度来讲,我觉得它的重要性不逊于之前我们讲的VLA或相关路线。我们发力的核心点,是做一个真正意义上、在物理智能领域能非常自洽、能达到较好效果的世界模型。为了做这样的世界模型,我们也会做非常多的真实真机数据,因为这是做世界模型很好的养料。所以我们今年一方面会在算法侧加大投入,另一方面也会在数据侧积累上一两个量级的数据量,让我们的世界模型达到更好的能力效果。”
在机器人领域,布局世界模型的企业也不在少数。去年9月,宇树科技开源旗下跨多类机器人本体的开源世界模型;去年10月,北京人形机器人创新中心开源了全新的世界模型架构;去年12月,商汤科技联合创始人王晓刚创立的大晓机器人发布了“开悟”世界模型3.0。
采写:南都N视频记者 林文琪
编辑:田爱丽