世界模型成机器人布局焦点，智元今年发力算法和数据侧

南都N视频APP · 政商数据

原创2026-03-26 17:55

以上内容由AI大模型生成，仅供参考

世界模型已成为具身智能与智能驾驶的关注焦点。近期，Momenta CEO曹旭东宣布，Momenta R7强化学习世界模型即将推出，并将全球首发搭载于上汽大众全新旗舰车型。
本月初，前 Meta 首席 AI 科学家杨立昆创立的AMI Labs，宣布完成10.3亿美元融资，约合人民币70.8亿元。该公司同样聚焦世界模型领域。

继首届赛事成功举办后，近期，智元启动了今年的机器人赛事AGIBOT WORLD CHALLENGE @ ICRA，该赛事依托机器人学术与产业盛会ICRA，聚焦Reasoning to Action（推理-操作）和World Model（世界模型）两大赛道，前者包括线上仿真与线下真机两个阶段，后者则聚焦具身智能中的生成与预测能力，采用线上竞赛方式。据悉，该赛事总奖池高达53万美元，冠军单项奖金1万美元。

图片来源：智元官方微信公众号

3月25日，Genie业务部生态及解决方案总监沈咏剑在一场线上沟通会中向南都N视频记者表示，今年以来，世界模型在多模态大模型和具身智能领域爆火，这背后代表着业界对数据驱动这件事情新的认知。智元在赛事中持续布局这一赛道，希望从不同维度的技术路线将具身智能的研究向前推进。

长期以来，业界针对VLA（Vision-Language-Action，视觉－语言－行动）和世界模型路线的相关争议不断。

在VLA路线中，机器人需要靠海量“画面—指令—动作”学习特定的技能、需要机器人看不同的案例和数据，数据越多完成的任务越多，但当机器人从叠衣服动作换到倒水动作又得重新掌握技能，否则成功率会下降。在数据量上，走VLA路线可能存在的瓶颈是需要人工遥控机器人来采集数据，从采集成功率、耗费的人力物力来看，这一路线目前仍存在规模化瓶颈；而在世界模型路线中，机器人大脑需要做到的是掌握物理世界的运行规律，并把这套规律转换成不同的行动指令，这样机器人可以更快学会物理世界中的不同任务和适应新环境，也降低了对数据的依赖。

沈咏剑认为，目前世界模型仍在发展中，不管是在多模态、大语言模型领域，还是在具身智能领域，连定义都还不是很收敛。但世界模型关涉的还是对未来的预测和推演。通过“看到”现有所有模态的数据，去推演下一个时刻可能会发生什么，或者在给定指令下，判断下一步自身与环境会发生什么变化，它更像预先知道或设想未来情况，再做相应任务执行。

沈咏剑还提到，尽管从范式上来看，世界模型是相对独立的技术路线，但他认为VLA模型和世界模型并不存在相互替代的关系，更像是两种不同的解题思路。“长期来看，这两种思路会不会结合起来更合适？所以，我觉得两者不算替代和被替代的关系，更多是大家在研究这类问题时，出于不同的起点去做研究。在解决问题的层面，有可能会有一些融合或合作的状态。所以技术路线层面，基本没有所谓的代际替代或谁先谁后的关系。”

关于世界模型，沈咏剑透露智元内部已有完整布局。目前智元内部有很多科学家和工程师在这个方向上做技术探索。“从重要程度来讲，我觉得它的重要性不逊于之前我们讲的VLA或相关路线。我们发力的核心点，是做一个真正意义上、在物理智能领域能非常自洽、能达到较好效果的世界模型。为了做这样的世界模型，我们也会做非常多的真实真机数据，因为这是做世界模型很好的养料。所以我们今年一方面会在算法侧加大投入，另一方面也会在数据侧积累上一两个量级的数据量，让我们的世界模型达到更好的能力效果。”

在机器人领域，布局世界模型的企业也不在少数。去年9月，宇树科技开源旗下跨多类机器人本体的开源世界模型；去年10月，北京人形机器人创新中心开源了全新的世界模型架构；去年12月，商汤科技联合创始人王晓刚创立的大晓机器人发布了“开悟”世界模型3.0。

采写：南都N视频记者林文琪

编辑：田爱丽