当前机器人领域正经历一场范式迁移。以往,机器人的行为策略依赖于人工设计的控制规则或有限的数据驱动模型;而今,随着大规模视觉语言模型的涌现,研究者开始思考一个更根本的问题:机器人能否像人类一样,在行动之前先在脑海中"预演"世界的变化?

近日由南洋理工大学、伯克利、斯坦福、东京大学、ETH Zurich、普林斯顿、哈佛等多所顶尖机构联合撰写的《World Model for Robot Learning: A Comprehensive Survey》综述论文,系统梳理了世界模型(World Model)在机器人学习中的研究现状,涵盖架构设计、功能角色、评估体系与未来挑战。
PART 01
什么是机器人语境下的世界模型?
"世界模型"并非新概念。早在20世纪60年代的认知科学文献中,研究者就提出内部模型可以支持心理模拟与预测。控制理论、经典机器人规划领域也长期使用类似的前向动力学模型。在现代机器学习中,Ha和Schmidhuber于2018年的工作使这一概念重新进入主流视野。

然而,这篇研究报告并没有简单沿用已有定义,而是提出了一个以机器人学习为中心的界定:世界模型是预测环境在智能体行动下如何演化的表示结构,其价值不在于视觉逼真度,而在于能否支持机器人的策略学习、规划、仿真、评估与数据生成。
在这一框架下,世界模型需要具备三项核心能力:预见性(在执行前预判未来状态或行动后果)、想象驱动的规划(通过虚拟推演比较候选行为)、以及数据增强(合成额外的演示轨迹以改善学习)。这三点共同指向一个关键前提——世界模型的预测质量,必须以"对行动有用"为衡量标准,而非以像素层面的还原度为准绳。

这一定义的重要性在于划定了边界。纯粹的视频生成模型不等于世界模型;感知预测器也不等于世界模型。只有当预测结果能够直接服务于具身决策时,才构成论文所讨论的"可操作世界模型"。
PART 02
世界模型如何与机器人策略耦合?
论文将世界模型与策略的结合方式分为五种主要范式,并指出这些范式在近年来呈现出从松散解耦到深度统一的演进趋势。
第一种是解耦式管道:世界模型负责生成未来帧,策略模型(通常是逆动力学模型,IDM)从生成的视频中提取动作。UniPi是该路线的早期代表。这种方式结构清晰,但两个模块独立训练,生成质量与动作准确性之间存在明显断层。
第二种是单骨干共享架构:策略和世界模型共用同一个视觉骨干网络,减少了特征对齐的损耗,但在任务多样化时容量分配是个挑战。
第三种是混合专家(MoE/MoT)架构:通过路由机制动态分配计算资源,使不同任务或模态的预测与控制相对独立。Motus、LingBot-VA等模型属于这一路线,在LIBERO和RoboTwin基准上均表现出色。
第四种是统一VLA(Vision-Language-Action)模型:将视觉、语言理解与动作生成整合进单一模型,世界模型作为内嵌结构参与训练。DreamVLA、UniVLA、CoWVLA等均属此类。

第五种是潜在空间世界模型:不在像素空间建模未来,而是在紧凑的潜在表示中预测状态演化。VLA-JEPA、JEPA-VLA等方法通过JEPA(Joint Embedding Predictive Architecture)框架实现了高效的潜在预测,在多个基准上的表现与像素级方法持平甚至更优,同时大幅降低了计算成本。

从基准数据来看,这些不同范式在LIBERO四项子任务上的平均成功率已普遍超过92%,部分方法(如Cosmos Policy、LingBot-VA)接近98.5%。值得注意的是,高性能并不绑定于单一架构——解耦、单骨干、统一、混合和潜在预测设计均能达到竞争力水平,这表明世界模型对具身控制的价值不依赖特定实现路径。但各方法在"长时序操作"子集上的表现仍有明显分化,说明跨步骤的一致性推理依然是核心瓶颈。
PART 03
世界模型作为仿真器的双重角色
除了直接嵌入策略之外,论文专门讨论了世界模型作为学习环境(Learned Simulator)的功能,这是另一条重要的应用路径。

传统强化学习依赖真实环境交互,样本效率低且存在安全风险。世界模型可充当虚拟环境,让智能体在"想象"的轨迹中积累经验。通过模型预测控制(MPC),智能体优化未来行动序列以最小化累积代价。论文指出,这一路径的主要瓶颈是计算开销——MPC需要迭代式推演,对于高容量模型而言,实时部署仍然困难。
世界模型可以在不访问真实环境的条件下,对候选策略进行排序和筛选。WorldEval通过比较策略在学习世界模型中的推演结果,验证其是否能保留真实环境下的相对排名;WorldGym将学习模型作为蒙特卡洛评估的交互环境,检验策略价值估计与真实环境的一致性。这类评估器尤其适合在真实部署前进行大规模并行筛查。
这两种角色揭示了一个共同逻辑:世界模型的价值在于为决策提供可靠的代理反馈。无论是替代真实环境交互,还是作为策略筛选工具,其核心要求始终是"动作条件下的物理一致性",而非视觉逼真度。这也直接引出了评估体系的问题。
PART 04
评估体系:视觉质量之外的三个维度
论文指出,具身世界模型的评估从根本上不同于普通视频生成模型的评估,并将现有基准归纳为三个层次。
开环预测质量关注在给定动作序列或语言指令下,模型生成的未来观测是否在语义上正确、时间上连贯、对动作响应准确。RBench强调结构一致性与物理合理性,EWMBench将场景一致性、运动正确性与语义对齐分开评估。这类基准易于标准化,但其结果需谨慎解读——高分不代表对控制有用。
闭环任务效用将世界模型置于交互决策循环中,评估其预测是否仍能在时序上支持动作选择。WorldArena、WorldEval、WorldGym等基准从不同角度测试了策略排名一致性、价值估计可信度和任务成功率。论文明确指出,视觉可信度是控制效用的弱代理,而动作敏感性和可控性才是更可靠的指标。

物理一致性与可执行性诊断则更为具体:生成的推演轨迹是否能被逆动力学模型恢复出合理的动作序列?WorldSimBench引入了操作评估维度,WoW-World-Eval引入了基于IDM图灵测试的可执行性标准。这一维度的核心命题是:视觉可信的推演未必物理可行,视觉粗糙的推演也未必对规划无用。
这三个层次构成了一个分层评估框架:开环测可生成性,闭环测决策效用,诊断测物理可执行性。研究团队的结论是,当前领域尚缺乏广泛接受的统一评估指标,比较仍高度分散。未来需要建立一套紧凑的标准化指标集,联合评估预测真实性、动作敏感性、长时序一致性与控制效用,才能有效区分"视觉可信"与"真正可操作"的世界模型。
PART 05
当前世界模型主要面临的技术瓶颈在哪儿?
论文在最后集中梳理了当前世界模型研究面临的若干结构性瓶颈,这些瓶颈既是技术层面的,也是方法论层面的。
多模态物理信号的融合仍是难点。触觉传感器捕获的是高频瞬态事件,但其低维信号在与高维视觉特征联合优化时往往被淹没。如何在联合潜在空间中平衡视觉语义与物理反馈,是迈向"物理感知机器人智能"的关键步骤。现有数据集在触觉、力传感、密集本体感知方面的覆盖仍然稀缺,远不及大规模成功演示数据的体量。
与经典控制的整合涉及神经网络的表达能力与正式控制保证之间的张力。MPC已经是一条相对成熟的路径,但其迭代推演的计算代价在动态环境中构成实时部署障碍。更深层的问题是,如何将学习到的随机动力学与李雅普诺夫稳定性等正式控制原则融合,以实现非稳态、开放世界设定下的自适应控制。
符号结构的引入提供了另一条路径。基于像素的推演存在长时序误差累积问题;符号表示通过抽象低级细节、建模离散状态转移,可以提供更稳定的长时推理。但符号表示依赖合适的抽象和感知接地,在高维观测无法干净映射为预定义符号时容易失效。混合世界模型——将学习的感知表示与符号结构相结合——是一个有前景的研究方向。

跨具身泛化依然是系统性难题。尽管Open X-Embodiment、RoboMIND 2.0等跨具身数据集已经出现,但现有世界模型对具身类型、动作空间和任务组合的变化仍然敏感。在一个基准上的强结果往往不能迁移到另一个,这说明当前模型在捕捉跨平台通用物理规律方面仍有较大提升空间。
PART 06
结语与未来
从更宏观的角度看,这篇综述传递的核心判断是:世界模型不是对现有机器人策略的锦上添花,而是弥补纯反应式策略在长时推理、物理接地和鲁棒性方面系统性不足的必要组件。随着大规模视频生成与具身数据的双向扩展,世界模型的学习质量和部署效率都在快速提升。但研究社区面临的挑战也越来越清晰:在失效恢复、决策敏感的变体数据和密集物理监督方面,现有数据资源远比不上成功演示的丰富程度;评估标准的碎片化使得跨方法的比较缺乏可信的公共基线;而从实验室基准到真实世界部署之间的鸿沟,始终是这一领域无法回避的最终考验。
论文链接:
https://arxiv.org/pdf/2605.00080
项目地址:
https://ntumars.github.io/wm-robot-survey/