68页重磅综述！复旦提出世界行动模型，具身智能真能预判物理世界了？

2026-05-2810000具身智能

近日来自复旦大学、上海创新研究院、新加坡国立大学等多个机构的研究者，用68页的研究论文回答了一个核心问题：World-Action Models（WAM）到底是什么，它解决了什么问题，又面临哪些挑战？

在这个领域，每隔几个月就会出现新的模型、新的数据集、新的benchmark。RT-1、OpenVLA、π0、DIAMOND、Genie……这些名字在论文里频繁出现，但它们之间是什么关系？哪些是真正的技术突破，哪些只是工程优化？这份综述试图把碎片化的研究整合成一张清晰的技术图谱。

更重要的是，它指出了三个长期被忽视但至关重要的问题：架构设计的不确定性、数据效率的瓶颈、安全性保障的缺失。这些问题不解决，WAM就很难从实验室走向真实应用。

PART 01

从Pipeline到端到端：架构思路的转变

这份综述试图回答一个问题：WAM在具身智能技术栈中处于什么位置？研究者们发现，这不是又一个改进版的VLA模型，也不是简单地把世界模型和动作策略拼在一起，而是一次架构层面的重新思考。

传统的机器人系统是这样工作的：感知模块负责理解环境，规划模块负责制定策略，控制模块负责执行动作。每个模块独立优化，中间用手工设计的接口连接。这套范式在机器人学领域已经应用了几十年，但它有一个根本性的问题——模块之间的信息损失难以避免。

综述的作者团队给出了一个观察：机器人操作问题，可能不适合继续用"感知+规划+控制"的传统pipeline解决。WAM的核心思想是让模型同时理解世界如何运转和如何采取行动，在统一的表征空间里完成端到端学习。这个想法的实现，依赖三条技术主线的进展。

第一条线是数据规模的增长。从2018年QT-Opt的58万条轨迹，到2025年AgiBot World的100万+轨迹，机器人数据的规模在持续扩大。更值得注意的是，人类数据开始进入训练流程。Ego4D收集了3670小时第一人称视频，EgoScale标注了2万小时数据，这些数据的规模已经远超传统的遥操作数据集。关键问题是如何把人的动作迁移到机器人上，而WAM提出的方案是：模型可以从部分可观测的异构数据中学习，不需要完美对齐。

第二条线是模型架构的探索。综述统计了45个代表性模型，可以看到两条主要的演化路径。一条是VLA路径，从RT-1到OpenVLA再到π0.5，核心是用预训练视觉-语言模型作为backbone，增强语义理解和泛化能力。另一条是世界模型路径，从Genie到DIAMOND再到Cosmos-Predict2，核心是从视频学习可控环境。WAM的尝试是把这两条路径结合起来，让模型不仅知道"该做什么"，还要理解"做了之后会发生什么"。

第三条线是评测体系的完善。研究者整理了40+个benchmark，可以观察到三个变化趋势：任务复杂度从MetaWorld的50个任务增加到RoboVerse的276个任务；评测维度从单一的成功率扩展到泛化性、长程推理、记忆能力；真机验证从实验室走向开放场景，RoboArena、ManipArena等真实设备评测平台开始出现。

这三条线的交汇，催生了WAM这个研究方向——在统一的框架里同时预测未来状态和生成动作。

PART 02

数据的多样化：从遥操作到人类视频

综述用了整整15页篇幅梳理数据集，其中最值得关注的不是数据规模的增长速度，而是数据来源的多样化趋势。传统机器人数据采集依赖遥操作，一个熟练的操作员一天能采集几十条轨迹就已经不错了。但人类每天都在做各种灵巧操作——切菜、叠衣服、组装零件——这些动作本身就是高质量的示范数据。

问题在于如何利用这些数据。早期的尝试是用逆动力学模型（IDM）从视频中提取动作，但这种方法依赖精确的物理建模，在真实场景中误差较大。WAM的解法是：不先提取动作再训练策略，而是让模型在联合分布上学习，自然地把视觉信息和动作信息关联起来。

综述展示了一个典型的训练流程。模型的输入是当前观测、语言指令和历史动作，输出是未来观测的预测和下一步动作。训练时，模型同时优化两个目标：预测未来帧的视觉重建损失，和生成动作的行为克隆损失。这两个损失不是独立的，而是通过共享的表征空间耦合在一起。

这种设计带来几个潜在优势。首先，模型可以从纯视频数据中学习物理常识，即使这些视频没有动作标注。其次，模型在生成动作时会考虑未来状态，而不是只看当前观测，这让它具备了一定的规划能力。最后，联合训练让模型学到的表征可能更加鲁棒，因为它必须同时解释视觉信息和动作信息。

综述统计的数据规模显示了明显的增长趋势。2018年，QT-Opt用58万条轨迹训练了一个抓取策略。2023年，OXE聚合了100万+轨迹，覆盖22种机器人。2025年，ARIO达到了300万+轨迹，35种机器人。大约每两年增长一个数量级。

但更重要的变化是模态覆盖的扩展。早期数据只有RGB图像和关节角度，现在的数据集包含深度、点云、触觉、音频、语言指令。多模态融合对WAM来说可能是必要条件，因为真实世界的物理交互本身就是多模态的——需要看到物体的形状，感受到接触的力度，听到碰撞的声音，理解任务的语义。

从数据采集的角度看，综述提炼出三个关键观察。第一，数据规模在持续增长，大约每两年增长一个数量级。第二，模态覆盖在不断扩展，从单一的RGB-D到视觉、触觉、音频、语言的全模态融合。第三，人类数据开始大规模进入训练流程，这些数据的规模已经远超传统的机器人数据，如何有效利用这些数据，可能会成为下一阶段的重要课题。

PART 03

架构的分化：级联式vs联合式的权衡

把WAM简单理解成VLA的升级版，或者世界模型的应用，都可能忽略了这个方向的核心探索。综述在架构设计部分的梳理，可以提取出三个关键观察。

世界模型用于 VLA 学习与评估的原理示意图

第一个观察是关于表征空间的设计。传统VLA模型学习的是"观测→动作"的直接映射，这个映射是反应式的，没有对未来的预期。世界模型学习的是"状态+动作→下一状态"的转移函数，这个函数可以预测未来，但不直接生成动作。WAM的尝试是把这两个目标统一到一个联合分布里：p(未来状态, 动作 | 当前状态, 语言)。

这个统一带来的不只是数学形式上的改变，更是功能上的扩展。模型现在可以在想象的未来状态上做规划，而不是只能对当前观测做反应。这类似于人类在操作物体时的思维过程——不是看到什么就做什么，而是先在脑海里模拟"如果这样做会发生什么"，然后选择动作序列。

第二个观察是关于架构耦合方式的选择。综述把现有的WAM方法分成两大类：级联式和联合式。级联式是先用世界模型预测未来，再用策略网络根据预测生成动作。联合式是用一个统一的模型同时输出未来预测和动作。

级联式的优势是模块化，每个部分可以独立优化和替换。比如UniPi先用视频扩散模型生成未来帧，再用逆动力学模型提取动作。这种设计的问题是误差可能会累积——如果未来预测不准，后续的动作生成就会受影响。

联合式的优势是端到端优化，可以避免中间表征的信息损失。比如PAD用一个DiT同时去噪未来图像和动作序列，两者共享同一个表征空间。这种设计的问题是训练复杂度较高，需要精心设计损失函数的权重。

综述没有给出哪种架构更优的明确结论，但提供了一个观察：在相同数据规模下，联合式模型的zero-shot泛化能力通常更强，但级联式模型更容易调试和改进。这个权衡在工程实践中需要根据具体场景选择。

级联式世界行动模型（WAM）结构对比示意图

第三个观察是关于生成方式的演进。早期的WAM大多用扩散模型生成未来帧，因为扩散模型在图像生成上效果较好。但扩散模型有个明显问题——速度慢。生成一帧1024x1024的图像需要几十步去噪，这在实时控制场景下难以接受。

最近的工作开始探索隐式表征。与其生成完整的像素帧，不如在潜在空间里预测未来状态的抽象表征。这个思路的代表是JEPA（Joint Embedding Predictive Architecture）。模型不需要重建每个像素的颜色，只需要预测那些对动作决策有用的高层特征。

综述展示了一个对比实验。同样的任务，显式预测未来帧的模型需要2秒生成一个动作，隐式预测潜在表征的模型只需要0.1秒。速度提升了20倍，但成功率只下降了5%。这个权衡在很多应用场景下可能是可以接受的。

从架构演进的角度看，WAM正在经历几个阶段的探索。第一阶段是简单拼接，把世界模型和VLA串联起来，各自独立训练。第二阶段是联合训练，用统一的损失函数同时优化预测和控制。第三阶段是原生融合，在表征空间层面就把未来预测和动作生成耦合在一起。目前大部分工作还在第二阶段，少数团队开始探索第三阶段的可能性。

PART 04

评测的细化：从成功率到多维度考察

综述用了10页讲评测，这部分内容容易被忽略，但对理解这个领域的发展阶段很重要。因为大家都在关注模型架构和训练技巧，较少有人系统思考"我们到底在评测什么"。

传统的机器人评测主要看成功率——任务完成了就是100分，失败了就是0分。但这个指标比较粗糙。一个模型在训练任务上达到90%成功率，换个场景可能直接掉到10%。问题出在哪里？是泛化能力不足，还是鲁棒性不够，还是长程推理能力欠缺？单一的成功率指标难以回答这些问题。

综述提出了一个评测框架，包含四个维度。

第一个维度：泛化性。这又细分为三个子维度：跨任务泛化（在新任务上zero-shot表现）、跨embodiment泛化（换个机器人还能用）、跨环境泛化（从实验室到真实场景）。代表性的benchmark包括LIBERO、COLOSSEUM、SimplerEnv。

LIBERO的设计比较有代表性。它设计了90个操作任务，分成10个任务族。每个任务族内部的任务在语义上相关，但具体的物体、位置、目标都不同。评测时，模型在一个任务族的部分任务上训练，然后在同族的其他任务上测试。这种设置可以测量模型的组合泛化能力——它是否真的理解了任务的抽象结构，还是只是记住了训练样本。

第二个维度：长程推理。不是单步决策，而是20+步的任务链。比如CALVIN要求机器人完成"打开抽屉→拿出物体→关上抽屉→把物体放到桌上"这样的复杂序列。每一步都依赖前面步骤的结果，任何一步出错都会导致整个任务失败。

这个维度测的是模型的记忆能力和规划能力。传统的反应式策略在这种任务上表现通常较差，因为它们缺少对任务全局结构的理解。WAM的潜在优势在这里可能会体现出来——因为它可以预测未来状态，所以理论上能够提前规划多步动作序列。

第三个维度：物理常识。模型是否理解重力、摩擦、碰撞等物理规律？这听起来很基础，但实际上很多模型在这方面表现不佳。比如VideoPhysics这个benchmark，它展示一段物体运动的视频，然后问模型"接下来会发生什么"。人类可以轻松回答，但很多模型会预测出违反物理定律的结果。

WorldSimBench更进一步，它不仅测预测准确性，还测物理一致性。比如一个物体从桌上掉下来，模型预测的轨迹必须符合抛物线运动，落地后的反弹高度必须符合能量守恒。这种细粒度的物理评测，可以揭示模型对真实世界动力学的理解深度。

第四个维度：真机验证。仿真再好，最终要在真实设备上运行。RoboArena和ManipArena是两个代表性的真机benchmark。它们的设计理念是：不追求任务的多样性，而是追求评测的标准化和可复现性。

RoboArena设计了30个标准任务，每个任务都有精确的成功判定标准和详细的评测协议。更重要的是，它支持多个实验室用相同的任务设置进行评测，这样不同团队的结果才有可比性。这在以前比较困难——每个实验室的机器人不同、场景不同、评测标准也不同，发表的数字难以横向比较。

综述还指出了一个长期存在的问题：sim-to-real gap。在仿真环境训练的模型，部署到真实机器人上性能通常会下降50%以上。原因有三个：物理引擎的简化假设、传感器噪声、执行器的动力学误差。

解决这个问题有三个方向。第一是提高仿真器的保真度，比如Genesis和Isaac Sim这样的高保真物理引擎。第二是domain randomization，在训练时故意引入各种随机扰动，让模型学会对噪声的鲁棒性。第三是持续学习，模型部署后继续用真机数据微调。

综述展示了一个实验结果。同样的模型，纯仿真训练在真机上成功率只有40%，加上domain randomization提升到60%，再加上100条真机数据微调可以达到85%。这说明sim-to-real gap是可以缓解的，但需要系统性的工程努力。

从评测体系的演进看，正在发生三个变化。第一，从单一指标到多维评估。成功率只是起点，泛化性、鲁棒性、长程推理能力同样重要。第二，从封闭任务到开放场景。实验室里的标准任务固然重要，但真实世界的复杂性才是终极考验。第三，从定性展示到定量对比。过去大家发demo各说各话，现在有了标准benchmark，不同方法的优劣更容易比较。

PART 05

三个待解的难题：从实验室到应用的鸿沟

综述在最后指出了WAM面临的三个核心挑战，这部分内容对理解这个方向的发展阶段很重要。

第一个挑战：架构设计的不确定性。现在的WAM方法五花八门——级联式、联合式、扩散式、自回归式、隐式表征、显式预测——但缺少系统的对比研究。研究者们不清楚在什么条件下哪种架构更优，不清楚显式预测是否真的必要，不清楚联合训练带来的收益是否值得额外的复杂度。

综述提出了一个值得验证的假设：也许显式的像素级预测并不是必需的。最近的一些工作发现，去掉测试时的未来帧生成模块，模型的控制性能并没有明显下降。这说明世界模型的主要作用可能不是在推理时生成未来图像，而是在训练时提供辅助梯度信号。

如果这个假设成立，那么可以设计一种更高效的架构：在潜在空间里预测未来状态的抽象表征，而不是重建完整的像素帧。这样可以把计算成本降低一个数量级，同时保持相近的控制性能。JEPA是这个方向的代表，但还需要更多的实证研究来验证。

世界行动模型训练的具身数据全景图

第二个挑战：数据效率的瓶颈。虽然机器人数据在快速增长，但相比语言模型的训练数据，仍然存在数量级的差距。GPT-3用了45TB文本数据，而最大的机器人数据集大约10TB左右，相差约4.5倍。

更重要的是，机器人数据的采集成本远高于文本数据。一条高质量的遥操作轨迹需要几分钟到几十分钟，而爬取一篇网页只需要几毫秒。这个成本差异意味着机器人数据很难达到语言数据的规模。

解决方案有三个方向。第一是合成数据生成，比如MimicGen和DexMimicGen，用少量真实数据生成大量变体。第二是自监督学习，从无标注的视频中学习物理常识。第三是大规模利用人类视频，这是最有潜力但也最具挑战性的方向。

综述展示了一个初步的scaling law实验。横轴是预训练数据规模，纵轴是zero-shot任务的成功率。曲线显示，数据规模每增加10倍，成功率提升10-15个百分点。这个趋势在100万轨迹的规模上还没有饱和，说明继续扩大数据规模可能仍然有效。

但这里有个关键问题：数据质量和数据规模哪个更重要？综述没有给出明确答案，但提供了一些线索。在相同数据规模下，高质量的遥操作数据比低质量的自动采集数据效果好30%。但10倍规模的低质量数据可以弥补这个差距。这说明在当前阶段，规模可能仍然是第一位的。

第三个挑战：安全性保障。机器人在物理世界操作，错误可能导致伤害。这不只是一个技术问题，更是一个系统工程问题。综述提出了三个评测维度：碰撞检测、力控制、异常恢复。

碰撞检测是最基础的要求。模型必须能够预测动作是否会导致碰撞，并在碰撞发生前停止。这听起来简单，但实际上比较困难。因为碰撞检测需要精确的几何建模和动力学预测，而这正是当前模型的薄弱环节。

力控制更进一步。不仅要避免碰撞，还要控制接触力的大小。比如抓取易碎物品时，力太小会掉落，力太大会损坏。这需要模型具备精细的触觉感知和力反馈控制能力。

异常恢复是最难的部分。当任务执行出错时，模型能否识别异常并采取补救措施？比如物体掉落了，模型能否重新抓取？工具卡住了，模型能否换个角度尝试？这需要模型具备高层的任务理解和灵活的应变能力。

综述指出，当前的WAM在这三个维度上都还比较薄弱。大多数模型只在理想条件下测试，一旦遇到意外情况就容易失败。要走向实用，安全性评测需要成为标准流程的一部分。

PART 06

结语与未来：一次阶段性的技术盘点

这是一篇来自复旦大学、上海创新研究院、新加坡国立大学等多个机构的联合工作。作者团队覆盖了具身智能的各个方向——有做仿真的，有做基础模型的，有做数据采集的，有做真机部署的。这种跨领域的合作在学术界并不常见，但对于WAM这样一个需要全栈思考的问题，这种合作可能是必要的。

这份综述的价值不在于提出新算法，而在于建立了相对统一的分类框架。它把过去三年碎片化的研究整合成较为清晰的技术图谱，用数据展示每个方向的进展情况，指出了下一阶段可能需要关注的核心问题。

从技术发展的角度看，这份工作传递了几个信号。第一，数据正在成为重要的竞争要素。谁掌握大规模、高质量的机器人数据，谁可能就有先发优势。第二，通用性正在成为重要的研究方向。专用策略的时代可能正在结束，foundation model是一个值得探索的趋势。第三，评测体系正在成为重要的基础设施。benchmark的完善程度，在一定程度上影响着技术迭代的速度。

这份综述标记了机器人操作领域WAM方向的一个阶段性总结。它梳理了现有工作，指出了未解决的问题，为后续研究提供了参考框架。数据、模型、评测三条线正在逐步完善，但距离真正的通用机器人操作能力，仍然有相当长的路要走。

项目地址：https://openmoss.github.io/Awesome-WAM/

论文地址：https://arxiv.org/pdf/2605.12090

精彩推荐

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

成功率从30%到91.7%，RLDX-1告诉你现有机器人模型到底缺了什么？

天星科技的12亿赌注：行业爆发前夜，建4万台产能

精彩文章

扫码手机阅读

68页重磅综述！复旦提出世界行动模型，具身智能真能预判物理世界了？

精彩推荐

关于我们

友情链接

商务合作