近日来自复旦大学、上海创新研究院、新加坡国立大学等多个机构的研究者,用68页的研究论文回答了一个核心问题:World-Action Models(WAM)到底是什么,它解决了什么问题,又面临哪些挑战?

在这个领域,每隔几个月就会出现新的模型、新的数据集、新的benchmark。RT-1、OpenVLA、π0、DIAMOND、Genie……这些名字在论文里频繁出现,但它们之间是什么关系?哪些是真正的技术突破,哪些只是工程优化?这份综述试图把碎片化的研究整合成一张清晰的技术图谱。
更重要的是,它指出了三个长期被忽视但至关重要的问题:架构设计的不确定性、数据效率的瓶颈、安全性保障的缺失。这些问题不解决,WAM就很难从实验室走向真实应用。
PART 01
从Pipeline到端到端:架构思路的转变
这份综述试图回答一个问题:WAM在具身智能技术栈中处于什么位置?研究者们发现,这不是又一个改进版的VLA模型,也不是简单地把世界模型和动作策略拼在一起,而是一次架构层面的重新思考。
传统的机器人系统是这样工作的:感知模块负责理解环境,规划模块负责制定策略,控制模块负责执行动作。每个模块独立优化,中间用手工设计的接口连接。这套范式在机器人学领域已经应用了几十年,但它有一个根本性的问题——模块之间的信息损失难以避免。
综述的作者团队给出了一个观察:机器人操作问题,可能不适合继续用"感知+规划+控制"的传统pipeline解决。WAM的核心思想是让模型同时理解世界如何运转和如何采取行动,在统一的表征空间里完成端到端学习。这个想法的实现,依赖三条技术主线的进展。
第一条线是数据规模的增长。从2018年QT-Opt的58万条轨迹,到2025年AgiBot World的100万+轨迹,机器人数据的规模在持续扩大。更值得注意的是,人类数据开始进入训练流程。Ego4D收集了3670小时第一人称视频,EgoScale标注了2万小时数据,这些数据的规模已经远超传统的遥操作数据集。关键问题是如何把人的动作迁移到机器人上,而WAM提出的方案是:模型可以从部分可观测的异构数据中学习,不需要完美对齐。

第二条线是模型架构的探索。综述统计了45个代表性模型,可以看到两条主要的演化路径。一条是VLA路径,从RT-1到OpenVLA再到π0.5,核心是用预训练视觉-语言模型作为backbone,增强语义理解和泛化能力。另一条是世界模型路径,从Genie到DIAMOND再到Cosmos-Predict2,核心是从视频学习可控环境。WAM的尝试是把这两条路径结合起来,让模型不仅知道"该做什么",还要理解"做了之后会发生什么"。

第三条线是评测体系的完善。研究者整理了40+个benchmark,可以观察到三个变化趋势:任务复杂度从MetaWorld的50个任务增加到RoboVerse的276个任务;评测维度从单一的成功率扩展到泛化性、长程推理、记忆能力;真机验证从实验室走向开放场景,RoboArena、ManipArena等真实设备评测平台开始出现。
这三条线的交汇,催生了WAM这个研究方向——在统一的框架里同时预测未来状态和生成动作。
PART 02
数据的多样化:从遥操作到人类视频
综述用了整整15页篇幅梳理数据集,其中最值得关注的不是数据规模的增长速度,而是数据来源的多样化趋势。传统机器人数据采集依赖遥操作,一个熟练的操作员一天能采集几十条轨迹就已经不错了。但人类每天都在做各种灵巧操作——切菜、叠衣服、组装零件——这些动作本身就是高质量的示范数据。
问题在于如何利用这些数据。早期的尝试是用逆动力学模型(IDM)从视频中提取动作,但这种方法依赖精确的物理建模,在真实场景中误差较大。WAM的解法是:不先提取动作再训练策略,而是让模型在联合分布上学习,自然地把视觉信息和动作信息关联起来。

综述展示了一个典型的训练流程。模型的输入是当前观测、语言指令和历史动作,输出是未来观测的预测和下一步动作。训练时,模型同时优化两个目标:预测未来帧的视觉重建损失,和生成动作的行为克隆损失。这两个损失不是独立的,而是通过共享的表征空间耦合在一起。
这种设计带来几个潜在优势。首先,模型可以从纯视频数据中学习物理常识,即使这些视频没有动作标注。其次,模型在生成动作时会考虑未来状态,而不是只看当前观测,这让它具备了一定的规划能力。最后,联合训练让模型学到的表征可能更加鲁棒,因为它必须同时解释视觉信息和动作信息。
综述统计的数据规模显示了明显的增长趋势。2018年,QT-Opt用58万条轨迹训练了一个抓取策略。2023年,OXE聚合了100万+轨迹,覆盖22种机器人。2025年,ARIO达到了300万+轨迹,35种机器人。大约每两年增长一个数量级。
但更重要的变化是模态覆盖的扩展。早期数据只有RGB图像和关节角度,现在的数据集包含深度、点云、触觉、音频、语言指令。多模态融合对WAM来说可能是必要条件,因为真实世界的物理交互本身就是多模态的——需要看到物体的形状,感受到接触的力度,听到碰撞的声音,理解任务的语义。
从数据采集的角度看,综述提炼出三个关键观察。第一,数据规模在持续增长,大约每两年增长一个数量级。第二,模态覆盖在不断扩展,从单一的RGB-D到视觉、触觉、音频、语言的全模态融合。第三,人类数据开始大规模进入训练流程,这些数据的规模已经远超传统的机器人数据,如何有效利用这些数据,可能会成为下一阶段的重要课题。
PART 03
架构的分化:级联式vs联合式的权衡
把WAM简单理解成VLA的升级版,或者世界模型的应用,都可能忽略了这个方向的核心探索。综述在架构设计部分的梳理,可以提取出三个关键观察。

世界模型用于 VLA 学习与评估的原理示意图
第一个观察是关于表征空间的设计。传统VLA模型学习的是"观测→动作"的直接映射,这个映射是反应式的,没有对未来的预期。世界模型学习的是"状态+动作→下一状态"的转移函数,这个函数可以预测未来,但不直接生成动作。WAM的尝试是把这两个目标统一到一个联合分布里:p(未来状态, 动作 | 当前状态, 语言)。
这个统一带来的不只是数学形式上的改变,更是功能上的扩展。模型现在可以在想象的未来状态上做规划,而不是只能对当前观测做反应。这类似于人类在操作物体时的思维过程——不是看到什么就做什么,而是先在脑海里模拟"如果这样做会发生什么",然后选择动作序列。
第二个观察是关于架构耦合方式的选择。综述把现有的WAM方法分成两大类:级联式和联合式。级联式是先用世界模型预测未来,再用策略网络根据预测生成动作。联合式是用一个统一的模型同时输出未来预测和动作。
级联式的优势是模块化,每个部分可以独立优化和替换。比如UniPi先用视频扩散模型生成未来帧,再用逆动力学模型提取动作。这种设计的问题是误差可能会累积——如果未来预测不准,后续的动作生成就会受影响。
联合式的优势是端到端优化,可以避免中间表征的信息损失。比如PAD用一个DiT同时去噪未来图像和动作序列,两者共享同一个表征空间。这种设计的问题是训练复杂度较高,需要精心设计损失函数的权重。
综述没有给出哪种架构更优的明确结论,但提供了一个观察:在相同数据规模下,联合式模型的zero-shot泛化能力通常更强,但级联式模型更容易调试和改进。这个权衡在工程实践中需要根据具体场景选择。

级联式世界行动模型(WAM)结构对比示意图
第三个观察是关于生成方式的演进。早期的WAM大多用扩散模型生成未来帧,因为扩散模型在图像生成上效果较好。但扩散模型有个明显问题——速度慢。生成一帧1024x1024的图像需要几十步去噪,这在实时控制场景下难以接受。
最近的工作开始探索隐式表征。与其生成完整的像素帧,不如在潜在空间里预测未来状态的抽象表征。这个思路的代表是JEPA(Joint Embedding Predictive Architecture)。模型不需要重建每个像素的颜色,只需要预测那些对动作决策有用的高层特征。
综述展示了一个对比实验。同样的任务,显式预测未来帧的模型需要2秒生成一个动作,隐式预测潜在表征的模型只需要0.1秒。速度提升了20倍,但成功率只下降了5%。这个权衡在很多应用场景下可能是可以接受的。
从架构演进的角度看,WAM正在经历几个阶段的探索。第一阶段是简单拼接,把世界模型和VLA串联起来,各自独立训练。第二阶段是联合训练,用统一的损失函数同时优化预测和控制。第三阶段是原生融合,在表征空间层面就把未来预测和动作生成耦合在一起。目前大部分工作还在第二阶段,少数团队开始探索第三阶段的可能性。
PART 04
评测的细化:从成功率到多维度考察
综述用了10页讲评测,这部分内容容易被忽略,但对理解这个领域的发展阶段很重要。因为大家都在关注模型架构和训练技巧,较少有人系统思考"我们到底在评测什么"。
传统的机器人评测主要看成功率——任务完成了就是100分,失败了就是0分。但这个指标比较粗糙。一个模型在训练任务上达到90%成功率,换个场景可能直接掉到10%。问题出在哪里?是泛化能力不足,还是鲁棒性不够,还是长程推理能力欠缺?单一的成功率指标难以回答这些问题。
综述提出了一个评测框架,包含四个维度。
第一个维度:泛化性。这又细分为三个子维度:跨任务泛化(在新任务上zero-shot表现)、跨embodiment泛化(换个机器人还能用)、跨环境泛化(从实验室到真实场景)。代表性的benchmark包括LIBERO、COLOSSEUM、SimplerEnv。
LIBERO的设计比较有代表性。它设计了90个操作任务,分成10个任务族。每个任务族内部的任务在语义上相关,但具体的物体、位置、目标都不同。评测时,模型在一个任务族的部分任务上训练,然后在同族的其他任务上测试。这种设置可以测量模型的组合泛化能力——它是否真的理解了任务的抽象结构,还是只是记住了训练样本。
第二个维度:长程推理。不是单步决策,而是20+步的任务链。比如CALVIN要求机器人完成"打开抽屉→拿出物体→关上抽屉→把物体放到桌上"这样的复杂序列。每一步都依赖前面步骤的结果,任何一步出错都会导致整个任务失败。
这个维度测的是模型的记忆能力和规划能力。传统的反应式策略在这种任务上表现通常较差,因为它们缺少对任务全局结构的理解。WAM的潜在优势在这里可能会体现出来——因为它可以预测未来状态,所以理论上能够提前规划多步动作序列。
第三个维度:物理常识。模型是否理解重力、摩擦、碰撞等物理规律?这听起来很基础,但实际上很多模型在这方面表现不佳。比如VideoPhysics这个benchmark,它展示一段物体运动的视频,然后问模型"接下来会发生什么"。人类可以轻松回答,但很多模型会预测出违反物理定律的结果。
WorldSimBench更进一步,它不仅测预测准确性,还测物理一致性。比如一个物体从桌上掉下来,模型预测的轨迹必须符合抛物线运动,落地后的反弹高度必须符合能量守恒。这种细粒度的物理评测,可以揭示模型对真实世界动力学的理解深度。
第四个维度:真机验证。仿真再好,最终要在真实设备上运行。RoboArena和ManipArena是两个代表性的真机benchmark。它们的设计理念是:不追求任务的多样性,而是追求评测的标准化和可复现性。
RoboArena设计了30个标准任务,每个任务都有精确的成功判定标准和详细的评测协议。更重要的是,它支持多个实验室用相同的任务设置进行评测,这样不同团队的结果才有可比性。这在以前比较困难——每个实验室的机器人不同、场景不同、评测标准也不同,发表的数字难以横向比较。
综述还指出了一个长期存在的问题:sim-to-real gap。在仿真环境训练的模型,部署到真实机器人上性能通常会下降50%以上。原因有三个:物理引擎的简化假设、传感器噪声、执行器的动力学误差。
解决这个问题有三个方向。第一是提高仿真器的保真度,比如Genesis和Isaac Sim这样的高保真物理引擎。第二是domain randomization,在训练时故意引入各种随机扰动,让模型学会对噪声的鲁棒性。第三是持续学习,模型部署后继续用真机数据微调。
综述展示了一个实验结果。同样的模型,纯仿真训练在真机上成功率只有40%,加上domain randomization提升到60%,再加上100条真机数据微调可以达到85%。这说明sim-to-real gap是可以缓解的,但需要系统性的工程努力。
从评测体系的演进看,正在发生三个变化。第一,从单一指标到多维评估。成功率只是起点,泛化性、鲁棒性、长程推理能力同样重要。第二,从封闭任务到开放场景。实验室里的标准任务固然重要,但真实世界的复杂性才是终极考验。第三,从定性展示到定量对比。过去大家发demo各说各话,现在有了标准benchmark,不同方法的优劣更容易比较。
PART 05
三个待解的难题:从实验室到应用的鸿沟
综述在最后指出了WAM面临的三个核心挑战,这部分内容对理解这个方向的发展阶段很重要。
第一个挑战:架构设计的不确定性。现在的WAM方法五花八门——级联式、联合式、扩散式、自回归式、隐式表征、显式预测——但缺少系统的对比研究。研究者们不清楚在什么条件下哪种架构更优,不清楚显式预测是否真的必要,不清楚联合训练带来的收益是否值得额外的复杂度。
综述提出了一个值得验证的假设:也许显式的像素级预测并不是必需的。最近的一些工作发现,去掉测试时的未来帧生成模块,模型的控制性能并没有明显下降。这说明世界模型的主要作用可能不是在推理时生成未来图像,而是在训练时提供辅助梯度信号。
如果这个假设成立,那么可以设计一种更高效的架构:在潜在空间里预测未来状态的抽象表征,而不是重建完整的像素帧。这样可以把计算成本降低一个数量级,同时保持相近的控制性能。JEPA是这个方向的代表,但还需要更多的实证研究来验证。

世界行动模型训练的具身数据全景图
第二个挑战:数据效率的瓶颈。虽然机器人数据在快速增长,但相比语言模型的训练数据,仍然存在数量级的差距。GPT-3用了45TB文本数据,而最大的机器人数据集大约10TB左右,相差约4.5倍。
更重要的是,机器人数据的采集成本远高于文本数据。一条高质量的遥操作轨迹需要几分钟到几十分钟,而爬取一篇网页只需要几毫秒。这个成本差异意味着机器人数据很难达到语言数据的规模。
解决方案有三个方向。第一是合成数据生成,比如MimicGen和DexMimicGen,用少量真实数据生成大量变体。第二是自监督学习,从无标注的视频中学习物理常识。第三是大规模利用人类视频,这是最有潜力但也最具挑战性的方向。
综述展示了一个初步的scaling law实验。横轴是预训练数据规模,纵轴是zero-shot任务的成功率。曲线显示,数据规模每增加10倍,成功率提升10-15个百分点。这个趋势在100万轨迹的规模上还没有饱和,说明继续扩大数据规模可能仍然有效。
但这里有个关键问题:数据质量和数据规模哪个更重要?综述没有给出明确答案,但提供了一些线索。在相同数据规模下,高质量的遥操作数据比低质量的自动采集数据效果好30%。但10倍规模的低质量数据可以弥补这个差距。这说明在当前阶段,规模可能仍然是第一位的。
第三个挑战:安全性保障。机器人在物理世界操作,错误可能导致伤害。这不只是一个技术问题,更是一个系统工程问题。综述提出了三个评测维度:碰撞检测、力控制、异常恢复。
碰撞检测是最基础的要求。模型必须能够预测动作是否会导致碰撞,并在碰撞发生前停止。这听起来简单,但实际上比较困难。因为碰撞检测需要精确的几何建模和动力学预测,而这正是当前模型的薄弱环节。
力控制更进一步。不仅要避免碰撞,还要控制接触力的大小。比如抓取易碎物品时,力太小会掉落,力太大会损坏。这需要模型具备精细的触觉感知和力反馈控制能力。
异常恢复是最难的部分。当任务执行出错时,模型能否识别异常并采取补救措施?比如物体掉落了,模型能否重新抓取?工具卡住了,模型能否换个角度尝试?这需要模型具备高层的任务理解和灵活的应变能力。
综述指出,当前的WAM在这三个维度上都还比较薄弱。大多数模型只在理想条件下测试,一旦遇到意外情况就容易失败。要走向实用,安全性评测需要成为标准流程的一部分。
PART 06
结语与未来:一次阶段性的技术盘点
这是一篇来自复旦大学、上海创新研究院、新加坡国立大学等多个机构的联合工作。作者团队覆盖了具身智能的各个方向——有做仿真的,有做基础模型的,有做数据采集的,有做真机部署的。这种跨领域的合作在学术界并不常见,但对于WAM这样一个需要全栈思考的问题,这种合作可能是必要的。
这份综述的价值不在于提出新算法,而在于建立了相对统一的分类框架。它把过去三年碎片化的研究整合成较为清晰的技术图谱,用数据展示每个方向的进展情况,指出了下一阶段可能需要关注的核心问题。
从技术发展的角度看,这份工作传递了几个信号。第一,数据正在成为重要的竞争要素。谁掌握大规模、高质量的机器人数据,谁可能就有先发优势。第二,通用性正在成为重要的研究方向。专用策略的时代可能正在结束,foundation model是一个值得探索的趋势。第三,评测体系正在成为重要的基础设施。benchmark的完善程度,在一定程度上影响着技术迭代的速度。
这份综述标记了机器人操作领域WAM方向的一个阶段性总结。它梳理了现有工作,指出了未解决的问题,为后续研究提供了参考框架。数据、模型、评测三条线正在逐步完善,但距离真正的通用机器人操作能力,仍然有相当长的路要走。
项目地址:https://openmoss.github.io/Awesome-WAM/
论文地址:https://arxiv.org/pdf/2605.12090