自变量机器人扔出“王炸”:Wall-WM用“事件级思维”重写世界模型底层范式

Alex2026-05-292651机器人技术及应用

如果你向一个人抛去一个棒球,他接住球的过程流畅而自然:眼睛追踪轨迹,身体调整姿态,手掌在预判的落点稳稳合拢。这个过程中,没有人在脑内设定一个固定的“每0.1秒预测一次”的时钟。人的预测以事件为锚点,球的上升、下落、近手,每一次预测的密度和精度随物理事件的重要性动态调配。

然而,直到今天,绝大多数世界模型和视觉-语言-行动模型,仍然在扮演一个“机械秒表”的角色:它们以固定时间长度为切片,预测未来3秒或5秒的视频帧与动作序列,像是一个被设定好帧率的摄影机,不分轻重地记录每个瞬间。

近日,自变量机器人发布其首个“事件级”世界模型 Wall-WM,并同步公开了一篇重磅技术论文。这或许是近年来对“世界模型底层范式”发起的最系统性质疑之一。



 

01.

文本、视觉与动作的时空错位

论文指出了一个长期被行业回避的根本问题:文本、视觉、动作这三种模态,根本就不生活在同一个流形上。

文本是低熵、离散的语义意图,它的表示空间低维且高度聚集。“抓取红色方块”这几个字在嵌入空间中是一个紧凑的语义点。视觉则是一个高维、连续演化的观测流,被视角、光照、形变持续拉扯。而动作,是受物理和接触约束的严苛控制信号,它的局部几何对接触状态和毫秒级的时序精度极度敏感。

三者对“相似性”的定义甚至都不相容:语义上相近的指令可以对应完全不同的视觉轨迹,而视觉上相邻的两帧状态,可能恰好处于接触发生的临界点,需要完全相反的控制策略。

当前主流VLA的通行做法,是直接将这些模态塞进一个共享嵌入空间联合优化,这本质上是在强行要求一个非线性映射去吸收所有的模态错配。而这种映射的最终归属,往往是训练数据最多的那个模态。

这也是为什么许多 VLA 模型在实际真机部署时,表现远不如其底座视觉语言模型(VLM)理想的原因。预训练中积累的丰富先验,在适配过程中被悄然稀释。



 

02.

“事件”:被重新发现的原子单位

Wall-WM给出的解法,在概念上非常简洁:把“事件”确立为视频-动作学习的最小语义单元。

什么是事件?伸手、抓取、提起、移动、放置——这些是不可再分的、有因果边界的物理行为。一个事件拥有一段连续的、可被语言精确描述的时间窗口;它对应着一段可被视频完整覆盖的视觉过程;它驱动着一组首尾自洽的动作轨迹。三种模态在“事件”这个层级上,第一次共享了同一个边界和同一个语义锚点。

这似乎是一个常识,但在现有VLA的技术框架中,它往往被系统性地忽略了。主流的做法是固定时间长度切块,而这可能在中间位置横跨“接近物体”和“接触物体”两个截然不同的物理阶段,模型被迫在歧义中学习。



 

以事件为锚点重建模型训练的信号,带来的本质变化是:模型不再学习“指令 → 动作”这样一个反应式、静态的对齐,而是在理解“在此事件条件下,物理世界将如何演化,我应当如何执行”。这才是我们之所以把这类模型称为“世界模型”的真实含义。

为了将这一洞察落地,Wall-WM在架构上做出了三条关键设计。

03.

先验保护的工程艺术

第一条设计聚焦于一个看似简单、实则棘手的命题:如何在大规模训练中保护从互联网视频继承的珍贵先验?

Wall-WM的方案是一个层级化的、单向解耦的扩散架构。视觉模块从预训练的Wan2.1视频模型中继承权重,承载着互联网规模下的视觉动态先验;动作模块则完全零初始化,以避免在训练早期污染视频塔。两者的耦合发生在每一层的交叉注意力中——动作流读取视觉证据,但梯度不会回流到视频塔的核心权重。

这一机制的本质,是将跨模态对齐的责任从“改造先验”转移到了“学习耦合”。视觉塔继续扮演它被训练好的角色——一个准确的视频生成器;动作塔则逐渐学习如何从这些视频表征中提取控制信号。两者之间的共享子空间,形成了一种类似“隐式动作表征”的存在——不需要事先猜测码本的大小,也不需要假设一个离散的动作词汇表,却能在规模训练中同时实现“先验稳定”与“控制能力增长”。



 

这在VLA领域是一个不平凡的突破。因为这恰恰是大规模训练时的核心两难:你既不想让模型遗忘预训练知识,又需要它学会全新的控制能力。大多数方案只能在二者之间寻找一个不稳定的平衡点。Wall-WM的单向耦合,提供了一个更优雅的分离方案。

04.

让跨视角注意力学会几何

第二条设计同样体现了这一思路——WALL-WM的几何感知多视角融合。

在真实的机器人部署中,多相机是标配,通常包括一个顶视的广角视野和两个腕部的精细视角。但朴素的跨视角注意力有一个本能的退化倾向,它会在所有可能的位置上寻找关联,因此很容易沦为一种“通用特征混合器”,学习的是一般的视觉相关性而非真正的几何对应。

Wall-WM提出了一对互补的掩码机制来解决这个问题:视锥掩码与管状掩码。

视锥掩码从相机标定参数中推算出每个空间点的可见范围,两个视角间只有存在三维空间交集时才允许注意力通过。这是从拓扑层面“告诉”模型哪些关联在物理上可能成立。然而,仅仅指明通路是不够的——模型完全可能更偏好单视角内的时间线索,从而让跨视角通路闲置。



 

于是第二重机制介入:管状掩码随机抹去某一视角中某个时空“管道”内的所有像素,强迫模型去其他视角中寻找重建所需的信息。如果条件侧也被一起抹去,通往单视角重建的捷径就被彻底关闭,跨视角注意力成了唯一解。

两种掩码互补而成的一个巧妙的力学结构是:视锥掩码决定了注意力“可以往哪里去”,而管状掩码则逼迫它“必须去那里”。于是跨视角注意力从训练中一个“可有可无的潜在能力”,被锻造为“被频繁使用的几何对应原语”。这套机制配合一个无需标定、可直接学习的Camera RoPE位置编码,让多视角融合在大规模多本体训练中变得天然可扩展。

05.

保留可解释性的推理加速

视觉-语言-行动任务中,思维链推理可以显著提升决策质量。但逐token自回归解码的低效让它难以适应机器人所需的实时性。主流的妥协方案是将思维链压缩为连续的潜在向量以换取速度,牺牲的恰恰是推理过程的可解释性。当机器人做出错误决策时,你再也看不到它在“想”什么。

Wall-WM的Staircase CoT Decoding(阶梯式思维链解码)在这个两难之间打开了一条中间通道。

其核心思路是,将VLM的所有层分为低层和高层两段。思维链序列的第一个token完整穿越底层,生成一个“接力状态”;后续所有token跳过冗余的底层计算,直接从这一状态出发,在高层并行展开。这将解码成本从与token数线性相关的O(K·L)削减到O(N+K(L-N))。加速的同时,输出的仍然是真实的、可读的思维链文本,冻结的语言模型可以完整还原推理路径,使得可解释性与实时性不必二选一。



 

06.

一个底座,两种存在形态

值得注意的是,Wall-WM在同一套权重上支持两种部署模式。

在事件模式下,它接受“下一个事件”的自然语言描述,输出变长的、事件对齐的动作块。这适合上游已有规划器、任务可被拆解为清晰子事件的场景,一次预测恰好对应一个完整的动作单元。在统一模式下,VLM配合阶梯式思维链解码在线产生中间推理,以固定长度动作块为条件输出。适合没有外部规划器、需要恒定控制频率的端到端实时部署。

两种模式可在执行过程中以动作块为粒度自由切换,无需任何重训练。这意味着同一个模型,既可以作为底层执行器配合高层规划,也可以脱离规划器独立运行完整闭环。这种部署柔性在真实生产场景中的价值,可能不亚于核心算法的突破本身。

实验数据:大规模真机泛化最佳

Wall-WM的架构创新最终落实为一系列可量化的性能突破,在具身视频生成、3D感知和真机操作基准上均展现出领先水平。

在具身视频生成任务上,Wall-WM相比Wan2.1和Wan2.2,在运动质量、语义一致性和物理合理性三个具身关键维度上全面领先,证明事件级预测不仅能生成更流畅的视觉轨迹,也能更忠实地反映物理交互的因果逻辑。



 

3D感知能力通过CO3Dv2基准进行评测,Wall-WM在点误差和深度误差两项指标上均优于WAN2.1-14B、Open-Sora 2.0、V-JEPA和DINOv2,验证了几何感知多视角融合与掩码机制对于空间理解的有效提升。



 

在最关键的真机Core15 L1基准上,Wall-WM覆盖基础任务、推理任务、灵巧操作和泛化场景,其任务完成分数均显著超过π0.5与DreamZero。在抽象指令设定下,Wall-WM更是当前完成度最高的L1模型之一,表明模型在真实世界中具备稳定的事件级理解和执行能力,而非仅在受控条件下表现出色。



 

07.

结语

从RT-2到OpenVLA,从π0到GR00T N1,过去两年VLA的演进在很大程度上是沿着“更大的数据、更广的语义覆盖、更快的推理”这条主线展开的。这条路线成果斐然,但也暴露了结构性的瓶颈:底座VLM在训练过程中对视觉-动作对应关系的建模始终是反应式的、基于固定时间窗口的。

Wall-WM在这个演进路线上提出了一种范式层面的分叉。它不是在做又一个“跑分更高”的VLA,而是在追问一个更根本的问题:一个真正面向物理世界的世界模型,究竟应该以什么作为其认知和预测的基本单位?

它的答案是事件。那些有因果边界的、可被语言描述、可被视频记录、可被动作执行的物理片段。这既不是对现有路线的否定,也不是概念跳跃。它更像是将人类与物理世界交互的自然粒度工程化为可训练的模型架构与数据协议。

而在通往这个答案的路上,它留下了一系列对于整个具身智能社区有参考价值的工具化思考:如何用单向耦合保护预训练先验;如何用几何掩码将“可选的”注意力机制锤炼为“必需的”感知原语;如何在加速推理的同时保留可解释性。这些问题的提出和解答,或许比任何一个单一的榜单排名都更能标记这个领域的进展。

当世界模型学会以“事件”而不是“时钟”来丈量时间时,机器理解物理世界的粒度,第一次被调整到了与人类直觉相呼应的频率上。

GitHub:

https://github.com/X-Square-Robot/wall-x

项目主页:

https://x2robot.com/pages/wm