北大仉尚航团队提出 LaST-R1框架,机器人首次学会"边想边做"!

2026-05-10100

当机器人面对一个拉链时,人类会下意识地预判:拉头卡住时需要微调角度,布料褶皱会影响滑动阻力,手指施力方向必须与拉链轨道严格对齐。这种物理推演能力不依赖语言描述,更接近于直接对物理状态的感知与判断。而当前主流的视觉-语言-动作(VLA)模型,大多停留在"看到→模仿→执行"的被动路径上,缺乏这种对物理状态的内在建模能力。一旦场景稍有偏移,模型便极易失效。

Image
 

近期,北京大学仉尚航团队联合香港中文大学提出的LaST-R1(Latent Reasoning before Acting with Reinforcement Learning)框架,正是针对这一问题提出的解决方案。它不是在原有架构上简单添加推理模块,而是将"潜在空间中的物理推理"直接嵌入强化学习的优化回路,使模型不仅能学"做什么动作",还能学"如何对当前物理状态建立判断"。

 

PART 01

当前VLA模型的核心问题:会模仿,不会适应!

 

当前VLA模型的主流训练方式是监督微调(SFT)——通过大量人类操作演示数据,让模型学习"视觉+语言输入→动作输出"的映射关系。这一方式在结构化仿真环境中表现尚可,但进入真实世界后,面对物体形变、光照变化或未曾见过的物体构型,性能往往大幅下滑。

问题根源直接:SFT让模型记住了"在什么场景下执行什么动作",但没有让模型理解这些动作背后的物理逻辑。一旦环境扰动破坏了训练时的视觉模式,模型的决策便失去依据。

为弥补这一不足,部分研究尝试引入"思维链"(CoT)机制,在执行动作前生成语言描述或未来状态预测。但这条路有明显局限:物理动态是连续、高维的,语言是离散的、低带宽的,强行用语言编码物理过程会导致信息大量损失。另一些工作转向"潜在CoT",用压缩向量代替语言进行推理,表达能力有所提升,但仍依赖静态模仿:潜在推理序列在训练前就已固定,推理过程本身无法通过与环境的交互来改进。

Image
 

LaST-R1的核心贡献在于:将潜在推理过程本身纳入强化学习的优化目标。模型每执行一次任务,环境的成功或失败反馈不仅会修正动作策略,还会同步调整内部的推理表示——哪些推理模式促成了任务成功,就被强化;哪些导致了失败,就被压制。这使得推理能力可以随经验积累而持续改进,而不是固定在监督训练结束时的状态。

 

PART 02

推理与动作如何分工协作?

 

LaST-R1的模型结构分为两个阶段:先生成潜在推理序列,再据此输出动作。

Image
 

LaST-R1 框架

具体流程如下:模型首先接收当前的视觉图像和语言指令,以DINOv3提取的图像特征为基础,自回归地生成一组潜在令牌(latent tokens),最多8个;当模型在某一步输出特殊标记<latent_end>时,推理阶段终止;<latent_end>的隐藏状态随即被送入一个独立的价值头(value head),用于估计当前状态的价值;随后,以整段潜在序列为条件,并行解码出8个动作令牌,驱动机器人执行。

这套流程的关键在于注意力掩码的设计:生成潜在序列时使用因果掩码(causal mask),每个潜在令牌只能看到之前的令牌,保证推理按序进行;解码动作时切换为双向掩码(bidirectional mask),所有动作令牌可同时访问整段潜在序列,实现高效并行解码。两个阶段的掩码策略不同,分别满足推理阶段对逻辑严谨性的要求和动作阶段对执行效率的要求。

视觉特征的提取方案同样经过验证。研究者直接取DINOv3预训练模型的<CLS>token,通过离线top-k筛选保留信息量最高的特征维度,作为潜在推理序列的输入。与全局池化(成功率96.8%)、卷积下采样、Q-Former等其他压缩方案相比,这一方案在LIBERO基准上达到99.8%的成功率,是所有对比方案中最高的。原因在于:DINOv3在预训练阶段已编码了丰富的空间语义和几何关系,其特征本身具备足够的判别力,无需额外训练适配。

 

PART 03

LAPO算法:推理表示如何被强化学习同步优化

 

LaST-R1使用的强化学习算法是LAPO(Latent-to-Action Policy Optimization)。与标准PPO只更新动作分布不同,LAPO同时优化动作输出和潜在推理序列两部分。

具体做法如下:对于动作序列,LAPO沿用标准PPO的策略梯度目标;对于潜在序列,由于嵌入是连续向量,无法直接计算概率比,LAPO用各向同性高斯分布近似其分布,以欧氏距离平方和作为代理损失。两项损失与价值估计损失加权求和,构成最终优化目标,权重配置为:动作损失1.0、潜在损失0.1、价值损失1.0。

这一设计的物理含义直接:当某段轨迹带来正向奖励时,优化过程会显式地拉近当前潜在推理序列与"促成成功的推理模式"之间的距离。也就是说,模型不只在学"下一步该做什么动作",同时也在调整"面对这个场景时应该形成什么样的内部状态表示"。

Image
 

消融实验证实了这一机制的价值:关闭潜在损失项后(即只优化动作),LIBERO-Long任务上的成功率从99.8%下降至94.0%,下降幅度接近6个百分点。

训练完成后,模型的推理长度分布出现了明显变化。预热阶段,模型对2、4、6、8步的选择基本均匀,没有明显偏好;RL优化后,80%以上的样本在2到4步内就生成<latent_end>,主动提前终止推理。这一现象说明:通过环境反馈的持续引导,模型学会了在形成足够的状态表征后及时停止,而不是机械地走满最大步数。推理效率因此显著提升,同时成功率几乎没有损失。

 

PART 04

条数据超过100条,少样本优势从何而来?

 

在LIBERO基准(包含Spatial、Object、Goal、Long四个子集)上,LaST-R1仅用单条专家轨迹进行监督预热,经LAPO训练后平均成功率达99.9%,在四个子集上均排名第一。对比而言,使用完整数据集训练的SFT基线π₀.₅成功率为96.9%,OpenVLA-OFT为97.1%。在难度最高的LIBERO-Long(多步骤长时程任务)上,LaST-R1的99.8%明显高于同样采用RL训练的πRL(94.0%)。

Image
 

在Franka Research 3机械臂上,研究者测试了四项任务:插入六角形积木(单臂)、拉开拉链(双臂)、用海绵擦花瓶(双臂)、拧开瓶盖(双臂)。LaST-R1仅用30条演示数据预热,经在线RL训练后平均成功率达93.75%,高于同等数据量下SFT基线的71.25%。

Image
 

泛化测试设置了三类场景变化:未见过的物体、背景变换、光照变化。SFT基线在未见物体场景下成功率下降超过45%;LaST-R1在未见物体场景的损失控制在15%以内,背景和光照变化几乎不影响其表现。

失败案例集中于任务末端的精细接触阶段:插块时末端轻微偏移、拉拉链时夹爪滑脱、擦花瓶时未建立有效接触、拧瓶盖时提前停止动作。这些失败反映的是当前VLA模型在高精度接触控制上的普遍局限,并非LaST-R1特有的问题。

 

PART 05

结语与未来

 

目前LaST-R1仍有一定的局限性,推理长度的动态性仍受约束:最大步数硬性限定为8,候选终止位置只有4个,还不是真正意义上的"完全自由推理"。研究团队指出,后续可以探索门控机制或停止概率头,让模型在任意时刻自主决定是否终止,而无需预设候选位置。

真实世界测试目前只覆盖桌面级单臂和双臂操控,尚未扩展到多指灵巧手或全身人形机器人平台,这两类场景在状态空间复杂度和物理动态多样性上都有本质提升,现有框架能否平稳迁移仍需验证。此外,模型对模糊或存在歧义的语言指令的处理能力、在安全敏感场景下的行为可预测性,都是工程落地前需要正视的问题。

总体来看,LaST-R1提供了一条相对清晰的技术路径:不依赖大规模数据堆砌,而是通过让推理过程本身变得可优化,提升模型面对新场景时的适应能力。从实验数据来看,这一思路在仿真和有限真实场景下已经取得了可验证的效果。从实验室到更广泛的实际部署,仍有相当距离,但这个方向值得持续跟踪。

论文地址:https://arxiv.org/pdf/2604.28192

项目地址:https://siriyep.github.io/last-r1/