行为克隆训练出来的机器人,能靠强化学习在2小时内把自己“进化”掉吗?

2026-05-15102具身智能机器人技术及应用人工智能(AI)

机器人学里有个众所周知的尴尬:花大量时间采集人类示范数据,训练出来的行为克隆策略(BC),上线第一天可能还凑合,但它就这样了,不会再变好了。

遇到训练时没见过的场景,BC策略的失败方式往往很难看——不是优雅地降级,而是误差叠误差,然后直接崩。想让它进步?回去收集更多数据、重新训练。这个循环在工业场景里成本极高。

强化学习本来是解这道题的自然答案,但在机器人上做纯RL的代价也很清楚:机器人一边瞎试一边学,要迭代到有用的程度,往往得跑几天,甚至更久。真实机器人的试错成本根本等不起。

Image
 

来自Robotics and AI Institute、Brown University和Northeastern University的团队,在2026年提出了一个叫Q2RL的方法。核心主张很直接:不扔掉BC策略,也不从头跑RL,而是把BC策略里的“隐藏知识”挖出来,作为在线强化学习的起点。

 

PART 01

现有方法为什么在这件事上掉链子

 

把BC和RL结合,听上去是很自然的思路,但工程上有个反复出现的问题:在线RL训练一旦开始,新策略会逐渐把BC阶段学到的好动作覆盖掉,性能在过渡期出现下滑,有时候是永久性的失能。

这背后有个机制上的原因。RL更新策略时,依赖回放缓冲区里的数据。如果缓冲区的数据分布和当前策略产生的分布差距很大,Q函数的估计就会偏,偏了之后策略的更新方向也就歪了。这种分布不匹配在BC转RL的过渡期尤为严重。

更大的问题是:大多数现有的“离线到在线”方法,要么需要把原始示范数据塞进回放缓冲区来稳定训练,要么需要走一遍离线RL预训练流程——而离线RL在小数据集上的表现一直不稳定。CalQL在论文实验里训练了25万步离线梯度,结果在真实机器人的插销任务上成功率只有10%(随机动作版本)和20%(确定性动作版本),还出现了4次安全违规,原因是它学出了训练示范里没有的高冲击动作。而BC策略本身在同一任务上的成功率是70%。

Q2RL想绕过这两个依赖:既不需要原始训练数据,也不需要离线RL预训练。

 

PART 02

从BC策略身上“读”出价值判断

 

Q2RL的第一步叫Q-Estimation,核心操作是从一个已经训练好的BC策略里推导出Q函数——也就是让系统知道“在这个场景下做这个动作,到底值多少分”。

Image
 

这件事能做,依赖一个来自最大熵强化学习理论的核心假设:一个动作被BC策略选择的概率越高,说明它在这个场景下的价值就越大。换一个方向来理解:如果BC策略在某个场景下更倾向于向左走而不是向右走,那“向左”这个动作的价值估分就应该高于“向右”。

这个逻辑背后有更精确的描述。BC策略在某个场景下给每个动作分配了一个选择概率,同时它对动作的判断还体现在另一个维度:策略的“果断程度”。如果BC策略面对某个场景时,几乎只会选一个动作(行为很确定),说明它对这个场景很有把握;如果选什么都差不多(行为很分散),说明它不确定。

把这两个信息结合起来——某个动作被BC策略选择的概率有多高,以及BC策略整体上有多果断——就可以推算出这个动作在这个场景下的Q值估计。场景的基础价值(不管选哪个动作,这个场景本身值多少分)则通过实际交互数据来拟合,由RL框架里的critic网络负责学习。

实际操作中,团队让BC策略在环境里跑若干轮:仿真任务用50到100次完整rollout,真机实验中插销任务用100次rollout,管道组装任务也是100次,套件组装用50次。同时用这些交互数据拟合场景的基础价值估计。整个Q-Estimation阶段的交互量,仿真任务对应2万到5万步学习更新,远比离线RL的几十万步轻量得多。

一个值得注意的工程细节:这个过程不需要访问BC策略的原始训练数据。很多场景下BC策略已经部署,但当时的示范数据因为存储或隐私原因已经拿不到了,Q2RL在这种情况下仍然能工作。

研究团队也做了对这个核心假设的鲁棒性测试:用加高斯噪声或均匀噪声的确定性策略来模拟“不那么理想”的BC策略(现实中的人类示范往往包含次优行为),结果显示Q2RL在在线RL阶段开始后依然能收敛并超越BC基线,只是初期有一个短暂的性能下滑期,然后恢复。

 

PART 03

让BC和RL在每一步里互相“竞争”

 

Q-Estimation完成之后,Q2RL进入在线RL阶段,此时系统同时维护两个策略:冻结的BC策略,和正在被训练的RL策略。

每一步决策时,系统分别拿到BC策略想执行的动作和RL策略想执行的动作,然后用各自的价值评估打分:BC的动作用之前估算好的Q值来评分,RL的动作用RL自己正在训练的Q值来评分,哪个分数高就执行哪个。执行完之后,这次交互的数据进入RL策略的回放缓冲区,继续训练RL的价值判断能力。

这个设计的直觉很清晰:RL策略刚开始训练时,它对动作价值的判断还不靠谱,所以Q门控会倾向于选BC动作,避免机器人做出危险或低效的行为。随着RL策略越来越成熟,对高价值状态动作的判断趋于准确,系统自然地把执行权更多交给RL。整个过渡不需要手动设计探索调度,也不需要调超参数来控制“何时从BC切到RL”。

RL策略的Q函数初始化时直接从BC估算的Q值复制权重,这让RL一开始就有一个合理的估计起点,而不是从随机初始化开始乱跑。训练过程中还加入了一个辅助BC损失——相当于给RL策略加了一根“绳子”,让它在早期不要偏离BC策略太远,防止跑进危险动作的空间。

和IBRL(Imitation Bootstrapped RL)的区别在这里很明显。IBRL也做BC和RL动作之间的切换,但只用一个随机初始化的单一Q函数来给两类动作评分。在稀疏奖励、长时程任务里,这个Q函数在训练早期根本没有能力可靠地评估BC动作,切换决策就会出错。Q2RL用冻结的BC价值估计专门给BC动作打分,RL的Q函数专门负责RL动作,两者分开,各司其职。

 

PART 04

仿真跑出来的数字

 

研究团队在D4RL(Adroit、Kitchen任务)和Robomimic(Lift、Can、Square)基准上,系统对比了WSRL、CQL、CalQL、IBRL、RLPD等方法。实验分为有离线数据和无离线数据两种条件。

Image
 

最能说明问题的是无数据条件——回放缓冲区里没有预填充的离线数据,所有方法都只能靠在线交互学习。

在这个条件下,Robomimic的三个任务(Lift-State、Can-State、Square-State)上,WSRL、CQL、CalQL、IBRL的最终成功率几乎全部为0。Q2RL在100k步时Lift-State达到0.86,最终到达1.0;Can-State最终0.82;Square-State最终0.76。

Image
 

有数据条件下,结果分化更细:Lift-State上IBRL和Q2RL都能做到满分,差距不大;但到了Can-State,IBRL最终0.54,Q2RL是0.85;Square-State上IBRL反而比Q2RL高(0.94 vs 0.81),不过这也是Q2RL在有数据条件下表现相对较弱的任务,论文并没有回避这个数字。

图像输入条件下,离线RL方法(CQL、CalQL)基本直接失效,RLPD在Lift-Image上也是0。IBRL在Can-Image上最终只有0.03,Q2RL能做到0.73。

研究团队还单独和Policy Decorator(一种残差强化学习方法)做了对比。在Can任务上Policy Decorator能追回BC性能并有小幅提升,但在更难的Square任务上,它需要显著更多的交互才能恢复BC性能,而Q2RL在同样的交互步数内已经超越BC基线相当多。

 

PART 05

真机实验:Franka机械臂上跑了三个任务

 

研究团队把Q2RL搬到了真实的Franka FR3机械臂上,这是更硬的测试。

硬件配置:机械臂配Robotiq 2F-85夹爪,加了3D打印的“柔性鱼鳍”指尖;两个RealSense D405s摄像头,一个看工作台全局,一个装在手腕上看近景;输入的图像分辨率是84×84 RGB(从480×848裁剪缩放)。策略输出末端执行器的delta位姿和夹爪指令,执行频率10Hz。整套在线训练系统分成actor进程和learner进程,异步运行,平均每小时能跑约13k个RL动作和44k步学习更新。

Image
 

三个任务的设计有意拉开了难度梯度:

插销任务(Peg Insertion) :把3D打印的插销插入固定板,配合公差1—2毫米。BC策略初始成功率0.70,Q2RL在60k步后达到1.00(20次测试全部成功)。IBRL在40k步时达到0.95,但没能达到满分。

Image
 

管道组装(Pipe Assembly) :这个任务明显更复杂——机械臂先抓取一段PVC管,再旋转末端执行器对准固定接头,完成插入,同样是1—2毫米公差。BC策略成功率只有0.20,IBRL做了90k步后成功率是0.09,不如BC基线。Q2RL在90k步后达到0.75,是BC的3.75倍。

Image
 

套件组装改版(Kitting-Modified) :BC策略是在每个料盒只有一个零件的条件下训练的,测试时改成每个料盒放两个零件,位置也不在正中央。这是一个明确的分布偏移场景。BC策略在原始条件下成功率0.95,到改版条件下跌到0.35。IBRL只有0.01——几乎完全不工作。Q2RL跑了165k步,达到0.70。套件组装任务的Q-Estimation阶段用的是原始版本(每个料盒单件)的50次rollout,在线RL的回放缓冲区用改版场景的30次rollout预填充,这个设计模拟了现实中“有旧场景数据但要适配新场景”的典型情况。

Image
 

从录像里能看到Q2RL的分工逻辑:管道组装任务中,BC动作负责初始的抓管和粗对准,RL动作接手高精度接触阶段的插入;Kitting-Modified里,BC动作处理料盒间的移动,RL动作负责抓取位置变化后的新场景。论文指出这种分工并不是每次rollout都完全一致,但“有意义的切换”是普遍观察到的模式,录像里也包含了恢复类行为——比如插入失败后的重新对准,以及抓取失败后的重新抓取,这些也大多由RL动作主导。

Image
 

安全性这块,研究团队专门记录:IBRL在插销任务训练中出现了2次安全违规,表现为机械臂向固定板施加过大的力导致故障。CalQL出现了4次安全违规。Q2RL在整个实验过程中没有出现安全违规,研究者认为这和辅助BC损失、Q门控的联合约束有关,两者合力让策略在早期训练阶段输出的动作更接近BC策略的分布,不容易跑偏到危险区域。

 

PART 06

方法的边界在哪里?

 

Q2RL当前形式有一个硬性前提:BC策略必须能提供两类信息——某个动作被选择的概率,以及策略整体的行为分散程度(即策略熵) 。高斯MLP策略和高斯混合模型(GMM)策略天然满足这个条件,论文实验也全部基于这类策略。但扩散策略(Diffusion Policy)和流匹配策略(Flow Matching)不直接提供这两类信息,这意味着Q2RL目前无法和这两类当前最流行的BC策略架构直接结合。

这不是个小限制。ACT、Diffusion Policy等方法在很多操作任务上已经是BC的事实标准,Q2RL在这个主流生态里暂时缺席。研究团队把扩展到这类策略列为未来工作,但在那个工作完成之前,Q2RL的配套策略架构只能是GMM或高斯MLP。

Q-Estimation阶段的rollout成本也需要实际考量。真机中插销和管道组装任务各需要100次完整rollout,套件组装50次。对于高精密或安全要求严苛的任务,这几十次探索性交互在现实里不是没有成本的。值得一提的是,消融实验显示,仿真条件下25次rollout就能达到有竞争力的性能,100次是为了确保Q估计的稳定性而选择的保守配置——这说明实际应用中rollout数量存在压缩空间。

BC初始性能对Q2RL的效果也有影响,但消融实验给出了相对积极的结论:在Can-State任务上,用初始成功率从10%到75%不等的BC检查点测试,Q2RL在所有初始化条件下都能持续提升性能,并非只有在BC基线本身已经够好的时候才管用。

团队测试的任务都是相对短时程的操作任务,最长的套件组装平均每次约500步,大约是管道组装的两倍。对更长时程、多阶段的任务,价值估计的可靠性和Q门控的切换策略是否还能保持同样效果,目前没有直接数据支撑。另外,所有真机实验的成功信号都依赖人工判断和手动重置——这在实验室里可行,但在更自动化的部署场景里,这一依赖本身就需要额外解决。

 

PART 07

结语与未来

 

这个方向上值得关注的一个细节来自Adroit-Door任务的定性结果。论文的数据显示WSRL在Door任务上的成功率高于Q2RL,但把两者的实际rollout拿出来看,Q2RL学出来的是“先抓门把手,再推开门”的真实操作逻辑,而WSRL学出来的动作虽然触发了成功判定,但在现实里根本站不住脚。这个对比说明,成功率数字有时候藏不住策略质量的本质差异。

从更大的图景来看,Q2RL处理的其实是机器人学习里一个越来越实际的问题:大量BC策略已经在现实场景里部署,但它们的天花板摆在那里,而重新从头训练的成本又太高。 如何在不推倒重来的前提下让这些策略变得更好,这个问题的重要性会随着BC策略的大规模落地而持续上升。Q2RL给出的答案是:不需要原始数据,不需要漫长的离线预训练,用几十次rollout先把BC策略里的价值判断读出来,然后让BC和RL在每一步里竞争,2小时内完成在线进化。

这套逻辑现在还跑不了扩散策略,也没有在长时程任务上验证过。但对于已经跑在GMM或高斯MLP策略上的机器人系统而言,它提供的是一条真实可走的路。

论文地址:

https://arxiv.org/pdf/2605.05172

项目地址:https://q2rl.rai-inst.com/