行为克隆训练出来的机器人，能靠强化学习在2小时内把自己“进化”掉吗？

2026-05-15102具身智能机器人技术及应用人工智能（AI）

机器人学里有个众所周知的尴尬：花大量时间采集人类示范数据，训练出来的行为克隆策略（BC），上线第一天可能还凑合，但它就这样了，不会再变好了。

遇到训练时没见过的场景，BC策略的失败方式往往很难看——不是优雅地降级，而是误差叠误差，然后直接崩。想让它进步？回去收集更多数据、重新训练。这个循环在工业场景里成本极高。

强化学习本来是解这道题的自然答案，但在机器人上做纯RL的代价也很清楚：机器人一边瞎试一边学，要迭代到有用的程度，往往得跑几天，甚至更久。真实机器人的试错成本根本等不起。

来自Robotics and AI Institute、Brown University和Northeastern University的团队，在2026年提出了一个叫Q2RL的方法。核心主张很直接：不扔掉BC策略，也不从头跑RL，而是把BC策略里的“隐藏知识”挖出来，作为在线强化学习的起点。

PART 01

现有方法为什么在这件事上掉链子

把BC和RL结合，听上去是很自然的思路，但工程上有个反复出现的问题：在线RL训练一旦开始，新策略会逐渐把BC阶段学到的好动作覆盖掉，性能在过渡期出现下滑，有时候是永久性的失能。

这背后有个机制上的原因。RL更新策略时，依赖回放缓冲区里的数据。如果缓冲区的数据分布和当前策略产生的分布差距很大，Q函数的估计就会偏，偏了之后策略的更新方向也就歪了。这种分布不匹配在BC转RL的过渡期尤为严重。

更大的问题是：大多数现有的“离线到在线”方法，要么需要把原始示范数据塞进回放缓冲区来稳定训练，要么需要走一遍离线RL预训练流程——而离线RL在小数据集上的表现一直不稳定。CalQL在论文实验里训练了25万步离线梯度，结果在真实机器人的插销任务上成功率只有10%（随机动作版本）和20%（确定性动作版本），还出现了4次安全违规，原因是它学出了训练示范里没有的高冲击动作。而BC策略本身在同一任务上的成功率是70%。

Q2RL想绕过这两个依赖：既不需要原始训练数据，也不需要离线RL预训练。

PART 02

从BC策略身上“读”出价值判断

Q2RL的第一步叫Q-Estimation，核心操作是从一个已经训练好的BC策略里推导出Q函数——也就是让系统知道“在这个场景下做这个动作，到底值多少分”。

这件事能做，依赖一个来自最大熵强化学习理论的核心假设：一个动作被BC策略选择的概率越高，说明它在这个场景下的价值就越大。换一个方向来理解：如果BC策略在某个场景下更倾向于向左走而不是向右走，那“向左”这个动作的价值估分就应该高于“向右”。

这个逻辑背后有更精确的描述。BC策略在某个场景下给每个动作分配了一个选择概率，同时它对动作的判断还体现在另一个维度：策略的“果断程度”。如果BC策略面对某个场景时，几乎只会选一个动作（行为很确定），说明它对这个场景很有把握；如果选什么都差不多（行为很分散），说明它不确定。

把这两个信息结合起来——某个动作被BC策略选择的概率有多高，以及BC策略整体上有多果断——就可以推算出这个动作在这个场景下的Q值估计。场景的基础价值（不管选哪个动作，这个场景本身值多少分）则通过实际交互数据来拟合，由RL框架里的critic网络负责学习。

实际操作中，团队让BC策略在环境里跑若干轮：仿真任务用50到100次完整rollout，真机实验中插销任务用100次rollout，管道组装任务也是100次，套件组装用50次。同时用这些交互数据拟合场景的基础价值估计。整个Q-Estimation阶段的交互量，仿真任务对应2万到5万步学习更新，远比离线RL的几十万步轻量得多。

一个值得注意的工程细节：这个过程不需要访问BC策略的原始训练数据。很多场景下BC策略已经部署，但当时的示范数据因为存储或隐私原因已经拿不到了，Q2RL在这种情况下仍然能工作。

研究团队也做了对这个核心假设的鲁棒性测试：用加高斯噪声或均匀噪声的确定性策略来模拟“不那么理想”的BC策略（现实中的人类示范往往包含次优行为），结果显示Q2RL在在线RL阶段开始后依然能收敛并超越BC基线，只是初期有一个短暂的性能下滑期，然后恢复。

PART 03

让BC和RL在每一步里互相“竞争”

Q-Estimation完成之后，Q2RL进入在线RL阶段，此时系统同时维护两个策略：冻结的BC策略，和正在被训练的RL策略。

每一步决策时，系统分别拿到BC策略想执行的动作和RL策略想执行的动作，然后用各自的价值评估打分：BC的动作用之前估算好的Q值来评分，RL的动作用RL自己正在训练的Q值来评分，哪个分数高就执行哪个。执行完之后，这次交互的数据进入RL策略的回放缓冲区，继续训练RL的价值判断能力。

这个设计的直觉很清晰：RL策略刚开始训练时，它对动作价值的判断还不靠谱，所以Q门控会倾向于选BC动作，避免机器人做出危险或低效的行为。随着RL策略越来越成熟，对高价值状态动作的判断趋于准确，系统自然地把执行权更多交给RL。整个过渡不需要手动设计探索调度，也不需要调超参数来控制“何时从BC切到RL”。

RL策略的Q函数初始化时直接从BC估算的Q值复制权重，这让RL一开始就有一个合理的估计起点，而不是从随机初始化开始乱跑。训练过程中还加入了一个辅助BC损失——相当于给RL策略加了一根“绳子”，让它在早期不要偏离BC策略太远，防止跑进危险动作的空间。

和IBRL（Imitation Bootstrapped RL）的区别在这里很明显。IBRL也做BC和RL动作之间的切换，但只用一个随机初始化的单一Q函数来给两类动作评分。在稀疏奖励、长时程任务里，这个Q函数在训练早期根本没有能力可靠地评估BC动作，切换决策就会出错。Q2RL用冻结的BC价值估计专门给BC动作打分，RL的Q函数专门负责RL动作，两者分开，各司其职。

PART 04

仿真跑出来的数字

研究团队在D4RL（Adroit、Kitchen任务）和Robomimic（Lift、Can、Square）基准上，系统对比了WSRL、CQL、CalQL、IBRL、RLPD等方法。实验分为有离线数据和无离线数据两种条件。

最能说明问题的是无数据条件——回放缓冲区里没有预填充的离线数据，所有方法都只能靠在线交互学习。

在这个条件下，Robomimic的三个任务（Lift-State、Can-State、Square-State）上，WSRL、CQL、CalQL、IBRL的最终成功率几乎全部为0。Q2RL在100k步时Lift-State达到0.86，最终到达1.0；Can-State最终0.82；Square-State最终0.76。

有数据条件下，结果分化更细：Lift-State上IBRL和Q2RL都能做到满分，差距不大；但到了Can-State，IBRL最终0.54，Q2RL是0.85；Square-State上IBRL反而比Q2RL高（0.94 vs 0.81），不过这也是Q2RL在有数据条件下表现相对较弱的任务，论文并没有回避这个数字。

图像输入条件下，离线RL方法（CQL、CalQL）基本直接失效，RLPD在Lift-Image上也是0。IBRL在Can-Image上最终只有0.03，Q2RL能做到0.73。

研究团队还单独和Policy Decorator（一种残差强化学习方法）做了对比。在Can任务上Policy Decorator能追回BC性能并有小幅提升，但在更难的Square任务上，它需要显著更多的交互才能恢复BC性能，而Q2RL在同样的交互步数内已经超越BC基线相当多。

PART 05

真机实验：Franka机械臂上跑了三个任务

研究团队把Q2RL搬到了真实的Franka FR3机械臂上，这是更硬的测试。

硬件配置：机械臂配Robotiq 2F-85夹爪，加了3D打印的“柔性鱼鳍”指尖；两个RealSense D405s摄像头，一个看工作台全局，一个装在手腕上看近景；输入的图像分辨率是84×84 RGB（从480×848裁剪缩放）。策略输出末端执行器的delta位姿和夹爪指令，执行频率10Hz。整套在线训练系统分成actor进程和learner进程，异步运行，平均每小时能跑约13k个RL动作和44k步学习更新。

三个任务的设计有意拉开了难度梯度：

插销任务（Peg Insertion）：把3D打印的插销插入固定板，配合公差1—2毫米。BC策略初始成功率0.70，Q2RL在60k步后达到1.00（20次测试全部成功）。IBRL在40k步时达到0.95，但没能达到满分。

管道组装（Pipe Assembly）：这个任务明显更复杂——机械臂先抓取一段PVC管，再旋转末端执行器对准固定接头，完成插入，同样是1—2毫米公差。BC策略成功率只有0.20，IBRL做了90k步后成功率是0.09，不如BC基线。Q2RL在90k步后达到0.75，是BC的3.75倍。

套件组装改版（Kitting-Modified）：BC策略是在每个料盒只有一个零件的条件下训练的，测试时改成每个料盒放两个零件，位置也不在正中央。这是一个明确的分布偏移场景。BC策略在原始条件下成功率0.95，到改版条件下跌到0.35。IBRL只有0.01——几乎完全不工作。Q2RL跑了165k步，达到0.70。套件组装任务的Q-Estimation阶段用的是原始版本（每个料盒单件）的50次rollout，在线RL的回放缓冲区用改版场景的30次rollout预填充，这个设计模拟了现实中“有旧场景数据但要适配新场景”的典型情况。

从录像里能看到Q2RL的分工逻辑：管道组装任务中，BC动作负责初始的抓管和粗对准，RL动作接手高精度接触阶段的插入；Kitting-Modified里，BC动作处理料盒间的移动，RL动作负责抓取位置变化后的新场景。论文指出这种分工并不是每次rollout都完全一致，但“有意义的切换”是普遍观察到的模式，录像里也包含了恢复类行为——比如插入失败后的重新对准，以及抓取失败后的重新抓取，这些也大多由RL动作主导。

安全性这块，研究团队专门记录：IBRL在插销任务训练中出现了2次安全违规，表现为机械臂向固定板施加过大的力导致故障。CalQL出现了4次安全违规。Q2RL在整个实验过程中没有出现安全违规，研究者认为这和辅助BC损失、Q门控的联合约束有关，两者合力让策略在早期训练阶段输出的动作更接近BC策略的分布，不容易跑偏到危险区域。

PART 06

方法的边界在哪里？

Q2RL当前形式有一个硬性前提：BC策略必须能提供两类信息——某个动作被选择的概率，以及策略整体的行为分散程度（即策略熵）。高斯MLP策略和高斯混合模型（GMM）策略天然满足这个条件，论文实验也全部基于这类策略。但扩散策略（Diffusion Policy）和流匹配策略（Flow Matching）不直接提供这两类信息，这意味着Q2RL目前无法和这两类当前最流行的BC策略架构直接结合。

这不是个小限制。ACT、Diffusion Policy等方法在很多操作任务上已经是BC的事实标准，Q2RL在这个主流生态里暂时缺席。研究团队把扩展到这类策略列为未来工作，但在那个工作完成之前，Q2RL的配套策略架构只能是GMM或高斯MLP。

Q-Estimation阶段的rollout成本也需要实际考量。真机中插销和管道组装任务各需要100次完整rollout，套件组装50次。对于高精密或安全要求严苛的任务，这几十次探索性交互在现实里不是没有成本的。值得一提的是，消融实验显示，仿真条件下25次rollout就能达到有竞争力的性能，100次是为了确保Q估计的稳定性而选择的保守配置——这说明实际应用中rollout数量存在压缩空间。

BC初始性能对Q2RL的效果也有影响，但消融实验给出了相对积极的结论：在Can-State任务上，用初始成功率从10%到75%不等的BC检查点测试，Q2RL在所有初始化条件下都能持续提升性能，并非只有在BC基线本身已经够好的时候才管用。

团队测试的任务都是相对短时程的操作任务，最长的套件组装平均每次约500步，大约是管道组装的两倍。对更长时程、多阶段的任务，价值估计的可靠性和Q门控的切换策略是否还能保持同样效果，目前没有直接数据支撑。另外，所有真机实验的成功信号都依赖人工判断和手动重置——这在实验室里可行，但在更自动化的部署场景里，这一依赖本身就需要额外解决。

PART 07

结语与未来

这个方向上值得关注的一个细节来自Adroit-Door任务的定性结果。论文的数据显示WSRL在Door任务上的成功率高于Q2RL，但把两者的实际rollout拿出来看，Q2RL学出来的是“先抓门把手，再推开门”的真实操作逻辑，而WSRL学出来的动作虽然触发了成功判定，但在现实里根本站不住脚。这个对比说明，成功率数字有时候藏不住策略质量的本质差异。

从更大的图景来看，Q2RL处理的其实是机器人学习里一个越来越实际的问题：大量BC策略已经在现实场景里部署，但它们的天花板摆在那里，而重新从头训练的成本又太高。如何在不推倒重来的前提下让这些策略变得更好，这个问题的重要性会随着BC策略的大规模落地而持续上升。Q2RL给出的答案是：不需要原始数据，不需要漫长的离线预训练，用几十次rollout先把BC策略里的价值判断读出来，然后让BC和RL在每一步里竞争，2小时内完成在线进化。

这套逻辑现在还跑不了扩散策略，也没有在长时程任务上验证过。但对于已经跑在GMM或高斯MLP策略上的机器人系统而言，它提供的是一条真实可走的路。

论文地址：

https://arxiv.org/pdf/2605.05172

项目地址：https://q2rl.rai-inst.com/

精彩推荐

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

成功率从30%到91.7%，RLDX-1告诉你现有机器人模型到底缺了什么？

天星科技的12亿赌注：行业爆发前夜，建4万台产能

Genesis AI重磅发布GENE-26.5机器人基础模型！从烹饪到钢琴，机器人终于能做只有人手才能完成的事了

重磅！丰田把训练机器人大脑的完整流水线开源了，从零开始到能抓东西全过程都有！

精彩文章

扫码手机阅读

行为克隆训练出来的机器人，能靠强化学习在2小时内把自己“进化”掉吗？

精彩推荐

关于我们

友情链接

商务合作