密歇根、斯坦福、Figure AI 联合牵头!机器人记忆基准 RoboMME 重磅发布!

李鑫2026-03-151215机器人技术及应用

让机器人把指定颜色的立方体放进箱子并准确计数,在物体被遮挡后仍能追踪其位置,重复之前演示过的动作轨迹,这些看似简单的操作,背后都离不开"记忆"的支撑。长期以来,机器人在复杂场景下的历史依赖型任务表现不佳,核心原因之一就是缺乏标准化的记忆能力评估体系。



 

密歇根大学、斯坦福大学、Figure AI等机构联合推出的RoboMME benchmark,首次将机器人记忆划分为 temporal(时间)、spatial(空间)、object(物体)、procedural(程序)四大维度,通过16个细分任务和770k高质量训练时序,为记忆增强型机器人策略提供了统一的评估标准。这一突破不仅解决了此前评估碎片化的问题,更通过14种记忆增强型VLA模型的对比实验,揭示了不同记忆表征的适用场景。

01.

为什么机器人"记性差"?传统评估的三大痛点

在RoboMME出现之前,机器人记忆相关的评估一直存在明显短板。现有基准要么只聚焦单一记忆类型,比如MemoryBench仅关注空间记忆,要么任务 horizon 过短,无法真正考验长期记忆能力。更关键的是,大多数基准允许机器人仅通过即时感知就能完成任务,难以触发真正的历史依赖推理。

实际应用中,机器人需要处理的场景远比想象中复杂。比如家庭服务机器人擦拭桌子时,需要记住已经清洁过的区域;工业机器人装配零件时,要回忆上一步的操作位置;甚至简单的"重复三次动作"指令,都需要时间记忆来计数。这些任务的共同特点是,相同的当前观测可能对应不同的历史背景,必须依赖记忆才能做出正确决策。

RoboMME的核心创新在于,所有任务都被设计为非马尔可夫过程,强制机器人调用历史信息。例如在StopCube任务中,机器人需要监测不断摆动的立方体,在它第N次经过目标时精准按下停止按钮,既需要记住次数(时间记忆),又要追踪位置(空间记忆),任何单一感知都无法完成。

02.

四大记忆维度+16项任务,全面覆盖机器人记忆场景

RoboMME的任务设计灵感源自人类记忆的认知理论,将机器人记忆需求拆解为四个核心维度,每个维度对应四个细分任务,形成完整的评估体系。



 

时间记忆(temporal memory)聚焦事件计数与序列排序,典型任务包括BinFill和StopCube。在BinFill中,机器人需要将指定数量的不同颜色立方体放入不透明箱子,由于无法直接观察箱内情况,必须通过记忆追踪已放置的数量;而StopCube则要求在立方体第2-5次经过目标时按下按钮,考验精准的时序计数能力。

空间记忆(spatial memory)侧重遮挡与场景变化下的位置追踪,VideoUnmaskSwap任务最具代表性。机器人先观看容器遮挡立方体并交换位置的视频,随后需要准确找出隐藏目标立方体的容器,整个过程中无法依赖实时视觉反馈,完全依靠对视频中空间关系的记忆。

物体记忆(object memory)关注跨时间的物体身份识别,PickHighlight任务中,机器人按下按钮后会看到特定立方体被短暂高亮,之后需要在无高亮提示的情况下,准确拾取之前记住的目标物体。而VideoRepick任务则要求机器人从视频中学习特定立方体的特征,即使该立方体被移动或与其他相似物体混合,仍能重复拾取动作。

程序记忆(procedural memory)负责存储和复现动作模式,PatternLock任务中,机器人需要观看演示视频中末端执行器在网格上的移动轨迹,之后精准复现相同的路径顺序,误差超过阈值即判定失败。InsertPeg任务则要求记住拾取钉子的特定端部和插入方向,考验精细动作的记忆能力。



 

这些任务的难度分为简单、中等、困难三个等级,通过场景杂乱度、任务时长和环境动态性调节。数据集中包含1600个演示样本,单个任务的执行步数从几百到一千多不等,充分模拟真实场景中的长 horizon 需求。



 

03.

14种模型实测:没有"万能记忆",只有"精准匹配"

基于RoboMME基准,研究团队构建了14种记忆增强型VLA模型,均基于π₀.₅骨干网络,分别采用symbolic(符号)、perceptual(感知)、recurrent(循环)三种记忆表征,搭配三种不同的整合机制,形成完整的对比体系。



 

符号记忆通过语言子目标总结历史信息,比如将"已放置2个绿色立方体"编码为文本指令,再与任务描述拼接输入模型。实验中,采用QwenVL生成的grounded subgoals(带坐标标注的子目标)在BinFill等计数任务中表现突出,成功率达到72.08%,但在StopCube等时间敏感型任务中几乎失效,成功率接近0。这是因为语言符号难以捕捉精细的时序动态信息。



 

感知记忆直接保留历史视觉特征,通过帧采样(FrameSamp)或令牌丢弃(TokenDrop)筛选关键视觉信息。其中FrameSamp+Modul组合表现最佳,整体成功率达到44.51%,在PatternLock等动作复现任务中优势明显,成功率高达53.56%。值得注意的是,TokenDrop由于过度裁剪空间上下文,在需要全局视野的任务中表现不如FrameSamp,印证了视觉完整性对空间记忆的重要性。

循环记忆通过TTT(测试时训练)或RMT(循环记忆Transformer)压缩历史信息,但其表现出人意料地最差,整体成功率仅在18%-22%之间。研究人员分析,这可能是因为π₀.₅的浅层循环结构导致训练不稳定,有效的循环记忆需要更深层次的架构整合。

三种整合机制中,memory-as-modulator(记忆作为调制器)表现最为均衡,通过自适应LayerNorm调节动作专家的中间激活,既保留了原始模型的预训练特征,又能有效融入记忆信息。而memory-as-expert虽然增加了专门的记忆处理模块,但由于参数规模扩大和训练难度增加,并未带来显著性能提升。

04.

效率与性能的平衡:感知记忆成最优解

在机器人实际部署中,计算效率与性能同样重要。RoboMME的实验显示,不同记忆表征的计算成本差异显著:依赖外部VLM生成子目标的符号记忆模型,计算量是基础π₀.₅的3倍;MemER模型由于结合了关键帧存储和符号子目标,计算量更是达到5倍。

相比之下,感知记忆模型展现出更优的效率-性能平衡。FrameSamp+Modul在记忆预算从64增加到512 tokens的过程中,成功率稳步提升,而计算量仅适度增加。这是因为其计算主要集中在视觉令牌处理,记忆整合本身仅引入轻微开销。研究人员发现,通过缓存重复的视觉令牌或减少VLM推理频率,还能进一步降低计算成本。



 

更重要的是,这些趋势在真实世界实验中得到了验证。在对应BinFill的PutFruits任务中,符号记忆模型成功率达到90%,擅长计数;而在模仿轨迹的DrawPattern任务中,感知记忆模型成功率80%,远超前两者。这表明RoboMME在仿真环境中得出的结论具有很强的迁移价值。

05.

人类vs机器:90.5% vs 44.51%,差距在哪里?

为了建立性能上限,研究团队还进行了人类对比实验。18名参与者通过VideoQA方式选择高level动作,由oracle planner负责低level执行,最终达到90.5%的整体成功率。但人类并非完美,在长horizon的PatternLock任务和时间敏感的StopCube任务中,仍会出现忘记轨迹细节或计数错误的情况。



 

人类与最优模型(FrameSamp+Modul)的差距主要体现在三个方面:一是对模糊信息的处理能力,人类能快速识别关键历史信息,而机器容易被冗余数据干扰;二是记忆的泛化性,人类能将一种场景的记忆经验迁移到相似任务,机器则依赖大量标注数据;三是错误恢复能力,人类发现记忆偏差后能快速调整,机器往往会持续犯错。

这些差距也指明了未来的研究方向。研究团队表示,RoboMME目前聚焦桌面操作场景,未来将扩展到移动操作任务,并引入更多VLA骨干网络。而结合符号记忆的高-level推理优势和感知记忆的低-level精准性,可能是实现更强大记忆增强型机器人的关键路径。

从技术落地来看,RoboMME的价值不仅在于评估,更在于为实际开发提供指导。比如工业机器人可优先采用感知记忆提升装配精度,服务机器人可结合符号记忆优化任务规划,这些基于实验数据的选型建议,将加速记忆增强型机器人的产业化进程。随着基准的完善和模型的迭代,未来机器人有望真正摆脱"健忘"的标签,在复杂场景中展现出类人的记忆与推理能力。

论文地址:https://arxiv.org/abs/2603.04639

项目地址:https://robomme.github.io/