密歇根、斯坦福、Figure AI 联合牵头！机器人记忆基准 RoboMME 重磅发布！

李鑫2026-03-151418机器人技术及应用

让机器人把指定颜色的立方体放进箱子并准确计数，在物体被遮挡后仍能追踪其位置，重复之前演示过的动作轨迹，这些看似简单的操作，背后都离不开"记忆"的支撑。长期以来，机器人在复杂场景下的历史依赖型任务表现不佳，核心原因之一就是缺乏标准化的记忆能力评估体系。

密歇根大学、斯坦福大学、Figure AI等机构联合推出的RoboMME benchmark，首次将机器人记忆划分为 temporal（时间）、spatial（空间）、object（物体）、procedural（程序）四大维度，通过16个细分任务和770k高质量训练时序，为记忆增强型机器人策略提供了统一的评估标准。这一突破不仅解决了此前评估碎片化的问题，更通过14种记忆增强型VLA模型的对比实验，揭示了不同记忆表征的适用场景。

01.

为什么机器人"记性差"？传统评估的三大痛点

在RoboMME出现之前，机器人记忆相关的评估一直存在明显短板。现有基准要么只聚焦单一记忆类型，比如MemoryBench仅关注空间记忆，要么任务 horizon 过短，无法真正考验长期记忆能力。更关键的是，大多数基准允许机器人仅通过即时感知就能完成任务，难以触发真正的历史依赖推理。

实际应用中，机器人需要处理的场景远比想象中复杂。比如家庭服务机器人擦拭桌子时，需要记住已经清洁过的区域；工业机器人装配零件时，要回忆上一步的操作位置；甚至简单的"重复三次动作"指令，都需要时间记忆来计数。这些任务的共同特点是，相同的当前观测可能对应不同的历史背景，必须依赖记忆才能做出正确决策。

RoboMME的核心创新在于，所有任务都被设计为非马尔可夫过程，强制机器人调用历史信息。例如在StopCube任务中，机器人需要监测不断摆动的立方体，在它第N次经过目标时精准按下停止按钮，既需要记住次数（时间记忆），又要追踪位置（空间记忆），任何单一感知都无法完成。

02.

四大记忆维度+16项任务，全面覆盖机器人记忆场景

RoboMME的任务设计灵感源自人类记忆的认知理论，将机器人记忆需求拆解为四个核心维度，每个维度对应四个细分任务，形成完整的评估体系。

时间记忆（temporal memory）聚焦事件计数与序列排序，典型任务包括BinFill和StopCube。在BinFill中，机器人需要将指定数量的不同颜色立方体放入不透明箱子，由于无法直接观察箱内情况，必须通过记忆追踪已放置的数量；而StopCube则要求在立方体第2-5次经过目标时按下按钮，考验精准的时序计数能力。

空间记忆（spatial memory）侧重遮挡与场景变化下的位置追踪，VideoUnmaskSwap任务最具代表性。机器人先观看容器遮挡立方体并交换位置的视频，随后需要准确找出隐藏目标立方体的容器，整个过程中无法依赖实时视觉反馈，完全依靠对视频中空间关系的记忆。

物体记忆（object memory）关注跨时间的物体身份识别，PickHighlight任务中，机器人按下按钮后会看到特定立方体被短暂高亮，之后需要在无高亮提示的情况下，准确拾取之前记住的目标物体。而VideoRepick任务则要求机器人从视频中学习特定立方体的特征，即使该立方体被移动或与其他相似物体混合，仍能重复拾取动作。

程序记忆（procedural memory）负责存储和复现动作模式，PatternLock任务中，机器人需要观看演示视频中末端执行器在网格上的移动轨迹，之后精准复现相同的路径顺序，误差超过阈值即判定失败。InsertPeg任务则要求记住拾取钉子的特定端部和插入方向，考验精细动作的记忆能力。

这些任务的难度分为简单、中等、困难三个等级，通过场景杂乱度、任务时长和环境动态性调节。数据集中包含1600个演示样本，单个任务的执行步数从几百到一千多不等，充分模拟真实场景中的长 horizon 需求。

03.

14种模型实测：没有"万能记忆"，只有"精准匹配"

基于RoboMME基准，研究团队构建了14种记忆增强型VLA模型，均基于π₀.₅骨干网络，分别采用symbolic（符号）、perceptual（感知）、recurrent（循环）三种记忆表征，搭配三种不同的整合机制，形成完整的对比体系。

符号记忆通过语言子目标总结历史信息，比如将"已放置2个绿色立方体"编码为文本指令，再与任务描述拼接输入模型。实验中，采用QwenVL生成的grounded subgoals（带坐标标注的子目标）在BinFill等计数任务中表现突出，成功率达到72.08%，但在StopCube等时间敏感型任务中几乎失效，成功率接近0。这是因为语言符号难以捕捉精细的时序动态信息。

感知记忆直接保留历史视觉特征，通过帧采样（FrameSamp）或令牌丢弃（TokenDrop）筛选关键视觉信息。其中FrameSamp+Modul组合表现最佳，整体成功率达到44.51%，在PatternLock等动作复现任务中优势明显，成功率高达53.56%。值得注意的是，TokenDrop由于过度裁剪空间上下文，在需要全局视野的任务中表现不如FrameSamp，印证了视觉完整性对空间记忆的重要性。

循环记忆通过TTT（测试时训练）或RMT（循环记忆Transformer）压缩历史信息，但其表现出人意料地最差，整体成功率仅在18%-22%之间。研究人员分析，这可能是因为π₀.₅的浅层循环结构导致训练不稳定，有效的循环记忆需要更深层次的架构整合。

三种整合机制中，memory-as-modulator（记忆作为调制器）表现最为均衡，通过自适应LayerNorm调节动作专家的中间激活，既保留了原始模型的预训练特征，又能有效融入记忆信息。而memory-as-expert虽然增加了专门的记忆处理模块，但由于参数规模扩大和训练难度增加，并未带来显著性能提升。

04.

效率与性能的平衡：感知记忆成最优解

在机器人实际部署中，计算效率与性能同样重要。RoboMME的实验显示，不同记忆表征的计算成本差异显著：依赖外部VLM生成子目标的符号记忆模型，计算量是基础π₀.₅的3倍；MemER模型由于结合了关键帧存储和符号子目标，计算量更是达到5倍。

相比之下，感知记忆模型展现出更优的效率-性能平衡。FrameSamp+Modul在记忆预算从64增加到512 tokens的过程中，成功率稳步提升，而计算量仅适度增加。这是因为其计算主要集中在视觉令牌处理，记忆整合本身仅引入轻微开销。研究人员发现，通过缓存重复的视觉令牌或减少VLM推理频率，还能进一步降低计算成本。

更重要的是，这些趋势在真实世界实验中得到了验证。在对应BinFill的PutFruits任务中，符号记忆模型成功率达到90%，擅长计数；而在模仿轨迹的DrawPattern任务中，感知记忆模型成功率80%，远超前两者。这表明RoboMME在仿真环境中得出的结论具有很强的迁移价值。

05.

人类vs机器：90.5% vs 44.51%，差距在哪里？

为了建立性能上限，研究团队还进行了人类对比实验。18名参与者通过VideoQA方式选择高level动作，由oracle planner负责低level执行，最终达到90.5%的整体成功率。但人类并非完美，在长horizon的PatternLock任务和时间敏感的StopCube任务中，仍会出现忘记轨迹细节或计数错误的情况。

人类与最优模型（FrameSamp+Modul）的差距主要体现在三个方面：一是对模糊信息的处理能力，人类能快速识别关键历史信息，而机器容易被冗余数据干扰；二是记忆的泛化性，人类能将一种场景的记忆经验迁移到相似任务，机器则依赖大量标注数据；三是错误恢复能力，人类发现记忆偏差后能快速调整，机器往往会持续犯错。

这些差距也指明了未来的研究方向。研究团队表示，RoboMME目前聚焦桌面操作场景，未来将扩展到移动操作任务，并引入更多VLA骨干网络。而结合符号记忆的高-level推理优势和感知记忆的低-level精准性，可能是实现更强大记忆增强型机器人的关键路径。

从技术落地来看，RoboMME的价值不仅在于评估，更在于为实际开发提供指导。比如工业机器人可优先采用感知记忆提升装配精度，服务机器人可结合符号记忆优化任务规划，这些基于实验数据的选型建议，将加速记忆增强型机器人的产业化进程。随着基准的完善和模型的迭代，未来机器人有望真正摆脱"健忘"的标签，在复杂场景中展现出类人的记忆与推理能力。

论文地址：https://arxiv.org/abs/2603.04639

项目地址：https://robomme.github.io/

精彩推荐

天安新材战略投资若铂机器人

美国2025年上半年机器人售出17635台机器人

百亿基金助发展，首试首用促落地！机器人企业落户北京，优势几何？

梦想探索，永不止步|优必选科技2025届校园招聘正式启动

全国首家人形机器人创新中心摘取最闪亮的“明珠”

精彩文章

扫码手机阅读

密歇根、斯坦福、Figure AI 联合牵头！机器人记忆基准 RoboMME 重磅发布！

精彩推荐

关于我们

友情链接

商务合作