为Transformer注入长期记忆：Memo框架通过“学会做摘要”解决具身智能核心挑战

10252025-10-291126机器人技术及应用

近年来，Transformer模型在自然语言处理等领域取得了巨大成功，但在处理需要长时程记忆的序列决策任务时，它面临着显著限制。在面对一些长序列的任务时，随着时间推移，视觉输入和其他环境信息会迅速超出Transformer的上下文处理能力。

现有解决方案大多徘徊于两个极端：依赖固定大小记忆的循环模型，或需要完整上下文的全量Transformer。前者在长期记忆容量上受限，后者则在长序列推理时面临巨大的计算与存储开销，往往被迫截断历史，导致信息丢失。因此，如何在保留Transformer强大建模能力的同时，使其高效处理长期记忆，成为亟待突破的关键问题。

针对这一挑战，牛津大学等机构的研究团队提出了Memo——一种专为内存密集型、长时序强化学习任务设计的Transformer新架构与训练范式。

▍Memo框架：为Transformer注入“摘要式”记忆

Memo的核心思想是模仿人类的“笔记”行为：让模型在任务执行过程中，自主生成并存储对过去经验的“摘要”。这些学习得到的摘要标记，承载了任务相关的关键信息，使得模型在后续决策时无需回溯全部经历，仅通过检索摘要即可唤醒长期记忆，从而在极小内存开销下维持对长程依赖的理解。

Memo 架构图

其工作流程可概括为：

分段处理： 将长输入序列分割为连续片段。

生成摘要： 在每个片段末尾，生成固定数量的摘要标记。这些摘要并非简单压缩，而是经过优化、与任务目标紧密相关的精华信息。

记忆累积： 将摘要存入一个动态更新的记忆缓冲区，形成不断丰富的“经验库”。在后续决策中，模型可注意力机制关注当前输入与历史摘要。

除了主体框架以外，在技术实现上，Memo还采用了几项关键设计：

首先，它使用特殊的注意力掩蔽机制，确保模型只能通过摘要标记访问过去的信息，形成了有意识的信息瓶颈。这迫使模型学会在摘要中编码最相关的信息。其次，Memo采用灵活的位置编码方案，使模型能够理解每个观测和摘要在时间序列中的位置，这对于理解事件之间的因果关系至关重要。研究人员引入了片段长度随机化技术，即在训练过程中随机变化生成摘要的时间间隔。这增强了模型对不同节奏任务的适应性，防止它过度依赖固定的摘要节奏。

▍实验验证：在长时序任务中的卓越表现

为验证Memo 在长时域任务中的有效性，研究者在两类典型具身智能场景：展物体导航任务（ExtObjNav）和黑暗钥匙开门任务（Dark-Key-To-Door）开展实验，对比其与全上下文 Transformer（FCT）、循环记忆 Transformer（RMT）、自压缩器（AC）等基线模型的性能差异，重点评估记忆效率、长时域泛化能力与流式推理鲁棒性。

在ExtObjNav任务中，智能体需要在复杂的室内环境中连续寻找多个目标物体。这要求智能体记住之前探索过的区域，避免重复搜索相同地点。具体来说，ExtObjNav任务使用了来自 HSSD 的 37 个训练场景和 12 个验证场景并包含来自 YCB 数据集的 20 个对象实例，这些物体可以随机放置在场景中的容器上，每个放置位置平均包含 30 个物体。

实验结果显示，Memo不仅性能优于需要完整上下文访问的Transformer基线模型，而且使用的上下文标记数量减少了8倍。更值得关注的是，Memo在超过训练时见过的序列长度后，仍然保持了强大的推理能力，而传统Transformer模型则表现出了明显的性能下降。

Dark-Key-To-Door是一个基准测试，智能体必须在一个 9x9 的二维网格世界中找到一把看不见的钥匙来打开一扇看不见的门。智能体找到钥匙和门后会获得 +1 的奖励。它在每个时间步只能观察到自身的 (x, y) 坐标，并且必须根据之前的奖励信号记住钥匙和门的位置。

实验结果显示，Memo再次证明了其在长期任务方面的优势——它能够稳定地记住钥匙和门的位置，并在多次试验中持续完成任务。有趣的是，FCT 在所有种子点上，在 3500 万到 4000 万步左右都出现了明显的性能下降，这可能是由于长上下文强化学习中常见的训练不稳定性所致，进一步凸显了全上下文模型在训练方面面临的挑战。

此外，研究人员还通过一系列消融实验，揭示了几个关键发现：

记忆累积胜于固定记忆：与仅保留最新记忆的循环模型相比，Memo的累积记忆机制显著更优。这类似于人类依赖多年积累的智慧，而非仅最近的经历。实验表明，记忆累积为梯度回传提供了类似“残差连接”的路径，使模型能更有效地优化早期记忆的表示。

长程梯度传播不可或缺：当限制梯度仅在短期记忆间传播时，模型性能大幅下降。这表明，要使记忆真正有用，模型必须能够调整所有记忆表示，无论其生成于多久之前。

摘要长度需适中： 令人意外的是，生成过多的摘要标记反而会损害性能。这可能源于信息冗余与噪声引入。研究中，适中的摘要长度（32个标记）在信息压缩与保留之间取得了最佳平衡。

▍结语与未来

Memo的研究代表了AI向更高效、更智能的长时程推理迈出的重要一步。通过让模型学会自己决定记住什么、如何记住，我们离创建真正能够适应复杂、动态环境的智能系统更近了一步。

这种记忆机制具有广泛的应用前景：从长期自主导航的机器人，到需要理解长期用户偏好的个性化系统，再到需要跟踪多个目标和约束的战略决策系统。Memo展示的不仅是一种具体的技术方案，更是一种可能的范式转变——从试图让模型处理所有信息，转向让模型学会自主管理其注意力与记忆。

当然，这一领域仍有诸多挑战待解：如何让记忆机制更加自适应和可解释？如何在不同任务间迁移和共享记忆？如何平衡记忆的稳定性和灵活性？这些问题将是未来研究的重要方向。

精彩推荐

天安新材战略投资若铂机器人

美国2025年上半年机器人售出17635台机器人

百亿基金助发展，首试首用促落地！机器人企业落户北京，优势几何？

梦想探索，永不止步|优必选科技2025届校园招聘正式启动

全国首家人形机器人创新中心摘取最闪亮的“明珠”

精彩文章

扫码手机阅读

为Transformer注入长期记忆：Memo框架通过“学会做摘要”解决具身智能核心挑战

精彩推荐

关于我们

友情链接

商务合作