近年来,Transformer模型在自然语言处理等领域取得了巨大成功,但在处理需要长时程记忆的序列决策任务时,它面临着显著限制。在面对一些长序列的任务时,随着时间推移,视觉输入和其他环境信息会迅速超出Transformer的上下文处理能力。
现有解决方案大多徘徊于两个极端:依赖固定大小记忆的循环模型,或需要完整上下文的全量Transformer。前者在长期记忆容量上受限,后者则在长序列推理时面临巨大的计算与存储开销,往往被迫截断历史,导致信息丢失。因此,如何在保留Transformer强大建模能力的同时,使其高效处理长期记忆,成为亟待突破的关键问题。
针对这一挑战,牛津大学等机构的研究团队提出了Memo——一种专为内存密集型、长时序强化学习任务设计的Transformer新架构与训练范式。

▍Memo框架:为Transformer注入“摘要式”记忆
Memo的核心思想是模仿人类的“笔记”行为:让模型在任务执行过程中,自主生成并存储对过去经验的“摘要”。这些学习得到的摘要标记,承载了任务相关的关键信息,使得模型在后续决策时无需回溯全部经历,仅通过检索摘要即可唤醒长期记忆,从而在极小内存开销下维持对长程依赖的理解。

Memo 架构图
其工作流程可概括为:
分段处理: 将长输入序列分割为连续片段。
生成摘要: 在每个片段末尾,生成固定数量的摘要标记。这些摘要并非简单压缩,而是经过优化、与任务目标紧密相关的精华信息。
记忆累积: 将摘要存入一个动态更新的记忆缓冲区,形成不断丰富的“经验库”。在后续决策中,模型可注意力机制关注当前输入与历史摘要。
除了主体框架以外,在技术实现上,Memo还采用了几项关键设计:
首先,它使用特殊的注意力掩蔽机制,确保模型只能通过摘要标记访问过去的信息,形成了有意识的信息瓶颈。这迫使模型学会在摘要中编码最相关的信息。其次,Memo采用灵活的位置编码方案,使模型能够理解每个观测和摘要在时间序列中的位置,这对于理解事件之间的因果关系至关重要。研究人员引入了片段长度随机化技术,即在训练过程中随机变化生成摘要的时间间隔。这增强了模型对不同节奏任务的适应性,防止它过度依赖固定的摘要节奏。
▍实验验证:在长时序任务中的卓越表现
为验证Memo 在长时域任务中的有效性,研究者在两类典型具身智能场景:展物体导航任务(ExtObjNav)和黑暗钥匙开门任务(Dark-Key-To-Door)开展实验,对比其与全上下文 Transformer(FCT)、循环记忆 Transformer(RMT)、自压缩器(AC)等基线模型的性能差异,重点评估记忆效率、长时域泛化能力与流式推理鲁棒性。
在ExtObjNav任务中,智能体需要在复杂的室内环境中连续寻找多个目标物体。这要求智能体记住之前探索过的区域,避免重复搜索相同地点。具体来说,ExtObjNav任务使用了来自 HSSD 的 37 个训练场景和 12 个验证场景并包含来自 YCB 数据集的 20 个对象实例,这些物体可以随机放置在场景中的容器上,每个放置位置平均包含 30 个物体。

实验结果显示,Memo不仅性能优于需要完整上下文访问的Transformer基线模型,而且使用的上下文标记数量减少了8倍。更值得关注的是,Memo在超过训练时见过的序列长度后,仍然保持了强大的推理能力,而传统Transformer模型则表现出了明显的性能下降。

Dark-Key-To-Door是一个基准测试,智能体必须在一个 9x9 的二维网格世界中找到一把看不见的钥匙来打开一扇看不见的门。智能体找到钥匙和门后会获得 +1 的奖励。它在每个时间步只能观察到自身的 (x, y) 坐标,并且必须根据之前的奖励信号记住钥匙和门的位置。
实验结果显示,Memo再次证明了其在长期任务方面的优势——它能够稳定地记住钥匙和门的位置,并在多次试验中持续完成任务。有趣的是,FCT 在所有种子点上,在 3500 万到 4000 万步左右都出现了明显的性能下降,这可能是由于长上下文强化学习中常见的训练不稳定性所致,进一步凸显了全上下文模型在训练方面面临的挑战。

此外,研究人员还通过一系列消融实验,揭示了几个关键发现:
记忆累积胜于固定记忆:与仅保留最新记忆的循环模型相比,Memo的累积记忆机制显著更优。这类似于人类依赖多年积累的智慧,而非仅最近的经历。实验表明,记忆累积为梯度回传提供了类似“残差连接”的路径,使模型能更有效地优化早期记忆的表示。

长程梯度传播不可或缺:当限制梯度仅在短期记忆间传播时,模型性能大幅下降。这表明,要使记忆真正有用,模型必须能够调整所有记忆表示,无论其生成于多久之前。
摘要长度需适中: 令人意外的是,生成过多的摘要标记反而会损害性能。这可能源于信息冗余与噪声引入。研究中,适中的摘要长度(32个标记) 在信息压缩与保留之间取得了最佳平衡。
▍结语与未来
Memo的研究代表了AI向更高效、更智能的长时程推理迈出的重要一步。通过让模型学会自己决定记住什么、如何记住,我们离创建真正能够适应复杂、动态环境的智能系统更近了一步。
这种记忆机制具有广泛的应用前景:从长期自主导航的机器人,到需要理解长期用户偏好的个性化系统,再到需要跟踪多个目标和约束的战略决策系统。Memo展示的不仅是一种具体的技术方案,更是一种可能的范式转变——从试图让模型处理所有信息,转向让模型学会自主管理其注意力与记忆。
当然,这一领域仍有诸多挑战待解:如何让记忆机制更加自适应和可解释?如何在不同任务间迁移和共享记忆?如何平衡记忆的稳定性和灵活性?这些问题将是未来研究的重要方向。