Agent 的记忆也会被投毒：长期记忆安全的六阶段框架

张

张建站

2026/5/17 2:29:31

10分钟阅读

过去我们更习惯把大模型的风险理解为“这一轮输入有没有问题”“这一轮输出会不会越界”。但有了长期记忆之后风险结构发生了变化。恶意内容不一定在当场触发也不一定在同一轮任务里显现出来。它可以先悄悄进入记忆在几天后、另一个会话里、另一个任务中被重新检索出来再进一步影响规划、工具调用和执行路径。这篇题为《A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty》的综述论文做的最重要一件事就是把“长期记忆安全”从一个零散问题整理成了一套完整的分析框架。作者提出Agent 的长期记忆应该被当作一个可写、可检索、可传播、可回滚的系统状态来治理。这也是全文的核心概念——Mnemonic Sovereignty也就是“记忆主权”。如果说提示注入关注的是“这一轮对话被不被带偏”那么这篇论文讨论的是一个会记住历史、会积累经验、会跨任务行动的 Agent究竟该如何守住自己的记忆边界。“长期记忆”是新的攻击面很多人会直觉地认为长期记忆不过是“更长的上下文”或者“更聪明的 RAG”。但这篇论文明确指出长期记忆和长上下文不是一回事。长上下文解决的是“当前这轮能放多少信息”而长期记忆解决的是“系统在多轮、多任务、多会话之间如何保存状态并让这些状态持续影响未来行为”。这里最关键的差别有三个。第一它是持久的。一条内容一旦被写入长期记忆就不会随着当前对话结束而消失它可能在未来反复被取回。第二它是行为相关的。长期记忆不是静态档案。Agent 会利用记忆来决定怎么规划任务、调用什么工具、优先使用哪种策略、甚至信任哪些信息源。第三它会传播。在多 Agent 场景、企业场景、共享知识库场景里记忆不仅影响当前 Agent还可能影响别的 Agent、别的用户、别的工作流。这意味着长期记忆一旦被污染问题就不再只是“这次回答错了”而可能变成未来多轮任务持续受影响Agent 的经验总结被带偏高权限工具调用路径被劫持不同用户、不同 Agent 之间发生跨主体污染敏感信息通过记忆被长期保存并被间接提取。从这个角度看长期记忆更像是Agent 的系统状态层而不只是一个“补充上下文”的功能模块。“六阶段记忆生命周期”框架这篇论文最值得记住的不是某一个具体攻击案例而是它给出了一个非常清晰的分析框架把长期记忆安全拆成六个阶段来理解。这六个阶段分别是1Write写入系统在什么条件下、以什么方式、根据什么规则把内容写入长期记忆。这一步看似简单实际上是整个记忆安全的起点。因为很多风险都不是攻击者直接写数据库而是诱导 Agent“自己决定把有问题的内容记住”。这类写入可能来自用户对话、网页内容、工具输出、文档内容甚至来自其他 Agent 的消息。论文的核心追问是系统是否把“写入长期记忆”视为一次需要验证的状态变更还是默认外部内容都可信。2Store存储与管理内容写进去之后并不是原封不动地躺在数据库里。它会被压缩、摘要、分类、合并、更新、打标签甚至通过反思机制被提升为“经验”。这一步很容易被低估但论文认为恰恰是这里决定了很多问题会不会被放大。因为一条原始污染信息可能在存储管理阶段被“压缩成更高置信度的经验”。3Retrieve检索未来任务到来时系统会根据什么把某些记忆重新取回如果检索只看语义相似度那么一些本来不该在当前场景触发的内容也可能被错误召回。检索一旦失守污染记忆就有机会重新进入上下文。4Execute执行记忆被取回后如何参与 Agent 的计划制定、工具调用和任务执行。这一步是从“信息污染”升级为“行为劫持”的关键。因为被取回的记忆不只是影响回答内容还可能影响真正的行动路径。5Share共享记忆会不会在不同 Agent、不同用户、不同系统之间共享和传播。在多 Agent 架构和企业级平台里这一步非常关键。共享一旦缺乏边界管理某个 Agent 的污染记忆就可能变成系统级问题。6Forget / Rollback遗忘与回滚出了问题之后系统能不能找到污染源、删除记忆、清除衍生摘要、撤销影响并把状态恢复到安全版本。这一步往往是最难的。因为现实中很多系统能“存”也能“查”但做不到真正意义上的“忘记”和“回滚”。这套框架和传统提示注入的区别这篇论文反复强调一点长期记忆攻击最大的危险不在于它更复杂而在于它把“注入”和“触发”分离开了。传统提示注入一般发生在同一轮对话里攻击内容进入上下文模型当场被带偏问题也当场暴露。但长期记忆攻击的路径完全不同。它可能先在写入阶段埋下一颗“毒种”然后安静地躺在记忆库里。几天以后在另一个用户任务中系统因为语义相似把它召回它再去影响规划、执行和工具调用。也就是说攻击窗口和攻击效果在时间上是错开的。这会带来两个直接后果一是单轮检测机制经常看不到完整攻击链。二是很多安全系统即使只检查“当前输入”和“当前输出”依然会漏掉真正的问题。论文里最有启发的一点就是它把长期记忆攻击理解成一种跨阶段、跨时间、跨会话的状态污染。这个视角其实比“提示注入的一个变种”要更准确。01 写入阶段攻击者不需要很高权限也能埋下持久毒素论文在写入阶段总结了近几年攻击演化的一个明显趋势攻击门槛在下降但影响范围和持续时间在上升。这张图很有代表性作者用时间轴展示了长期记忆写入攻击的演化方向早期攻击往往需要较高权限比如直接控制存储侧、污染知识源或者对系统内部流程比较了解。而随着 Agent 能力增强越来越多攻击开始借助正常交互路径完成写入例如诱导 Agent 自动记忆某条“用户偏好”借由网页内容、文档内容、工具输出把恶意信息带入记忆利用自动摘要、自动反思、自动经验提炼机制把一次外部观察变成长期状态。这意味着攻击者不一定要“入侵”系统甚至不一定要直接接触记忆接口。他只要让 Agent看到某些内容并让系统误判为“值得记住”就可能完成投毒。这对工程实践的启发很直接长期记忆写入绝不能只靠输入内容过滤。真正需要的是一层“写入门控机制”把每一次写入都当成特权状态变更来处理检查来源、权限、一致性和授权边界。02 存储阶段最容易被忽视却最可能放大风险如果说写入阶段决定“毒能不能进来”那么存储阶段决定的是这颗毒会不会被放大、会不会被保留得更久、会不会变得更像一条可信经验。这篇论文对存储阶段的分析很有价值因为很多系统设计者天然会觉得把历史内容做摘要、做压缩、做反思本质上是在“提炼高价值信息”。但论文提醒我们现实中未必如此。长期记忆进入存储层之后通常会经历几类处理从原始对话中抽取关键信息把多条历史压缩成摘要根据事件、人物、主题做组织把一次任务过程总结成“经验”在新旧记忆冲突时尝试做更新或融合。问题在于这些处理本身就可能引入新的风险。一类是压缩放大型毒素。原本只是一次对话里的一句恶意内容在压缩后可能被提炼成一句看起来更像规则、更像结论的话。这样它反而更容易在未来被模型当作高权重信息。另一类是记忆幻觉。作者专门区分了两种失真一种是外部来源造成的污染也就是外部攻击者写入了恶意信息另一种是系统自己在抽取、总结、组织、更新过程中“编出来”的错误也就是模型在存储侧发生的幻觉。这个区分很关键因为很多时候问题并不一定来自攻击而可能来自系统自身的过度概括、错配归因、错误融合。换句话说长期记忆的风险不只来自“别人投毒”也来自“系统自己记错”。这也是为什么论文认为长期记忆治理不仅需要防御攻击还需要有来源标注、版本记录、血缘追踪、压缩可审计这些机制。03 检索与执行阶段记忆一旦被取回就会进入控制流长期记忆安全和普通知识库安全最大的不同在于被召回的记忆并不只是用于“回答问题”它还会影响 Agent 的行为控制。这张图非常适合用来解释论文的核心判断它描述的是一个典型链路Agent 在浏览网页时看到了一段恶意内容系统在总结和反思阶段把它提炼成一条长期记忆过了几天后在另一个任务中这条记忆因为语义相关被取回最终这条记忆又悄悄影响了工具调用或任务执行。这里最值得注意的是真正的危险不发生在记忆写入的那一刻而发生在未来记忆被取回并参与控制流的那一刻。论文认为检索和执行往往不是两个完全分开的失败点而是一个连续链路检索阶段负责把污染内容重新放回上下文执行阶段负责把这段污染内容转化为行动。从这个角度看长期记忆不是普通数据平面而是控制平面的一部分。它不仅影响模型“知道什么”还影响模型“做什么”。这也是为什么只在最终输出层做内容审核通常是不够的因为真正的问题可能早在“记忆召回—任务规划—工具调用”链路里就已经发生了。04 共享阶段多 Agent 时代记忆会“传染”随着越来越多 Agent 系统采用多角色分工、共享工作空间、共享知识库和组织级连接器记忆的风险也不再局限于单个 Agent。论文在 Share 阶段提出了一个非常现实的问题长期记忆一旦可以跨主体共享污染就可能跨主体传播。这里至少有两类风险。一类是跨 Agent 传播。一个 Agent 在自己的运行过程中形成了一条有问题的记忆后来这条记忆通过共享记忆库、任务日志、协作黑板、工具消息等通道被另一个 Agent 读到。结果是本来只是局部问题最后变成协作系统里的系统性问题。另一类是跨用户边界泄漏。在企业级 Agent 平台里如果多个用户共用某类记忆服务、知识空间或协作上下文那么记忆边界划分不清就可能发生“甲用户的状态影响乙用户任务”的问题。更严重时还会导致敏感信息跨主体外溢。论文在这一部分虽然没有把篇幅放在大规模实证上但提出的判断非常有启发在多 Agent 系统中不能只盯着最终输出是否合规还必须审计内部消息、共享状态和工具参数流。很多真实泄漏并不是出现在最后回答里而是出现在 Agent 之间的中间交换中。05 遗忘与回滚这是记忆治理里最难、也最关键的一环如果说“写入”是记忆安全的入口那么“遗忘”就是它的终极考验。很多产品都喜欢说自己有记忆能力但真正被问到安全时最难回答的问题通常是这些这条记忆是谁写进去的它来自哪一轮会话、哪一个网页、哪一份工具输出后来它有没有被摘要过、压缩过、反思过它有没有影响过别的记忆单元删除时删的是原文还是摘要还是索引还是全部副本如果已经被别的 Agent 取走并使用过该怎么回滚这篇论文的价值在于它明确指出Forget / Rollback 不是一个简单的删除动作而是一套跨生命周期的治理能力。如果写入时没有记录来源存储时没有记录版本压缩时没有保留血缘检索时没有保留访问日志那么到出事以后系统就很难真正实现以下几件事定位污染源删除全部衍生影响回退到安全版本证明删除已经生效。很多 Agent 平台今天在“记住”这件事上已经走得很快但在“忘记”这件事上还远远不成熟。而从安全角度看是否能忘记、是否能回滚才是真正检验一个记忆系统治理能力的关键指标。“记忆主权”除了六阶段框架这篇论文另一个很有价值的部分是提出了Mnemonic Sovereignty记忆主权这个概念并进一步总结出一组“记忆主权原语”。简单理解所谓“记忆主权”就是系统必须具备这样一些能力把记忆当成明确的对象来管理明确谁能写、谁能读、谁能共享为每条记忆附加来源、主体、时间、敏感度等元数据支持版本管理和历史追踪支持删除语义和回滚能力支持内部通道的审计和可观测性。作者进一步比较了多种代表性记忆架构观察它们对这些原语的覆盖情况。这张图很有意思。它不是在比较“谁更强”而是在比较“谁更完整地考虑了记忆治理”。论文的结论很明确一些架构在能力和效率上做得不错但治理能力并不完整一些更强调记忆管理和共享的架构对治理原语覆盖更多但也依然没有把所有问题解决掉。尤其值得注意的是论文指出两个普遍存在的薄弱点Write Gate写入门控能力不足Deletion Semantics删除语义支持不足这两个点其实正对应了长期记忆安全里最难的前后两端前端是“能不能拦住不该进入的内容”后端是“出了问题之后能不能真正删干净”。启发如果把全文的学术分析翻译成更工程化的话我认为至少有四条非常重要的启示。1. 长期记忆写入必须被当成“特权操作”不能把“记忆写入”设计成一个完全自动、默认可信的后台动作每一次写入都应该有最基本的来源确认、权限约束、内容验证和冲突检测。2. 检索不能只靠相似度语义相似只能回答“像不像”不能回答“该不该在当前任务中触发”长期记忆检索应该叠加更多条件例如主体边界、来源可信度、敏感等级、上下文授权范围。3. 记忆系统要有“数据库式治理能力”一个安全可用的长期记忆服务不应该只有 add / search / delete 这种简化接口。它还应该支持memory object 抽象元数据管理版本与快照血缘追踪访问日志回滚删除验证。4. 多 Agent 场景必须管理内部通道很多团队今天只在最终输出层做风控但长期看这肯定不够。Agent 之间的消息传递、共享记忆读写、工具调用参数、外部连接器访问过程都应该进入可观测和可审计范围。写在最后长期记忆让 Agent 更像一个“持续存在的系统”而不只是一个一次性的问答接口。但只要系统会记忆它就一定会面临三个问题记住什么、为什么记住、出了问题怎么忘记。这篇论文最有价值的提醒是长期记忆不是能力增强的附属品而是 Agent 安全架构中的新边界。当 Agent 开始积累经验、跨任务行动、与其他 Agent 协作记忆就不再只是“帮助模型更懂你”的能力而是会直接决定系统状态、控制路径和安全边界的核心模块。对于今天正在做 Agent 平台、记忆系统、企业智能体和多 Agent 协作框架的团队来说这篇论文提出的问题其实已经不是“未来会不会遇到”而是“什么时候会以工程事故的方式暴露出来”。Agent 会成长但也会记错会学习也会被污染。下一阶段真正决定产品上限的可能不是它“能记住多少”而是它能否守住自己的记忆边界。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】