这项由MemTensor上海科技有限公司、HONOR终端有限公司与同济大学联合完成的研究以预印本形式于2026年5月13日发布论文编号为arXiv:2605.09530v2有兴趣深入了解的读者可通过该编号查询完整论文。每次你告诉手机里的AI助手我最近血压有点高帮我给医生写封邮件或者帮我把这份财务报告发到我的工作邮箱你有没有想过这些话会飞到哪里去大多数智能助手背后依赖的是远在云端的强大服务器。你的血压数值、你的邮箱地址、你的财务细节就这样以明文形式传输出去被陌生的服务器接收、存储、甚至长期保留。这个问题本来就已经够麻烦了但更糟糕的是现代AI助手越来越聪明它们能够记住你说过的话——你的饮食喜好、你的日程安排、你的联系人信息——然后在下一次对话中主动运用这些记忆来为你服务。记忆功能让助手变得更贴心但与此同时它也意味着你的私人信息不是被用完就扔而是被长期积累、反复调取。研究人员发现针对AI记忆系统的攻击成功率可以高达75%而多轮对话攻击甚至能以69%的成功率诱导系统泄露用户隐私。用户往往不清楚自己的信息是如何被收集和复用的这种不确定感让很多人选择自我审查——不敢对AI说真心话结果又削弱了AI的帮助质量。MemPrivacy正是在这样的背景下诞生的。研究团队提出了一套本地可逆去标识化框架核心思路可以用一个快递打包的比喻来理解寄快递时你不需要把收件人的真实姓名写在外包装上——你可以贴上一个代号贴纸快递到达你家门口之后你再把代号换回真实信息。隐私保护的本质正是如此让云端服务器处理的是代号版信息真正的敏感内容始终留在你自己手里。一、从一个让人头疼的两难困境说起要理解这项研究的价值先来看看现有方案的尴尬处境。最简单粗暴的做法是全遮挡——把所有敏感内容替换成星号或空白。比如你说我的血压是160/110回复邮件请发到userworkmail.com处理后变成我的血压是***回复邮件请发到***。这样固然保护了隐私但AI收到的是一段残缺不全的信息根本没法正常工作——它不知道血压数值是多少也不知道该往哪里发邮件最终只能回复由于关键信息被遮挡我无法完成这项任务。隐私保住了但有用性也归零了。另一个极端则是什么都不遮挡直接把原始内容发给云端。这样AI能正常工作用户体验很好但隐私就完全暴露在云端服务器上。一旦发生数据泄露或者云端服务被攻击你的所有私人信息都将面临风险。MemPrivacy要解决的正是在这两个极端之间找到一条稳健的中间路线让云端看懂信息的语义结构但永远不知道具体的敏感数值。这个思路的关键在于有类型的占位符typed placeholders。还是用刚才的例子来理解系统不会把160/110替换成***而是替换成不会把邮箱地址替换成***而是替换成。云端收到的是我的血压是回复邮件请发到。云端AI看到这段话立刻明白好这是一条血压数值还有一个邮箱地址现在需要写一封关于健康问题的简洁邮件回复到某个邮箱地址。任务的逻辑和结构完整保留了但具体的私人数值从未离开用户的设备。当云端返回回复草稿时草稿里可能还包含和这两个代号手机本地系统随即查询本地数据库把代号换回原始值用户最终看到的是完整、流畅、包含真实信息的回复。二、一套精心设计的隐私分类体系光有这个基本思路还不够因为不同信息的敏感程度差异悬殊。你的阅读偏好和你的银行密码显然不应该得到同等程度的保护——前者过度保护只会拖累AI性能后者稍有疏漏则可能造成真实的财产损失。研究团队为此设计了一套四级隐私分类体系用PL1到PL4四个等级来描述信息的敏感程度。PL1是最低级别涵盖的是那些无法识别具体个人、也不会造成实质性伤害的信息比如我喜欢辣口味、我习惯早起、我说话比较直接这类个人风格和偏好。这类信息对个性化服务很有价值但泄露出去也不会造成危害因此默认允许云端保留。PL2是可识别个人信息涵盖那些单独或与其他信息结合后能够锁定具体个人的数据。真实全名、手机号、邮箱地址、详细居住地址、工作单位名称、职位头衔都属于这个级别。这类信息的危险在于组合攻击——每一项单独看都不算太严重但一旦被汇总就能精确定位到你这个人。PL3是高度敏感个人信息核心判断标准不再是能否识别身份而是泄露后会不会造成实质伤害。身份证号、护照号码、银行卡号和账户信息、医疗诊断和处方记录、具体的生理指标数值比如血糖值、血压值、精确的位置轨迹和住宿记录、生物特征数据指纹、面部特征、通话和短信的原始内容以及种族、宗教信仰、政治立场等敏感属性都归入这一级别。PL4是最高保护级别其定义标准非常独特不仅仅是描述关于你的信息而是获取后可以立即被用来做坏事的信息。密码、PIN码、验证码、会话令牌、API密钥、私钥、助记词、含有凭证的数据库连接字符串以及企业未公开的财务数据、并购材料、核心算法实现细节……这些信息一旦泄露攻击者无需任何社会工程学手段直接就能登录账号、转移资金或入侵系统。PL4信息的处理原则是零容忍绝对不能进入任何数据库、记忆系统或日志一旦检测到必须立即提醒用户更换相关凭证。用快递的比喻来理解这四个级别PL1就像包裹上写的易碎品标签没什么秘密可言PL2就像包裹上的收件人姓名和地址有一定隐私性PL3就像包裹里装的是医疗检测报告需要妥善保管PL4则像包裹里装的是银行密码信函哪怕是快递员也绝对不应该看到内容。三、系统如何运转一个完整的闭环保护流程整个MemPrivacy系统的工作流程分为三个阶段形成一个从本地出发、经过云端、再回到本地的完整闭环。第一阶段发生在你的设备上叫做上行脱敏。当你对AI助手说出一句话这句话首先不会直接发送出去而是被一个运行在设备本地的轻量级AI模型扫描。这个模型——也就是MemPrivacy模型本身——负责识别语句中所有属于PL2、PL3或PL4级别的隐私内容为每个被识别的片段打上类型标签比如医疗健康信息、邮箱地址、验证码然后把它们替换成带类型标注的占位符。与此同时原始信息和占位符之间的对应关系被安全地存储在设备本地的数据库里而且这个对应关系是跨会话持久保存的——也就是说如果你在不同的对话里多次提到同一个邮箱地址系统会识别出这是同一个信息统一用相同的占位符表示保持前后一致性。用户还可以自定义保护等级比如只保护PL3和PL4或者只保护PL4以此在隐私保护力度和AI服务质量之间寻找最适合自己的平衡点。第二阶段在云端进行叫做云端处理。云端服务器收到的是已经脱敏的文本其中真实的敏感值已被替换为语义化的占位符。由于占位符本身携带了类型信息云端AI仍然能够理解任务的语义结构——它知道是一条健康数值是一个邮箱地址因此能够正确执行任务逻辑、生成相应的回复或更新记忆同时存储在云端的内容永远只包含占位符真实的敏感数值从未出现在云端的任何角落。研究团队特别指出高精度的隐私识别能力是这个阶段成功的关键——如果识别不准确漏掉了某些敏感信息那么这些信息就会以明文形式传输到云端造成隐私泄露相反如果过度识别把本来无害的信息也当成隐私来保护就会破坏AI理解任务所需的语义结构导致服务质量下降。第三阶段再次回到本地叫做下行还原。云端返回的回复中可能仍然包含那些占位符本地系统接收到回复后立即查询本地数据库把每个占位符替换回对应的原始值。这个过程只涉及简单的数据库查询和字符串替换几乎不消耗计算资源延迟可以忽略不计。用户最终看到的是一条完整、自然、包含真实信息的回复整个隐私保护过程对用户完全透明——你不会感知到任何差异只是你的私人信息始终没有离开过你的设备。四、专门为这项任务打造的评测数据集为了验证MemPrivacy的效果研究团队还做了一件很重要的工作他们发现现有的隐私保护研究数据集根本不适合评测这类场景——那些数据集要么没有涵盖四级隐私分类体系要么不反映长期记忆对话的真实特征。于是他们从头构建了一个专属数据集命名为MemPrivacy-Bench。这个数据集的构建过程颇为精心。研究团队首先根据PersonaHub这个包含十亿个人物模板的资源生成了200个完整的虚构用户档案每个档案都包含基本属性、个人偏好以及横跨PL2至PL4各级别的隐私信息平均每个用户档案涵盖约50种类型的隐私内容部分隐私条目还进一步包含多个细粒度的子信息。在这些用户档案的基础上系统生成了多轮对话其中隐私信息有时直接明说有时则隐含在对话语境中模拟真实用户与AI助手交互时的各种方式。为了覆盖尽可能多样的应用场景团队定义了7个高层次场景类别起草与润色文档、财务与数据分析、咨询与规划、技术支持与模拟、情感与社交、情境推理、偏好变化并在这7个类别下进一步细分出23个子类别每个虚构用户随机抽取6到10个子类别来生成对话。最终这个数据集包含约100万个对话词元中英文各占50%训练集来自160个用户的26016轮对话包含超过12.5万个隐私实例测试集来自40个用户的6337轮对话包含近3万个隐私实例。数据集的标注工作采用了AI辅助人工核验的混合流程先由两个最强的大语言模型GPT-5.2和Gemini-3.1-Pro分别独立生成初步标注再经过两轮精炼流程整合两个模型的判断、消除分歧最后由6名经过专业培训的人类标注员对测试集和评测集进行逐条核验。核验标准非常严格每条标注必须原始文本片段、隐私级别、隐私类型三个字段全部正确才算通过只要有一个字段有误就必须修正。经过这套严格流程最终测试集和评测集的标注准确率达到98.08%。除了主体数据集研究团队还专门为下游内存系统评测构建了问答对涵盖六种类型的问题基础记忆问题、时间推理问题、对抗性追问、动态更新问题、隐含推理问题和信息聚合问题。这样的设计能够全面测试AI在使用经过隐私保护处理的记忆时回答各类问题的能力是否受到影响。五、训练出来的小模型能打过庞大的通用大模型MemPrivacy模型的训练分两个阶段进行整个思路可以用学徒学艺的比喻来理解。第一阶段是跟着范本练习也就是监督微调Supervised Fine-TuningSFT。研究团队拿出2.6万条训练样本让模型看人工标注好的答案学着模仿正确的隐私识别方式。这个阶段让模型打下了扎实的基础知道大概什么样的信息属于隐私应该怎么分类和提取。第二阶段是靠练习成绩来提升也就是基于奖励的强化学习使用GRPO算法。在这个阶段模型不再只是模仿答案而是针对每道题生成多个不同的回答然后根据每个回答与正确答案的F1分数一个衡量准确性和完整性综合表现的指标来判断哪个回答最好将最好回答的特征进一步强化将较差回答的特征逐步弱化。这个过程不需要另外训练一个评分员模型而是直接把评测指标本身当作奖励信号让模型优化的方向与最终考核标准完全一致。研究团队最终训练了六个不同规模的MemPrivacy模型参数量从0.6亿到40亿不等分别对应只做监督微调SFT和在监督微调后再做强化学习RL两种训练方式底座模型都来自阿里巴巴的Qwen3系列。实验结果相当令人惊讶。在MemPrivacy-Bench测试集上表现最好的通用大语言模型是Gemini-3.1-ProF1分数达到78.41%GPT-5.2则以68.99%排在后面。而最小的MemPrivacy模型——只有0.6亿参数的MemPrivacy-0.6B-SFT——就已经达到了83.09%的F1分数比Gemini-3.1-Pro高出近5个百分点比GPT-5.2高出超过14个百分点。最强的MemPrivacy-4B-RL更是达到了85.97%比Gemini-3.1-Pro高出7.56个百分点。更重要的是MemPrivacy模型在处理每条消息时的延迟非常低——在反映真实使用场景的PersonaMem-v2评测集上处理单条消息的时间稳定在1秒以内即便是在隐私密度极高的MemPrivacy-Bench测试集上也只需约2秒。而Gemini-3.1-Pro处理同样任务需要将近33秒足足慢了15倍以上。这种速度优势对于需要在手机等边缘设备上实时运行的应用场景来说至关重要。研究团队还做了一个额外的对比实验用三个不同的裁判大模型GLM-5.1、DeepSeek-R1-0528、Qwen3-235B-A22B来评价各个模型输出的质量而不是只看数字指标。三个裁判模型都一致认为所有MemPrivacy变体的表现都明显优于所有通用大模型这说明MemPrivacy的优势不仅仅是在某个特定指标上表现好而是整体输出质量都更高。与此同时与OpenAI于2026年4月开源的隐私过滤专用模型OpenAI-Privacy-Filter的对比也颇能说明问题后者虽然速度极快仅需0.34秒但F1分数只有35.50%比MemPrivacy-4B-RL低了超过50个百分点原因在于它只覆盖了8种隐私类别而且对中文对话中隐含的隐私表达识别能力明显不足。六、保护了隐私AI还能好好工作吗证明了MemPrivacy模型能准确识别隐私之后还有一个核心问题需要回答当隐私内容被替换成占位符之后AI记忆系统还能正常工作吗回答用户问题的准确率会不会大幅下降研究团队选择了三个广泛使用的AI记忆系统——LangMem、Mem0和Memobase——作为测试平台分别对比了三种处理方式完全不保护基准线代表最高可能的服务质量、用星号完全遮挡不可逆遮挡代表传统隐私保护方式、用无类型信息的通用占位符替换无类型占位符遮挡以及MemPrivacy的带类型占位符方案。所有实验都使用GPT-4.1来执行记忆操作和回答问题确保公平对比。结果清晰地验证了研究团队的设计思路。以Mem0为例在完全不保护的情况下系统回答问题的准确率是68.62%。用星号完全遮挡之后准确率骤降到26.75%下降幅度高达41.87个百分点——超过一半的服务质量在保护隐私的过程中消失了。用无类型通用占位符替换之后稍好一些准确率63.90%下降幅度约4.72个百分点但仍然丢失了相当多的服务质量。而MemPrivacy方案同时保护PL2、PL3、PL4级别的隐私下准确率达到67.89%仅比不保护情况下低了0.73个百分点可以说几乎没有损失。如果只保护最敏感的PL4级别信息准确率甚至与不保护情况下完全持平达到68.29%。在LangMem和Memobase上的结果也遵循同样的规律。LangMem在MemPrivacy保护PL2-PL4的情况下准确率仅下降1.30个百分点Memobase下降0.73个百分点。相比之下星号完全遮挡方案在LangMem上导致26.67个百分点的下降在Memobase上导致16.99个百分点的下降。除了准确率之外研究团队还使用了四个衡量回复文本质量的标准指标BLEU-1、BLEU-2、METEOR、ROUGE-L来评估回复的流畅性和信息完整性所有指标都呈现出与准确率一致的趋势——MemPrivacy方案在各项指标上均明显优于两种遮挡基准方案。研究团队还做了一个更精细的分析将所有问题按照与隐私信息的相关程度分成不同比例从完全不涉及隐私到完全基于隐私信息观察三种方案在不同比例下的表现变化。结果发现随着问题对隐私信息的依赖程度增加星号遮挡和通用占位符方案的准确率都急剧下降而MemPrivacy方案的准确率保持相当稳定。这正好说明MemPrivacy设计的核心价值在隐私保护最为关键的场景也就是用户分享了大量私人信息的场景下它的服务质量优势反而最为突出。另一个值得关注的细节是研究团队还测试了用GPT-5.2或DeepSeek-V3.2-Think这类强大的通用模型来替代MemPrivacy模型执行隐私识别任务会发生什么。结果是服务质量大幅下降——在Mem0上GPT-5.2提取隐私后的准确率只有32.21%DeepSeek-V3.2-Think也只有37.58%远不如使用MemPrivacy专用模型的67.89%。这说明整个框架的成败关键就在于隐私识别的精确度识别不准会导致信息过度保护或保护不足两者都会损害最终的服务质量。说到底MemPrivacy这项研究解决的是一个越来越真实的日常困境随着AI助手变得越来越聪明、越来越贴心它们需要记住我们越来越多的私人信息才能更好地服务我们但这恰恰意味着我们的隐私暴露风险也在同步放大。研究团队的答案是让云端只看到语义框架不看到实际内容——用带有类型标签的占位符保住云端AI所需的语义理解能力同时让真实的敏感数值永远留在本地设备上。这种做法不是某种理论上的隐私保护而是一套经过严格实验验证的工程方案在多个真实记忆系统上把隐私保护引入的服务质量损失控制在1.6%以内。当然这项研究也有一些值得继续探索的方向。目前的框架主要处理文字层面的隐私对于图片、语音等多模态信息如何脱敏还有待研究。此外本地MemPrivacy模型虽然已经很轻量但在算力非常有限的老旧设备上的运行效果还有待进一步优化。对普通用户来说一个自然会产生的思考是你的AI助手现在是否已经积累了大量你的私人信息这些信息存储在哪里、谁能访问它们如果你对这些问题没有答案MemPrivacy所代表的本地优先、云端盲处理思路或许值得认真关注。有兴趣深入了解技术细节的读者可以通过arXiv:2605.09530v2查阅完整论文代码也已在GitHub上开源模型权重在HuggingFace上公开发布。QAQ1MemPrivacy的有类型占位符和普通星号遮挡有什么区别A普通星号遮挡会让云端AI完全看不懂信息比如血压是***让AI无法判断要做什么任务。MemPrivacy用这样的占位符替代云端AI能看出这是一条健康数值、任务是处理医疗相关内容但就是不知道具体数字是多少。任务逻辑保留了真实数据没暴露最终用户看到的回复里会重新还原真实数值整个过程对用户完全透明。Q2MemPrivacy四级隐私分类中PL4和PL3有什么本质区别APL3的判断标准是泄露后会造成伤害比如医疗诊断、银行账号、精确位置轨迹——这些信息很敏感但攻击者拿到后还需要额外操作才能造成损失。PL4的判断标准则是获取后可以立即直接用来做坏事比如密码、验证码、API密钥——攻击者不需要任何额外步骤直接就能登录账号、转移资金或入侵系统。PL4的处理原则是零容忍绝对不能出现在任何云端存储中。Q3MemPrivacy模型比GPT-5.2这类超强大模型在隐私识别上表现更好的原因是什么A主要原因有三个。首先MemPrivacy模型是在包含超过12万条隐私实例的专属数据集上针对性训练的而通用大模型只能靠提示词来理解任务要求。其次MemPrivacy的隐私分类体系更细粒度覆盖了50种以上的隐私类型包括中文对话中的隐含表达。第三训练阶段使用了强化学习让模型直接优化评测所用的F1指标目标与考核标准高度一致。通用模型虽然整体能力更强但在这个高度专业化的子任务上反而不如专门调优的小模型。