清华大学等机构联合揭秘Transformer的“注意力陷阱“问题
这项由清华大学、香港大学、美团LongCat团队、厦门大学、密歇根大学和俄亥俄州立大学联合开展的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.10098。这是该领域首篇系统性综述感兴趣的读者可通过上述编号查询完整论文。---每当你使用ChatGPT、文心一言或其他AI助手时背后都有一套叫做Transformer的架构在驱动。这套架构的核心能力是让AI能够关注输入信息中最重要的部分——就像你读一篇文章时眼睛会自然停留在关键词和核心句子上而不是把每个字都盯同样长的时间。这种选择性关注的能力学术上叫做注意力机制Attention Mechanism。然而有一个长期被忽视的怪现象潜伏在这套机制里AI有时会把大量的注意力集中在某些毫无实质意义的词上——比如句子开头的感叹词、标点符号甚至是一个什么语义都没有的占位符。这些词就像黑洞一样把本该分配给真正重要内容的注意力统统吸走。研究者们给这个现象起了一个形象的名字**注意力沉积Attention Sink简称AS**。这篇综述系统梳理了超过180篇相关研究从三个维度——如何利用它、如何解释它、如何消除它——为整个领域提供了第一份全面的知识地图。---一、先从头说起AI的注意力到底是什么要理解注意力沉积得先搞清楚AI的注意力是怎么工作的。以一个简单的句子苹果很甜为例。当AI处理这个句子时它会让每个词都去询问其他词你对我理解自己有多大帮助这个询问的过程就是注意力计算。最后每个词会得到一份分配方案——比如甜这个词会对苹果给予较高的注意力因为是什么甜这个信息对理解甜至关重要。这套机制有一个数学上的硬性约束所有注意力权重加起来必须等于1。就像你有100元零花钱必须全部花完不能存下来也不能透支。这个约束来自于一个叫做**Softmax**的数学函数——它把一堆原始分数转换成加和为1的概率分布。问题就藏在这个必须花完的规则里。---二、必须花完的钱花到哪里去了回到那100元零花钱的比喻。假设某天你逛超市发现货架上真的没有任何你想买的东西。但规则规定你必须花完这100元——你会怎么办大概率你会随便抓一包薯片或者一瓶矿泉水把钱凑完。AI的注意力机制面临完全相同的困境。当一个词处理它的上下文时如果上下文中没有任何词对它真正有用Softmax函数依然会强迫它把全部100%的注意力分配出去。那多余的注意力去哪了就堆积到了那些最无害的地方——句子开头的词、标点符号、或者什么语义都没有的占位符。这些被堆积了大量多余注意力的词就是注意力沉积词sink token。它们有两个一致的特征第一接收到的注意力远超平均水平有时高达普通词的数百甚至上千倍第二它们本身携带的语义信息极少对AI真正理解内容没有实质贡献。在不同类型的模型里这些垃圾桶词的具体形态有所不同。在像BERT这样的双向语言模型中充当垃圾桶的通常是特殊分隔符[SEP]和分类标记[CLS]。在像GPT、LLaMA这样的生成式语言模型中序列最开始的那个词通常是句子起始标记[BOS]几乎永远是最大的注意力黑洞——研究发现在LLaMA等主流大模型中第一个词在98%的注意力头中都是获得最多注意力的那个。在视觉Transformer中充当垃圾桶的则是图片背景区域的图像块那些纯粹是天空、墙壁等无信息内容的区域。在多模态大模型中文字侧和图像侧各有自己的垃圾桶。---三、这个垃圾桶有多严重你可能会想注意力分配稍微不均匀大不了AI理解稍差一点有那么严重吗研究者们发现后果远比你想象的深远。首先是**推理效率**的问题。现代大语言模型处理长文本时需要把之前看过的信息存储在一个叫做KV缓存的地方可以理解为AI的工作记忆。这个缓存是有上限的——就像你的书桌空间有限放不下所有的书。因此工程师们需要定期清理删掉不重要的内容。但如果不保留那些注意力沉积词AI的表现会急剧恶化就像把书桌上一个看似空白但实际上维持着整个书桌秩序的底座移走一样整个结构会崩塌。其次是**幻觉问题**。多模态AI同时处理图文的模型中注意力沉积会导致AI把本该关注图中重要物体的注意力挥霍在图片背景上。结果是AI看见了背景却忽略了前景中的关键信息进而在描述图片时胡说八道。再者是**量化部署**的困难。为了让大模型跑在手机或嵌入式设备上工程师需要压缩模型精度比如从32位浮点数压到8位甚至4位整数。注意力沉积词会产生极端的数值异常——一个词的某个特征维度数值可能高达几千而其他词的同一维度只有个位数。这种极端不均匀导致量化误差急剧放大压缩后模型性能大幅下降。最后还有**安全隐患**。由于注意力沉积词的位置固定、注意力集中攻击者可以把恶意触发器植入这些位置让模型在正常情况下表现正常但一旦出现特定触发词就复活被删除的有害知识——这是一种难以察觉的后门攻击。---四、研究者们是怎么利用这个现象的这篇综述把研究者对注意力沉积的利用方式归纳为四大类。第一类是**保留沉积词**Sink Token Preservation。既然注意力沉积词是模型稳定运行的锚点最简单的办法就是永远别删它们。以StreamingLLM为例这个系统让AI可以处理无限长的文章核心技巧就是在每次更新工作记忆时保留最开头那几个沉积词再加上最近的一个滑动窗口内的内容——其余中间部分可以大胆删除。实验表明这样做性能损失极小但可以支持理论上无限长的文本流。类似地在视频生成领域研究者发现保留最初几帧视频的记忆作为全局锚点可以让长达几分钟的视频保持前后一致的风格和内容否则视频越到后面越像在另起炉灶。在量化技术中将沉积词保持在高精度16位或32位其余词压缩到低精度2位或4位既节省了内存又避免了性能崩塌。第二类是**注意力重新分配**Attention Redistribution。既然沉积词抢走了本该给重要内容的注意力那就把这部分注意力抢回来重新分配给真正有价值的词。这类方法在多模态AI的幻觉治理上效果显著。一个典型例子是VAR方法它先识别出哪些图像块是垃圾桶被过多注意力盯着却没有语义的背景块然后把这部分注意力重新导向前景中的重要物体。结果是AI描述图片时更准确幻觉明显减少。另一个有趣的应用是ZeroTuning它发现调整第一个词最大的注意力沉积词的注意力得分就像调节一个旋钮一样能间接控制整个模型的注意力分布。通过这个单一旋钮可以在不重新训练模型的情况下优化模型在各种任务上的表现。第三类是**可学习的前缀词**Learnable Prefix Tokens。既然自然产生的沉积词位置不固定、行为难以预测为什么不直接人为插入一个专门设计的吸收词这就是寄存器词register token的概念。在视觉Transformer中在图片patch序列前插入几个可训练的寄存器词训练时模型会学会把所有多余的注意力都倾倒到这些寄存器词上而不是随机选择背景图像块。结果是注意力图变得干净真正的语义结构清晰显现模型在各种视觉任务上的表现都有提升。VGGT这个用于三维视觉理解的Transformer也采用了同样的策略。第四类是**重新利用沉积词**Sink Token Repurposing。注意力沉积词有一些独特的几何和数学性质研究者发现可以把这些性质用于完全不同的目的。比如KeyDiff方法发现沉积词的键向量key vector可以理解为该词的身份标签在高维空间里处于一个非常独特的位置——它和所有其他词的平均位置几乎垂直余弦相似度接近0。这个独特性质可以用来快速识别哪些词是真正重要的信息词和沉积词越不像的词往往越重要从而高效地管理AI的工作记忆。另一个应用是OrthoRank它直接用沉积词作为参考点通过测量其他词与沉积词的垂直程度来评估每个词的信息含量垂直程度越高说明这个词和沉积词越不一样也就越有可能包含真正有用的信息。---五、这个现象到底从哪来五种解释理论理解了注意力沉积的表现和用途接下来要问一个更深的问题这个现象到底为什么会出现研究者们从不同角度提出了多种理论每种都照亮了现象的一个侧面。**Softmax局限与无操作理论**是最早也是最直接的解释。它说的是Softmax的总和必须为1约束使得当AI某个注意力头想要什么都不做时它无法真正做到什么都不做。唯一的替代方案是把所有注意力集中到某个固定的词上同时把那个词的值向量value vector也就是该词能贡献给输出的信息压缩到接近零——这样注意力虽然集中了但因为值几乎是零最终的信息贡献也接近零。这就实现了名义上分配了注意力实际上什么也没贡献的无操作行为。研究者通过一个关键观察验证了这个理论沉积词接收到大量注意力但它们的值向量幅度远小于普通词。换句话说它们就像是一个很大的容器里装着极少的液体——容器看起来很重要实际上里面几乎是空的。当研究者修改Softmax函数让注意力权重不再强制加和为1时注意力沉积现象果然大幅减少甚至消失。**异常值电路理论**提供了更底层的数值机制解释。研究者发现在Transformer模型的权重和激活值中存在一类系统性的异常值——某些特征维度的数值比其他维度高出几个数量级就像一群人中有人身高两米而其他人都在一米七左右。这些异常值通过一条固定的因果链制造出注意力沉积首先某些MLP层的权重矩阵中存在异常大的值这些大值被激活时产生异常大的激活值这些激活值通过残差连接传播使得特定词在特定特征维度上的表示变得极端突出这种突出使得这个词的键向量与几乎所有词的查询向量都能产生异常高的点积Softmax于是把大量注意力权重分配给这个词形成注意力沉积。在混合专家模型MoE一种让不同专家模块处理不同类型信息的架构中研究者还发现了一个惊人现象整个模型中只有极少数几个超级专家Super Experts——比如在Qwen3-30B-A3B这个模型的6144个专家中只有3个超级专家——是产生异常激活值的主要来源。删掉这3个专家整个模型的注意力沉积就会崩溃模型性能急剧下降。这说明注意力沉积现象是由模型内部少数几个关键组件维持的具有高度集中性。**隐式注意力偏置理论**从功能角度解释了注意力沉积存在的意义。这个理论发现注意力沉积词对所有位置的输出贡献几乎是恒定的、与输入无关的——不管你输入什么句子沉积词给每个词的贡献值基本都是同一个固定向量。换句话说沉积词实际上在扮演一个隐式偏置项的角色就像神经网络每个层都有的偏置参数只不过这个偏置是被隐藏在注意力机制里、通过一个词来实现的。验证这个理论最直接的方式是给注意力机制添加显式的偏置参数一个可训练的向量不依附于任何词。当GPT-2在这种修改后的架构上重新训练时注意力沉积现象完全消失——模型直接使用那个显式偏置参数来实现相同的功能不再需要劫持某个词来充当偏置。**几何锚定理论**则从高维空间的几何结构角度提供了解释。在Transformer内部每个词都被表示为一个高维向量比如4096维随着层数加深这些向量会根据语境不断更新。研究者发现注意力沉积词的向量非常特殊它在整个处理过程中几乎不变就像一个固定在原点的锚点而其他词的向量则会逐渐向这个锚点靠拢被它拉着走。这种几何上的稳定性使得沉积词成为整个表示空间的参照系帮助模型维持内部表示的稳定性。除了以上四种主要理论还有几种辅助性的解释视角。其一是**结构偏置**由于因果掩码causal mask一种确保AI处理当前词时只能看到它之前的词而非后面的词的机制的存在序列最开始的词是唯一一个能被所有后续词看见的词这种天然的可见性优势使它成为注意力的天然汇聚点。其二是**反过度混合理论**注意力沉积词通过吸走多余的注意力防止了不同词的表示在深层网络中互相混淆到难以区分的程度——沉积词是一个信息减压阀维持了表示的多样性。其三是**主动-休眠注意力头理论**模型训练过程中各个注意力头会逐渐分化一部分头专门负责接收注意力主动头另一部分头则主要把注意力倾倒给沉积词休眠头这种分工是在训练中通过梯度反馈自然演化出来的。这些理论并非相互排斥而是从不同尺度、不同角度描述同一个现象的不同侧面。---六、如何彻底消除这个垃圾桶如果注意力沉积是个问题能不能从根源上消除它研究者提出了四类策略。第一类是**门控注意力机制**Gated Attention Mechanisms。核心思路是既然Softmax强迫注意力头不得不分配注意力那就给注意力头加一个总闸门——一个可学习的开关可以直接把某个注意力头的整体输出乘以一个接近零的系数从而实现真正的什么都不做而无需依赖注意力沉积词来实现这个效果。最简单的形式是给每个注意力头加一个标量门控值输出 sigmoid(门控参数) × 注意力输出。当模型学到某个注意力头在某种情境下不需要更新信息时门控值会收缩到接近零整个头的输出就被抑制了。这样就彻底打破了注意力必须分配给某个词的循环。实验表明这个改动效果相当显著。在超过30种变体的系统性对比实验中在标度点积注意力SDPA之后加门控是效果最好的位置能把训练损失降低减少训练时的损失尖峰一种训练不稳定的表现并把第一个词获得的平均注意力从46.7%压低到4.8%。这个设计已被Qwen3等产品级模型采用。另一个变体是值状态门控注意力VGA它把门控加在值向量上而非输出上可以从根源上切断注意力高但贡献零的循环。第二类是**修改Softmax函数**Modified Softmax Functions。这条路更激进——直接改变Softmax的数学性质让注意力权重不再强制加和为1。裁剪SoftmaxClipped Softmax把正常Softmax的输出范围从[0,1]扩展后再裁剪使得模型在计算时可以得到精确的零值不需要靠极端的logit值来压制不想关注的词。Softmax-1在分母上加了一个常数1允许所有注意力权重之和小于1给注意力不需要花完留出了空间。在GPT-2规模的模型上这个改动把第一个词获得的注意力从65%降到了3.3%同时把激活值的峰度一种衡量异常值程度的指标从1657降到了3.1。Softpick则更彻底它先算出普通Softmax值然后减去一个阈值并做ReLU截断允许输出精确为零——这意味着模型可以完全忽略某些词而不必给它们任何注意力。在3.4亿参数的模型上注意力沉积率从有到无完全降到0%。Sigmoid注意力则彻底放弃了Softmax对每个词的得分独立使用sigmoid函数词与词之间完全没有竞争关系自然也就没有Softmax强制分配带来的问题。第三类是**可学习的注意力偏置**Learnable Attention Bias。既然沉积词在充当隐式偏置那就直接把这个偏置明确化、参数化让模型直接学习一个与词无关的偏置向量。最参数高效的版本是在Softmax的分母里加一个可学习标量b形成一个虚拟沉积——超出正常词上限的注意力会被这个虚拟位置吸收而不是强加给某个真实词。MiMo-V2和GPT-OSS等产品级模型都采用了这种设计。稍复杂的版本是直接在键矩阵和值矩阵上拼接一组可学习的偏置向量实验证明加上这个显式偏置后注意力沉积和大规模激活值都会消失。第四类是**预训练干预**Pre-training Interventions。这条路不修改模型结构而是通过改变训练过程来从源头防止注意力沉积的形成。研究发现标准的Adam优化器大多数模型训练使用的算法有一个隐藏的副作用它倾向于在权重矩阵中偏爱某些特定方向使得这些方向的参数被过度更新最终产生异常大的权重值进而引发激活值异常和注意力沉积。Muon优化器通过正交变换预处理梯度消除了这种方向偏好从而大幅减少异常激活值。在损失函数层面直接添加一个惩罚激活值尾部极端值的正则项可以将激活值的最大值从超过10000压缩到20以下同时让原本在FP8精度下会灾难性失效的训练因为FP8能表示的数值范围非常有限装不下这么大的异常值变得可行训练吞吐量还提升了36%。更系统性的方案是异常值安全预训练框架OSP它组合了三个互补的改动使用Muon优化器消除权重中的特权方向把RMSNorm中每个通道独立的缩放系数改为整层统一的单一系数防止某些通道被过度放大在嵌入层后加一个可学习的投影矩阵重新分配激活值幅度。在14亿参数的模型上用一万亿token训练验证产生了迄今为止第一个没有极端激活值异常的产品级大模型。---七、这个研究对我们的生活意味着什么这篇综述不只是一份学术清单它实际上描绘了AI工程实践的一张路线图。对于每天使用AI助手的普通用户来说这些研究直接影响到AI回答是否准确、是否会胡说八道即幻觉问题以及AI能否在手机等资源有限的设备上流畅运行。注意力沉积的治理是让AI从实验室玩具变成可靠助手的一道必经关口。对于AI应用开发者来说这篇综述提供了一份清晰的决策指南如果你在做推理加速可以用保留沉积词的方式压缩KV缓存而不损失性能如果你在治理多模态AI的幻觉可以通过注意力重新分配把多余注意力导向真正重要的图像区域如果你在训练新模型门控注意力或修改Softmax是消除激活值异常、支持低精度部署的有效选择。对于AI研究者来说这篇综述还指出了几个尚未解决的核心问题。如何在不重新训练整个模型的前提下把注意力沉积消除技术引入已有的大模型比如通过LoRA微调或适配器方法是最迫切的工程挑战之一。如何建立标准化的评测基准让不同的消除方法可以在统一尺度下公平比较也是推动领域进步的重要基础设施。说到底注意力沉积这件事告诉我们一个关于AI的深刻事实AI的很多行为背后隐藏着简单但强大的数学约束。理解这些约束才能更有针对性地改进AI、信任AI乃至预测AI在极端情况下会出什么岔子。这篇综述走过了这个领域三年的发展历程把散落各处的拼图整理成一幅完整的图景。有兴趣深入了解的读者可以通过arXiv编号2604.10098获取完整论文或者访问论文团队在GitHub上维护的持续更新的论文列表https://github.com/ZunhaiSu/Awesome-Attention-Sink。---QAQ1注意力沉积Attention Sink是什么A注意力沉积是指Transformer模型中大量注意力权重被集中分配到某些语义信息极少的词上如句子开头的标记、标点符号的现象。这是由于Softmax函数强制让注意力权重之和为1当没有真正相关的内容可以关注时多余的注意力就被倾倒到这些固定位置就像必须把预算花完却找不到值得买的东西只能随便买些无用物品。Q2注意力沉积会导致AI出现哪些具体问题A注意力沉积会带来多方面的问题。在多模态AI中它会导致模型忽略图片中的关键物体把注意力浪费在背景上从而产生幻觉描述图中没有的东西。在模型压缩时沉积词产生的极端数值异常会让低精度量化失败导致模型性能崩溃。在安全层面攻击者可以利用沉积词的固定位置植入后门触发器使模型在特定条件下恢复被删除的有害知识。Q3消除注意力沉积有哪些主要方法A目前主要有四类方法。第一是门控注意力机制给注意力头加一个可学习的开关让它可以直接抑制整个输出而无需依赖沉积词Qwen3等产品模型已采用此方案。第二是修改Softmax函数打破注意力权重必须加和为1的约束让模型可以选择真正什么都不关注。第三是添加可学习的注意力偏置参数用显式的参数替代沉积词充当的隐式偏置功能。第四是预训练干预通过改变优化器或损失函数在训练阶段就防止异常激活值和沉积现象的形成。