港中大(深圳)突破:AI思维偏差早期阻断实现70%算力节约能力
这项研究由香港中文大学深圳、深圳湾区研究院、北京科技大学与DualityRL联合开展论文以预印本形式于2026年4月17日发布在arXiv平台编号为arXiv:2604.16029v1有兴趣深入阅读的读者可通过该编号直接检索原文。**研究概要**每当人们听说一个AI能做复杂数学题、解高难度科学问题通常会忽视一个隐藏在背后的巨大代价那些答案往往不是靠一次思考得来的而是让AI同时跑几十条、甚至几百条思路最后投票选出最靠谱的那个答案。这种方法学名叫并行推理效果确实好但烧钱也是真的烧——据统计一次查询的推理费用可以高达6美元相当于帮你买了杯星巴克但全都用来让机器胡思乱想了。问题的根源在于那些同时跑着的几十条思路并不是每一条都有价值。有些思路从一开始就走错了方向但机器并不知道它会一路跑下去直到给出一个错误答案——不仅白白消耗了算力还可能在最后投票时拉低整体水平把原本正确的结论给带偏了。这就好比一支考试队伍其中有几个人一上来就看错了题但没人叫停他们他们还是全程认真答完最后把明显错误的答案也塞进了投票箱——结果正确答案反而输给了错误答案。这篇论文要解决的正是这个问题**能不能在思路刚开了个头的时候就判断出它是不是走歪了然后果断叫停把算力留给那些有希望的思路** 研究团队将这种技术称为路径剪枝Path Pruning并且提出了一套系统性的分类框架以及他们自己开发的方法——STOPSuper TOken for Pruning超级剪枝标记。实验结果显示STOP能在节省超过70%计算量的同时还让最终答案的准确率显著提升。---一、为什么思路走歪了就很难自救研究团队发现大型推理模型也就是那种会一步步思考的AI有一个很要命的特点一旦推理路径的开头出现了错误模型几乎没有能力自我纠正只会顺着错误的方向越走越远最终给出一个彻底偏离正轨的答案。可以用导航来理解这件事。你开车去某个目的地导航在最开始就给了你一个错误的起步方向。你跟着走了几公里之后即便隐约觉得哪里不对劲也很难直接掉头——因为后续的路口选择都是基于这个错误起点做出的已经深陷其中。AI的推理路径也是这样早期的错误会像滚雪球一样越往后越难逆转。正是因为如此在路径刚开始的时候就判断好坏变得至关重要。与其等到它全程跑完再发现是废品不如在它刚走出几步时就果断叫停把资源腾出来给那些有希望的路径继续跑。这就是路径剪枝的核心逻辑。---二、现有方法各有什么短板研究团队怎么分类的在研究团队正式提出自己的方法之前他们做了一件很有价值的事把市面上已有的路径剪枝方法系统地梳理了一遍建立了一套统一的分类框架。这个框架按照两个维度来划分方法一是判断信号从哪里来二是这套判断逻辑能不能通过训练来学习。先说信号从哪里来。有些方法是从AI输出的文字本身来判断——比如看这条思路的文字表述和其他思路有多像、有多大重叠如果高度相似就认为是冗余的可以剪掉一个。还有些方法是专门请另一个AI模型来评分就像考卷交给一位外部阅卷老师来批改打个分再决定要不要继续。这些都属于外部信号。与之相对的是内部信号——不看AI输出的文字而是直接观察AI大脑内部的运行状态比如它计算每个词时的信心程度、内部的概率分布等。理论上这些内部状态包含着比文字输出更丰富、更细腻的信息。再说能不能通过训练来学习。有些判断方法是固定规则比如如果这条路径的困惑度超过某个阈值就认为它不靠谱——这是人为设定的死规则不会随着任务不同而调整。还有些方法是可以训练的通过大量数据让模型学会什么样的路径前缀预示着好结果什么样的预示着坏结果因此能够适应不同任务的具体模式。把这两个维度交叉组合就得到了四种类型。第一类是外部信号固定规则典型代表是根据文本相似度进行剪枝的方法计算简单但过于粗糙完全不知道AI内部在想什么。第二类是外部信号可学习代表方法是用单独训练好的奖励模型来打分有学习能力但计算开销大而且依然看不到AI的内部状态。第三类是内部信号固定规则代表方法是直接用AI的困惑度或token概率作为信心指标虽然能看到内部状态但判断标准是死的无法适应任务变化。第四类也就是最理想的组合是内部信号可学习——既能看到AI内部丰富的状态信息又能通过训练学会识别复杂的错误模式。研究团队指出前三类各有现成方法唯独第四类几乎是一片空白。这个空白正是他们要填补的地方而STOP就是他们为此设计的方案。---三、STOP是怎么工作的一个插件级别的大脑旁路STOP的核心设计理念可以用插件来理解。研究团队并没有改动原有的AI推理模型而是在它旁边接上了一个轻量级的辅助模块专门负责看着AI的内部状态判断这条推理路径值不值得继续跑。具体来说STOP由三个零件组成。第一个是一个特殊的新词——被称为超级标记[STOP]——它被加入到AI的词汇表里扮演一个专门的信号收集器负责汇聚当前推理路径的所有内部状态信息。第二个是一个轻量级的适配器用了一种叫LoRA的技术它只在处理这个特殊标记时才启动负责把AI的内部状态从用于预测下一个词的格式转换成用于评价这条路径好不好的格式。第三个是一个分类器把适配器处理完的信息压缩成一个0到1之间的分数分数越高代表这条推理路径越有希望。整个推理过程分三个阶段。第一阶段叫起跑AI同时为同一个问题生成N条推理路径每条只跑一段前缀比如前1024个词并且把这些计算过程中产生的中间状态技术上叫KV缓存存储起来。第二阶段叫体检把那个特殊的[STOP]标记接到每条缓存好的前缀后面STOP模块快速扫一遍给每条路径打个分——这个过程极快因为它不需要重新计算前面的内容直接复用了缓存。第三阶段叫筛跑按照分数高低排序保留得分最高的几条路径其余全部丢弃只让优质路径继续跑到终点然后对这些路径的答案进行投票得出最终答案。训练STOP的方式也很精妙。研究团队用蒙特卡洛估计的方法来给路径前缀打标签——对于一段前缀他们让AI从这个断点继续随机跑32次看看这32次里有多少次能得出正确答案。如果32次里有25次正确这条前缀就得到一个0.78的软标签如果只有2次正确就得到一个0.06的软标签。这比直接用对/错二元标签更准确因为它反映的是路径的潜力概率而不是单次随机结果。值得一提的是这个训练数据的构建虽然一次性成本较高对于20B参数的模型需要在8块H100显卡上运行约76小时但只需要做一次训练好的STOP模块就可以反复使用。研究团队承诺会开放训练数据和模型权重让其他研究者不必重复这个过程。---四、四种方法放在一起比结果怎么样研究团队设计了一套严格的评测方案对于每道题让AI同时生成64条推理路径然后用各种方法从中筛出8条最后用这8条的平均准确率来衡量方法效果。他们在五个不同难度的推理基准数据集上测试涵盖数学竞赛AIME 2024、AIME 2025、BRUMO 2025、HMMT 2025和科学问答GPQA Diamond使用的AI模型从15亿参数一直覆盖到200亿参数规模跨度很大。结果呈现出清晰的层级关系。能看到AI内部状态的方法第三类和第四类普遍比只看文字输出的方法第一类和第二类表现更好。而在同等信号来源下能够学习的方法又比死规则方法表现更好。最终STOP作为唯一同时具备内部信号和可学习两大优势的方法在几乎所有测试场景中都拔得头筹。举一个具体数字来感受差距。在15亿参数模型做AIME 2024这道测试上不做任何剪枝时平均准确率是30.10%。用第一类方法剪枝后不升反降变成了26.25%。第二类方法提到了32.50%。第三类方法提到了32.92%。而STOP把这个数字推到了37.92%——同时还把总计算量减少了73.88%。换句话说STOP用不到原来三分之一的算力做到了比原来更高的准确率。研究团队还测试了在不同算力预算下也就是总共能跑多少条路径各方法的表现变化。结果显示其他方法在某些任务上好、某些任务上差表现不够稳定而STOP在几乎所有任务和所有算力规模下都能稳定地超越不剪枝的基线展现出更强的适应性。---五、最佳保留比例怎么选研究团队推导出一个规律光知道STOP好用还不够实际部署时还有一个关键问题剪掉多少条路径最合适保留太多省不了多少算力保留太少可能把好的路径也误杀了。研究团队通过大量实验发现了一个规律保留比例的最优值和当前的算力预算以及任务的平均答案长度存在稳定的数学关系。具体来说算力预算越大也就是总共能跑更多的路径最优保留比例就应该越小因为当你有足够多的路径可以评估时STOP的判断会更准确可以更大胆地剪掉低分路径。此外前缀越长也就是看了AI思考过程的越多内容判断准确性越高也可以更激进地剪枝。研究团队将这个规律用一个数学公式来表示最优保留比例的倒数约等于一个系数乘以算力预算的0.46次方再乘以前缀长度的0.40次方再除以任务平均长度的4.55次方。虽然公式看起来复杂但背后的逻辑很直观——就是信息越多、预算越足越可以大胆剪。研究团队还根据这个公式预先计算好了不同任务长度、不同前缀长度、不同算力预算下的推荐保留比例以表格形式提供给使用者这样实际部署时不需要反复试验直接查表就能找到合适的参数。---六、为什么LoRA适配器不可或缺几个关键的设计验证研究团队对STOP的几个设计细节做了仔细的消融实验也就是逐一去掉某个组件看看性能如何变化以此确认每个设计决策是否真正有必要。第一个验证是关于训练标签的质量。研究团队对比了用32次蒙特卡洛采样得到的软标签比如0.78、0.06这样的小数和只用1次采样得到的硬标签只有0或1两个值。结果很明显在AIME 2024上软标签训练出的STOP在ConsN指标上达到53.33%而硬标签只有46.67%。原因在于单次采样结果受随机性影响很大——一条本来很有潜力的前缀可能因为那一次恰好跑出了错误答案就被打上差的标签反过来一条质量较差的前缀也可能凑巧答对了一次就被打上好的标签。多次采样取平均才能得到稳定可靠的潜力估计。第二个验证是关于LoRA适配器的必要性。有人可能会问既然AI内部已经有丰富的状态信息直接接一个分类器不就行了为什么还要那个适配器实验给出了答案去掉适配器只用一个简单线性分类器AIME 2024的准确率从36.67%跌到31.67%GPQA上也从41.73%跌到33.96%。这说明AI的内部状态虽然信息丰富但它们的格式是为预测下一个词优化的并不天然适合做质量评估。适配器的作用就是把这些生成导向的内部状态转化为评价导向的格式这个转化过程是不可省略的。第三个验证是关于[STOP]特殊标记数量的选择。研究团队测试了从1个到9个不同数量的[STOP]标记。结果显示4到6个时效果最好太少了信息汇聚不够充分太多了又出现过拟合相当于记住了训练数据的噪声而不是真正的规律。最终选定4个作为标准配置。第四个验证是关于LoRA的秩rank——这个参数控制着适配器的参数量大小。实验发现秩为128时效果最好更大的秩256反而略有下降说明这个任务不需要非常大的模型容量适中即可。---七、STOP在数学和科学之外也管用吗为了验证STOP是否只是针对数学题的专用工具研究团队还在一个叫ZebraLogic的逻辑谜题数据集上做了测试。这个数据集考察的是组合推理和约束满足能力——类似于A、B、C三个人A不坐第一位B在C的左边问谁坐中间这类谜题和数学推导完全不同。在这个测试上STOP将准确率从73.73%提升到了77.23%证明它学到的判断能力并不局限于数学模式而是具有一定的通用推理评估能力。此外研究团队还把STOP接入到了AIMO3竞赛系统中——这是一个让AI用外部工具来解数学竞赛题的真实比赛场景使用的是1200亿参数的大模型。在单张H100显卡、5小时时限、50道题的约束下不剪枝的基线方法得了39分接入STOP保留策略为从24条路径筛选到8条时得分提升到42分策略调整为从16条筛到8条时得分进一步提升到43分在公开排行榜上达到了银牌水平。这个结果说明STOP在有工具调用的复杂场景下同样有效。---八、STOP的注意力在盯着什么研究团队还做了一件很有意思的分析他们可视化了[STOP]标记在处理不同质量路径时的注意力分布看看它到底在盯着推理文本的哪些地方。结论很有启发性。对于所有路径STOP都会广泛关注推理过程中的结构性标记比如Wait等等、Hmm嗯、Therefore因此等词以及多选题的选项字母A、B、C、D。这说明它确实在跟踪推理的整体进展结构。但高分路径和低分路径的注意力重点有着显著差异。在高分路径中[STOP]更多地关注逻辑转折点——比如dont不、doesnt不是这类否定词这些词往往出现在AI进行自我纠正的关键时刻标志着推理过程中的深度思考。在低分路径中[STOP]的注意力则过早地集中在了最终答案选项本身比如B或C上而忽略了中间的推理过程。STOP将这种跳过推理直接盯答案的模式判定为不靠谱的信号因为它意味着这条路径没有经过扎实的逻辑推导更像是在猜答案。这个发现说明STOP学会的是一种过程导向的评价方式它更看重推理的逻辑完整性而不仅仅是最终落在哪个答案上。---说到底这项研究干了一件听起来简单但实际上很有价值的事教AI学会早点放弃没希望的想法。在我们日常生活中这其实是很普通的常识——做题时发现思路不对就应该尽早换方向而不是一条死路走到底。但让AI掌握这种判断力并且做得又快又准并不是件容易的事。研究团队通过系统分类、找到空白、填补空白的方式构建出了STOP这套方案。它不需要额外的大模型来当阅卷老师也不依赖粗糙的文字相似度规则而是直接读懂AI自己的内部状态用一个轻量级的插件式模块以不到1%的额外时间开销让答案质量显著提升、算力消耗大幅下降。对普通用户而言这意味着未来使用AI解决复杂问题时同样的算力预算可以换来更高的准确率或者说达到同样的准确率花费可以大幅降低。当然研究团队也坦诚地指出了尚未解决的问题比如在更大规模模型700亿参数以上和更大采样量1000条以上路径场景下的表现还未经过验证以及目前只支持固定位置的单阶段剪枝尚未探索在推理过程中多个时间点分级筛选的策略。这些问题留给了后来的研究者而这本身也是一篇好论文应有的样子——解决了一个真实的问题同时清晰地指出了下一步可以走的方向。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.16029查阅完整原文。---QAQ1STOP方法需要对原来的AI推理模型做什么改动吗ASTOP不改动原有的AI推理模型原模型的参数全程保持冻结状态。STOP以插件形式接入只训练一个轻量级的LoRA适配器和分类头以及一个新加入词汇表的特殊标记[STOP]。推理时STOP复用已有的KV缓存完成评分额外时间开销不到原始生成时间的1%。Q2路径剪枝会不会误杀本来正确的推理路径导致答案变差A存在这种风险但STOP通过蒙特卡洛软标签训练学到的是路径的成功概率而非单次对错。实验结果显示在几乎所有测试场景中剪枝后筛选出的路径集合质量高于不剪枝时的全部路径集合平均准确率普遍有所提升说明误杀的损失远小于去除坏路径带来的收益。Q3STOP的训练数据是怎么来的普通研究者能自己复现吗A训练数据由研究团队通过对AIME竞赛题和GPQA科学问答题进行蒙特卡洛采样构建每个前缀跑32次续写来估算成功概率。这个构建过程对于20B模型大约需要8张H100显卡运行76小时一次性成本较高。研究团队已承诺开放构建好的数据集和训练好的模型权重普通研究者可以直接下载使用无需自行重复数据构建过程。