1. GRPO训练崩溃与LLD抑制工具集成强化学习的稳定性突破在当今大语言模型LLM与外部工具深度集成的技术浪潮中强化学习RL已成为训练智能体进行多步推理的关键手段。Group Relative Policy OptimizationGRPO作为新兴的RL算法因其无价值函数设计和快速收敛特性在Search-R1等工具集成强化学习TIRL框架中展现出独特优势。然而一个长期困扰研究者的现象是GRPO在工具集成场景下会出现系统性训练崩溃表现为奖励突然断崖式下跌、模型输出质量急剧恶化。这种崩溃不仅导致训练过程中断更严重限制了GRPO在复杂任务中的应用潜力。我们的研究发现这种崩溃并非随机故障而是由一种称为懒惰似然位移Lazy Likelihood Displacement, LLD的深层机制驱动。LLD表现为模型对正确响应轨迹的生成概率似然在训练过程中持续降低或停滞即使这些响应能获得高奖励。这种现象在工具集成环境下尤为突出最终会引发LLD死亡螺旋——似然下降导致低置信度响应进而放大梯度异常最终摧毁整个训练过程。理解这一机制对于构建稳定、可靠的工具增强型LLM系统具有关键意义。核心发现在Qwen2.5-7B模型上的实验显示LLD现象在训练早期约60步就已出现此时奖励仍在上升但正确响应的似然已开始停滞。到120步左右进入加速阶段似然急剧下降伴随梯度爆炸最终导致完全崩溃。这种三阶段轨迹早期停滞、稳定衰减、加速崩溃在多个模型规模上一致出现证实LLD是GRPO-TIRL的结构性缺陷。2. LLD现象的本质与形成机制2.1 工具集成GRPO中的LLD定义在传统单轮文本生成中LLD表现为模型对某些正确响应的生成概率意外降低。而在工具集成RL场景下LLD展现出更复杂的轨迹级特征定义1工具-LLD设πθ_old和πθ_fin分别表示优化前后的策略对于包含交替动作和工具反馈的轨迹(y0,o0,y1,o1,...,yT)仅动作{yt}参与似然计算。若某个动作yt的log似然变化Δ_t(x,yt) ≤ εε为小常数或非正数则认为该动作发生LLD。若整条轨迹的累积log似然变化ΣΔ_t ≤ ε则判定为轨迹级LLD。这种形式的LLD在工具集成环境中具有两个独特诱因高频正确动作干扰在错误响应中经常包含部分正确动作如搜索查询。如图5所示错误响应的首个动作正确率随训练从20%升至60%导致正负样本在表示空间高度重叠。工具反馈的OOD效应外部工具返回的内容与模型原始训练分布存在差异。如图6所示随着工具交互轮次增加响应的负对数似然NLL单调上升表明OOD反馈持续降低后续动作的生成概率。2.2 LLD死亡螺旋的动态过程LLD引发的崩溃遵循明确的三个阶段发展轨迹阶段I早期停滞奖励持续提升但正确响应的似然保持平稳LLD开始萌芽。此时模型参数更新尚未表现出明显异常。阶段II稳定衰减似然开始单调下降ε≤0而奖励仍缓慢上升。梯度范数保持稳定但熵值已开始缓慢增加见图4。这个阶段常持续数十个训练步是干预的关键窗口。阶段III加速崩溃超过临界点通常当首动作正确率达50%左右后似然加速下跌梯度幅值骤增图2红星标记最终导致参数空间突变。此时模型输出退化为无意义token训练完全失效。这种动态过程符合死亡螺旋的正反馈特性似然下降→置信度降低→负梯度影响放大→似然进一步下降。定理4.2从理论上证明当错误响应满足(a)低似然放大梯度权重和(b)高表示相似性增强干扰时正确响应的似然必然下降。3. LLD抑制方法LLDS的设计与实现3.1 核心算法设计针对LLD的特性我们提出Likelihood-preserving LLD SuppressionLLDS正则化方法其创新性体现在两个层面的选择性动作级门控仅当某个动作的整体似然下降时才激活正则化项。这避免对全局改进的响应造成不必要的约束。数学表达为LLLDS Σ_i Σ_t 1[Σ_k Δ_i,t,k 0] · Σ_k max(0,Δ_i,t,k)其中Δ_i,t,k logπ_old(y_i,t,k|·) - logπ(y_i,t,k|·)表示token似然变化1[·]为指示函数。token级选择性在激活的动作内仅惩罚实际导致似然下降的token。这种细粒度控制最小化对正常优化的干扰。3.2 答案掩码扩展LLDS-MA针对模型倾向于单轮搜索的问题我们进一步提出Masking AnswerMA变体对最终答案token施加较弱正则化w_i,t,k { β, k∈y_i,Ans { 1, 其他其中β∈[0,1]逐步增加鼓励模型不急于生成答案而执行更多搜索。如图9b所示LLDS-MA使Qwen2.5-3B-Base的有效搜索次数从1.0提升至2.0以上。3.3 训练稳定性保障LLDS通过以下机制维持训练稳定仅应用于优势非负的响应Â≥0避免干扰尚未学习的部分自适应强度λ控制图8λ0.2可完全防止崩溃而λ0.01仅延迟崩溃与GRPO目标协同优化L_total L_GRPO λL_LLDS4. 实验验证与结果分析4.1 实验设置我们在7个QA基准上评估LLDS涵盖通用QANQ、TriviaQA、PopQA多跳QAHotpotQA、2WikiMultiHopQA等使用模型包括Qwen2.5-3B/7B的Base和Instruct版本对比基线含传统方法RAG、Rejection SamplingRL方法PPO、GRPO、GSPO密集奖励方法StepSearch、TreeGRPO4.2 性能提升关键结果如表1-2所示Qwen2.5-3BLLDS-MA在NQHotpot上达到0.440平均分较原始GRPO提升45.2%Qwen2.5-7BLLDS将Base版性能从0.350提升至0.48037.1%多跳推理LLDS在MH-Avg上相对提升最高达56.3%0.191→0.372值得注意的是LLDS仅使用结果级奖励就超越了需要逐步标注StepSearch或额外评判模型CriticSearch的方法证实稳定GRPO训练本身就能释放强大性能。4.3 训练动态分析图7的奖励曲线清晰展示LLDS的稳定效果原始GRPO在300步内全部崩溃奖励归零LLDS维持稳定训练超过500步测试上限所有模型规模和变体均表现一致图8的λ消融实验表明适当的正则化强度λ0.2可完全抑制崩溃而λ过小0.01仅延迟崩溃时机。5. 实践启示与未来方向5.1 工具集成RL的实用建议基于LLD研究我们提炼以下实践准则监控方面除奖励外必须跟踪动作级似然和熵值早期熵值上升是LLD的领先指标梯度范数突增预示即将崩溃算法选择多轮工具任务优先考虑PPO或LLDS增强的GRPO简单单轮任务可尝试原始GRPO对搜索依赖强的任务使用LLDS-MA变体参数调整初始λ设为0.1-0.3根据熵变调整批量大小不小于256以稳定梯度估计学习率建议1e-6量级5.2 延伸应用前景LLD理论可扩展至多模态工具集成如图像生成器、代码执行环境分层强化学习在元动作层面抑制似然漂移持续学习防止新工具引入的分布偏移未来可探索结合树搜索的混合训练策略基于LLD的早期崩溃预警系统面向特定工具链的定制正则化这项研究揭示了工具集成RL中一个长期被忽视的稳定性瓶颈通过精准干预似然动态为构建更可靠的智能体系统提供了新思路。实验证明即使简单如LLDS的设计也能在多个量级模型上实现稳定训练和性能突破这为后续研究奠定了重要基础。