标题When Perplexity Lies: Generation-Focused Distillation of Hybrid Sequence Models来源arXiv, 2603.26556v1摘要通过蒸馏将预训练的Transformer转换为更有效的混合模型提供了一种降低推理成本的有前途的方法。然而在蒸馏模型中实现高质量的生成需要仔细联合设计学生架构和蒸馏过程。许多先前的蒸馏工作通过使用对数似然对候选答案进行排名而不是要求自回归生成来评估下游的多选择基准这可能会掩盖模型质量的重要差异。例如我们表明一个7 B参数的蒸馏模型几乎匹配其教师在0.2 pp内的对数似然评分实际上落后福尔斯20.8 pp时模型必须产生答案自回归。我们提出了一个混合基米三角洲注意力Hybrid-KDA架构与多级蒸馏管道GenDistill配对并使用基于生成的评估来指导设计决策。将这种方法应用于Qwen 3 -0.6B我们系统地消除了六个设计轴训练目标、损失掩蔽、训练持续时间、数据集选择、参数冻结和架构选择。我们发现基于对数似然的评估始终低估了教师和学生之间的差距并且在某些情况下可以颠倒设计选择的排名这意味着从仅困惑评估中得出的结论可能会误导。在我们研究的因素中数据集选择仅完成掩蔽我们最好的Hybrid-KDA模型在知识基准测试中保留了86-90%的教师准确率同时将KV缓存内存减少了75%。在128 K令牌上下文下将第一个令牌的时间提高2-4倍。️文章简介研究问题在跨架构蒸馏中仅依赖困惑度评估是否会掩盖学生模型与教师模型在真实自回归生成能力上的巨大差距主要贡献论文提出了 Hybrid-KDA 架构与 GenDistill 流程证明困惑度评估具有误导性并确立了以生成为导向的蒸馏最佳实践。重点思路提出混合 Kimi Delta Attention (Hybrid-KDA) 架构保留部分 Transformer 注意力层以维持检索能力其余替换为线性状态空间模型以提升效率。设计 GenDistill 多阶段蒸馏流程包含注意力对齐、块级隐藏状态对齐及端到端知识蒸馏利用束搜索策略优化注意力层的选择位置。全程采用基于生成的评估协议指导设计决策系统消融训练目标、损失掩码、数据选择及参数冻结等六个关键维度。发现使用与教师模型分布对齐的指令数据进行蒸馏并在后训练阶段冻结注意力层权重是防止灾难性遗忘的关键。分析总结困惑度评估严重低估了师生模型差距在多项选择题中差距仅 0.2% 的模型在自回归生成任务中差距可高达 20.8%甚至导致设计选择的排名反转。混合架构显著优于纯线性架构保留约 25% 的注意力层能使推理能力大幅提升同时减少 75% 的 KV 缓存内存并加速长上下文首 token 生成。仅对完成部分completion-only计算损失的知识蒸馏效果优于全序列掩码且明显优于监督微调SFT尤其在代码和推理任务上。在后训练阶段冻结注意力层能显著提升生成质量而困惑度指标几乎无法反映这一改进证实了固定预训练表征的重要性。个人观点论文揭示了跨架构蒸馏中“困惑度陷阱”即高概率排名不等于高生成质量。附录