2026年大模型行业迎来了一个关键转折点长上下文不再是“炫技式”的能力演示而是成为支撑Agent任务、长文档分析、代码生成等实际场景的核心需求。就在这个节点DeepSeek-AI发布了DeepSeek-V4系列模型的预览版本带来了一场从架构到Infra的全栈重构。不同于上一代V3.2聚焦“MoE推理RL”的优化方向V4以“长上下文基础设施重构”为核心主题将架构、训练、后训练、数据、Infra等所有环节围绕1M token上下文和Agent轨迹进行了全面重写。这份技术报告不仅推出了两款性能惊艳的MoE模型DeepSeek-V4-Pro总参数1.6T激活49B与DeepSeek-V4-Flash总参数284B激活13B更重要的是它彻底解决了长上下文实用化的核心痛点在1M token上下文场景下V4-Pro的单token推理FLOPs仅为V3.2的27%KV cache占用仅为10%更轻量化的V4-Flash表现更激进FLOPs和KV cache占用分别降至10%和7%。与此同时V4-Pro-Max在开源模型中实现全面突破Codeforces Rating达到3206与GPT-5.4-xHigh基本持平在人类选手榜上排名第23位标志着开源模型正式进入闭源前沿区间。接下来我们将从动机出发一步步拆解DeepSeek-V4的全栈创新带你读懂这场大模型技术的迭代革命感受从“能跑”到“可用”的跨越背后的技术逻辑。一、迭代动机破解长上下文实用化的核心困局进入2026年大模型的发展呈现出三个不可逆转的趋势而这些趋势也直接催生了DeepSeek-V4的全栈重构需求。首先是推理模型的“测试时扩展”成为标配从O系列、DeepSeek-R1到GPT-5、Claude等主流模型“想得更久”已经成为提升回答质量的关键而更长的思考过程必然需要更长的上下文支撑。其次是Agent任务的全面崛起代码Agent、多轮网页浏览、长文档分析等场景要求模型在单次会话中处理数十万甚至百万级别的token这对上下文承载能力提出了前所未有的要求。最后标准注意力机制的二次复杂度成为最大拦路虎在1M token场景下传统vanilla attention的FLOPs和KV cache占用会急剧飙升根本无法满足实际推理服务的需求。DeepSeek-V4的核心叙事的就是打破这一困局它的目标不是做一个“顶到1M token”的能力演示而是让1M token上下文成为日常可用的功能。这意味着不仅要降低推理时的算力和内存开销还要保证模型在超长上下文下的性能不衰减而这背后需要架构、Infra、训练、后训练等全链条的协同重构任何一个环节的短板都可能导致整个体系的崩塌。二、架构创新三大核心改动筑牢长上下文基础DeepSeek-V4延续了上一代V3的DeepSeekMoE MTP核心骨架但在残差连接、注意力层、优化器三个关键位置进行了颠覆性替换从架构层面解决长上下文的效率和稳定性问题。整个架构的数据流清晰明了Input Tokens→Embedding→Residual MixingmHC→CSA/HCA→Residual Mixing→DeepSeekMoE→Prediction Head→MTP Modules层间通过Pre-Block Mixing和Post-Block Mixing实现mHC的通道混合形成了一套高效且稳定的长上下文处理链路。2.1 mHC约束到双随机流形的残差连接传统的残差连接Residual虽然简单高效但在深层堆叠时容易出现数值不稳定的问题难以支撑超深模型的训练。而Hyper-ConnectionsHC虽然通过扩展残差流的宽度增加了正交维度却进一步加剧了深层堆叠的不稳定性无法满足V4超长上下文和大参数体量的需求。mHCManifold-Constrained Hyper-Connections的核心创新就是将残差变换矩阵约束到双随机矩阵doubly stochastic流形也就是Birkhoff多胞形上。这一约束保证了残差变换是“非扩张映射”无论是前向传播还是反向传播都能保持数值稳定而且双随机矩阵在矩阵乘法下具有闭合性即便深层堆叠也能维持稳定。同时输入映射和输出映射通过Sigmoid函数压缩到非负有界区间进一步提升了训练的稳定性。在工程实现上mHC通过Sinkhorn-Knopp迭代实现矩阵投影先对矩阵取exp保证所有元素为正然后交替进行行归一化和列归一化迭代20次即可收敛。DeepSeek-V4的两款模型都将残差流扩展倍数设为4在稳定性和效率之间实现了最佳平衡。2.2 混合注意力CSAHCA兼顾效率与精度注意力机制是长上下文处理的核心也是算力和内存开销的主要来源。DeepSeek-V4最硬核的改动就是用CSACompressed Sparse Attention HCAHeavily Compressed Attention混合注意力替代了传统的MLA注意力核心思路是“压缩优先、稀疏补充”在降低开销的同时最大限度保留精度。对于超长上下文而言压缩KV cache比单纯的稀疏top-k选择更能从根本上降低FLOPs和访存压力但纯压缩会牺牲精度。因此V4引入了两种不同压缩率的注意力层交错排布再叠加稀疏选择和局部滑窗补充实现了“粗看与精看”的结合。CSACompressed Sparse Attention的压缩率为1/4每4个token的KV会被压缩成1个entry然后在压缩后的entries上运行DeepSeek Sparse AttentionDSA。每个query通过lightning indexer选择top-k个压缩entry进行注意力计算其中V4-Pro的top-k设为1024。压缩过程中会用两条独立的KV序列配合softmax归一化的门控权重做加权合并相邻两个压缩块共享部分索引形成重叠压缩减少压缩过程中的信息丢失。HCAHeavily Compressed Attention的压缩率更高达到1/128每128个token的KV压缩成1个entry而且不做稀疏选择直接进行dense attention。由于长度已经压缩到原来的1/128dense attention的开销变得非常小既能快速捕捉全局信息又不会增加太多算力负担。在排布上V4的前两层采用SWA或HCA后面的层则交替排布CSA和HCA从架构层面落实“能粗看的层粗看、需要精看的层精看”的思路。同时为了解决压缩带来的局部依赖丢失问题CSA和HCA都额外挂载了一条128token的滑窗attention分支将最近128个未压缩token的KV也纳入核心attention计算再配合attention sink可学习的分母加项让注意力得分能够灵活调节进一步提升精度。除此之外V4还设计了两个关键优化来降低开销一是Lightning Indexer为了避免稀疏选择本身拖慢速度它采用低秩、低精度设计query下投影后再上投影出多头indexer queryQK计算直接使用FP4精度并且与main attention共享投影参数避免重复计算二是Grouped Output Projection针对query头数多V4-Pro为128的问题先分组降维再拼接投影大幅削减输出投影的参数和FLOPs。从效率来看以BF16 GQA8head dim 128为基准V4系列在1M context下的KV cache可压缩到基准的约2%即便相比本就高效的V3.2V4-Pro的1M单token FLOPs也只需27%KV cache占用仅为10%彻底解决了长上下文的效率瓶颈。2.3 Muon优化器替代AdamW提升大模型训练稳定性DeepSeek-V4抛弃了传统的AdamW作为主优化器主体参数采用全新的Muon优化器仅在embedding、prediction head、RMSNorm权重、mHC的静态偏置等元素级参数上保留AdamW。Muon的核心优势的是针对大参数模型的训练稳定性优化关键一步是对梯度做Newton-Schulz迭代将矩阵近似正交化避免训练过程中梯度爆炸或消失。V4对Muon进行了改进采用两阶段混合NS迭代前8步用激进的迭代策略将奇异值快速收敛到1附近后2步用温和的策略稳定锁定奇异值在1既保证了收敛速度又避免了过度收敛导致的性能损失。另外一个细节是V4的attention架构允许直接对Q和KV entries做RMSNorm不再需要QK-Clip让attention logits天然不会出现爆炸问题进一步提升了训练稳定性。2.4 DeepSeekMoE的微调整提升负载均衡与效率MoE架构沿用了V3的设计采用细粒度routed expert shared expert 无辅助loss负载均衡的模式但V4做了几处关键微调来提升效率和稳定性。首先亲和度分数的激活函数从Sigmoid(·)改为Sqrt(Softplus(·))让路由分配更合理其次去掉对路由node数的约束重新设计并行策略维持大参数场景下的效率最后前3个MoE层采用Hash routing按token ID的哈希函数决定expert分配不再走token-wise gating减少了路由计算的开销。这些微调虽然看似微小却在实际训练中有效缓解了MoE的outlier问题为后续的稳定训练奠定了基础。三、Infra技术栈被低估的核心全栈重构的基石如果说架构创新是DeepSeek-V4的“骨架”那么Infra技术栈就是它的“血脉”。相比V3V4的Infra几乎被完全重写涵盖了MoE通信、kernel编译、确定性训练、量化、KV cache管理等多个方面正是这些底层技术的突破才让1M token上下文的实用化成为可能。很多人解读V4时会重点关注架构和性能却忽略了Infra的重要性事实上V4的Infra创新才是其最核心的竞争力之一。3.1 MegaMoE超融合EP kernel破解MoE通信瓶颈MoE模型的核心瓶颈之一是EPExpert Parallelism的All-to-All通信传统方案中通信与计算是串行进行的效率极低。DeepSeek-V4的解决方案是将通信与计算融合成一个kernel进一步将expert拆分成多个wave让“计算当前wave 发送上一wave 接收下一wave”三个过程并行进行最大化利用硬件资源。对比传统方案和Comet方案V4的wave级流水线优势明显传统方案中Dispatch-L1-Act-L2-Combine完全串行Comet仅实现了Dispatch与L1、L2与Combine的两段重叠而V4的方案将experts切成多个waveDispatch、L1、L2、Actamp;Combine四条通道在wave间完全重叠理论加速比达到1.92×。实测数据显示在NVIDIA GPU和华为Ascend NPU上V4的方案都能实现1.5–1.73×的速度提升在RL rollout这类长尾小batch场景下加速比甚至能达到1.96×。目前这一技术已开源为MegaMoE作为DeepGEMM的一部分供研究者使用。同时作者还为硬件厂商提供了几点建议Compute/Bandwidth比值才是决定能否完全重叠通信与计算的关键按V4-Pro的数据每6.1 TFLOP/s的算力对应1 GBps带宽即可再增加带宽的边际收益会递减未来硬件应给功耗留足余量因为极致融合kernel会同时拉满计算、存储和网络资源建议将SwiGLU换成无exp、无division的element-wise激活函数在相同参数预算下能加大中间维度进一步降低带宽压力。3.2 TileLangSMT加持的kernel DSL降低复杂架构开发成本DeepSeek-V4的架构异常复杂手写kernel不仅效率低还容易出现错误。为了解决这一问题V4采用了TileLang DSL领域特定语言通过代码生成和形式化验证大幅降低了kernel开发的难度和成本同时提升了kernel的性能。TileLang有两个核心亮点一是Host Codegen将Python运行时检查移到生成的host代码中将kernel调用开销从数十微秒降低到1微秒以下这对attention、mHC等小而高频的kernel来说提升效果非常显著二是将Z3 SMT solver融入代数系统把TileLang的整数表达式转换为QF_NIA无量词非线性整数算术借助Z3求解器实现layout推断、内存hazard检测、边界分析等功能。通过形式化验证TileLang能够解锁更激进的向量化优化同时将编译时间控制在几秒内实现了性能与开发效率的平衡。3.3 Batch-Invariant amp; Deterministic Kernels保证训练与推理的一致性大模型训练和推理过程中比特位的一致性至关重要否则会导致训练偏差、推理结果不稳定等问题。DeepSeek-V4打造了一整套batch-invariant deterministic kernel库确保训练和推理过程中比特位完全一致同时提升了debug效率。具体来说在Attention方面V4放弃了split-KV采用双kernel策略解决wave-quantization问题第一个kernel在单SM上计算完整序列第二个kernel用多SM处理最后一个partial wave两者的accumulation顺序严格一致保证结果 deterministic在Matmul方面从cuBLAS全面替换为DeepGEMM放弃split-k通过其他优化弥补了性能损失在Attention Backward方面给每个SM分配独立的accumulation buffer跨buffer做确定性求和消除了atomicAdd带来的不确定性在MoE Backward方面通过token顺序预处理和buffer隔离保证了计算的一致性在mHC的小输出维度matmul方面独立输出各split后在后续kernel中做确定性reduce进一步确保结果准确。这套kernel库的代价是可能损失一点点吞吐但收益非常显著当训练出现loss spike时能够精准定位数值原因将debug效率提升数倍为大参数模型的稳定训练提供了有力保障。3.4 FP4 QATMXFP4量化与训练的无缝衔接量化是降低模型内存占用和推理开销的关键技术但传统量化容易导致性能损失而且训练与部署的量化策略往往不一致进一步影响模型效果。DeepSeek-V4在预训练后期引入了FP4量化感知训练QAT覆盖了两个关键路径MoE expert权重占GPU内存大头和CSA indexer的QK路径attention评分计算的热点在降低内存占用的同时最大限度保留了模型性能。V4还将index score从FP32量化到BF16让top-k selector的速度提升2倍而KV recall仍能保持在99.7%实现了效率与精度的平衡。更巧妙的是V4设计了一套无损反量化方案FP4到FP8的反量化是无损的因为FP8E4M3比FP4E2M1多2位exponent只要128×128 FP8块内的FP4子块1×32scale比值不超过阈值细粒度scale信息就能被FP8的动态范围完全吸收。这一设计让整个QAT pipeline可以直接复用FP8训练框架梯度对FP8权重求导后直接回传FP32 master weights相当于对量化操作用STE而RL rollout和推理阶段则直接使用真正的FP4权重保证了训练与部署行为的一致性避免了传统量化中“训练与部署脱节”的问题。3.5 KV Cache层级On-Disk Prefix Reuse提升长前缀请求效率长上下文场景中KV cache的管理是另一个核心瓶颈尤其是Agent任务中经常出现的长前缀请求反复计算会浪费大量算力。DeepSeek-V4将KV cache分为两部分State Cache和Classical KV Cache通过On-Disk Prefix Reuse策略实现了长前缀请求的复用大幅提升了效率。State Cache包含SWA的128token CSA/HCA不足压缩块的尾部token主要用于存储近期的未压缩或半压缩KV信息Classical KV Cache则存储CSA/HCA压缩后的entries按lcm(m, m#39;)128对齐分块便于管理和复用。为了实现长前缀请求的复用V4将CSA/HCA的压缩KV直接存储到磁盘而SWA的KV不压缩、占用空间较大约为压缩KV的8倍因此V4提供了三种trade-off策略供不同场景选择一是Full SWA Caching将SWA KV全部存储无需重算但写密集、写放大严重适合对延迟要求极高的场景二是Periodic Checkpointing每1024个token做一次checkpoint按需加载并部分重算在延迟和存储之间实现平衡三是Zero SWA Caching不存储SWA KV利用已存的CSA/HCA KV只需重算最后128个token就能还原SWA KV适合存储资源有限的场景。这套KV cache管理策略让长前缀请求的复用效率大幅提升尤其适合Agent这类需要频繁处理长上下文的场景进一步降低了推理开销。四、预训练数据与超参优化筑牢模型基础能力架构和Infra是基础而预训练则是决定模型能力上限的关键。DeepSeek-V4在V3数据管线的基础上进行了全方位的加强从数据构建、超参设置到训练稳定性优化每一个环节都围绕“长上下文”和“多能力融合”展开为后续的后训练和性能突破奠定了坚实基础。4.1 数据构建聚焦“有效长上下文”提升数据质量V4的预训练语料超过32T tokens在数据构建上重点做了四个方向的加强尤其注重“long effective context”有效长上下文的构建——模型需要学习的不是“凑出1M token的长文本”而是文本内部真实的长程依赖比如跨章节引用、定理到证明的跨段落调用、长函数调用链等否则即便模型“看到”了长文本也学不到长程推理能力。具体来说数据构建的优化包括一是Web数据去批量自动生成与模板化内容有效应对model collapse模型崩溃风险保证数据的多样性和真实性二是强化核心领域数据编码与数学仍是核心方向同时在中训阶段加入agentic data进一步强化模型的编码能力三是扩大多语言语料强化长尾文化知识提升模型的多语言处理能力四是长文档重点策展优先选择科学论文、技术报告等高学术密度材料确保长文本中存在真实的长程依赖。在Tokenizer方面V4沿用了V3的128K词表外加若干上下文构建的special token保证了与上一代模型的兼容性。Packing策略也继续沿用将多个样本拼进同一序列以提高GPU利用率但由于拼接会让跨样本token意外落入同一attention windowV4启用了sample-level attention mask做硬隔离V3没有这一步在长序列高打包率下这一步对防止“跨样本泄漏”至关重要避免模型学习到错误的依赖关系。4.2 模型与训练超参精准配置适配长上下文训练DeepSeek-V4的两款模型V4-Flash和V4-Pro在超参设置上各有侧重适配不同的应用场景具体配置如下配置DeepSeek-V4-FlashDeepSeek-V4-ProLayers4361d_hidden40967168Experts1 shared 256 routed1 shared 384 routedActivated experts66Query heads n_h64128CSA attention top-k5121024MTP depth11Total / Activated284B / 13B1.6T / 49BTraining tokens32T33T在训练策略上V4采用了序列长度Curriculum和稀疏化Curriculum相结合的方式序列长度从4K→16K→64K→1M逐步提升让模型循序渐进地适应长上下文稀疏化Curriculum则先用电dense attention预热1T tokens在64K序列长度处引入稀疏机制先warmup lightning indexer再正式训练然后让稀疏注意力陪伴剩余的训练过程避免模型在稀疏化过程中出现性能波动。在优化器配置上Muon的momentum设为0.95、weight decay设为0.1、update RMS rescale到0.18为了复用AdamW的learning rate而AdamW仅用于embedding、prediction head、RMSNorm等元素级参数兼顾了训练稳定性和效率。4.3 训练稳定性两大技巧解决T级MoE的loss spike问题训练T级参数的MoE模型loss spike损失突变是一个不可避免的问题。V4的研究发现loss spike与MoE层的outlier异常值强相关而路由机制又会放大这种异常值导致训练中断或性能下降。为此V4提出了两大核心技巧有效解决了这一问题。第一招是Anticipatory Routing预测性路由核心是将backbone和routing的参数更新解耦。第t步用当前的backbone参数计算特征但用t-1步的历史参数来计算routing index。在工程实现上提前在第t-1步读取第t步的数据一起计算routing index并缓存流水线和EP通信重叠后wall-time开销仅增加约20%。更巧妙的是这一机制可以动态触发只有检测到loss spike时才回滚并激活Anticipatory Routing等训练稳定一段时间后再回归标准训练总开销几乎可以忽略不计。第二招是SwiGLU Clamping通过经验性调整将SwiGLU的linear分量clamp到[-5,5]、gate分量上限设为10能够有效消除outlier。虽然这一技巧的作用机制尚未完全明确但实测效果非常显著能够快速抑制loss spike保证训练的稳定性。4.4 Base模型评估提前实现性能超越V4的Base模型V4-Flash-Base和V4-Pro-Base在预训练完成后就已经展现出了远超上一代的性能。其中V4-Flash-Base13B激活在绝大多数benchmark上反超V3.2-Base37B激活尤其在世界知识和长上下文任务上优势非常明显V4-Pro-Base则再上一个台阶在多个关键benchmark上取得了大幅提升SimpleQA-Verified达到55.2远超V3.2的28.3FACTS Parametric达到62.6是V3.2的2倍多MMLU-Pro达到73.5比V3.2提升8个百分点LongBench-V2达到51.5比V3.2提升11.3个百分点。Base阶段的领先为后续的后训练奠定了坚实基础也证明了V4架构和预训练策略的有效性。五、后训练Specialist OPD实现多能力的高效融合如果说预训练决定了模型的基础能力那么后训练就是决定模型应用价值的关键。DeepSeek-V4的后训练范式相比V3.2进行了方法学级别的替换将原先的mixed RL混合强化学习阶段整个换成了“Specialist Training On-Policy DistillationOPD在线蒸馏”两阶段范式有效解决了多能力混训的干扰问题实现了各领域能力的高效融合。V4后训练的整体流程非常清晰首先针对math、code、agent、instruction following等每个领域独立训练一个expert模型经过SFT GRPO RL训练然后让学生模型在自己采样的trajectory上从10个teacher模型的全词表logits分布中通过reverse KL反向KL散度进行拟合将多个expert的能力蒸馏到统一的学生模型中。5.1 Specialist Training分领域精训打造专业能力每个expert模型都遵循SFT有监督微调→GRPO分组相对策略优化的标准流程但V4在细节上做了很多创新设计让expert的专业能力更突出同时适配不同场景的需求。首先是三档推理强度Reasoning Effort的设计V4显式训练了三种模式共存分别适配不同的任务复杂度和成本预算具体如下模式特点响应格式Non-think快速直觉响应速度快、成本低无需复杂逻辑推导适合简单查询、快速检索类任务仅输出总结 summary不包含任何中间推理过程Think High自觉的逻辑分析较慢但准确投入高推理成本可处理复杂逻辑推导、多步骤计算等任务先输出详细推理过程Reasoning再给出最终结论Conclusion推理步骤清晰可追溯Think Low平衡速度与精度推理成本适中适合中等复杂度任务兼顾响应效率与结果准确性输出简洁推理要点Key Reasoning 最终结论省略冗余推导步骤