DeepSeek-V4更新:百万 token 上下文、1.6T MoE、FP4+FP8 混合精度、Pro-Max 与 Flash-Max 全面解析
2026年4月24日DeepSeek-AI正式发布DeepSeek-V4系列预览版本该系列包含两款强大的混合专家Mixture-of-Experts, MoE语言模型——DeepSeek-V4-Pro与DeepSeek-V4-Flash同时配套推出DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base两个基础版本全方位覆盖不同推理需求场景。作为开源大模型领域的重要更新DeepSeek-V4系列在架构优化、推理效率、任务适配性上实现多重突破支持百万token上下文长度在代码、数学、推理、智能体等多类任务中表现亮眼甚至在部分基准测试中逼近领先闭源模型成为当前开源大模型领域的标杆之作。本文将对DeepSeek-V4全系列模型进行全面、详细的拆解涵盖模型简介、架构升级、下载方式、评测结果、使用方法等核心内容助力开发者快速掌握模型特性、高效上手部署。一、DeepSeek-V4系列核心模型整体概述DeepSeek-V4系列是DeepSeek-AI推出的新一代MoE架构语言模型核心定位是“高效能、长上下文、多场景适配”预览版本包含四款核心模型分别为DeepSeek-V4-Flash、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro、DeepSeek-V4-Pro-Base其中DeepSeek-V4-Flash与DeepSeek-V4-Pro为核心功能版本Base版本则提供基础模型支持满足不同开发者的轻量化或定制化需求。两款核心功能模型DeepSeek-V4-Flash与DeepSeek-V4-Pro均采用混合专家MoE架构支持百万token1M的上下文长度这意味着模型能够处理超长文本输入适配长文档分析、多轮对话、代码审计等复杂场景。二者的核心差异集中在参数量与性能定位上DeepSeek-V4-Pro总参数量达1.6T激活参数量49B主打高性能、全场景覆盖DeepSeek-V4-Flash总参数量284B激活参数量13B主打轻量化、高效推理在控制资源占用的同时兼顾性能表现。值得注意的是DeepSeek-V4-Pro与DeepSeek-V4-Flash均支持三种推理强度模式可根据实际任务需求灵活切换同时推出Max推理模式DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max进一步挖掘模型推理潜力其中DeepSeek-V4-Pro-Max稳居当前最佳开源模型之列大幅缩小了与领先闭源模型的差距。二、DeepSeek-V4系列核心架构与优化升级DeepSeek-V4系列在架构设计与训练优化上引入多项关键创新核心目标是提升长上下文处理效率、训练稳定性与模型表达能力具体升级点如下2.1 混合注意力架构大幅提升长上下文处理效率为解决长上下文场景下推理效率低、资源占用高的痛点DeepSeek-V4系列设计了混合注意力机制创新性地结合压缩稀疏注意力Compressed Sparse Attention, CSA与重度压缩注意力Heavily Compressed Attention, HCA实现了长上下文处理效率的显著提升。该架构的核心优势的在于“精准压缩、高效计算”通过CSA与HCA的协同作用在保留关键信息的前提下对注意力权重进行合理压缩减少冗余计算。官方测试数据显示在百万token上下文场景下DeepSeek-V4-Pro相比上一代模型DeepSeek-V3.2仅需27%的单token推理FLOPs浮点运算次数和10%的KV缓存极大降低了长上下文推理的资源消耗让百万token级别的长文本处理变得更加高效、可行。2.2 流形约束超连接mHC增强跨层信号传播稳定性在传统残差连接的基础上DeepSeek-V4系列引入了流形约束超连接Manifold-Constrained Hyper-Connections, mHC进一步优化模型的跨层信号传播机制。传统残差连接虽能缓解梯度消失问题但在深层模型中仍存在信号衰减、传播不稳定的问题影响模型的表达能力与训练效果。mHC通过引入流形约束对跨层信号传播进行规范与增强在保留模型原有表达能力的同时显著提升了跨层信号传播的稳定性让深层模型的训练更加顺畅有效避免了训练过程中出现的梯度爆炸、模型退化等问题为模型性能的提升奠定了架构基础。2.3 Muon优化器实现更快收敛与更高训练稳定性训练优化器是大模型训练的核心组件直接影响模型的收敛速度、训练稳定性与最终性能。DeepSeek-V4系列采用全新的Muon优化器相比传统优化器如Adam、SGDMuon优化器在收敛速度与训练稳定性上实现双重提升。通过优化学习率调度、梯度更新策略Muon优化器能够让模型在训练过程中更快收敛减少训练迭代次数同时有效抑制训练过程中的波动提升训练稳定性确保模型能够充分学习训练数据中的特征进一步挖掘模型的性能潜力。2.4 预训练与后训练打造多领域专业能力DeepSeek-V4系列的两款核心模型DeepSeek-V4-Flash与DeepSeek-V4-Pro均在超过32T高质量、多样化token上进行了预训练涵盖文本、代码、数学、知识问答等多个领域确保模型具备扎实的基础能力。在预训练基础上模型经过全面的后训练流程采用两阶段范式精准培养模型的领域专家能力第一阶段通过监督微调SFT和基于GRPO的强化学习RL独立培养模型在不同领域的专业能力让模型在代码、数学、推理等特定领域形成核心优势第二阶段通过在线策略蒸馏on-policy distillation对模型进行统一整合将多个领域的专业能力融合到单一模型中实现“全领域覆盖、各领域精通”的效果让模型能够适配多样化的任务需求。2.5 Max推理模式挖掘模型性能极限DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最大推理努力模式经过针对性优化显著提升了开源模型的知识能力稳居当前最佳开源模型之列。该模式下模型在代码基准测试中达到顶尖水平在推理与智能体任务上大幅缩小了与领先闭源模型之间的差距成为开源模型中少有的能够与闭源模型同台竞技的存在。与此同时DeepSeek-V4-Flash-Max作为DeepSeek-V4-Flash的Max推理模式在拥有更大推理预算的情况下可实现与Pro版本相当的推理性能能够满足中高端推理需求但由于其参数规模较小总参数量284B激活参数量13B在纯知识类任务和最复杂的智能体工作流上性能略逊于Pro版本适合对资源占用有要求、推理难度适中的场景。三、DeepSeek-V4全系列模型下载指南DeepSeek-V4系列四款模型均支持通过HuggingFace与ModelScope两个平台下载其中DeepSeek-V4-Flash-Base与DeepSeek-V4-Pro-Base还支持通过ModelScope SDK和Git命令下载具体下载信息与操作步骤如下开发者可根据自身需求选择合适的下载方式。3.1 全系列模型下载信息汇总以下是DeepSeek-V4系列四款模型的核心参数与下载地址汇总清晰呈现各模型的差异与下载渠道方便开发者快速查询模型名称总参数量激活参数量上下文长度精度下载渠道DeepSeek-V4-Flash-Base284B13B1MFP8 混合HuggingFace | ModelScopeDeepSeek-V4-Flash284B13B1MFP4 FP8 混合*HuggingFace | ModelScopeDeepSeek-V4-Pro-Base1.6T49B1MFP8 混合HuggingFace | ModelScopeDeepSeek-V4-Pro1.6T49B1MFP4 FP8 混合*HuggingFace | ModelScope注FP4 FP8 混合精度说明MoE专家参数使用FP4精度其余大部分参数使用FP8精度该精度设置在保证模型性能的前提下进一步降低了模型的存储与推理资源占用。3.2 DeepSeek-V4-Flash-Base下载方法当前DeepSeek-V4-Flash-Base的贡献者未提供更详细的模型介绍模型文件和权重可通过“模型文件”页面获取也可通过以下两种方式直接下载3.2.1 ModelScope SDK下载首先需要安装ModelScope SDK然后通过代码调用实现模型下载具体步骤如下# 安装ModelScopepip install modelscope# SDK模型下载frommodelscopeimportsnapshot_download model_dirsnapshot_download(deepseek-ai/DeepSeek-V4-Flash-Base)执行上述代码后模型将自动下载到指定目录默认目录可通过ModelScope配置调整下载完成后即可用于本地部署与推理。3.2.2 Git下载通过Git命令直接克隆模型仓库获取模型文件与权重具体命令如下# Git模型下载gitclone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Flash-Base.git克隆完成后进入对应目录即可获取模型的全部文件与权重适合需要手动配置模型参数的开发者。3.3 DeepSeek-V4-Pro-Base下载方法与DeepSeek-V4-Flash-Base类似DeepSeek-V4-Pro-Base未提供详细模型介绍模型文件和权重可通过以下两种方式下载3.3.1 ModelScope SDK下载安装ModelScope SDK后通过以下代码下载模型# 安装ModelScope若已安装可跳过pip install modelscope# SDK模型下载frommodelscopeimportsnapshot_download model_dirsnapshot_download(deepseek-ai/DeepSeek-V4-Pro-Base)3.3.2 Git下载使用Git命令克隆模型仓库具体命令如下# Git模型下载gitclone https://www.modelscope.cn/deepseek-ai/DeepSeek-V4-Pro-Base.git3.4 核心模型DeepSeek-V4-Flash/Pro下载说明DeepSeek-V4-Flash与DeepSeek-V4-Pro可直接通过HuggingFace或ModelScope平台下载访问对应平台的模型页面按照平台提示操作即可完成下载。其中ModelScope平台的模型地址分别为- DeepSeek-V4-Flash可通过ModelScope搜索“deepseek-ai/DeepSeek-V4-Flash”获取下载链接- DeepSeek-V4-Pro可通过ModelScope搜索“deepseek-ai/DeepSeek-V4-Pro”获取下载链接。下载完成后模型文件可直接用于本地推理、微调等任务无需额外的权重转换若有特殊需求可参考后续“本地运行”部分的说明。四、DeepSeek-V4系列模型详细评测结果为全面验证DeepSeek-V4系列模型的性能官方进行了多维度的基准测试涵盖基础模型评测、指令微调模型评测、与前沿模型对比、不同推理模式对比四个维度测试数据全面、详实能够清晰反映各模型的性能表现与优势场景。以下是完整的评测结果解析4.1 基础模型评测结果基础模型评测主要针对DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base三款模型从架构、参数量、世界知识、语言与推理、代码与数学、长上下文六个维度进行测试具体结果如下表所示基准测试指标样本数ShotsDeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base架构-MoEMoEMoE激活参数量-37B13B49B总参数量-671B284B1.6T世界知识AGIEval (EM)0-shot80.182.683.1MMLU (EM)5-shot87.888.790.1MMLU-Redux (EM)5-shot87.589.490.8MMLU-Pro (EM)5-shot65.568.373.5MMMLU (EM)5-shot87.988.890.3C-Eval (EM)5-shot90.492.193.1CMMLU (EM)5-shot88.990.490.8MultiLoKo (EM)5-shot38.742.251.1Simple-QA verified (EM)25-shot28.330.155.2SuperGPQA (EM)5-shot45.046.553.9FACTS Parametric (EM)25-shot27.133.962.6TriviaQA (EM)5-shot83.382.885.6语言与推理BBH (EM)3-shot87.686.987.5DROP (F1)1-shot88.288.688.7HellaSwag (EM)0-shot86.485.788.0WinoGrande (EM)0-shot78.979.581.5CLUEWSC (EM)5-shot83.582.285.2代码与数学BigCodeBench (Pass1)3-shot63.956.859.2HumanEval (Pass1)0-shot62.869.576.8GSM8K (EM)8-shot91.190.892.6MATH (EM)4-shot60.557.464.5MGSM (EM)8-shot81.385.784.4CMath (EM)3-shot92.693.690.9长上下文LongBench-V2 (EM)1-shot40.244.751.5从基础模型评测结果可以看出1. 参数量优势DeepSeek-V4-Pro-Base总参数量1.6T和激活参数量49B远超另外两款模型为其性能优势奠定了基础DeepSeek-V4-Flash-Base虽然激活参数量13B最小但整体性能优于上一代模型DeepSeek-V3.2-Base体现了架构优化的价值。2. 世界知识表现三款模型中DeepSeek-V4-Pro-Base在所有世界知识类基准测试中均表现最佳尤其是Simple-QA verified55.2、FACTS Parametric62.6等指标大幅领先于另外两款模型DeepSeek-V4-Flash-Base在C-Eval92.1、CMMLU90.4等中文知识测试中表现突出适合中文场景应用。3. 语言与推理表现三款模型整体表现接近DeepSeek-V4-Pro-Base在HellaSwag88.0、WinoGrande81.5等推理类指标中略胜一筹DeepSeek-V4-Flash-Base在DROP88.6指标中表现最佳体现了轻量化模型的推理优势。4. 代码与数学表现DeepSeek-V4-Pro-Base在HumanEval76.8、MATH64.5等核心指标中表现最佳适合复杂代码与数学任务DeepSeek-V4-Flash-Base在CMath93.6指标中表现突出在基础数学任务中具备优势DeepSeek-V3.2-Base在BigCodeBench63.9指标中领先但其整体代码能力不及DeepSeek-V4系列模型。5. 长上下文表现DeepSeek-V4-Pro-Base51.5gt; DeepSeek-V4-Flash-Base44.7gt; DeepSeek-V3.2-Base40.2充分体现了DeepSeek-V4系列在长上下文处理上的优化效果尤其是Pro版本能够更好地适配超长文本场景。4.2 指令微调模型三种推理模式详解DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三种推理强度模式不同模式针对不同的任务场景设计具备不同的特点与回复格式开发者可根据任务需求灵活选择具体如下表所示推理模式特点典型应用场景回复格式Non-think快速、直观的响应日常例行任务、低风险决策总结Think High有意识的逻辑分析速度较慢但更准确复杂问题求解、规划lt;thinkgt; 思考过程 总结Think Max将推理能力发挥到极致探索模型推理能力的边界特殊系统提示 lt;thinkgt; 思考过程 总结三种推理模式的核心差异在于“推理深度”与“响应速度”的平衡Non-think模式追求高效适合简单、高频的日常任务Think High模式兼顾速度与准确性适合中等复杂度的推理与规划任务Think Max模式追求极致准确性适合复杂、高风险的任务能够充分挖掘模型的推理潜力。4.3 DeepSeek-V4-Pro-Max与前沿模型对比为验证DeepSeek-V4-Pro-Max的性能水平官方将其与当前主流前沿模型Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High等进行对比测试涵盖知识与推理、长上下文、智能体能力三个维度具体结果如下表所示基准测试指标Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighK2.6 ThinkingGLM-5.1 ThinkingDS-V4-Pro Max知识与推理MMLU-Pro (EM)89.187.591.087.186.087.5SimpleQA-Verified (Pass1)46.245.375.636.938.157.9Chinese-SimpleQA (Pass1)76.476.885.975.975.084.4GPQA Diamond (Pass1)91.393.094.390.586.290.1HLE (Pass1)40.039.844.436.434.737.7LiveCodeBench (Pass1)88.8-91.789.6-93.5Codeforces (Rating)-31683052--3206HMMT 2026 Feb (Pass1)96.297.794.792.789.495.2IMOAnswerBench (Pass1)75.391.481.086.083.889.8Apex (Pass1)34.554.160.924.011.538.3Apex Shortlist (Pass1)85.978.189.175.572.490.2长上下文MRCR 1M (MMR)92.9-76.3--83.5CorpusQA 1M (ACC)71.7-53.8--62.0智能体能力Terminal Bench 2.0 (Acc)65.475.168.566.763.567.9SWE Verified (Resolved)80.8-80.680.2-80.6SWE Pro (Resolved)57.357.754.258.658.455.4SWE Multilingual (Resolved)77.5--76.773.376.2BrowseComp (Pass1)83.782.785.983.279.383.4HLE w/ tools (Pass1)53.152.051.654.050.448.2GDPval-AA (Elo)161916741314148215351554MCPAtlas Public (Pass1)73.867.269.266.671.873.6Toolathlon (Pass1)47.254.648.850.040.751.8从对比结果可以看出DeepSeek-V4-Pro-Max在多个维度表现亮眼核心优势如下1. 知识与推理在Chinese-SimpleQA84.4、LiveCodeBench93.5、Codeforces3206、Apex Shortlist90.2等指标中表现突出其中LiveCodeBench和Codeforces指标超越多数前沿模型体现了其在中文知识和代码领域的核心优势在GPQA Diamond90.1、HMMT 2026 Feb95.2等指标中接近顶尖水平知识储备与推理能力强劲。2. 长上下文在MRCR 1M83.5、CorpusQA 1M62.0指标中表现优异虽然不及Opus-4.6 Max但远超Gemini-3.1-Pro High充分体现了其百万token上下文的处理能力适合长文档分析等场景。3. 智能体能力在SWE Verified80.6、BrowseComp83.4、MCPAtlas Public73.6等指标中表现出色与领先模型差距较小能够较好地适配智能体相关任务具备较强的工具调用与任务执行能力。整体而言DeepSeek-V4-Pro-Max作为开源模型在多个核心指标上逼近甚至超越部分闭源模型大幅缩小了开源与闭源模型之间的差距成为当前开源大模型的佼佼者。4.4 不同推理模式下的性能对比为清晰呈现不同推理模式对模型性能的影响官方测试了DeepSeek-V4-Flash与DeepSeek-V4-Pro在三种推理模式下的表现涵盖知识与推理、长上下文、智能体能力三个维度具体结果如下表所示基准测试指标V4-Flash Non-ThinkV4-Flash HighV4-Flash MaxV4-Pro Non-ThinkV4-Pro HighV4-Pro Max知识与推理MMLU-Pro (EM)83.086.486.282.987.187.5SimpleQA-Verified (Pass1)23.128.934.145.0模型地址modelscope.cn/collections/deepseek-ai/DeepSeek-V4