DeepEP V2 为什么值得做 MoE 的团队现在就关注?真正先拖慢吞吐的,不是专家数,而是 EP 通信还在抢 SM
DeepEP V2 为什么值得做 MoE 的团队现在就关注?真正先拖慢吞吐的,不是专家数,而是 EP 通信还在抢 SM很多团队一聊到 MoE,第一反应还是 router、负载均衡、FP8 或专家数怎么配。但 DeepSeek 在 2026 年 4 月底公开的 DeepEP V2,指向了一个更接近真实系统瓶颈的事实:当模型走到 DeepSeek-V3 这类细粒度 MoE 规模时,先把训练拖慢的,往往不是专家 MLP 本身,而是 token 路由后的 expert-parallel all-to-all 还在吃带宽、吃 SM、吃重叠空间。这篇文章不做安装教程,我更想把它为什么值得关注、普通团队该从中学什么,讲清楚。1. 它为什么突然值得看:2026 年的 MoE 讨论,瓶颈已经不只在模型结构里如果你这半年一直在看 MoE 训练相关资料,会发现一个变化:讨论重点正从“MoE 为什么省 FLOPs”转向“MoE 为什么开始越来越像通信系统问题”。NVIDIA 在 2026 年 2 月关于 Hybrid-EP 的官方技术博客里,已经把这个判断说得很直接:在 DeepSeek-V3 这类超大规模细粒度 MoE 训练里,EP communication 可能占总训练时间的 50% 以上。Megatron Core 最新文档也把 MoE 训练的瓶颈明确拆成三堵墙:memory wallcommunication wallcompute