DeepEP V2 为什么值得做 MoE 的团队现在就关注？真正先拖慢吞吐的，不是专家数，而是 EP 通信还在抢 SM

张

张建站

2026/5/9 12:30:26

10分钟阅读

DeepEP V2 为什么值得做 MoE 的团队现在就关注？真正先拖慢吞吐的，不是专家数，而是 EP 通信还在抢 SM很多团队一聊到 MoE，第一反应还是 router、负载均衡、FP8 或专家数怎么配。但 DeepSeek 在 2026 年 4 月底公开的 DeepEP V2，指向了一个更接近真实系统瓶颈的事实：当模型走到 DeepSeek-V3 这类细粒度 MoE 规模时，先把训练拖慢的，往往不是专家 MLP 本身，而是 token 路由后的 expert-parallel all-to-all 还在吃带宽、吃 SM、吃重叠空间。这篇文章不做安装教程，我更想把它为什么值得关注、普通团队该从中学什么，讲清楚。1. 它为什么突然值得看：2026 年的 MoE 讨论，瓶颈已经不只在模型结构里如果你这半年一直在看 MoE 训练相关资料，会发现一个变化：讨论重点正从“MoE 为什么省 FLOPs”转向“MoE 为什么开始越来越像通信系统问题”。NVIDIA 在 2026 年 2 月关于 Hybrid-EP 的官方技术博客里，已经把这个判断说得很直接：在 DeepSeek-V3 这类超大规模细粒度 MoE 训练里，EP communication 可能占总训练时间的 50% 以上。Megatron Core 最新文档也把 MoE 训练的瓶颈明确拆成三堵墙：memory wallcommunication wallcompute

从法律到代码：如何设计履行受托义务的负责任人工智能系统

1. 项目概述：当法律遇见代码，我们如何设计“受托”的人工智能？ 在金融顾问为你打理资产、医生为你制定治疗方案时，法律赋予了他们一项特殊的身份：受托人。这意味着他们不能只考虑自己的佣金或医院的效率，而…...

2026/5/9 12:29:00 阅读更多 →

CANN/driver DCMI接口文档

dcmi_get_board_id 【免费下载链接】driver 本项目是CANN提供的驱动模块，实现基础驱动和资源管理及调度等功能，使能昇腾芯片。项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_board_id(int card_id, int device_id, int *bo…...

2026/5/9 12:27:32 阅读更多 →

CANN/CATLASS性能调测

CATLASS性能调测【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass CATLASS示例工程可适配大多数CANN提供的调测工具，算子开发阶段&#xff0c…...

2026/5/9 12:26:55 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →