速度即护城河AMD GPU 上的推理性能原文作者Andy Luo, Lingpeng Jin, Carlus Huang, Chuan (Richard) Li, Peng Sun, Emad Barsoum, Ramine Roane在生成式AI 的现实场景中推理性能的竞争正在从静态跑分转向“迭代速度”。InferenceX 作为我们软件栈迭代速度的“试炼场”用可复现的工程改进来验证端到端推理的提速。我们认为真正的“领先能力”不应依赖无法在生产复现的脚本化“快照性能”。我们正持续交付满足 FP8 生产需求、并兼具 FP4 能力的突破。而且这些改进是结构性的通过对 vLLM、SGLang 等开源推理引擎的原生适配让用户在标准工作流中直接享受性能提速。I.核心突破分布式推理DI的“速度曲线”上移过去几周在分布式场景中我们通过计算与通信软件的大幅优化使整体性能曲线明显上移。这些提升直接体现在端到端吞吐与交互体验的改善。解决通信与Prefill 瓶颈对于像DeepSeek R1DSR1这类大模型分布式推理DI的效率决定了部署的成本与规模。预填充Prefill瓶颈消除Prefill 曾是分布式推理端到端性能的主要限制。我们通过并行结构重构将 prefill 吞吐约提升一倍使 DSR1 FP8 8K/1K 的分布式每 GPU 吞吐从 2K 提升到 3K在一周内。该结果已达到或超过公开基线 ~2.2K。通信重叠Communication Overlap利用“通信气泡”与计算重叠在中高交互区间实现对齐或更优表现。II. MoRI低时延互联的“引擎”为实现上述分布式突破我们工程化了MoRIModular RDMA Interface。MoRI 作为通信性能与时延优化的架构“底座”通过通用原语与内核调度最大化带宽利用并降低端到端时延。Expert ParallelismMORI-EP面向大规模MoEMixture-of-Experts模型如 DeepSeek-R1提供高性能的专家分发与聚合内核。近期的内核级优化将时延降低至最多约 82%使 HBM、XGMI、RDMA 等通信开销接近理论上限。自适应内核选择MoRI 能自动切换高吞吐内核用于prefill 与高并发 decode与低时延内核用于低并发场景。预调度的启动配置确保最大化CU 利用率。统一流量控制KV 传输引擎MoRI-IO与 MoE 专家并行皆构建于 MoRI 的通用原语之上可统一进行网络优先级管理。通过联合优化 KV 传输与 token 分发流量促进协调的数据搬运与持续的网络效率。基于以上优化与调优AMD GPU 在 DeepSeek FP8 的分布式推理性能InferenceX v2在 7 天内获得显著提升覆盖 1K/1K 与 8K/1K 两类场景。这一改进速度体现了栈的持续演进节奏。图1DSR1 FP8 SGLang 分布式推理8K/1K随时间的进展III.单机与 MTP定义新的交互标准单机性能是推理的基石Multi-Token PredictionMTP则是改善交互体验的关键特性。单机性能通过在AITER 库内进行内核融合与针对性优化我们提升了单机配置下的计算效率与整体硬件利用率。对于具有代表性的大模型工作负载单机推理相对框架基线可获得约 1.08x–1.2x 的吞吐提升。这些增益已在面向客户的 PoC 中验证能够在实际部署环境中带来可衡量的性能改善。例如我们与社区在Qwen3 延迟优化的合作展示了软硬协同如何转化为可复现的性能收益。Qwen3 延迟优化 [1]MTP交互体验的“代际跃升”我们利用MTP 在保持模型精度的同时降低有效 decode 时延。在评估的交互区间内AMD GPU 结合 MTP 的每 GPU 吞吐表现更高。IV. 从 Day-0 支持到持续优化我们的目标非常明确新模型Day-0 即可跑通其后通过迭代持续提速。近期的 Qwen3 Coder Next 在 AMD GPU 上的 Day-0 支持正是这一策略的体现。Day-0 支持文章 [2]我们直接与vLLM、SGLang 集成确保与标准开源工作流的即时兼容同时在内核、通信与并行策略上持续优化。这样客户既能“即刻部署”又能随软件演进获得持续的性能增益。在分布式服务中系统架构与工作负载特性同样重要。机架级系统在特定场景中具备优势而高交互服务强调对时延的敏感性。我们的重点是在全交互谱系上交付稳健、可生产的性能。V. 路线图生态普适与原生集成策略我们坚持“原生集成”路线优先与社区保持一致避免生态碎片化。路线图将把 ATOM 的核心能力深度集成到主流开源框架中确保客户通过标准工具即可发挥 AMD GPU 的峰值能力。1. 双轨集成性能与生态的双重对齐vLLM 集成与 vLLM 上游保持对齐并通过 Out-of-TreeOOT路径交付优化内核无需修改核心代码。既保留生态兼容又实现 Day-0 性能。vLLM ATOM 在吞吐上相对 vLLM 原生可获得最高约 1.2x 的提升。SGLang 对齐ATOM 作为新模型与新硬件的高速度后端在 SGLang 中直接集成优化内核。功能与精度完成验证并持续进行基准测试确保无缝性能表现。2026 年上半年功能路线从“冲刺”到“规模化”我们将分阶段推进从技术PoC 走向生产就绪的生态普适使 FP4、disaggregation、WideEP 等能力完全可组合支持大规模部署。阶段目标与特性2026 年上半年结语速度是我们的护城河。我们会在推理软件栈的各层持续执行、每周推进性能。这也是更大范围执行路线图的一部分。AMD系列GPU 与 Helios 已在实验室取得良好进展我们正按计划推进软硬件验证预计下半年实现量产爬坡与首批客户部署。参考链接[1] Qwen3 延迟优化https://lmsys.org/blog/2026-02-11-Qwen-latency/[2] 引用文章AMD GPU 全面支持 Qwen 3.5性能、上下文长度与多模态的新突破