ZCube：智谱联合攻克AI基础设施「网络墙」，万卡集群推理效率暴涨15%

张

张建站

2026/5/23 14:01:05

10分钟阅读

摘要：GPU一块没加，代码一行没改，仅靠重构组网架构就让推理集群多挤出15%的算力！智谱联合驭势网络与清华大学，在GLM-5.1线上生产集群中完成了新一代组网架构ZCube的规模化落地。这项技术已发表于网络领域最顶级学术会议ACM SIGCOMM 2025，被评价为「显著改变整个行业对网络的认知方式」。一、引言：当「算力焦虑」遇见「网络墙」1.1 AI算力军备竞赛的真相过去几年，全球AI产业陷入了一场轰轰烈烈的「算力军备竞赛」：英伟达H100、H200、B200系列芯片接连问世，单卡算力从H100的395 TFLOPS（FP16）跃升至B200的20 PFLOPS（FP16），四年时间性能提升超过50倍。各大科技公司不惜重金采购GPU，OpenAI训练GPT-5使用了超过10万张H100，Meta更是囤积了超过50万张GPU。然而，一个反直觉的现象正在大规模推理集群中蔓延：当GPU数量从千卡扩展到万卡时，集群的整体算力利用率不升反降。Google在2024年披露的数据显示，其TPU集群在万卡规模下的有效算力利用率仅为45%，Meta的GPU集群平均利用率也只有55%左右。这意味着，超过一半的算力投资被「看不见的瓶颈」所吞噬。1.2 被忽视的「网络墙」问题这个「看不见的瓶颈」，正是数据中心网络。当大模型进行推理时，GPU之间需要进行大量的集合通信（Collective Communication）：AllReduce进行梯度同步、AllGather进行参数广播、ReduceScatter进行梯度分片。以GPT-3（1750亿参数）为例，单次前向传播需要将模型参数在多个GPU之间传递，数据量高达数百GB。即便模型被分片存储，每个推理请求仍然需要在网络中穿越数十次。在千卡规模的集群中，网络带宽通常不是瓶颈。但当规模扩展到万卡、十万卡时，传统的网络架构暴露出了三个致命问题：问题一：单路径拥塞传统数据中心网络采用等价多路径路由（ECMP），将流量均匀分配到多条路径上。然而，AI推理的流量模式与传统数据中心应用截然不同——一次推理请求会触发多个GPU之间的同步通信，产生「通信风暴」。这些流量往往集中在同一时刻、同一路径上，导致核心交换机过载，而其他路径空闲。问题二：「内存墙」加剧网络依赖大模型参数规模庞大，HBM显存容量成为稀缺资源。当显存不足时，需要将部分参数卸载到CPU内存或NVMe存储，这进一步加剧了网络传输压力。英伟达H100虽然配备了80GB HBM3，但对于动辄数百亿参数的大模型而言，依然是杯水车薪。问题三：动态负载不均衡AI推理请求的到达是随机的，不同请求的计算复杂度和通信需求差异巨大。传统静态的网络配置无法适应这种动态变化，导致部分GPU忙得冒烟，而其他GPU闲置等待。1.3 ZCube的诞生背景2025年5月，智谱AI联合驭势网络与清华大学，在SIGCOMM 2025发表了重磅论文《ZCube: A Three-Dimensional Topology-Aware Networking Architecture for Large-Scale AI Inference Clusters》，首次系统性地提出了ZCube架构。这篇论文的核心贡献在于：不增加任何硬件，仅通过重构网络拓扑和传输协议，就让万卡推理集群的吞吐量提升15%，同时将交换机和光模块的硬件成本降低三分之一。这是一个什么概念？以万卡集群为例，光网络硬件成本通常占总成本的15-20%，约为2-5亿元。ZCube在不损失性能的前提下，将这部分成本削减了三分之一，意味着单次部署就能节省2.1-6.4亿元。二、技术架构详解2.1 整体架构概览ZCube是一个「三维度」的智能网络架构，涵盖拓扑维度、协议维度和调度维度。┌─────────────────────────────────────────────────────────────────┐ │ ZCube 整体架构 │ ├─────────────────────────────────────────────────────────────────┤ │ ┌───────────────┐ │ │ │ 调度维度 │ ← ZCube Controller：流量调度 + 拥塞控制 │ │ └───────┬───────┘ │ │ │ │ │ ┌───────┴───────┐ │ │ │ 协议维度 │ ← 自适应路由 + 多路径负载均衡 + 拥塞感知 │ │ └───────┬───────┘ │ │ │ │ │ ┌───────┴───────┐ │ │ │ 拓扑维度 │ ← 三维网络拓扑 + 拓扑感知路由 │ │ └───────┬───────┘ │ │ │ │ │ ┌───────┴───────┐ │ │ │ 物理层 │ ← GPU服务器 + 交换机 + 光模块（现有硬件） │ │ └───────────────┘ │ └─────────────────────────────────────────────────────────────────┘2.2 拓扑维度：三维网络建模传统数据中心网络通常采用两层或三层Clos拓扑（Spine-Leaf架构），将交换机分为Edge、Aggregation、Core三层。这种架构在传统云计算场景下表现出色，但对于AI推理场景存在明显不足：传统Clos拓扑的问题：路径长度不均匀：从源服务器到目的服务器，可能经过2跳、4跳甚至6跳，延迟差异巨大路径选择受限：ECMP只能在等价路径之间均衡流量，无法感知路径质量扩展性受限：增加服务器意味着重新设计网络拓扑ZCube提出了三维网络拓扑建模方法，将AI推理集群的网络抽象为一个三维立方体结构：# Python实现：三维拓扑建模importnumpyasnpfromdataclassesimportdataclassfromtypingimportList,Tuple,Dict@dataclassclassSwitch:id:strposition:Tuple[int,int,int]# (x, y, z) 三维坐标bandwidth:float# Gbpsnum_ports:int@dataclassclassServer:id:strposition:Tuple[int,int,int]gpu_count:intmemory_bandwidth:float# GB/sclassZCubeTopology:""" ZCube三维拓扑网络将万卡集群建模为三维网格结构： - X轴：GPU维度（同一服务器内的GPU） - Y轴：服务器维度（同一机架内的服务器） - Z轴：机架维度（不同机架之间） """def__init__(self,num_racks:int=125,# 125个机架servers_per_rack:int=8,# 每机架8台服务器gpus_per_server:int=8,# 每服务器8块GPUswitch_ports:int=256):# 每交换机256端口self.num_racks=num_racks self.servers_per_rack=servers_per_rack self.gpus_per_server=gpus_per_server self.switch_ports=switch_ports# 构建三维坐标系统self.switches=self._build_switch_grid()self.servers=self._build_server_grid()self.connections=self._build_connections()def_build_switch_grid(self)-List[Switch]:"""构建交换机三维网格"""switches=[]# 计算交换机数量（满足端口数量约束）switches_x=int(np.ceil(self.num_racks/(self.switch_ports//2)))switches_y=int(np.ceil(self.num_racks/switches_x))switches_z=2# 双平面冗余forxinrange(switches_x):foryinrange(switches_y):forzinrange(switches_z):switch_id=f"switch_{x}_{y}_{z}"switches.append(Switch(id=switch_id,position=(x,y,z),bandwidth=400*1000,# 400Tbpsnum_ports=self.switch_ports))returnswitchesdef_build_server_grid(self)-List[Server]:"""构建服务器三维网格"""servers=[]forrackinrange(self.num_racks):forserverinrange(self.servers_per_rack):forgpuinrange(self.gpus_per_server):server_id=f"server_{rack}_{server}_gpu_{gpu}"servers.append(Server(id=server_id,position=(rack,server,gpu),gpu_count=self.gpus_per_server,memory_bandwidth=3.35*1000# HBM3: 3.35 TB/s))returnserversdef_build_connections(self)-Dict[str,List[str]]:"""构建连接关系"""connections={}forserverinself.servers:# 同一服务器内的GPU通过NVLink互联# 不同服务器通过交换机互联src_pos=server.position target_switch=self._find_nearest_switch(src_pos)connections[server.id]=[target_switch.id]returnconnectionsdef_find_nearest_switch(self,position:Tuple[int,int,int])-Switch:"""查找最近的交换机（基于曼哈顿距离）"""defmanhattan_distance(p1,p2):returnabs(p1[0]-p2[0])+abs(p1[1]-p2[1])+abs(p1[2]-p2[2])nearest=min(self.switches,key=lambdas:manhattan_distance(s.position,position))returnnearestdefget_path(self,src:str,dst:str)-List[str]:""" 获取源到目的地的最短路径 ZCube的核心创新：三维拓扑感知的路径计算 - 首先在X轴（同GPU）内查找 - 然后在Y轴（同服务器）内查找 - 最后在Z轴（跨机架）查找 """src_server=next(sforsinself.serversifs.id==src)dst_server=next(sforsinself.serversifs.id==dst)src_pos=src_server.position dst_pos=dst_server.position path=[src]# Step 1: 如果在同一GPU（同服务器内），通过NVLinkifsrc_pos[0]==dst_pos[0]andsrc_pos[1]==dst_pos[1]:path.append(dst)# 直连returnpath# Step 2: 到达源服务器连接的交换机src_switch=self._find_nearest_switch(src_pos)path.append(src_switch.id)# Step 3: Z轴跳转（跨机架）ifsrc_pos[0]!=dst_pos[0]:# 需要跨机架，寻找中间交换机mid_switch=self._find_mid_switch(src_pos,dst_pos)path.append(mid_switch.id)# Step 4: 到达目的服务器dst_switch