OpenAI开放MRC协议：实现微秒级故障恢复，确保大规模AI训练网络通信稳定

张

张建站

2026/5/8 15:48:21

10分钟阅读

【导语OpenAI通过OCP开放了超大规模AI训练时使用的网络协议——MRC。该协议由OpenAI联合英伟达、AMD等厂商花两年时间打造旨在确保大规模训练环境下网络通信的稳定性。】OpenAI开放MRC协议多厂商参与合作OpenAI通过Open Compute Project向全行业开放了超大规模AI训练使用的网络协议MRC。此次开放是和硬件厂商合作英伟达、AMD和英特尔都参与其中。网友认为能把这些厂商聚在一起合作制定标准十分困难。MRC协议由OpenAI联合英伟达、AMD、英特尔、微软和博通花两年时间完成目前跑在OpenAI所有最大规模的NVIDIA GB200超算上。MRC协议解决大规模集群通信难题同步预训练的通信模式对网络极度敏感随着集群规模扩大网络故障频率上升。为解决此问题MRC主要做了三件事。一是多平面网络拓扑将800Gb/s的网卡拆成8条100Gb/s子链路连到独立交换机形成8个并行网络平面降低互联成本和故障点。二是自适应包喷射扩展RoCE的乱序处理能力允许将单次传输的包喷射到数百条路径上并行传输拥塞检测和路径切换在连接层完成响应在微秒级。三是用SRv6静态源路由取代动态路由协议将路径决策移到发送端消除路由收敛引发的抖动。MRC协议发布后同步推出播客MRC技术博客公布后OpenAI同步发布了一期播客OpenAI网络负责人Mark Handley和工作负载负责人Greg Steinbrecher在播客中聊了MRC从动机到落地的完整过程。编辑观点OpenAI开放MRC协议是AI领域的重要突破其多维度设计确保了大规模网络可靠性多厂商合作也为行业发展提供了新方向。

京东自动抢购工具Autobuy-JD：告别手慢无的5个高效技巧

京东自动抢购工具Autobuy-JD：告别手慢无的5个高效技巧【免费下载链接】autobuy-jd 使用python语言的京东平台抢购脚本项目地址: https://gitcode.com/gh_mirrors/au/autobuy-jd 还在为抢不到限量商品而烦恼？面对秒杀活动总是慢人一步&#xff1…...

2026/5/8 15:48:08 阅读更多 →

开关柜局放国产替代浪潮下：开关柜局放监测技术与实践深度解析

摘要高压开关柜作为电力系统的关键设备，其绝缘状态的健康直接关系到电网运行的可靠性与安全性。局部放电（Partial Discharge, PD）是评估电气设备绝缘劣化的核心指标。近年来，随着国家对关键技术自主可控的战略部署，国产…...

2026/5/8 15:48:08 阅读更多 →

AutoCAD字体缺失终结者：5个秘诀让你彻底告别字体兼容性问题

AutoCAD字体缺失终结者：5个秘诀让你彻底告别字体兼容性问题【免费下载链接】FontCenter AutoCAD自动管理字体插件项目地址: https://gitcode.com/gh_mirrors/fo/FontCenter 你是否曾经在打开AutoCAD图纸时，面对满屏的问号和乱码文字感到束手无策…...

2026/5/8 15:48:02 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →