从CPU市场到AI算力格局一场关于技术路线、商业逻辑与生态锁定的深度梳理本文内容整理自相关技术讨论与问答记录仅作为个人学习笔记存档。一、为什么科技公司更偏爱To B业务一个敏锐的观察是Intel更看重服务器CPU云服务公司AWS、Azure、Google Cloud几乎完全以To B为核心Anthropic的To B业务也比To C做得更好。这背后的商业逻辑清晰而深刻。1.1 To B vs To C六个关键差异维度To C个人用户To B企业客户客户生命周期价值LTV低迁移成本极低随时可能取消订阅极高迁移涉及改代码、重购硬件、培训员工合同多为年度或多年度利润率与定价权红海竞争用户对价格极度敏感企业追求稳定性与SLA愿意为可靠性支付溢价技术门槛与护城河个人用户不关心私有部署、合规报告银行、医院等必须满足SOC2、HIPAA等复杂需求形成高门槛收入可预测性按月付费波动大年度合同预付费模式现金流极佳网络效应与生态锁定难以建立生态企业软件默认运行在某平台上新企业只能跟随战略定位契合度品牌广告作用基础设施供应商的核心利润来源1.2 典型案例NVIDIA的双轮驱动NVIDIA是一个值得深入剖析的平衡案例。其游戏显卡GeForceTo C和AI芯片数据中心To B都做得很好但市值的绝大部分来自于AI芯片To B的预期。“靠To B赚大钱靠To C护生态”——这句话是对NVIDIA商业模式的精炼概括To B赚大钱数据中心业务H100、B200等占总收入80%以上一块H100售价3-4万美元毛利率超90%。客户是微软、亚马逊、特斯拉这类一次性采购成千上万块的企业。To C护生态GeForce游戏显卡让全球数百万开发者、学生、研究人员买得起带CUDA的GPU。几千块钱的GeForce卡和几万块的企业卡使用同一套CUDA编程模型。这种生态锁定效应使得CUDA成为每个开发者DNA的一部分——当企业决策采购算力时几乎没有第二选项。类比像一家剃须刀公司。To B是卖昂贵的商用刀片给理发店赚大钱To C是卖便宜的刀架给普通人护生态。普通人买刀架不赚钱但学会使用后理发店自然也会选同样的系统。二、Google TPU被嘲笑十年后用Gemini证明自己2.1 “业务成功本身就是最硬的证明”半导体行业存在一个残酷现实纯技术参数算力、带宽、制程并不直接等于商业成功或行业认可真正的认可来自于能否跑通成功的、大规模的业务。Google的TPU张量处理单元正是这一规律的完美注脚。2.2 TPU的原罪与转折点“原罪”TPU从一开始就不是通用计算芯片它被设计出来只为加速Google自己的TensorFlow模型使用脉动阵列Systolic Array和Google自有的编程模型JAX/XLA。在传统半导体专家眼里这就像一个专用玩具。转折点Gemini当Google宣布Gemini尤其是1.0和1.5版本完全在TPU v4/v5e/v5p上训练并且性能达到甚至超越GPT-4级别时意义发生了根本性转变业务证明一个真正难、真正大的业务能跑通说明TPU不是实验室玩具规模验证训练Gemini需要数万个TPU协同工作数月证明了系统工程的成熟度对外宣告Google不再需要半导体圈的认可它用自己的业务成功作为最强说服力2.3 Google胜在哪里Google的胜利不是芯片的胜利而是系统的胜利胜利要素具体表现坚持超过10年从2015年第一代TPU到2025年的TPU v7持续投入一年一代设计-制造-部署-反馈的闭环速度极快v4、v5e、v5p、v6、v7快速迭代软硬兼施硬件层脉动阵列、HBM、互联与编译器XLA/JAX深度耦合协同优化这与华为昇腾的处境形成对照昇腾也走全栈自研路线但早期CANN软件栈被戏称为CANN’t缺乏像Gemini那样全球范围内技术上无可置疑的大模型落地案例来证明自己。不过华为也在用盘古、问界等业务倒逼昇腾成长走在相似的道路上。三、AMD的AI芯片战略机遇与挑战并存3.1 对AMD的博客式分析一段关于AMD的深入分析指出“AMD的MI300系列还是相当可以的4xx在scale-up协议上就像AMD历史上一样朝三暮四脚踏三只船非常的含糊其辞我觉得是个大败笔其余的操作没有问题。”核心判断观点评估MI300性能相当可以✅ 成立。MI300X在推理吞吐量上可达H200的2-5倍192GB HBM3大内存优势明显MI400战略含糊其辞⚠️ 部分成立。技术上支持开放的UALink和以太网多条路线并行确有脚踏三只船迹象但定性为大败笔为时尚早竞争路线选择正确✅ 准确。以开放性对抗NVIDIA封闭生态以推理市场为突破口2026年推理若立住估值可达NVIDIA 1/3-1/5 为时过早。AMD目前在AI GPU市场份额仅个位数约6-7%数据中心CPU是加分项✅ 完全正确。EPYC处理器收入份额已达41.3%出货量份额更达50%3.2 AMD的历史包袱AMD曾凭借64位扩展技术x86-64和首个原生双核架构等技术领先但因战略摇摆、执行不力最终被Intel夺回优势。这种起大早赶晚集的基因延续至今MI400在多路线中摇摆的迹象不免让人担忧其能否克服这个历史包袱。3.3 推理市场AMD的破局机遇推理任务对内存带宽和容量要求极高而对核心计算单元依赖相对较低——这正是AMD MI300系列的优势所在。但要让市场相信AMD能成为推理时代的主导者至少需要证明三点软件生态成熟度ROCm能否媲美CUDA的开发者体验大规模部署稳定性多节点集群的可靠性验证互联方案广泛采用scale-up协议能否获得行业共识四、推理 vs 训练CUDA依赖的真相4.1 一个危险的误解认为推理天然比训练更中立、更容易摆脱CUDA可能是这张牌桌上一张看似正确但最危险的底牌。事实推理对CUDA的依赖度从来就不低。4.2 为什么推理也需要强大的软件生态大模型推理并非简单的加载模型输入输出而是复杂的系统工程推理引擎层vLLM的PagedAttention、Continuous Batching等优化技术需要与底层硬件深度协同算子/内核层需要为FP8/FP4等低精度格式编写优化的内核框架集成层PyTorch、JAX、LangChain等框架需要无缝支持量化/压缩层AWQ、GPTQ、SmoothQuant等量化算法需要配套的算子优化开发者做技术选型时考虑的不是是否绑定CUDA而是哪个生态能让我最快地将模型部署上线并获得最优性能。4.3 AMD ROCm的进展与差距维度NVIDIA (CUDA)AMD (ROCm)差距评估推理性能峰值H200/B200领先MI300X在某些场景大模型、长上下文反而更优互有胜负推理性能性价比高更低MI300X内存大可单卡跑大模型AMD明显占优推理引擎支持vLLM、Triton、TensorRT-LLM全面优化vLLM已支持ROCmTriton有官方指南AMD追赶中算子/内核库cuBLAS、cuDNN、CUTLASS成熟一二十年hipBLAS、MIOpen、AOTriton正在完善差距缩小开发者体验安装简单文档丰富版本兼容性仍是痛点CUDA更优大规模部署验证AWS、Azure、GCP十亿级美元采购Meta、OCI、MS已部署但规模不足NVIDIA优势明显关键结论差距的核心已经不是能跑vs不能跑而是顺手vs折腾、“规模vs试点”。4.4 推理市场的未来格局推理市场正以惊人速度扩张市场规模AI推理芯片市场到2027年可能达到1万亿美元占比超越2025年底至2026年推理已占据AI算力消耗的约67%预计2026年推理需求将超过训练4-5倍群雄并起AMD、Google TPU、AWS自研芯片、Cerebras、Groq、Qualcomm AI200等都在积极布局有分析认为到2028年NVIDIA在推理市场的份额可能从现在的80%以上降至50%。五、CPU市场四象限全景图5.1 市场划分框架CPU市场可清晰划分为四个板块市场板块核心角色市场格局与特点关键数据1. HPC高性能计算Intel, AMD, NVIDIA, ARM战略价值市场价值代表技术巅峰决定未来3-5年技术路线2025年11月TOP500前十中AMD占5席Intel占3席ARM占2席2. Data Center CPU云端Intel, AMD, ARM (AWS Graviton等)主要利润战场x86统治但ARM猛攻Intel约72.7%AMD约27.3%ARM服务器出货量占比预计达21.1%3. PC CPU桌面/笔记本Intel, AMD, 苹果(ARM)市场容量最大以量取胜利润薄桌面AMD 50.1% vs Intel 48.5%笔记本Intel 73.6% vs AMD 20-22%4. 嵌入式 AIoTIntel, AMD, ARM, RISC-V最碎片化ARM根基深厚RISC-V快速渗透ARM在移动/嵌入式SoC领域占比超90%RISC-V占比约3-5%5.2 各板块深度解析HPC技术风向标HPC收入占比不高但这里是技术巅峰。最新TOP500榜单中采用AMD CPU/GPU的系统已占据压倒性优势。谁在超算里赢了谁就拿到了下一代计算生态的入场券。TOP500全球超级计算机算力权威排行榜由德国曼海姆大学、美国田纳西大学等学者于1993年发起每年6月和11月发布两次。排名依据是High-Performance Linpack (HPL)基准测试——让超算解巨大线性方程组看每秒能完成多少次浮点运算FLOPS。Data Center CPU主要利润战场AMD的进攻EPYC系列从零到近30%市场份额证明在高端市场只要产品优秀客户云厂商愿意给机会ARM的奇袭AWS Graviton等云厂商自研芯片避开了Intel和AMD的正面战场直接从最大客户内部攻破PC CPU守成与变量笔记本市场的高粘性Intel占约四分之三说明在移动端品牌、渠道和功耗的综合壁垒极高。未来变量AI PC能否带来换机潮以及ARM架构PC处理器能否在Windows生态真正打开局面。嵌入式 AIoT长尾也是未来这个市场虽然杂乱但它是RISC-V最好的试验田也是x86最难触及的领域。谁在这个边缘地带赢了谁就可能在万物智联时代成为新的中心。5.3 软件生态关键战场无论哪个市场硬件性能差距在缩小软件生态壁垒反而越来越高AMD在服务器市场成功离不开对软件和开源社区的持续投入ARM要攻占服务器必须让所有软件无缝跑在ARM上RISC-V最大的挑战不是设计性能强大的核心而是构建完整工具链和应用生态六、AI推理芯片应该单独列一个板块吗一个自然的问题是以推理为核心的硬件如专门的LPU或各家自研推理芯片应该归类在哪个板块判断推理芯片不会单独成为一个与上述四板块并列的第五板块而是会渗透进每一个角落Data Center推理芯片是云端AI服务的核心算力与数据中心CPU/GPU深度融合HPC超算 increasingly 承担AI推理任务推理优化成为超算设计的重要考量PC/EdgeAI PC的NPU、边缘设备的推理加速器让推理能力下沉到终端嵌入式/AIoT物联网设备的本地推理需求是低功耗推理芯片的最大市场推理不是独立板块而是一种横向能力它将重塑所有计算场景的计算架构。七、信息来源与工具在以上分析中几个关键的信息来源和工具值得了解7.1 IDC国际数据公司全球著名的信息技术、电信和消费科技领域的市场咨询与顾问机构成立于1964年是IDG集团全资子公司。在半导体和IT基础设施领域是极受信赖的权威数据来源。其市场追踪融合了OEM厂商销售数据、渠道分销数据和终端用户调查等多层次信息。7.2 HPCwire全球高性能计算领域最权威、历史最悠久的新闻与信息网站之一创办于1986年。报道全球最快的超级计算机、前沿技术、行业趋势。其每年颁发的HPCwire Readers’ and Editors’ Choice Awards是业界极具声望的奖项。当新款超算芯片发布时HPCwire是展示性能数据、被专家深入分析的重要舞台。7.3 TOP500全球超级计算机算力权威排行榜每年6月和11月发布两次。采用自愿申报制价值在于揭示技术趋势和路线而非完整战力清单Google、微软、亚马逊及中国部分顶尖超算并不总是提交数据。八、总结几个核心判断To B是利润中心To C是生态护城河科技公司更看重To B因为企业客户付费能力强、粘性高、迁移成本大。To C更多是品牌广告和数据飞轮。芯片的价值由业务成功定义纯技术参数不等于商业成功。Google TPU用Gemini证明了自己华为昇腾也在走同样的路。AMD处于关键路口技术已具备竞争力但战略连贯性和执行力决定能否从第二选择升级为核心玩家。推理市场是机遇历史包袱是风险。推理正在重塑算力格局2026年推理需求将超过训练4-5倍推理芯片不会独立成板块而是渗透进所有计算场景。CUDA在推理领域的护城河并非不可逾越但ROCm仍需证明顺手和规模。软件生态是终极壁垒无论硬件性能如何开发者体验、框架兼容性、大规模部署稳定性才是决定胜负的关键。本文内容整理自相关技术讨论与问答记录仅作为个人学习笔记存档。