非常精彩的一篇分析新闻稿
科技新闻类报道,也被颠覆了
OpenAI的芯片博弈:百亿美元豪赌背后的战略与权力
OpenAI在2025年打出了AI基础设施史上最大的一手牌:同时与NVIDIA和AMD签署总价值超过1600亿美元的GPU采购协议。这不仅是商业合同,更是一场重塑AI芯片市场权力格局的深度博弈。
2025年9月22日,Sam Altman宣布与NVIDIA达成1000亿美元战略合作,部署至少10吉瓦(约400-500万颗GPU)的计算能力。仅两周后的10月6日,OpenAI又抛出震撼弹:与AMD签署6吉瓦部署协议,预计带来数百亿美元收入。AMD股价单日暴涨23%,而这一系列动作背后,是AI时代最激烈的供应商博弈与战略算计。
这场游戏的核心矛盾是:OpenAI每年需要600-800亿美元的GPU支出,但2025年营收仅100-200亿美元。在技术依赖、成本压力、供应安全的三重约束下,Altman必须在NVIDIA的技术霸权与AMD的性价比之间走钢丝,同时利用公开承诺制造谈判筹码。本报告将解析这场涉及数千亿美元、影响全球AI产业的权力博弈。
核心事件时间线:从独家到多元化的战略转向
OpenAI的GPU采购策略经历了从完全依赖到激进多元化的戏剧性转变。2024年5月是转折点:AMD的MI300X芯片开始通过微软Azure为OpenAI提供服务,首次打破NVIDIA的垄断地位。这一看似技术性的调整,实则预示着Altman布局已久的供应商制衡战略正式启动。
2025年1月21日,微软官方宣布OpenAI不再是其独家云服务客户,改为"优先购买权"安排。次日,OpenAI联合软银、甲骨文发布Stargate项目:4年5000亿美元投资计划,首期1000亿美元立即部署。这标志着OpenAI从依附微软Azure转向自主构建多云基础设施的战略独立。
真正的高潮出现在2025年9月。9月22日的NVIDIA协议规模空前:10吉瓦容量、逐吉瓦部署、首批交付定于2026年下半年。Jensen Huang亲口表示这是"史上最大AI基础设施项目",相当于NVIDIA一年的出货总量。但协议措辞微妙——NVIDIA被定义为"首选合作伙伴"而非"独家",且作为"被动投资者"参与,这为后续变化埋下伏笔。
仅两周后的10月6日,AMD协议落地,细节更加激进:不仅是6吉瓦采购(首个吉瓦同样定于2026年下半年),还包括AMD向OpenAI发放1.6亿股认股权证(约占AMD总股本10%),行权条件与AMD股价挂钩(最高目标600美元/股)。AMD被称为"核心战略计算合作伙伴",措辞强度甚至超过NVIDIA。AMD CFO Jean Hu明确表示这将带来"数百亿美元收入"。
这一系列协议的总价值惊人:NVIDIA 1000亿、AMD 600亿+、甲骨文3000亿(5年期)、CoreWeave 224亿(三份合同累计)。OpenAI在不到一年时间内锁定了总计超过5000亿美元的计算资源,年均支出600-800亿美元——这是其当前年营收的4-6倍。
更值得注意的时间同步性:NVIDIA和AMD的首个吉瓦部署都定于2026年下半年,暗示OpenAI在同步推进两套并行基础设施。UBS分析师此前指出,AMD"明显缺席"Stargate项目初期公告,因此判断项目将严重依赖NVIDIA。但10月的AMD协议证明,Altman早已在暗中布局双轨策略,只是等待最佳时机公开。
战略动机:供应链焦虑与成本压力的双重驱动
OpenAI激进多元化的第一驱动力是真实而严峻的GPU短缺危机。2025年3月,Altman在社交媒体坦承"我们的GPU正在融化",被迫对图像生成功能实施限流(免费用户每天仅3张)。2月,GPT-4.5发布因"GPU耗尽"推迟。他直言OpenAI被迫做出"不自然的事情"——从研究团队借用算力、暂缓新功能、对用户实施访问限制。
这不是谈判策略,而是运营现实。OpenAI拥有7亿周活用户,但计算能力无法匹配病毒式增长速度。Altman在7月宣布目标是"2025年底前上线超过100万颗GPU",随后又表示需要"再增长100倍"——即1亿颗GPU,相当于3万亿美元投资。这种数量级的需求下,任何单一供应商都无法满足,多元化成为生存必需而非战略选择。
成本因素更加赤裸。NVIDIA H100售价3-4万美元,H200达3.5-5万美元,而AMD MI300X仅1-1.5万美元——价差达2-4倍。在16,000颗GPU的集群规模下,选择AMD可节省约40%资本支出(NVIDIA集群5.5-8.4亿美元 vs AMD集群2.1-3.2亿美元)。对于年均需要投入数百亿美元、但2025年营收仅100-200亿的OpenAI,这种成本差异关乎生存。
NVIDIA的定价权源于其78%的惊人毛利率(AMD为47%,Intel为41%)。汇丰银行分析师直言"震惊于NVIDIA在AI芯片上的定价权"——AI芯片售价是游戏芯片的10-20倍,但成本增幅远小于此。在垄断地位下,NVIDIA有能力维持这种暴利,而OpenAI作为最大单一客户,却无力单独制衡。
更深层的担忧是循环融资风险。NVIDIA投资1000亿给OpenAI,OpenAI转手购买NVIDIA的GPU,资金回流至NVIDIA——这与2000年互联网泡沫时期的供应商融资模式惊人相似。伯恩斯坦分析师Stacy Rasgon警告:"这显然会加剧'循环融资'担忧……距离危机还有一段距离,但随着AI估值飙升,这段距离正在缩短。"NewStreet Research估算:NVIDIA每投资100亿美元给OpenAI,就能获得350亿美元GPU采购回报,占其年收入27%。
Altman面对的核心困境是:NVIDIA既是OpenAI最关键的合作伙伴,也是潜在的制衡目标。NVIDIA同时投资100多家AI公司,包括OpenAI的竞争对手;它也在发展自己的AI服务;它必须在微软、Meta、Google、xAI等客户间分配稀缺的GPU产能。在这种结构下,完全依赖单一供应商等同于将命运拱手相让。
Sam Altman的谈判杠杆:规模、替代性与公开施压
Altman手中握有三张王牌。
第一是无可替代的市场地位:7亿周活用户、5000亿美元估值、AI消费级应用的绝对霸主。OpenAI是全球最大的AI算力消费者,失去这一客户对任何芯片供应商都是重大打击。2025年OpenAI的计算采购规模预计占NVIDIA数据中心收入的15-20%,这种体量本身就是谈判筹码。
第二是可信的替代选项。OpenAI不仅宣布与AMD合作,还在使用Google Cloud的TPU运行ChatGPT和相关服务——这是首次大规模偏离NVIDIA生态。甲骨文3000亿美元云协议、CoreWeave多达224亿的三份合同、微软Azure的深度集成,都证明OpenAI有能力快速切换基础设施。更关键的是,这些替代方案不是威胁,而是已经在生产环境中运行的现实。
Altman将这种能力公开化以制造压力。他频繁在社交媒体发布关于GPU短缺的信息("GPU正在融化""我们已经没有GPU了"),营造稀缺叙事;他公开表示需要1亿颗GPU(当前的100倍),迫使供应商竞争战略地位;他将NVIDIA描述为"被动投资者"而非主导伙伴,弱化依赖性。
第三是结构性谈判策略。OpenAI采用"首选"而非"独家"关系定位,在协议中保留灵活性;它从直接购买转向租赁模式,降低前期资本需求并维持供应商切换选项(虽然NVIDIA承担折旧风险);它将10吉瓦NVIDIA容量分散到多个合作伙伴(微软、甲骨文、软银、Stargate),避免单一故障点。
这种多线布局的高明之处在于:每一个公开承诺都是对其他供应商的暗示压力。当OpenAI宣布与AMD签署6吉瓦协议时,实际上在告诉NVIDIA:"我们有能力大规模迁移工作负载。"当它维持与NVIDIA的1000亿合作时,又在向AMD展示:"你必须证明软件生态成熟度,否则我们随时回到NVIDIA。"
Altman本人的表态微妙平衡。在宣布NVIDIA协议时,他说:"没有哪个伙伴能像NVIDIA一样以这种规模和速度完成交付"——这是认可。但在AMD协议后接受《华尔街日报》采访时,他又表示:"很难夸大获得GPU有多困难……我们希望速度超快,但这需要时间"——暗示NVIDIA供应不足。这种两面话术精准维持着微妙平衡。
NVIDIA的垄断护城河:技术霸权还能维持多久?
NVIDIA在AI芯片市场的统治地位近乎绝对:70-95%市场份额(多数估算为80-85%),78%的恐怖毛利率,4.5万亿美元市值峰值(一度成为全球最有价值公司)。
这种垄断源于三重护城河。
CUDA软件生态是最深的护城河。自2007年推出以来,CUDA已成为AI开发的行业标准,拥有18年的优化积累和广泛社区支持。几乎所有AI框架(PyTorch、TensorFlow、JAX)都以CUDA为默认目标,多数机器学习工程师只接受过CUDA训练。SemiAnalysis的5个月独立测试显示:NVIDIA H100"开箱即用",单条命令即可启动;而AMD MI300X需要60多条命令的Dockerfile从源码编译,构建时间超过5小时,还需设置数十个AMD特定环境变量。
硬件性能优势依然明显。在实际LLM训练任务中,H100的BF16训练性能达720 TFLOPS(理论值的73%),而MI300X仅620 TFLOPS(理论值的47%),慢14%。FP8训练中,H100达1,280 TFLOPS(65%利用率),MI300X仅990 TFLOPS(38%利用率),慢22%。在Mistral 7B等采用滑动窗口注意力的模型上,H100比MI300X快2.5倍。多节点训练场景中,随着集群规模增加,NVIDIA的NVLink交换拓扑相对AMD的xGMI点对点拓扑优势进一步扩大,性能领先10-25%。
供应链控制和客户关系网同样关键。NVIDIA通过2019年收购Mellanox获得领先的GPU互联技术;它与台积电深度绑定,优先获得最先进制程产能;它对SK海力士、美光的HBM3E高带宽内存有优先分配权;它与所有主要云服务商(AWS、Azure、GCP、Oracle)建立了深度技术集成。这些关系不是一朝一夕能够复制的。
然而,裂痕正在出现。2025年1月的DeepSeek冲击是转折点:中国初创公司DeepSeek声称用600万美元和出口限制版的H800芯片(性能远低于H100),训练出与GPT-4竞争力相当的模型。消息传出当日,NVIDIA市值单日蒸发6000亿美元——美国公司史上最大单日损失。虽然NVIDIA股价随后反弹,但DeepSeek证明了一个危险事实:通过算法优化和效率突破,可以大幅降低对顶级硬件的依赖。
监管压力同步升温。美国司法部正调查NVIDIA涉嫌反垄断行为,包括捆绑销售GPU与服务、独家安排、对优先购买竞品客户的惩罚性措施。中国也在反垄断调查中审查NVIDIA收购Mellanox的交易。欧盟对其市场支配地位保持关注。这些监管行动可能削弱NVIDIA的定价权和合同控制力。
更结构性的威胁来自超大规模客户的自研芯片。Google的TPU v6(Trillium)已为Gemini等模型提供支持;亚马逊的Trainium/Inferentia专注训练和推理;微软的Maia 100和Cobalt 100虽然进展缓慢但目标明确;Meta的MTIA已在内部工作负载中使用。摩根大通估计,到2028年云服务商的定制芯片市场将达300亿美元,年增长20%。这些巨头合计占据NVIDIA数据中心收入的40%以上,它们的自主化努力将逐步侵蚀NVIDIA的份额。
AMD的历史性机遇:技术追赶与软件短板
AMD的MI300X在硬件规格上拥有显著优势:192GB HBM3内存(H100仅80GB,多2.4倍)、5.3 TB/s带宽(H100为3.35 TB/s,高60%)、256MB三级缓存(Infinity Cache)。在特定工作负载下,这些优势转化为实际性能:Llama2-70B推理任务中,MI300X比H100延迟降低40%,主要得益于更高的内存带宽;在小批量(1-4)和大批量(256-1024)推理场景下,MI300X成本效益优于H100。
价格优势更加突出。MI300X售价1-1.5万美元,仅为H100(3-4万美元)的25-37%。在16,000颗GPU集群规模下,选择AMD可节省约3.5-5.2亿美元资本支出(40%成本削减)。网络成本方面,AMD生态支持以太网而非昂贵的InfiniBand,进一步节省40%网络开支(收发器和白盒交换机更便宜)。对于需要部署数万甚至数十万颗GPU的OpenAI,这种成本差异具有决定性意义。
OpenAI的背书对AMD具有标志性验证效应。在此之前,AMD主要服务推理工作负载(Meta使用MI300X进行推理,但不用于训练),缺乏在前沿大模型训练上的成功案例。OpenAI的6吉瓦承诺,尤其是明确将用于训练和推理的表述,证明AMD已被AI最前沿公司认可为"核心战略合作伙伴"。这一信号将加速其他客户采纳AMD方案。
AMD的股权激励结构同样精明。1.6亿股认股权证(约10%股本)分批行权,与部署里程碑和AMD股价挂钩(目标价最高600美元/股,当前约165美元)。这意味着:(1)OpenAI与AMD利益深度绑定,有动力推动AMD成功;(2)AMD通过股权而非现金补偿了部分价格折扣;(3)双方形成长期战略联盟而非单纯买卖关系。这种结构比NVIDIA的"被动投资者"定位更紧密。
然而,AMD面临软件生态的致命短板。SemiAnalysis历时5个月的深度测试得出严厉结论:"MI300X无法开箱即用"——公开发布版本BUG频发,Flash Attention内核在数月内以<20 TFLOPS运行(BUG未被发现),FP8训练会导致段错误,FlexAttention功能(NVIDIA在2024年8月发布)到2024年12月在AMD上仍无法工作。
ROCm软件栈质量问题严重。它需要PYTORCH_TUNABLE_OPS标志进行性能调优(每个模型1-2小时),任何代码更改需要重新调优,存在25GB内存泄漏,启发式模型默认选择错误算法。RCCL(NVIDIA NCCL的AMD分支)在集合通信上慢2-4倍(all_gather、reduce_scatter、all_to_all),128颗以上GPU规模的all_reduce操作慢50%。这些性能损失在大规模训练中被指数级放大。
更糟糕的是,AMD在实际生产环境测试严重不足。据报道,AMD的RCCL团队研发用的MI300X不到32颗,而NVIDIA拥有11,000多颗H100集群用于内部测试。这种研发资源差距导致AMD的CI/CD流程薄弱,BUG频繁进入生产版本。Meta虽然部署MI300X,但仅用于推理且使用定制内核,完全回避训练工作负载——这本身就说明问题。
OpenAI与AMD的合作能否改变这一局面?关键在于OpenAI是否会投入工程师团队深度优化ROCm。如果只是期待AMD提供"即插即用"解决方案,那么这6吉瓦部署将面临严重执行风险。但如果OpenAI像Meta那样组建专门团队开发定制内核(OpenAI的Triton编译器已支持MI300X),并与AMD工程师深度协作,那么ROCm生态有望在OpenAI的实战需求推动下快速成熟。AMD CFO明确表示这是"变革性的,不仅对AMD,对整个产业动态都是",暗示AMD将投入巨大资源支持这一合作。
产业格局重塑:从垄断到寡头竞争
OpenAI的双轨战略标志着AI芯片市场从NVIDIA近乎垄断向寡头竞争过渡。最直接的影响体现在股市反应:AMD协议宣布当日,AMD股价盘前暴涨23%,市值增加约650亿美元;NVIDIA虽然小幅下跌1%,但随后稳定,显示市场认为多元化并未根本威胁其地位。
NVIDIA的市场份额将缓慢侵蚀,但远未崩溃。主流分析师预计,未来3-5年NVIDIA份额将从当前的80-85%降至60-70%,但仍保持领先。关键原因是:(1)CUDA生态的转换成本极高,现有客户短期内难以大规模迁移;(2)性能领先仍然明显,尤其在训练工作负载上;(3)Blackwell架构(B200/GB200)承诺相对H100实现4倍训练速度、30倍推理速度,技术代际优势依然存在;(4)供应链掌控力短期难以撼动。
但定价权将受到实质性挑战。78%的毛利率在竞争环境下不可持续。当OpenAI等大客户拥有2-4倍价差的可信替代方案时,NVIDIA必须在保持技术溢价与维护客户关系间平衡。分析师预计NVIDIA毛利率可能在3-5年内压缩至60-65%——仍然非常健康,但显著低于当前水平。年化GPU价格降幅可能达到10-15%,而不是历史上的5-10%。
AMD有望在2027年前达到10-15%市场份额,前提是软件生态快速改善。OpenAI的6吉瓦承诺本身就可能占AMD 2025-2027年AI GPU出货量的25-30%。如果执行顺利,甲骨文(已订购30,000颗MI355X)、微软Azure(MI300X VM已上线)、Meta(推理部署)等客户的采纳将加速。AMD在2024年AI芯片收入目标为40亿美元,OpenAI合作"未来数年将贡献数百亿美元",意味着到2027-2028年,AMD AI收入可能达到150-200亿美元年化规模。
超大规模云服务商的定制芯片将占据15-25%份额。Google TPU已在内部大规模使用,为Gemini、Imagen等提供支持;亚马逊的Trainium 2号称训练性价比优于GPU;微软虽然进展缓慢但长期意图明确。这些定制方案不会进入公开市场,而是降低巨头自身对NVIDIA的依赖。摩根大通估计,到2028年这一市场将达300亿美元规模。
创业公司和中国玩家面临更艰难竞争。Cerebras的巨型晶圆级芯片、Groq的LPU架构、Tenstorrent等虽然技术新颖,但在OpenAI这种超大规模客户选择NVIDIA+AMD双轨后,留给小玩家的市场空间被压缩。中国的华为Ascend系列虽然在国内有政策支持,但2024年产量仅20万颗(NVIDIA在中国销售了100万颗H20),良率仅20-40%,与领先厂商差距仍大。
更深层的影响是"循环经济"模式受到质疑。NVIDIA投资OpenAI 1000亿,OpenAI购买NVIDIA GPU,资金回流;NVIDIA持有CoreWeave约7%股权(30亿美元),CoreWeave已向NVIDIA采购75亿美元H100。美国银行分析师Vivek Arya估算,NVIDIA对OpenAI的交易可能产生高达5000亿美元收入。分析师们开始公开比较这种模式与2000年互联网泡沫时期的供应商融资——当时思科等公司向客户提供贷款购买设备,泡沫破裂时损失惨重。
问题在于:AI需求有多少是真实的,有多少是NVIDIA融资催生的?如果链条中任何一环断裂(OpenAI未能实现盈利、云服务商AI收入不达预期、效率突破降低GPU需求),整个生态可能面临剧烈调整。DeepSeek事件已经展示了这种风险:一个600万美元预算的项目挑战了"必须大力出奇迹"的假设,NVIDIA单日蒸发6000亿美元市值就是市场对此的恐慌反应。
深层博弈:Altman的多线平衡与产业权力重构
Sam Altman正在操盘一场极端复杂的多方博弈。他的真正目标不是选边站,而是建立制衡系统。通过同时承诺NVIDIA 10吉瓦和AMD 6吉瓦,他确保:
(1)任何单一供应商都无法卡住OpenAI的脖子;
(2)供应商间存在实质竞争压力;
(3)OpenAI在价格、优先级、技术路线上拥有谈判空间。
供应商多元化的必要性已从战略选项变为生存必需。在当前AI芯片供需失衡(需求超供给10倍)环境下,OpenAI即使签署了1000亿合同,仍可能因为NVIDIA优先供应微软Azure或Meta而面临短缺。通过AMD作为"核心战略合作伙伴",OpenAI获得了第二供应渠道。更关键的是,AMD的1.6亿股权证让OpenAI成为AMD重要股东(10%),这种利益绑定确保AMD在产能紧张时会优先保障OpenAI。
成本套利空间巨大。假设OpenAI计划部署100万颗GPU(Altman的2025年底目标),如果全部采购NVIDIA H100(3.5万美元均价),成本为350亿美元;如果30%切换至AMD MI300X(1.2万美元均价),可节省约70亿美元——相当于其2025年全年营收的35-70%。在不影响核心训练工作负载的前提下,将推理任务分流至AMD,是显而易见的经济理性。
但Altman面对的约束同样严峻。技术锁定效应难以短期突破:OpenAI的数千名工程师、数百个模型、数百万行代码都基于CUDA生态开发。即使AMD硬件性价比突出,迁移工作负载需要数百人年的工程投入——重写内核、调试性能、验证结果一致性、培训团队。这种转换成本远超硬件价差,解释了为何NVIDIA仍获得10吉瓦(高于AMD的6吉瓦)承诺。
时间维度是另一考量。NVIDIA和AMD的首个吉瓦都定于2026年下半年交付,但Blackwell架构(B200/GB200)已因设计缺陷和CoWoS-L封装产能限制推迟数月,卖空至少12个月。AMD的MI450系列虽然承诺2026年下半年,但AMD历史上产品延期也不罕见(MI300X本身就比原计划晚了几个月)。OpenAI通过双供应商策略对冲这一风险:如果NVIDIA延期,加大AMD采购;如果AMD延期,增加NVIDIA订单。
更隐秘的博弈发生在软件生态层。OpenAI开发的Triton编译器已支持AMD MI300X,这是一个信号:OpenAI可能正投入资源建设跨平台抽象层,降低对CUDA的依赖。如果成功,这将从根本上改变与NVIDIA的权力关系。但这是多年工程,短期内CUDA护城河仍难以逾越。Jensen Huang公开表示CUDA代表"20年的研发投入",并非虚言。
地缘政治因素增加了复杂性。美国对中国的芯片出口管制意味着NVIDIA必须为中国市场开发阉割版(H20),台海紧张局势威胁台积电供应链稳定,NVIDIA在中国面临反垄断调查。这些不确定性促使OpenAI分散风险——AMD同样依赖台积电,但产能需求更小,受地缘冲击的影响可能较低。
Altman在公开表态中的微妙平衡值得细品。宣布NVIDIA协议时,他强调"没有哪个伙伴能像NVIDIA一样",这是必要的尊重;但在AMD协议后,他又说AMD将"加速进步并更快将先进AI的好处带给所有人",暗示AMD是"加速器"而非"备胎"。这种话术精准维持着微妙平衡,既不激怒NVIDIA,也给AMD足够重视。
技术现实的冷酷真相:性能差距与软件生态
抛开商业策略,技术层面的现实冷酷而清晰:NVIDIA在生产环境性能上仍有显著领先,AMD的硬件优势被软件短板抵消。SemiAnalysis的5个月独立测试是迄今最详尽的第三方评估,结论几乎全面否定了AMD在训练工作负载上的竞争力。
训练性能:AMD落后14-22%。BF16精度下,H100实际性能720 TFLOPS(理论989.5 TFLOPS的73%),MI300X仅620 TFLOPS(理论1,307 TFLOPS的47%)。这意味着AMD的硬件利用率不到50%,白白浪费了纸面算力优势。FP8精度情况更糟:H100达1,280 TFLOPS(65%利用率),MI300X仅990 TFLOPS(38%利用率)。在实际模型训练中(GPT 1.5B、Llama 8B/70B、Mistral 7B),H100全面领先,部分场景快2.5倍。
多节点训练差距扩大。在单机8卡训练中,AMD尚能勉强跟上;但扩展到128卡及以上集群时,NVIDIA的NVLink交换拓扑(每GPU 450 GB/s,全连接)相比AMD的xGMI点对点拓扑(GPU对间仅64 GB/s)优势显著。集合通信操作(all_reduce、all_gather)是大规模训练的瓶颈,RCCL在这些操作上比NCCL慢50-400%。这意味着训练千亿参数模型时,AMD的劣势会被指数级放大。
推理性能:AMD在特定场景有优势,但H200大幅缩小差距。MI300X的192GB大内存和5.3 TB/s带宽在Llama2-70B推理中确实展现出40%延迟优势——但这仅限于H100比较。H200配备141GB内存和4.8 TB/s带宽后,性能比H100快45%(Llama 2 70B:31,712 tokens/sec vs 21,806 tokens/sec),基本抹平了MI300X的领先。更重要的是,推理性能高度依赖批量大小:MI300X仅在极小(1-4)和极大(256+)批量下有优势,中间批量(8-128)仍是H100更快。
软件生态的现实更为残酷。MI300X"无法开箱即用"意味着它根本不是通用产品,而是需要深度定制工程的半成品。OpenAI如果真要大规模部署6吉瓦AMD GPU(约25万颗MI450),必须:(1)组建专门的平台工程团队(数十到上百名工程师);(2)为每个模型和工作负载开发定制内核;(3)持续跟踪和修复ROCm BUG;(4)维护自己的编译器和运行时栈。这不是简单的"采购"决策,而是长期战略投资。
Meta的案例提供了参考。Meta部署MI300X仅用于推理,并开发了定制内核,完全避开训练。即便如此,Meta工程团队规模庞大(数千名AI基础设施工程师)。OpenAI虽然也有顶尖工程师,但优先级是构建和训练模型,而非底层系统优化。将资源分散到两个硬件平台(NVIDIA + AMD)可能降低整体效率——除非AMD生态快速成熟到接近CUDA水平。
即将到来的Blackwell架构(B200/GB200)可能进一步拉开差距。NVIDIA承诺相对H100实现4倍训练速度、30倍推理速度(FP4精度)。虽然实际性能打折扣,但如果能达到承诺的50-70%,B200仍将大幅领先AMD当前产品线。AMD的MI450要到2026年下半年才交付,届时面对的将是已经量产数月的B200,技术代际可能再次落后。
能耗和成本的真实对比也值得审视。H100功耗700W,MI300X为750W(高7%),单卡功耗相近。但H200保持700W功耗同时性能提升45%,能效比显著优于MI300X。未来的GB200功耗达1,200W,但如果性能提升2-3倍,能效比仍可能更优。从总拥有成本看,虽然AMD硬件便宜40%,但如果性能和软件成熟度导致需要更多GPU才能完成相同工作,成本优势将被侵蚀。
这些技术现实解释了为何OpenAI给NVIDIA的承诺(10吉瓦)仍高于AMD(6吉瓦)。核心训练工作负载——决定OpenAI竞争力的GPT-5、GPT-6等下一代模型——大概率仍将主要运行在NVIDIA硬件上。AMD的6吉瓦更可能用于:(1)推理服务(尤其是大批量场景);(2)较小模型训练(7B-70B规模);(3)实验性工作负载;(4)作为NVIDIA的备份和议价工具。
未来图景:从万亿投资到格局重塑
OpenAI的激进策略揭示了AI基础设施竞赛的真实规模:数万亿美元级别的长期投资。Altman声称100亿只是"小小的凹痕",需要"再增长三个数量级"——即从百万颗GPU到十亿颗,从千亿投资到百万亿。这种规模下,地球上没有任何单一供应商能够垄断市场。
未来3-5年的市场格局最可能演化为:NVIDIA保持50-60%份额,但毛利率从78%压缩至60%左右;AMD达到15-20%份额,成为可信的第二选择;超大规模云服务商的定制芯片占据20-25%,主要服务各自内部需求。总市场规模以25-30%年复合增长率扩张,从2024年的1230亿美元增至2029年的3100亿美元以上——足够大到支撑多个赢家,但竞争将空前激烈。
三种潜在情景值得关注。
情景一(概率60%):NVIDIA主导但非垄断。技术领先和CUDA护城河继续发挥作用,但份额缓慢侵蚀。AMD站稳脚跟,软件生态逐步改善。定价权分散,客户议价能力增强。行业进入相对健康的寡头竞争。
情景二(概率30%):快速碎片化。效率突破(如DeepSeek类事件)加速商品化进程。算法改进降低对顶级硬件的依赖。NVIDIA份额跌至40-50%,AMD达到25-30%,定制芯片扩展至25-30%。价格战爆发,全行业毛利率压缩,周期性波动加剧。
情景三(概率10%):范式转移。光子计算、类神经形态芯片或量子启发架构出现突破,现有玩家优势被侵蚀。时间窗口可能在2027-2030年。这种颠覆性变化难以预测,但AI芯片架构的根本性创新不能排除。
对OpenAI的影响同样深远。双轨战略提供了供应链韧性和成本优化,但执行复杂性显著增加:两套硬件平台、两套软件栈、更高的工程开销。如果AMD生态成熟速度不及预期,OpenAI可能被迫在性能(坚守NVIDIA)和成本(迁移AMD)间做痛苦权衡。
财务可持续性是终极考验。OpenAI承诺的总计算支出(NVIDIA 1000亿、AMD 600亿+、甲骨文3000亿、CoreWeave 220亿)意味着未来5年年均支出800-1000亿美元,但2025年营收仅100-200亿。这种倒挂只能依靠持续融资维持。穆迪已对甲骨文/OpenAI协议的财务可行性表示担忧,质疑OpenAI是否能产生足够现金流偿付这些承诺。如果OpenAI未能实现盈利预期,整个计算采购计划可能需要缩减,届时与AMD的6吉瓦承诺将首当其冲受到重新评估。
地缘政治和监管维度不容忽视。美中科技竞争将继续塑造供应链格局。美国对先进芯片的出口管制迫使中国发展本土替代(华为Ascend等),全球市场可能分裂为两个生态。NVIDIA面临的反垄断调查如果实质推进,可能削弱其合同控制力,客观上有利于AMD等竞争者。欧盟的《人工智能法案》和数字市场法规也可能影响AI基础设施市场结构。
结论:权力的微妙平衡与不确定的未来
Sam Altman与NVIDIA、AMD的千亿博弈,本质上是AI时代权力分配的缩影。OpenAI的双轨战略揭示了一个残酷现实:在当前技术和市场条件下,没有完美选择,只有权衡取舍。
NVIDIA提供最佳性能和成熟生态,但价格高昂、供应受限、存在依赖风险;AMD提供成本优势和供应多元化,但软件不成熟、性能打折扣、需要巨大工程投入。OpenAI的解决方案不是二选一,而是两个都要——用NVIDIA保证核心竞争力,用AMD控制成本并制衡NVIDIA,同时推动行业向更健康的竞争格局演化。
这场博弈的赢家不会只有一个。NVIDIA将继续统治市场,但其垄断地位和超额利润将受到挑战。AMD迎来历史性机遇,但能否把握取决于软件生态改善速度和大规模交付执行力。OpenAI获得战略灵活性,但财务压力和多平台复杂性是长期考验。
从更宏观视角看,这场博弈推动了整个AI基础设施生态走向成熟:打破垄断、促进竞争、加速创新、降低成本。这对整个AI产业是福音——当计算资源更易获取、价格更合理、供应更稳定时,AI应用的民主化才能真正实现。
但不确定性依然巨大。DeepSeek证明了效率突破可能瞬间改写游戏规则;地缘政治可能打乱供应链;技术范式可能突然转移;金融市场对AI泡沫的担忧可能自我实现。
在这个充满变数的棋局中,唯一确定的是:Sam Altman已经成功确保,无论风向如何变化,OpenAI都不会被单一供应商扼住咽喉。
这或许就是这场千亿豪赌的真正价值所在。