Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第15章|H100、出口管制与AI法案:算力成为新石油

一、184亿美元的地基

2024年2月21日,NVIDIA公布2024财年第四财季财报。这个“2024财年”不是日历年,而是截至2024年1月末的会计年度。公告里有三组数字:第四财季总收入221亿美元,同比增长265%;数据中心业务收入184亿美元,同比增长409%;2024财年全年收入609亿美元,同比增长126%。[1]

这些数字比发布会舞台上的任何形容词都更直接。生成式AI的前台是聊天窗口、图片、视频、代码补全和办公插件;后台首先是GPU、网络、软件栈、服务器、数据中心和供电能力。到2024年初,大模型公司的产品冲刺已经让公众看见能力边界被不断推远,而NVIDIA的财报让行业看见另一件事:不管前台谁赢得掌声,底层“卖铲子”的人先收到了钱。

Jensen Huang在这份财报公告中说:“Accelerated computing and generative AI have hit the tipping point.”他接着说:“Demand is surging worldwide across companies, industries and nations.”[1]加速计算和生成式AI到达临界点,需求在公司、行业和国家之间全球性激增。这个句子的最后一个词很重:nations。AI不再只是公司之间的应用竞赛,也进入了国家能力和产业政策的词典。

半年前,2023年8月23日,NVIDIA的另一份财报已经给出预告。2024财年第二财季,公司总收入135.1亿美元,同比增长101%;数据中心业务收入103.2亿美元,同比增长171%。Huang在公告中说:“A new computing era has begun.”后一句是:“Companies worldwide are transitioning from general-purpose to accelerated computing and generative AI.”[2]

这不是一家芯片公司偶然撞上热点。它更像一条工业链突然被照亮。

第14章写到Gemini、Sora、Claude 3时,公众看到的是多模态能力、视频生成和更强模型的连续发布。但所有这些产品背后,都有一个更冷硬的问题:训练要算力,推理也要算力;模型越大、上下文越长、输出越复杂、用户越多,算力账单越像一面墙。用户在网页上输入一句话,得到一段文本或一段视频,表面上像软件魔法,底层却是数据中心把电力、芯片时间和网络带宽转换成token、像素和动作建议。

软件业喜欢说“云端”,仿佛计算天然漂浮在空气里。生成式AI把云端重新砸回地面:砸到晶圆厂、先进封装、高带宽内存、光模块、机柜、变电站、冷却系统、融资合同和出口许可证上。大模型时代的荒诞感也在这里出现:一家公司对外说要“让每个人拥有智能助理”,对内最紧急的问题可能是下个月能不能排到更多GPU;一个创业团队在路演材料里写“重塑知识工作”,账本上最重的项目却是云算力;一名独立开发者调用API时看见的是每百万token价格,但这串价格背后,是全球半导体供应链的折旧与拥堵。

Huang因此被频繁称作AI淘金热里的“卖铲人”。淘金者可能发财,也可能空手而归;卖铲子、卖运输、卖营地服务的人先收到现金。2023年至2024年,模型公司争夺榜单、用户、开发者和媒体头条,NVIDIA则用财报证明:淘金队伍越长,铲子的议价权越强。

本章要写的,正是产品冲刺背后的真正战场:H100、出口管制、替代芯片、云平台、电力、资本和AI法案。AI看起来像软件革命,底层却越来越像重工业。

二、H100不是一张卡

H100在2023年成为大模型行业的硬通货,并不是因为它是一件神话道具。NVIDIA公开资料显示,H100 Tensor Core GPU基于Hopper架构,面向AI训练、推理和高性能计算;它与高带宽显存、Transformer Engine、NVLink、NVSwitch、CUDA软件生态和数据中心部署方案共同构成一套系统。[3]

这里的关键词不是“GPU”,而是“系统”。

大模型训练的核心工作,是在大量数据上反复更新参数。推理阶段,则是在用户输入之后生成下一个token、下一段代码、下一张图像或下一帧视频。训练需要大规模并行计算;推理需要低延迟、高吞吐和可持续的单位成本。一个模型如果只在论文里演示,算力压力是一种研究问题;一旦变成每天被数百万用户调用的产品,算力压力就变成运营问题、财务问题和供应链问题。

单张H100不能自动训练出前沿模型。真正稀缺的是成千上万张GPU能否稳定联网运行;是高速互联能否减少通信瓶颈;是显存能否容纳模型和上下文;是软件栈能否把研究代码变成可重复的训练任务;是云平台能否把硬件抽象成可购买、可调度、可计费的资源;也是基础设施团队能否让训练任务连续运行数周,而不被网络、散热、电力、存储和调度故障拖垮。

行业里常说“有多少卡”,听起来像仓库清点。实际含义复杂得多:这些卡在哪里,能否上架,是否配套高速网络,能否获得电力,是否已有客户预订,是否有工程团队会用,能否跑通框架和算子,故障后多久恢复。AI行业前台的语言是“智能涌现”,后台的语言是“利用率”“显存占用”“队列长度”“机柜功率密度”和“交付周期”。

对大公司来说,H100是扩大模型边界的工具。对小团队来说,它常常先以另一种形式出现:云服务控制台上的GPU实例、排队等待的配额申请、按小时滚动的费用、以及一旦实验失败就无法收回的成本。云厂商把昂贵硬件租成了可变成本,这降低了创业门槛;但大模型训练和高并发推理又把门槛重新抬高。一个团队可以不用购买整机,也可以在账单里体验到重工业。

这就是大模型时代的门票变化。论文、人才和数据仍然重要,但算力决定了试错频率。谁能负担一次失败训练,谁才有资格尝试更大的模型;谁能把推理成本压下来,谁才有可能把AI嵌进搜索、办公软件、客服、编程工具和视频生成。能力竞赛与成本竞赛变成同一件事。

三、云端的军备竞赛

H100从零部件变成战略资源,是因为它同时牵动三类玩家。

第一类是云厂商。微软Azure、Google Cloud、AWS、Oracle等平台要为模型公司、企业客户和内部产品提供AI基础设施。云厂商卖的不再只是CPU虚拟机、数据库和对象存储,而是“能不能训练和部署大模型”的承诺。AWS在2023年7月宣布,搭载NVIDIA H100 Tensor Core GPU的Amazon EC2 P5实例一般可用,并称这些实例面向大语言模型、扩散模型和高性能计算等工作负载。[4]这种公告不是普通产品更新,它是云平台向客户展示:自己有能力把AI热潮变成可租用的基础设施。

第二类是基础模型公司。OpenAI、Anthropic、Google DeepMind、Meta、Mistral等公司的路线各不相同,有的闭源,有的开源,有的主攻API,有的强调消费入口,但它们都绕不开训练和推理算力。模型越受欢迎,推理开销越大;产品越深入工作流,稳定性和延迟要求越高。一次发布会的刷屏,可能意味着第二天开始就要面对限流、扩容、成本优化和客户服务。

第三类是创业公司和研究团队。它们未必有能力从零训练最前沿基础模型,却需要租用GPU做微调、评测、数据合成、检索增强、推理部署和产品试验。大模型产业链因此形成一种不平等的开放:理论上,云服务让更多团队接触到高端算力;现实中,谁拿得到足够配额、谁能承担连续实验的费用、谁有工程能力把算力跑满,仍然决定了机会大小。

公开报道中的H100价格也强化了这种稀缺感。CNBC在2023年5月报道称,NVIDIA的AI芯片在eBay等渠道上出现高价转售,部分H100相关商品价格超过4万美元。[5]这类报道不能等同于NVIDIA官方定价,也不能代表所有成交价;不同采购规模、配置、渠道和供需环境会造成巨大差异。但它足以说明一点:高端AI加速器已经不再是普通IT采购目录里的可替换零件,而是会影响企业战略节奏的资源。

更重要的是,芯片本身只是开始。GPU要进入服务器,服务器要进入机柜,机柜要连接网络,网络要接入数据中心,数据中心要有电力、冷却、运维和土地,还要有足够多客户消化昂贵产能。前台像互联网,后台像制造业;宣传语像消费软件,资产负债表像半导体、电力和地产的混合体。

这给时代中的个体留下了新的坐标。程序员感受到的是代码补全更快了,创作者感受到的是视频生成更惊艳了,企业员工感受到的是会议纪要和合同摘要更方便了;但在这些体验之前,采购经理要签长期合约,基础设施工程师要提高集群利用率,财务团队要评估毛利率,数据中心附近的社区要面对用电、用水和建设审批。AI不是只发生在屏幕上,它也发生在机房和电网里。

四、出口许可证里的国家安全

2023年10月17日,美国商务部工业与安全局发布新闻稿,标题写得很清楚:“Commerce Strengthens Restrictions on Advanced Computing Semiconductors, Semiconductor Manufacturing Equipment, and Supercomputing Items to Countries of Concern”。[6]这不是一条普通市场新闻,而是一份国家安全文件。

BIS规则文本围绕先进计算芯片、半导体制造设备、超级计算终端用途以及相关目的地和实体展开,使用了总处理性能、性能密度等技术参数,并通过许可证要求限制特定先进计算能力的出口、再出口和境内转移。[7]政策逻辑不能简化成一句口号。美国政府的公开理由是,先进计算芯片和超级计算能力可能被用于军事、情报和先进AI能力,因此需要纳入出口管制框架。

据BIS新闻稿转述,美国商务部长Gina Raimondo表示,更新规则旨在提高出口管制有效性,防止先进芯片被用于可能危及美国国家安全的军事和AI能力。[6]这句话的关键不在情绪,而在制度化:AI芯片从商业供应链项目,进入国家安全治理。

NVIDIA随后在提交给美国证券交易委员会的Form 8-K文件中披露,新规则影响A100、A800、H100、H800、L40、L40S等产品,以及包含这些产品的部分系统。[8]这组名字本身就揭示了规则演进的背景。2022年美国已对部分先进计算芯片实施出口管制;此后,面向中国市场的降规产品出现。到2023年10月,规则进一步调整,试图减少通过规格修改绕开限制的空间。

这对中国大模型团队的影响不是抽象的。

第一,高端GPU获取更受约束。训练前沿模型需要大量稳定算力,如果顶级芯片采购和云端获取受限,模型迭代节奏会改变。第二,工程路线被迫更重视效率。量化、蒸馏、稀疏化、混合专家模型、推理优化、国产算力适配、异构集群调度,不再只是论文里的优化方向,而是现实约束下的生存技术。第三,开源协作和模型复用价值上升。当从零训练超大模型的成本和不确定性提高,基于开源权重做领域微调、小模型和垂直应用,就更接近许多团队的实际能力。第四,国产芯片和软件生态被推到前台,但硬件、编译器、算子库、框架适配、稳定性和开发者习惯都需要时间积累。

这不是“某一方必胜”或“某一方必败”的故事。出口管制改变的是约束条件。创新不会停止,但会改道。美国试图通过控制先进算力扩散来维护国家安全优势;中国企业和研究机构则必须在受限供应、国产替代、工程优化和合规之间重新设计路线。

芯片在这里呈现出石油般的属性:它不是唯一资源,却能决定工业速度;它不直接等于智能,却决定谁能更频繁地试错;它不是战争本身,却会进入国家安全文件和许可证流程。

五、第二供应商的意义

NVIDIA的强势催生了一个朴素愿望:没有一家云厂商、模型公司或国家,愿意把AI时代的关键产能完全押在单一供应商身上。

2023年12月6日,AMD在Advancing AI活动上发布Instinct MI300系列,其中MI300X面向生成式AI和高性能计算市场。AMD公开材料称,MI300X配备192GB HBM3内存,强调大显存对大模型推理和训练的价值。[9]同场活动中,AMD还给出公司预测:数据中心AI加速器市场到2027年可能达到约4000亿美元。[10]这个数字是AMD的公司预测,不是独立事实;但它说明AMD进入这场竞争时,看到的不是边缘机会,而是一个可能重塑半导体格局的巨大市场。

Lisa Su的战略意义,不在于发布会参数表上某一项指标是否压过H100,而在于“第二供应商”本身。

在企业采购里,第二供应商意味着谈判空间;在云平台里,第二供应商意味着供应安全;在模型公司里,第二供应商意味着可以在软件迁移痛苦和长期锁定风险之间重新权衡;在国家产业政策里,第二供应商意味着技术路线不被一家公司完全锁定。AMD的挑战不只靠硬件,还要靠ROCm软件生态、框架支持、客户迁移、开发者习惯和云厂商部署。AI芯片竞争从来不是单卡峰值性能的擂台赛,而是“芯片—网络—软件—云服务—开发者生态”的持久战。

与此同时,云厂商也在推进自研芯片。2023年11月,微软公布Azure Maia 100 AI Accelerator和Azure Cobalt CPU,说明它不想只做NVIDIA GPU的采购经理。[11]AWS在re:Invent 2023发布Trainium2,继续强化自研训练芯片路线。[12]Google更早建立TPU体系,并在云服务中持续推出TPU实例。[13]

这些路线各有局限。自研芯片要面对软件生态、客户迁移、性能稳定性和量产节奏;外部GPU则要面对供需紧张、高昂成本和供应风险。但方向很清楚:云平台和模型公司都在降低对单一加速器供应链的依赖。

AI行业嘴上谈AGI,采购部门谈供应风险;研究论文写模型结构,基础设施团队写集群拓扑;发布会讲“下一代智能”,供应链会议讲封装产能和交付周期。技术史在这里显得很诚实:再宏大的智能叙事,也要先过物料清单。

六、资本、电力和数万亿美元传闻

当算力变成门票,钱就会涌向更底层。

2024年2月,《华尔街日报》报道,Sam Altman曾寻求筹集巨额资金,以重塑芯片和AI业务;相关设想规模可能达到5万亿至7万亿美元级别。[14]这里必须写成“据报道”,也必须强调它不是OpenAI官方宣布的已完成融资计划。它更像一个信号:模型公司已经意识到,仅仅租用现有云资源,可能无法满足未来模型和产品的算力需求。

5万亿至7万亿美元这个量级带有强烈的行业荒诞感。它超过普通科技融资的想象范围,也接近主权基金、国家产业政策和全球基础设施重构的语境。即使把它理解为长期、全球性、产业链级别的设想,而不是一张即刻到账的支票,它仍然说明AI算力问题已经越过传统创业融资边界。这里需要的是晶圆制造、先进封装、HBM供应、服务器制造、数据中心建设、电力接入、冷却系统、网络设备和长期客户合同。

大模型公司的商业画面因此变得分裂:一边是网页上的每月订阅和API调用,一边是可能以千亿甚至万亿美元计的基础设施设想;一边是用户输入提示词生成文本和视频,另一边是半导体产业链为更多矩阵乘法扩产。

算力背后还有电力。国际能源署在《Electricity 2024》中指出,数据中心、AI和加密货币相关电力需求未来几年可能显著上升;报告估计,这类用电需求可能从2022年的约460太瓦时,增加到2026年最高超过1000太瓦时,约相当于日本一国用电规模。[15]这些预测带有情景假设,不应被机械理解为确定结果。但它提醒行业:AI不只吃数据,也吃电。

数据中心的用电和冷却问题,让“云端”这个词再次暴露其物理性。一个地区能不能部署大规模AI集群,不只看有没有土地和税收优惠,还要看电网容量、可再生能源、供水、散热、许可审批和社区接受度。对模型公司来说,这是基础设施;对地方政府来说,这是投资和就业;对附近居民来说,可能是施工、用水、噪音、税收和电网升级。AI在宏观叙事里叫“生产力革命”,在地方议程里则会变成一座数据中心的选址文件。

算力像石油,但又不完全像石油。石油被燃烧后消失,算力可以反复出租;石油是能源本身,GPU是把电力转换成计算的机器;石油的地理分布由地下矿藏决定,算力的分布则由半导体制造、资本开支、软件生态和政策边界共同决定。因此,“算力成为新石油”不是一句万能口号,而是一种结构性比喻:谁能组织起足够便宜、足够稳定、足够合规的计算,谁就能更快训练、部署和迭代AI系统。

七、法律也成为基础设施

2024年3月13日,欧洲议会通过AI Act。投票结果是523票赞成、46票反对、49票弃权。[16]如果说H100代表AI的物理底座,AI Act则代表另一种底座:法律和制度。

欧洲议会新闻稿中,联合报告员Brando Benifei说:“We finally have the world’s first binding law on artificial intelligence.”同一份新闻稿还写道:“The regulation aims to protect fundamental rights, democracy, the rule of law and environmental sustainability from high-risk AI, while boosting innovation and establishing Europe as a leader in the field.”[16]

这两句话把欧盟路径说得很清楚:AI不是先进入社会、出问题以后再修补;AI系统本身要被放进风险分类、透明度义务、禁止性实践、高风险用途监管和通用AI模型规则之中。欧盟委员会对AI Act的说明中,也将其概括为基于风险的方法:不可接受风险用途被禁止,高风险系统承担更严格义务,有限风险系统强调透明度,通用AI模型面对相应要求。[17]

对模型公司来说,这意味着竞争不再只是“谁先发布”。一个模型能不能进入医疗、金融、教育、招聘、执法、公共服务等场景,不只取决于准确率和成本,还取决于数据治理、可解释性、偏见评估、安全测试、用户告知、责任划分和监管审查。演示视频可以只展示最惊艳样例;现实社会要处理误伤、歧视、版权、隐私、劳动影响和环境成本。

对个体来说,法律基础设施并不抽象。求职者面对自动筛选系统,学生面对AI辅助评分,病人面对临床辅助工具,创作者面对训练数据和生成内容争议,普通用户面对深度伪造和聊天机器人建议。这些场景里,模型能力越强,问题越不能只交给产品经理的“用户体验优化”。制度要回答的是:谁知道系统在使用AI,谁能质疑结果,谁承担责任,谁能获得救济。

美国没有采取与欧盟完全相同的立法路径,但治理也在推进。2023年7月,白宫宣布多家AI公司作出自愿安全承诺;2023年10月30日,拜登签署关于安全、可靠、可信AI开发和使用的行政令,要求围绕安全测试、国家安全、隐私、公平、消费者保护、劳动力影响和政府使用等方面采取行动。[18][19]此外,美国还通过国会听证、联邦机构执法、标准制定和行业承诺推进治理。

把芯片管制和AI立法放在一起看,AI竞争的边界就更清楚了。出口管制管的是“谁能获得训练和部署前沿模型所需的关键算力”;AI Act这类制度管的是“训练出的系统如何进入社会”。前者决定能力形成的速度和分布,后者决定能力扩散的合法路径和社会成本。一个是物理瓶颈,一个是制度瓶颈;一个写在商务部规则和许可证里,一个写在议会投票和监管义务里。

监管不会让技术停止,正如稀缺芯片也不会让创新停止。它们改变的是路径、成本和责任。企业会为了合规调整产品设计,为了出口限制调整供应链,为了推理成本调整模型大小,为了能源约束调整数据中心选址。AI行业从“能不能做出来”,进入“能不能买到算力、能不能跑得起、能不能合法部署、能不能被社会接受”的阶段。

八、从聊天窗口到工业底座

回看前三卷,AI故事的画面不断下沉。

ChatGPT让公众第一次在浏览器里直接触摸大模型;GPT-4让行业相信能力出现跃迁,也让黑箱、幻觉和安全评估成为无法绕开的议题;如第12章和第13章所述,OpenAI五天风暴把公司治理裂缝暴露在全世界面前;到2024年初,Gemini、Sora、Claude 3继续把产品能力往前推,视频、多模态和更强模型让公众再次感到震动。

到这一章,所有炫目的产品终于落到工业底座上。

决定AI未来的,不只是Sam Altman、Sundar Pichai、Dario Amodei或任何一位模型公司CEO。还有Jensen Huang和NVIDIA的供货能力,Lisa Su和AMD的替代路线,云厂商的自研芯片,制造与封装环节,高带宽内存供应商,数据中心运营商,电网公司,资本市场,美国商务部,欧洲议会,以及每一个将AI系统放进真实社会的监管机构。

这并不削弱AI革命的兴奋感。相反,它让兴奋变得更真实。一个能写、能看、能生成视频、能调用工具的系统,如果真要成为新的社会基础设施,就必然会牵动旧世界最坚硬的部分:芯片、土地、电力、法律、国家边界和公共责任。AI不是漂浮在云上的魔法,它是高度组织化的工业能力。

怀疑也必须保留。算力增长是否能持续转化为能力增长,仍是开放问题;高昂成本能否被商业收入覆盖,仍需财报检验;出口管制会带来怎样的技术绕行和产业重组,仍在演化;AI Act能否在保护权利与促进创新之间取得平衡,也要看执行细节。新石油可以推动工业,也可能制造依赖、泡沫和冲突。

第15章收束的不是AI故事,而是它的第一阶段幻觉:以为模型公司发布产品,就是全部战场。

ChatGPT让公众看见AI,GPT-4让行业相信能力跃迁,OpenAI风暴让人看见治理裂缝,而H100和AI Act告诉读者:决定AI未来的,不只是模型,也包括芯片制造商、云平台、能源系统、监管者和国家。

当每家公司都想发布Sora、Devin和更强Agent时,它们真正争夺的第一资源,不是用户注意力,而是算力。

参考文献

  1. NVIDIA,“NVIDIA Announces Financial Results for Fourth Quarter and Fiscal 2024”,2024-02-21。
  2. NVIDIA,“NVIDIA Announces Financial Results for Second Quarter Fiscal 2024”,2023-08-23。
  3. NVIDIA,“NVIDIA H100 Tensor Core GPU Architecture Whitepaper”,2022。
  4. Amazon Web Services,“Amazon EC2 P5 Instances powered by NVIDIA H100 Tensor Core GPUs are now generally available”,2023-07-26。
  5. CNBC,Kif Leswing,“Nvidia’s A.I. chips are selling for more than $40,000 on eBay”,2023-05-26。
  6. U.S. Bureau of Industry and Security,“Commerce Strengthens Restrictions on Advanced Computing Semiconductors, Semiconductor Manufacturing Equipment, and Supercomputing Items to Countries of Concern”,2023-10-17。
  7. Federal Register,“Implementation of Additional Export Controls: Certain Advanced Computing Items; Supercomputer and Semiconductor End Use; Updates and Corrections”,2023-10-25。
  8. NVIDIA,Form 8-K Current Report,2023-10-17。
  9. AMD,“AMD Launches Instinct MI300 Series Accelerators, Delivering Leadership Performance for Generative AI and HPC”,2023-12-06。
  10. AMD,“AMD Advancing AI 2023”,2023-12-06。
  11. Microsoft,“Microsoft unveils custom-designed Azure chips”,2023-11-15。
  12. Amazon Web Services,“AWS announces next generation AWS-designed chips”,2023-11-28。
  13. Google Cloud,“Cloud TPU v5e is now generally available”,2023-08-29。
  14. The Wall Street Journal,“Sam Altman Seeks Trillions of Dollars to Reshape Business of Chips and AI”,2024-02-08。
  15. International Energy Agency,“Electricity 2024”,2024-01。
  16. European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024-03-13。
  17. European Commission,“AI Act”,2024。
  18. The White House,“FACT SHEET: Biden-Harris Administration Secures Voluntary Commitments from Leading Artificial Intelligence Companies to Manage the Risks Posed by AI”,2023-07-21。
  19. The White House,“Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence”,2023-10-30。