第24章|DeepSeek 冲击波:低成本推理模型改写全球想象
一、一个数字跑在脚注前面
2025年1月27日,华尔街的交易屏幕替人工智能行业写出了一行过于醒目的脚注。
据路透社当天报道,NVIDIA 股价下跌约17%,市值蒸发约5930亿美元,被报道为美国上市公司历史上最大的单日市值损失之一;同一轮抛售波及多家与人工智能算力叙事绑定的科技公司。[1] 新闻标题里有 DeepSeek,交易员屏幕上有 NVIDIA,社交媒体上则有一个比技术报告传播得更快的数字:557.6万美元。
这个数字来自 DeepSeek-V3 技术报告。它很短,适合截图,适合被放进标题,适合在大模型行业过去两年的昂贵叙事里制造一声脆响。过去,市场熟悉的故事是另一种单位:数万张 GPU、数百亿美元资本开支、数据中心、电力合同、先进封装、云厂商库存,以及几乎被神圣化的“规模定律”。突然,一家中国团队的技术报告说,一个强模型的训练计算成本估算可以写成几百万美元。于是,数字离开论文表格,穿过技术社区、财经媒体、政策讨论和散户论坛,一路跑得比脚注还快。
但本章必须先把脚注追上。
DeepSeek 没有公开证明“只花557.6万美元就从零建成一家前沿大模型公司”。它公开披露的是 DeepSeek-V3 在特定口径下的训练计算成本估算:约2.788M H800 GPU hours,按每 H800 GPU hour 2美元估算,合计约557.6万美元。[2] 这不是公司总成本,不是全部研发成本,不是从无到有的模型成本,也不是长期提供 API 服务的推理成本。它不包含团队薪酬、数据处理、架构探索、失败实验、集群折旧、工程工具链、安全评估、产品运营、带宽与服务可用性等项目。
这条澄清并不会削弱 DeepSeek 的冲击。恰恰相反,它让冲击更真实。一个神话很容易被另一个神话取代:昨天的神话是“只有无限资本才能接近前沿”,今天的神话则可能变成“前沿智能已经便宜到像下载软件”。DeepSeek 真正击中的,是两者之间更复杂的地带:如果训练效率、架构选择和后训练方法能够大幅改变单位能力成本,那么过去两年被视作自然规律的资本密集路线,就必须重新接受审计。
人工智能行业在这一天表现出一种熟悉的荒诞感:一串来自论文成本表的会计数字,被当成了技术革命、商业模式威胁、地缘政治信号和股票估值因子。每一种解释都抓住了一部分事实,也都容易把其余部分挤到页脚里。
DeepSeek 重要,不是因为它让算力不重要;而是因为它证明,算力重要到必须被更精细地计算。
二、V3 报告到底说了什么
DeepSeek-V3 的技术报告最早在2024年12月底进入公开视野,随后在2025年1月成为全球争论的底稿。报告摘要开头写道:“We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token.”——DeepSeek-V3 是一个 MoE 语言模型,总参数6710亿,每个 token 激活约370亿参数。[2]
这句话里有三个关键词:MoE、671B、37B activated。
普通读者更容易记住671B,因为它足够大。工程师更关心37B activated,因为它说明每次生成并不调用全部6710亿参数。MoE,即 Mixture-of-Experts,把模型内部拆成多个“专家”,每个 token 只路由到部分专家。这个架构的经济学含义很直接:参数总量可以很大,但每次推理或训练更新激活的计算量可以被控制。DeepSeek-V3 还采用了 Multi-head Latent Attention、DeepSeekMoE、FP8 混合精度训练、多 token 预测目标等设计。[2] 这些名词没有发布会口号好懂,却与成本曲线有关。
报告称,DeepSeek-V3 在14.8万亿 token 上进行预训练,并经历监督微调和强化学习阶段。[2] 它披露的训练资源口径也很明确:使用2048块 NVIDIA H800 GPU;完整训练消耗约2.788M H800 GPU hours;按每 H800 GPU hour 2美元估算,总训练成本约557.6万美元。[2]
真正应该被记住的是这句话的限定条件。
第一,这是训练计算成本估算,不是全部模型成本。
第二,这是按照 H800 GPU 小时价格计算的账面口径,不等于购买集群、搭建机房或长期运维的资本成本。
第三,它主要描述已选定路线后的训练消耗,不覆盖此前探索过程中失败或被放弃的实验。
第四,它不说明未来每一次回答用户问题的推理成本。
第五,它不能直接与闭源公司外界猜测的全部研发投入相比较。
如果把大模型公司比作一家餐厅,训练计算成本更像某一批菜品在灶台上消耗的燃气费;总模型成本还包括厨师、菜单研发、试菜失败、厨房租金、供应链、卫生许可、前厅服务和长期品牌。DeepSeek 披露的数字令人惊讶,是因为这笔“燃气费”比外界预期低得多;但把它说成整家餐厅的全部开张成本,就把技术报告改写成了段子。
这并不是吹毛求疵。2025年1月,行业最需要区分四类成本。
第一类是训练 compute cost,即模型训练阶段消耗多少 GPU 小时、TPU 小时或其他加速器时间。DeepSeek-V3 报告里的557.6万美元属于这一类。[2]
第二类是 total model cost,即为了做出这个模型的综合成本。它包括研究、人员、数据、失败实验、硬件、软件、基础设施、安全、合规和机会成本。多数公司不会完整披露这一项,外界只能估算。
第三类是 inference cost,即模型上线后回答用户问题的成本。推理模型尤其复杂,因为“思考更久”通常意味着生成更多中间 token、占用更长时间、使用更多显存与调度资源。训练只发生少数几次,推理则可能发生数十亿次。
第四类是 market mythology,即资本市场愿意相信的成本故事。它不完全等于技术事实,却会影响估值、融资、采购和战略。DeepSeek 的数字击穿的,正是第四类故事。
V3 报告的价值,不在于给行业一个可以复读的便宜口号,而在于迫使行业承认:成本不是一个单数名词。
三、R1:推理模型走出闭源神殿
如果 V3 让外界重新计算训练效率,那么2025年1月20日发布的 DeepSeek-R1 则让另一个问题浮出水面:推理能力是否一定属于闭源前沿实验室?
DeepSeek 在 GitHub 发布 DeepSeek-R1,并开放模型权重与推理模型系列说明。[3] R1 的技术论文题为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。论文摘要写道:“DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning.”[4] 这句话的意思是,DeepSeek-R1-Zero 在不以监督微调作为预备步骤的情况下,通过大规模强化学习展现出推理能力。
论文随后也写明问题:“However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing.”[4] 因此,DeepSeek-R1 并不是把 R1-Zero 直接扔给用户,而是在后续训练流程中加入冷启动数据、多阶段训练等步骤,以改善可读性、稳定性和整体表现。[4]
这段技术路线在2025年初有特殊含义。此前几个月,OpenAI 的 o1 系列已经把“慢思考”推到前台,前文已经写过,模型开始被训练为在复杂数学、代码和科学任务上花更多时间推理。推理模型曾经看起来像闭源巨头的专属舞台:需要最强基座模型、昂贵后训练流程、复杂安全评估和产品层调度。DeepSeek-R1 的开放权重,让这个舞台突然多出一扇侧门。
DeepSeek 在 R1 论文和仓库中给出了一组基准测试结果。论文报告称,DeepSeek-R1 在 AIME 2024 上 pass@1 为79.8%,在 MATH-500 上为97.3%,Codeforces rating 为2029,并在若干推理、数学、代码任务上接近或超过当时若干公开对照模型。[4] 这些数字解释了为什么 R1 会迅速进入全球讨论:它不是一个只会聊天的开放模型,而是在一些被视作“推理能力测试场”的任务上打进了前沿讨论区。
但 benchmark 不是现实世界的缩略图。
数学竞赛题、代码题、选择题和问答题可以测量模型能力的一部分,却不能完整覆盖真实企业环境中的长链任务、工具调用、权限控制、事实一致性、多轮协作、延迟、成本、鲁棒性和安全边界。不同模型在测试时使用的采样设置、提示词、思考 token、工具可用性与评测管线也可能不同。R1 论文自己的限制部分也提到,多轮、函数调用、复杂角色扮演、结构化输出、语言混合与软件工程类任务仍存在限制或需要进一步改进。[4]
换句话说,R1 没有把“推理模型”变成已经彻底解决的商品;它把“强推理能力只能在闭源 API 里出现”的想象打松了。
开源权重的影响在这里尤其关键。DeepSeek-R1 仓库列出了不同规模的蒸馏模型,包括基于 Qwen 与 Llama 系列的 1.5B、7B、8B、14B、32B、70B 等版本,并说明 DeepSeek-R1 系列支持商业使用和衍生工作,具体蒸馏模型还需遵守其底座模型相应许可证。[3] 这意味着开发者不必只在一个远程聊天框里体验推理能力;他们可以下载、部署、量化、蒸馏、集成,或者把模型放进自己的评测管线里。
闭源模型像一座开放大厅的建筑。用户能在前台办业务,开发者能读 API 文档,媒体能参观样板间,但墙后图纸仍由业主持有。开放权重模型并不等于整座建筑透明——训练数据、完整实验过程、内部调参仍可能不可见——但它至少把材料交到更多人手里。材料一旦流动,宣传部门就会自动外包给开发者社区。
这就是 R1 的第二层冲击:它让推理能力不再只是一项产品功能,也变成了一种可搬运的工程材料。
四、价格表比口号更冷静
DeepSeek 冲击波的另一端,不在论文里,而在价格表上。
DeepSeek API 文档把 V3 对应的服务入口称为 deepseek-chat,把 R1 对应的服务入口称为 deepseek-reasoner,并以每百万 token 为单位列示输入与输出价格;价格结构还区分缓存命中输入、缓存未命中输入和输出 token。[5] 这种写法很会破除神话:训练成本再耀眼,开发者最终面对的账单仍然是 token、延迟、吞吐、上下文长度、缓存命中率和输出长度。
推理模型尤其容易制造成本错觉。普通聊天模型回答一个短问题,也许几百个 token 就结束;推理模型为了求解数学题、写代码或规划任务,可能生成更长的推理轨迹或内部思考过程。即使单 token 价格下降,任务总 token 数也可能上升。便宜的模型如果让使用次数增长十倍,总账单也可能并不下降。人工智能行业的会计学经常像魔术:单价下降,支出上升,所有人都声称自己是效率的受益者。
DeepSeek 的 API 价格仍然重要,因为它给市场提供了一个新锚点。过去,很多小团队在做推理类产品时只能面对两个选择:调用昂贵闭源模型,或者使用能力明显不足的开放模型。R1 之后,选择菜单变长了。团队可以调用 DeepSeek 的推理 API,可以下载开放权重模型自己部署,可以使用较小蒸馏模型服务低风险任务,也可以把闭源模型留给最关键环节,把开放模型用于预处理、草稿生成、测试或内部工具。
这不是“每家公司都能训练一个 R1”。那仍然需要顶级研究与工程能力。真正改变的是应用层预算表。
一个小型开发团队如果要做数学解题助手、代码审查工具、数据分析代理或客服自动化,过去常常把“模型能力”视作黑箱订阅费。R1 之后,他们至少可以开始拆账:哪些任务需要最高质量?哪些任务可以用蒸馏模型?哪些环节必须低延迟?哪些请求可以缓存?哪些输入会反复出现?哪些输出过长导致费用失控?哪些数据因为隐私要求必须本地部署?哪些功能只是演示热闹,实际没有用户愿意付费?
这些问题比“557.6万美元”更接近产品现实。
云采购方也被迫学习同一套区别。训练成本、推理成本和真实部署成本不是一回事。一个模型的论文训练成本低,不代表企业用它就一定便宜;一个 API 单价低,也不代表安全、合规、监控、评测、故障恢复和数据治理免费;一个开放权重模型能下载,也不代表部署团队不需要 GPU、推理框架、运维经验和安全测试。
DeepSeek 使小团队兴奋,也使采购表格变厚。行业荒诞之处在于:每当 AI 变得“更容易使用”,真正负责任的使用清单通常会更长。
五、红色交易日与谨慎归因
DeepSeek 的市场场景必须只讲一次,因为它太容易被讲成寓言。
2025年1月27日,路透社报道 NVIDIA 股价下跌约17%,市值蒸发约5930亿美元;报道将抛售与 DeepSeek 引发的低成本 AI 能力担忧联系在一起,同时也把它放在更广泛的科技股回调和 AI 估值压力中讨论。[1] 这是一个真实事件,却不是一个可以被压缩成“DeepSeek 导致 NVIDIA 崩盘”的单因果故事。
资本市场从不只交易技术事实。它交易预期、仓位、估值、流动性、风险偏好、利率环境、季度业绩、行业叙事和新闻标题。DeepSeek 是那一天最醒目的触发因素之一,因为它挑战了一个关键假设:前沿模型能力是否必然需要不断扩大训练算力和资本开支?如果算法效率提高,单位能力所需计算量下降,最昂贵 GPU 的长期需求曲线会不会变化?
这个问题足以引发重估。过去两年,NVIDIA 被视为 AI 淘金热里卖铲子的人。只要模型规模继续扩大,云厂商继续囤卡,AI 应用继续吞吐算力,NVIDIA 的位置就像产业瓶颈。DeepSeek 的出现没有立刻证明瓶颈消失,却让市场看到瓶颈可能有旁路:更高效的架构、更便宜的后训练、更开放的模型、更低的应用层调用成本。
但另一种解释同样有历史依据:效率提升不一定减少总需求。照明更便宜后,人类照亮了更多街道;计算更便宜后,软件吞掉了更多计算;带宽更便宜后,视频填满了网络。AI 也可能如此。推理模型越便宜,越多应用会把推理嵌进工作流;每个文档、每段代码、每个客服请求、每个数据报表都可能调用模型。单位成本下降,需求总量可能扩大。
据 CNBC 报道,NVIDIA 对 DeepSeek 的回应强调其是一次“excellent AI advancement”,并将其与测试时计算扩展联系起来;报道转述的 NVIDIA 立场还强调,推理仍需要大量 NVIDIA GPU 和高性能网络。[6] 这并不意外。对于 NVIDIA 来说,最稳固的叙事不只是“训练更贵”,而是“AI 使用无处不在,每一次生成、规划、搜索和工具调用都需要计算”。
因此,1月27日的红色屏幕不是技术判决书,而是预期审计表。它说明市场曾经把 AI 成本曲线讲得太直,把算力需求讲得太单向,把少数公司的优势讲得太稳。DeepSeek 让投资者重新给这些假设加上概率和折扣。
那一天以后,NVIDIA 仍然是 AI 硬件生态核心公司之一,GPU 仍然重要,先进制程、内存带宽、网络和软件生态仍然重要。DeepSeek 没有取消这些现实。它取消的是一种懒惰的确定性:只要堆更多卡,护城河就会永远加深。
六、地缘政治里的效率变量
DeepSeek 之所以在华尔街之外也引发震动,是因为它发生在一个敏感背景下:中国公司在先进 AI 芯片获取上受到美国出口管制限制,而美国政策与产业叙事长期把前沿 AI 能力与高端芯片、超大训练集群和少数科技巨头绑定在一起。
据 AP、路透社等媒体在1月下旬的报道,DeepSeek 的崛起引发美国科技界和政策圈关注,原因之一正是它似乎在受限硬件环境下实现了强模型表现,并对美国维持 AI 领先地位的假设提出挑战。[7][8] 这里的“似乎”必须保留。DeepSeek-V3 技术报告明确提到使用 NVIDIA H800 GPU。[2] H800 是为符合早期出口管制要求而面向中国市场推出的芯片,性能配置受到限制,但仍属于 NVIDIA 生态中的高端加速器。DeepSeek 并不是在没有先进硬件的真空里训练模型。
更准确的说法是:DeepSeek 打乱了关于“集中度”的想象。
过去几年,前沿 AI 被越来越多地描述为极少数美国公司、极少数云平台、极少数芯片供应链节点才能参与的游戏。这种描述有事实基础。训练前沿模型需要巨额资本、顶尖人才、稳定集群、海量数据和工程经验;不是任何团队租几张卡就能进入。可是 DeepSeek 提供了一个反例的轮廓:一个中国团队在硬件受限、资本环境不同、国际供应链紧张的条件下,仍然通过架构与工程效率进入前沿讨论区。
这并不等于“出口管制无效”。限制高端芯片获取会增加训练成本、延缓集群扩张、压缩实验空间。DeepSeek 的存在也不证明中国公司可以不受任何硬件约束。相反,它说明芯片仍然关键,以至于约束会迫使团队把每块芯片用得更极致。政策限制改变了创新的成本函数,却不会自动决定创新的结果。
地缘政治讨论最容易把工程成果改写成国家寓言。DeepSeek 被一些评论称为“Sputnik moment”,这类比喻抓住了震动感,却容易遮蔽现代 AI 的混合结构。DeepSeek 的模型建立在全球深度学习研究、开源框架、NVIDIA CUDA 生态、公开论文、工程社区经验和中国本土人才体系之上。现代 AI 不是某个国家独奏,而是全球化技术栈在地缘摩擦中的重新组合。
这正是它令人不安的地方。美国政策制定者担忧的不是一个聊天机器人突然会做数学题,而是前沿能力可能不像预期那样只集中在资本、芯片和云平台最密集的地方。中国公司看到的也不是“芯片不重要”,而是效率路线可以成为在约束中竞争的变量。其他国家、初创公司和开源社区看到的则是另一层信号:如果能力扩散速度快于监管、资本和安全机制调整速度,AI 版图会比原先更碎片化。
DeepSeek 没有给出中美 AI 竞争的结论。它只是让旧结论不够用了。
七、小团队重新计算能做什么
DeepSeek 冲击波最终落到一个更小的场景里:开发者打开 GitHub、Hugging Face 或 API 文档,重新估算自己的产品能不能做。
R1 仓库列出完整模型与多个蒸馏模型,尺寸从十亿级到七百亿级不等。[3] 这对大公司来说是模型组合,对小团队来说是预算梯子。1.5B、7B、14B、32B、70B 这些数字不只是参数规模,也对应不同硬件门槛、延迟、质量和部署方式。有人可以在本地或小型服务器上测试较小蒸馏模型;有人可以把较大模型部署在云 GPU 上;有人可以只调用 API,把运维麻烦交给服务商。选择变多,本身就是成本下降的一种表现。
这种变化不会让创业变得轻松。真正上线产品仍然要面对用户留存、场景选择、数据权限、质量评测、错误责任和付费转化。模型能力只是产品的一部分。可是,在2025年1月以前,很多小团队在推理类功能上会先问:“这会不会太贵?”DeepSeek 之后,问题变成:“哪些部分值得用最强模型?哪些部分可以用便宜模型?哪些部分可以本地跑?哪些部分根本不需要推理模型?”
这是一种更成熟的成本意识。
一个代码工具团队可以把 R1 类模型用于复杂 bug 分析,但把普通补全留给更快更便宜的模型。一个教育产品团队可以把数学解题交给推理模型,但把题库检索和错题归类交给传统搜索与小模型。一个数据分析团队可以用推理模型生成分析计划,再用确定性脚本执行计算。一个内部自动化团队可以让开放模型处理非敏感草稿,把涉及隐私或高风险决策的步骤放进受控系统。
这些组合没有发布会漂亮,却是 AI 真正进入工作流时的形态:不是一个模型统治一切,而是一组成本、能力和风险各不相同的模型与工具被拼在一起。
DeepSeek 还改变了价格谈判。闭源 API 厂商过去可以用“最强能力”维持高价格锚点;开放权重推理模型出现后,企业采购会多问几个问题:你的模型比开放替代方案好在哪里?好多少?在我们的任务上是否经过评测?延迟和吞吐如何?安全监控是否值得溢价?数据能否不出域?如果一个开放模型在80%的内部任务上足够好,那么剩下20%的高端需求应该如何定价?
这并不意味着闭源模型失去价值。闭源厂商仍然可能在总体能力、工具生态、可靠性、多模态、安全、企业支持和产品体验上领先。许多企业宁愿为稳定 SLA、合规承诺和统一平台付费。DeepSeek 的影响是让“为什么付费”变成必须回答的问题,而不是默认前提。
小团队看到的是机会,大公司看到的是采购杠杆,云服务商看到的是新流量,安全团队看到的是新风险。开放权重推理模型把能力交给更多人,也把治理问题交给更多人。AI 行业再次获得了一种典型的双重现实:门槛下降,责任上升。
八、被改写的不是冠军榜
DeepSeek 没有在2025年1月“打败 OpenAI”。这种说法太适合传播,也太不适合解释历史。
更准确地说,DeepSeek 改写了全球 AI 行业的想象边界。它让人们意识到,前沿能力的成本结构可能不是单调上升的直线;训练计算成本、总模型成本、推理成本和市场神话必须分开讨论;开放权重可以从追赶姿态变成进攻工具;推理能力可以扩散到闭源巨头之外;地缘约束下的工程效率也可能成为全球市场重新定价的变量。
这比榜单胜负更重要。榜单会更新,benchmark 会被刷新,API 价格会调整,今天的惊艳很快会变成明天的默认配置。真正不可逆的是问题本身被换掉了。
过去两年,行业常问:谁有最多 GPU?谁能训练最大模型?谁能融资最多?谁能买到最多电力和机架?DeepSeek 之后,另一些问题插了进来:谁能把同样能力做得更便宜?谁能把推理能力开放给更多开发者?谁能在低成本下保持可靠性与安全性?谁能把便宜模型变成有利润的产品?谁能在效率提升后仍然拥有定价权?
答案在2025年2月还没有出现。市场的红色屏幕只是开场,技术报告只是底稿,GitHub 仓库只是材料堆。DeepSeek 的历史位置不在于它终结了算力竞赛,而在于它迫使所有参与者重新计算竞赛规则。
前沿智能到底应该花多少钱?
这个问题从1月开始,不再只属于财务部门。
参考文献
- Reuters,Nvidia sheds $593 billion in market value as DeepSeek sparks AI selloff,2025.01.27。
- DeepSeek-AI,DeepSeek-V3 Technical Report,2024.12.27。
- DeepSeek-AI / GitHub,DeepSeek-R1 Release,2025.01.20。
- DeepSeek-AI,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,2025.01。
- DeepSeek API Docs,Models & Pricing / DeepSeek-R1 API documentation,2025.01。
- CNBC,Nvidia calls DeepSeek an “excellent AI advancement” as stock plunges,2025.01.27。
- Associated Press,What is DeepSeek, the Chinese AI startup that shook the tech world?,2025.01.28。
- Reuters,China’s DeepSeek sets off AI market rout and draws attention to founder Liang Wenfeng,2025.01.27。