第24章｜DeepSeek 冲击波：低成本推理模型改写全球想象

一、一个数字跑在脚注前面

2025年1月27日，华尔街的交易屏幕替人工智能行业写出了一行过于醒目的脚注。

据路透社当天报道，NVIDIA 股价下跌约17%，市值蒸发约5930亿美元，被报道为美国上市公司历史上最大的单日市值损失之一；同一轮抛售波及多家与人工智能算力叙事绑定的科技公司。[1] 新闻标题里有 DeepSeek，交易员屏幕上有 NVIDIA，社交媒体上则有一个比技术报告传播得更快的数字：557.6万美元。

这个数字来自 DeepSeek-V3 技术报告。它很短，适合截图，适合被放进标题，适合在大模型行业过去两年的昂贵叙事里制造一声脆响。过去，市场熟悉的故事是另一种单位：数万张 GPU、数百亿美元资本开支、数据中心、电力合同、先进封装、云厂商库存，以及几乎被神圣化的“规模定律”。突然，一家中国团队的技术报告说，一个强模型的训练计算成本估算可以写成几百万美元。于是，数字离开论文表格，穿过技术社区、财经媒体、政策讨论和散户论坛，一路跑得比脚注还快。

但本章必须先把脚注追上。

DeepSeek 没有公开证明“只花557.6万美元就从零建成一家前沿大模型公司”。它公开披露的是 DeepSeek-V3 在特定口径下的训练计算成本估算：约2.788M H800 GPU hours，按每 H800 GPU hour 2美元估算，合计约557.6万美元。[2] 这不是公司总成本，不是全部研发成本，不是从无到有的模型成本，也不是长期提供 API 服务的推理成本。它不包含团队薪酬、数据处理、架构探索、失败实验、集群折旧、工程工具链、安全评估、产品运营、带宽与服务可用性等项目。

这条澄清并不会削弱 DeepSeek 的冲击。恰恰相反，它让冲击更真实。一个神话很容易被另一个神话取代：昨天的神话是“只有无限资本才能接近前沿”，今天的神话则可能变成“前沿智能已经便宜到像下载软件”。DeepSeek 真正击中的，是两者之间更复杂的地带：如果训练效率、架构选择和后训练方法能够大幅改变单位能力成本，那么过去两年被视作自然规律的资本密集路线，就必须重新接受审计。

人工智能行业在这一天表现出一种熟悉的荒诞感：一串来自论文成本表的会计数字，被当成了技术革命、商业模式威胁、地缘政治信号和股票估值因子。每一种解释都抓住了一部分事实，也都容易把其余部分挤到页脚里。

DeepSeek 重要，不是因为它让算力不重要；而是因为它证明，算力重要到必须被更精细地计算。

二、V3 报告到底说了什么

DeepSeek-V3 的技术报告最早在2024年12月底进入公开视野，随后在2025年1月成为全球争论的底稿。报告摘要开头写道：“We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token.”——DeepSeek-V3 是一个 MoE 语言模型，总参数6710亿，每个 token 激活约370亿参数。[2]

这句话里有三个关键词：MoE、671B、37B activated。

普通读者更容易记住671B，因为它足够大。工程师更关心37B activated，因为它说明每次生成并不调用全部6710亿参数。MoE，即 Mixture-of-Experts，把模型内部拆成多个“专家”，每个 token 只路由到部分专家。这个架构的经济学含义很直接：参数总量可以很大，但每次推理或训练更新激活的计算量可以被控制。DeepSeek-V3 还采用了 Multi-head Latent Attention、DeepSeekMoE、FP8 混合精度训练、多 token 预测目标等设计。[2] 这些名词没有发布会口号好懂，却与成本曲线有关。

报告称，DeepSeek-V3 在14.8万亿 token 上进行预训练，并经历监督微调和强化学习阶段。[2] 它披露的训练资源口径也很明确：使用2048块 NVIDIA H800 GPU；完整训练消耗约2.788M H800 GPU hours；按每 H800 GPU hour 2美元估算，总训练成本约557.6万美元。[2]

真正应该被记住的是这句话的限定条件。

第一，这是训练计算成本估算，不是全部模型成本。
第二，这是按照 H800 GPU 小时价格计算的账面口径，不等于购买集群、搭建机房或长期运维的资本成本。
第三，它主要描述已选定路线后的训练消耗，不覆盖此前探索过程中失败或被放弃的实验。
第四，它不说明未来每一次回答用户问题的推理成本。
第五，它不能直接与闭源公司外界猜测的全部研发投入相比较。

如果把大模型公司比作一家餐厅，训练计算成本更像某一批菜品在灶台上消耗的燃气费；总模型成本还包括厨师、菜单研发、试菜失败、厨房租金、供应链、卫生许可、前厅服务和长期品牌。DeepSeek 披露的数字令人惊讶，是因为这笔“燃气费”比外界预期低得多；但把它说成整家餐厅的全部开张成本，就把技术报告改写成了段子。

这并不是吹毛求疵。2025年1月，行业最需要区分四类成本。

第一类是训练 compute cost，即模型训练阶段消耗多少 GPU 小时、TPU 小时或其他加速器时间。DeepSeek-V3 报告里的557.6万美元属于这一类。[2]

第二类是 total model cost，即为了做出这个模型的综合成本。它包括研究、人员、数据、失败实验、硬件、软件、基础设施、安全、合规和机会成本。多数公司不会完整披露这一项，外界只能估算。

第三类是 inference cost，即模型上线后回答用户问题的成本。推理模型尤其复杂，因为“思考更久”通常意味着生成更多中间 token、占用更长时间、使用更多显存与调度资源。训练只发生少数几次，推理则可能发生数十亿次。

第四类是 market mythology，即资本市场愿意相信的成本故事。它不完全等于技术事实，却会影响估值、融资、采购和战略。DeepSeek 的数字击穿的，正是第四类故事。

V3 报告的价值，不在于给行业一个可以复读的便宜口号，而在于迫使行业承认：成本不是一个单数名词。

三、R1：推理模型走出闭源神殿

如果 V3 让外界重新计算训练效率，那么2025年1月20日发布的 DeepSeek-R1 则让另一个问题浮出水面：推理能力是否一定属于闭源前沿实验室？

DeepSeek 在 GitHub 发布 DeepSeek-R1，并开放模型权重与推理模型系列说明。[3] R1 的技术论文题为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。论文摘要写道：“DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning.”[4] 这句话的意思是，DeepSeek-R1-Zero 在不以监督微调作为预备步骤的情况下，通过大规模强化学习展现出推理能力。

论文随后也写明问题：“However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing.”[4] 因此，DeepSeek-R1 并不是把 R1-Zero 直接扔给用户，而是在后续训练流程中加入冷启动数据、多阶段训练等步骤，以改善可读性、稳定性和整体表现。[4]

这段技术路线在2025年初有特殊含义。此前几个月，OpenAI 的 o1 系列已经把“慢思考”推到前台，前文已经写过，模型开始被训练为在复杂数学、代码和科学任务上花更多时间推理。推理模型曾经看起来像闭源巨头的专属舞台：需要最强基座模型、昂贵后训练流程、复杂安全评估和产品层调度。DeepSeek-R1 的开放权重，让这个舞台突然多出一扇侧门。

DeepSeek 在 R1 论文和仓库中给出了一组基准测试结果。论文报告称，DeepSeek-R1 在 AIME 2024 上 pass@1 为79.8%，在 MATH-500 上为97.3%，Codeforces rating 为2029，并在若干推理、数学、代码任务上接近或超过当时若干公开对照模型。[4] 这些数字解释了为什么 R1 会迅速进入全球讨论：它不是一个只会聊天的开放模型，而是在一些被视作“推理能力测试场”的任务上打进了前沿讨论区。

但 benchmark 不是现实世界的缩略图。

数学竞赛题、代码题、选择题和问答题可以测量模型能力的一部分，却不能完整覆盖真实企业环境中的长链任务、工具调用、权限控制、事实一致性、多轮协作、延迟、成本、鲁棒性和安全边界。不同模型在测试时使用的采样设置、提示词、思考 token、工具可用性与评测管线也可能不同。R1 论文自己的限制部分也提到，多轮、函数调用、复杂角色扮演、结构化输出、语言混合与软件工程类任务仍存在限制或需要进一步改进。[4]

换句话说，R1 没有把“推理模型”变成已经彻底解决的商品；它把“强推理能力只能在闭源 API 里出现”的想象打松了。

开源权重的影响在这里尤其关键。DeepSeek-R1 仓库列出了不同规模的蒸馏模型，包括基于 Qwen 与 Llama 系列的 1.5B、7B、8B、14B、32B、70B 等版本，并说明 DeepSeek-R1 系列支持商业使用和衍生工作，具体蒸馏模型还需遵守其底座模型相应许可证。[3] 这意味着开发者不必只在一个远程聊天框里体验推理能力；他们可以下载、部署、量化、蒸馏、集成，或者把模型放进自己的评测管线里。

闭源模型像一座开放大厅的建筑。用户能在前台办业务，开发者能读 API 文档，媒体能参观样板间，但墙后图纸仍由业主持有。开放权重模型并不等于整座建筑透明——训练数据、完整实验过程、内部调参仍可能不可见——但它至少把材料交到更多人手里。材料一旦流动，宣传部门就会自动外包给开发者社区。

这就是 R1 的第二层冲击：它让推理能力不再只是一项产品功能，也变成了一种可搬运的工程材料。

四、价格表比口号更冷静

DeepSeek 冲击波的另一端，不在论文里，而在价格表上。

DeepSeek API 文档把 V3 对应的服务入口称为 deepseek-chat，把 R1 对应的服务入口称为 deepseek-reasoner，并以每百万 token 为单位列示输入与输出价格；价格结构还区分缓存命中输入、缓存未命中输入和输出 token。[5] 这种写法很会破除神话：训练成本再耀眼，开发者最终面对的账单仍然是 token、延迟、吞吐、上下文长度、缓存命中率和输出长度。

推理模型尤其容易制造成本错觉。普通聊天模型回答一个短问题，也许几百个 token 就结束；推理模型为了求解数学题、写代码或规划任务，可能生成更长的推理轨迹或内部思考过程。即使单 token 价格下降，任务总 token 数也可能上升。便宜的模型如果让使用次数增长十倍，总账单也可能并不下降。人工智能行业的会计学经常像魔术：单价下降，支出上升，所有人都声称自己是效率的受益者。

DeepSeek 的 API 价格仍然重要，因为它给市场提供了一个新锚点。过去，很多小团队在做推理类产品时只能面对两个选择：调用昂贵闭源模型，或者使用能力明显不足的开放模型。R1 之后，选择菜单变长了。团队可以调用 DeepSeek 的推理 API，可以下载开放权重模型自己部署，可以使用较小蒸馏模型服务低风险任务，也可以把闭源模型留给最关键环节，把开放模型用于预处理、草稿生成、测试或内部工具。

这不是“每家公司都能训练一个 R1”。那仍然需要顶级研究与工程能力。真正改变的是应用层预算表。

一个小型开发团队如果要做数学解题助手、代码审查工具、数据分析代理或客服自动化，过去常常把“模型能力”视作黑箱订阅费。R1 之后，他们至少可以开始拆账：哪些任务需要最高质量？哪些任务可以用蒸馏模型？哪些环节必须低延迟？哪些请求可以缓存？哪些输入会反复出现？哪些输出过长导致费用失控？哪些数据因为隐私要求必须本地部署？哪些功能只是演示热闹，实际没有用户愿意付费？

这些问题比“557.6万美元”更接近产品现实。

云采购方也被迫学习同一套区别。训练成本、推理成本和真实部署成本不是一回事。一个模型的论文训练成本低，不代表企业用它就一定便宜；一个 API 单价低，也不代表安全、合规、监控、评测、故障恢复和数据治理免费；一个开放权重模型能下载，也不代表部署团队不需要 GPU、推理框架、运维经验和安全测试。

DeepSeek 使小团队兴奋，也使采购表格变厚。行业荒诞之处在于：每当 AI 变得“更容易使用”，真正负责任的使用清单通常会更长。

五、红色交易日与谨慎归因

DeepSeek 的市场场景必须只讲一次，因为它太容易被讲成寓言。

2025年1月27日，路透社报道 NVIDIA 股价下跌约17%，市值蒸发约5930亿美元；报道将抛售与 DeepSeek 引发的低成本 AI 能力担忧联系在一起，同时也把它放在更广泛的科技股回调和 AI 估值压力中讨论。[1] 这是一个真实事件，却不是一个可以被压缩成“DeepSeek 导致 NVIDIA 崩盘”的单因果故事。

资本市场从不只交易技术事实。它交易预期、仓位、估值、流动性、风险偏好、利率环境、季度业绩、行业叙事和新闻标题。DeepSeek 是那一天最醒目的触发因素之一，因为它挑战了一个关键假设：前沿模型能力是否必然需要不断扩大训练算力和资本开支？如果算法效率提高，单位能力所需计算量下降，最昂贵 GPU 的长期需求曲线会不会变化？

这个问题足以引发重估。过去两年，NVIDIA 被视为 AI 淘金热里卖铲子的人。只要模型规模继续扩大，云厂商继续囤卡，AI 应用继续吞吐算力，NVIDIA 的位置就像产业瓶颈。DeepSeek 的出现没有立刻证明瓶颈消失，却让市场看到瓶颈可能有旁路：更高效的架构、更便宜的后训练、更开放的模型、更低的应用层调用成本。

但另一种解释同样有历史依据：效率提升不一定减少总需求。照明更便宜后，人类照亮了更多街道；计算更便宜后，软件吞掉了更多计算；带宽更便宜后，视频填满了网络。AI 也可能如此。推理模型越便宜，越多应用会把推理嵌进工作流；每个文档、每段代码、每个客服请求、每个数据报表都可能调用模型。单位成本下降，需求总量可能扩大。

据 CNBC 报道，NVIDIA 对 DeepSeek 的回应强调其是一次“excellent AI advancement”，并将其与测试时计算扩展联系起来；报道转述的 NVIDIA 立场还强调，推理仍需要大量 NVIDIA GPU 和高性能网络。[6] 这并不意外。对于 NVIDIA 来说，最稳固的叙事不只是“训练更贵”，而是“AI 使用无处不在，每一次生成、规划、搜索和工具调用都需要计算”。

因此，1月27日的红色屏幕不是技术判决书，而是预期审计表。它说明市场曾经把 AI 成本曲线讲得太直，把算力需求讲得太单向，把少数公司的优势讲得太稳。DeepSeek 让投资者重新给这些假设加上概率和折扣。

那一天以后，NVIDIA 仍然是 AI 硬件生态核心公司之一，GPU 仍然重要，先进制程、内存带宽、网络和软件生态仍然重要。DeepSeek 没有取消这些现实。它取消的是一种懒惰的确定性：只要堆更多卡，护城河就会永远加深。

六、地缘政治里的效率变量

DeepSeek 之所以在华尔街之外也引发震动，是因为它发生在一个敏感背景下：中国公司在先进 AI 芯片获取上受到美国出口管制限制，而美国政策与产业叙事长期把前沿 AI 能力与高端芯片、超大训练集群和少数科技巨头绑定在一起。

据 AP、路透社等媒体在1月下旬的报道，DeepSeek 的崛起引发美国科技界和政策圈关注，原因之一正是它似乎在受限硬件环境下实现了强模型表现，并对美国维持 AI 领先地位的假设提出挑战。[7][8] 这里的“似乎”必须保留。DeepSeek-V3 技术报告明确提到使用 NVIDIA H800 GPU。[2] H800 是为符合早期出口管制要求而面向中国市场推出的芯片，性能配置受到限制，但仍属于 NVIDIA 生态中的高端加速器。DeepSeek 并不是在没有先进硬件的真空里训练模型。

更准确的说法是：DeepSeek 打乱了关于“集中度”的想象。

过去几年，前沿 AI 被越来越多地描述为极少数美国公司、极少数云平台、极少数芯片供应链节点才能参与的游戏。这种描述有事实基础。训练前沿模型需要巨额资本、顶尖人才、稳定集群、海量数据和工程经验；不是任何团队租几张卡就能进入。可是 DeepSeek 提供了一个反例的轮廓：一个中国团队在硬件受限、资本环境不同、国际供应链紧张的条件下，仍然通过架构与工程效率进入前沿讨论区。

这并不等于“出口管制无效”。限制高端芯片获取会增加训练成本、延缓集群扩张、压缩实验空间。DeepSeek 的存在也不证明中国公司可以不受任何硬件约束。相反，它说明芯片仍然关键，以至于约束会迫使团队把每块芯片用得更极致。政策限制改变了创新的成本函数，却不会自动决定创新的结果。

地缘政治讨论最容易把工程成果改写成国家寓言。DeepSeek 被一些评论称为“Sputnik moment”，这类比喻抓住了震动感，却容易遮蔽现代 AI 的混合结构。DeepSeek 的模型建立在全球深度学习研究、开源框架、NVIDIA CUDA 生态、公开论文、工程社区经验和中国本土人才体系之上。现代 AI 不是某个国家独奏，而是全球化技术栈在地缘摩擦中的重新组合。

这正是它令人不安的地方。美国政策制定者担忧的不是一个聊天机器人突然会做数学题，而是前沿能力可能不像预期那样只集中在资本、芯片和云平台最密集的地方。中国公司看到的也不是“芯片不重要”，而是效率路线可以成为在约束中竞争的变量。其他国家、初创公司和开源社区看到的则是另一层信号：如果能力扩散速度快于监管、资本和安全机制调整速度，AI 版图会比原先更碎片化。

DeepSeek 没有给出中美 AI 竞争的结论。它只是让旧结论不够用了。

七、小团队重新计算能做什么

DeepSeek 冲击波最终落到一个更小的场景里：开发者打开 GitHub、Hugging Face 或 API 文档，重新估算自己的产品能不能做。

R1 仓库列出完整模型与多个蒸馏模型，尺寸从十亿级到七百亿级不等。[3] 这对大公司来说是模型组合，对小团队来说是预算梯子。1.5B、7B、14B、32B、70B 这些数字不只是参数规模，也对应不同硬件门槛、延迟、质量和部署方式。有人可以在本地或小型服务器上测试较小蒸馏模型；有人可以把较大模型部署在云 GPU 上；有人可以只调用 API，把运维麻烦交给服务商。选择变多，本身就是成本下降的一种表现。

这种变化不会让创业变得轻松。真正上线产品仍然要面对用户留存、场景选择、数据权限、质量评测、错误责任和付费转化。模型能力只是产品的一部分。可是，在2025年1月以前，很多小团队在推理类功能上会先问：“这会不会太贵？”DeepSeek 之后，问题变成：“哪些部分值得用最强模型？哪些部分可以用便宜模型？哪些部分可以本地跑？哪些部分根本不需要推理模型？”

这是一种更成熟的成本意识。

一个代码工具团队可以把 R1 类模型用于复杂 bug 分析，但把普通补全留给更快更便宜的模型。一个教育产品团队可以把数学解题交给推理模型，但把题库检索和错题归类交给传统搜索与小模型。一个数据分析团队可以用推理模型生成分析计划，再用确定性脚本执行计算。一个内部自动化团队可以让开放模型处理非敏感草稿，把涉及隐私或高风险决策的步骤放进受控系统。

这些组合没有发布会漂亮，却是 AI 真正进入工作流时的形态：不是一个模型统治一切，而是一组成本、能力和风险各不相同的模型与工具被拼在一起。

DeepSeek 还改变了价格谈判。闭源 API 厂商过去可以用“最强能力”维持高价格锚点；开放权重推理模型出现后，企业采购会多问几个问题：你的模型比开放替代方案好在哪里？好多少？在我们的任务上是否经过评测？延迟和吞吐如何？安全监控是否值得溢价？数据能否不出域？如果一个开放模型在80%的内部任务上足够好，那么剩下20%的高端需求应该如何定价？

这并不意味着闭源模型失去价值。闭源厂商仍然可能在总体能力、工具生态、可靠性、多模态、安全、企业支持和产品体验上领先。许多企业宁愿为稳定 SLA、合规承诺和统一平台付费。DeepSeek 的影响是让“为什么付费”变成必须回答的问题，而不是默认前提。

小团队看到的是机会，大公司看到的是采购杠杆，云服务商看到的是新流量，安全团队看到的是新风险。开放权重推理模型把能力交给更多人，也把治理问题交给更多人。AI 行业再次获得了一种典型的双重现实：门槛下降，责任上升。

八、被改写的不是冠军榜

DeepSeek 没有在2025年1月“打败 OpenAI”。这种说法太适合传播，也太不适合解释历史。

更准确地说，DeepSeek 改写了全球 AI 行业的想象边界。它让人们意识到，前沿能力的成本结构可能不是单调上升的直线；训练计算成本、总模型成本、推理成本和市场神话必须分开讨论；开放权重可以从追赶姿态变成进攻工具；推理能力可以扩散到闭源巨头之外；地缘约束下的工程效率也可能成为全球市场重新定价的变量。

这比榜单胜负更重要。榜单会更新，benchmark 会被刷新，API 价格会调整，今天的惊艳很快会变成明天的默认配置。真正不可逆的是问题本身被换掉了。

过去两年，行业常问：谁有最多 GPU？谁能训练最大模型？谁能融资最多？谁能买到最多电力和机架？DeepSeek 之后，另一些问题插了进来：谁能把同样能力做得更便宜？谁能把推理能力开放给更多开发者？谁能在低成本下保持可靠性与安全性？谁能把便宜模型变成有利润的产品？谁能在效率提升后仍然拥有定价权？

答案在2025年2月还没有出现。市场的红色屏幕只是开场，技术报告只是底稿，GitHub 仓库只是材料堆。DeepSeek 的历史位置不在于它终结了算力竞赛，而在于它迫使所有参与者重新计算竞赛规则。

前沿智能到底应该花多少钱？

这个问题从1月开始，不再只属于财务部门。

参考文献

Reuters，Nvidia sheds $593 billion in market value as DeepSeek sparks AI selloff，2025.01.27。
DeepSeek-AI，DeepSeek-V3 Technical Report，2024.12.27。
DeepSeek-AI / GitHub，DeepSeek-R1 Release，2025.01.20。
DeepSeek-AI，DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，2025.01。
DeepSeek API Docs，Models & Pricing / DeepSeek-R1 API documentation，2025.01。
CNBC，Nvidia calls DeepSeek an “excellent AI advancement” as stock plunges，2025.01.27。
Associated Press，What is DeepSeek, the Chinese AI startup that shook the tech world?，2025.01.28。
Reuters，China’s DeepSeek sets off AI market rout and draws attention to founder Liang Wenfeng，2025.01.27。

Keyboard shortcuts

智能涌动