第21章｜草莓时刻：o1 让模型开始“慢思考”

一、等待成为功能

在过去一年里，人工智能公司一直训练用户相信一件事：越快越好。

2024年5月，GPT-4o 把这种信念推到台前。OpenAI 把它描述为能够跨音频、视觉和文本实时推理的新旗舰模型；前文已经写过，那次发布的关键词不是长篇论文式回答，而是听见、看见、打断、接话。模型的价值第一次如此直接地表现为反应速度：等待越短，机器越像一个在场的助手。[1]

四个月后，同一家公司推出了另一种体验。

2024年9月12日，OpenAI 发布 o1-preview 和 o1-mini。官方博客开头写道：“We’ve developed a new series of AI models designed to spend more time thinking before they respond.”——“我们开发了一个新的 AI 模型系列，设计目标是在回答前花更多时间思考。”紧接着，OpenAI 又写道：“They can reason through complex tasks and solve harder problems than previous models in science, coding, and math.”——“它们能够推理复杂任务，并在科学、编程和数学中解决比以往模型更难的问题。”[2]

这两句话改变了发布节奏。GPT-4o 的叙事是实时，o1 的叙事是延迟；GPT-4o 让模型更会接话，o1 让模型更愿意停下来做题。过去，等待常常意味着服务器繁忙、模型笨重、体验退步。o1 发布后，等待被重新包装成一种能力：模型在回答前多花时间，可能不是失败，而是产品设计的一部分。

这不是一个小小的交互差异。对一个在网页端使用 ChatGPT 的学生、程序员或研究助理来说，过去的聊天框像即时通信软件：问题发出后，答案最好立刻出现。o1 把这种节奏拧慢。用户不是看见一个模型“手速更快”，而是看见平台告诉他：有些问题，机器也需要多算一会儿。

OpenAI 没有把 o1-preview 描述成已经替代 GPT-4o 的通用助手。相反，官方博客强调，它还是早期模型，尚不具备 ChatGPT 中许多实用功能，例如浏览网页、上传文件和图像等。[2] 这种克制本身值得注意。2023年的模型发布常常喜欢用“通用”“全能”“涌现”去覆盖缺陷；到2024年秋天，行业已经被成本、监管、可靠性和用户疲劳打磨得更谨慎。OpenAI 需要告诉用户：这个模型不是更快的聊天机器人，它更像一条新曲线的样品。

这条曲线的价格也写在产品限额里。发布时，ChatGPT Plus 和 Team 用户可以使用 o1-preview 与 o1-mini，但有周度消息限制。OpenAI 在发布博客中写明，o1-preview 每周 30 条消息，o1-mini 每周 50 条消息，并表示正在努力提高这些限制。[2] 这不是无关紧要的产品细节。它提醒用户，所谓“多想一会儿”不是修辞，而是计算资源。模型在回答阶段花更多算力，平台就必须用限额、价格和队列来管理需求。

o1-mini 的存在也说明了这一点。OpenAI 称，o1-mini 比 o1-preview 便宜 80%，适合需要推理但不需要广泛世界知识的应用。[2] 在一个习惯把“旗舰模型”当作唯一主角的行业里，小模型忽然又获得了战略意义。它不是为了和最大模型比百科知识，而是为了把一部分推理能力压到更低成本。

从这一刻开始，模型竞赛不再只有一个方向：预训练时更大、更久、更多数据。o1 把另一条轴摆到桌面上——推理时计算。模型不仅可以在训练阶段变聪明，也可以在回答问题时多花算力，像考试前打草稿一样，把答案推到更远的地方。

行业刚刚经历前一章所写的那脚刹车：Agent 演示的脆弱性、监管铁门的落下、资本对成本的追问。o1 没有让行业回到2023年的轻狂。它更像在刹车后的低速档里重新给油：不再承诺马上自动完成一切，而是先让模型在难题前多停顿几秒。

二、草莓不是招牌

o1 发布前，行业已经给这条路线取过一个更好传播的名字：Strawberry，草莓。

2024年7月12日，Reuters 报道称，OpenAI 正在推进一个代号为 “Strawberry” 的项目，目标与增强模型推理能力有关。报道说，Reuters 根据知情人士和其看到的内部文件了解到，该项目旨在让 AI 不只是生成问题答案，还能提前规划，并更可靠地自主浏览互联网执行 OpenAI 所称的“deep research”任务。[3]

这类报道在2024年的 AI 行业有一种特殊作用。它不等同于官方确认，却会迅速变成产业叙事的燃料。新闻标题、社交媒体帖子、开发者论坛和投资人简报会把一个内部代号压缩成一句话：OpenAI 在做会推理的东西。等到9月 o1-preview 和 o1-mini 正式发布，外界很自然地把 o1 与 Strawberry 联系起来。

但在这里必须划一道线：Strawberry 是媒体报道中的代号，不是 OpenAI 在9月12日官方博客中使用的产品名。OpenAI 正式发布的是 o1-preview 和 o1-mini；官方材料谈的是“spend more time thinking before they respond”，谈的是科学、编程和数学任务中的复杂推理能力。[2] 至于 Strawberry 项目内部如何组织、经历了哪些实验、与 o1 有怎样的对应关系，公开信源不足以把每个细节写成确定事实。

这并不削弱“草莓时刻”的象征意义。相反，它暴露了2024年模型竞赛的叙事机制：当技术公司不完全公开路线图，媒体报道、基准测试和产品限额就会一起填补空白。行业需要一个名字来称呼这种转向。实时多模态、长上下文、开源大模型、编程助手都已经有了自己的市场标签；到了 o1，外界需要一个词来描述“模型开始慢下来”的反直觉变化。

“草莓”正好承担了这个角色。它有内部代号的神秘感，也有消费产品的轻盈感。一个听起来像冰淇淋口味的词，被用来谈论推理、规划、强化学习和昂贵算力。行业幽默常常来自这种错位：一个可能影响软件工程、科研助理和自动化代理的技术路线，先以水果名在市场里流通。

不过，o1 的真正重点不在名字。重点在于 OpenAI 把“回答前多想一会儿”公开变成产品主张。这意味着，行业开始严肃讨论一个问题：如果继续扩大预训练模型的边际收益变得昂贵而不稳定，那么在推理阶段投入更多计算，会不会成为下一条曲线？

这也是许多普通使用者第一次以产品体验的方式碰到“推理时计算”这个概念。过去，计算发生在看不见的数据中心训练阶段；用户只在新闻里听说 GPU、集群、电力和参数规模。o1 把一部分计算重新带回每一次对话：用户提出难题，模型多等一会儿，平台扣掉一条更稀缺的额度。算力不再只是财报和基础设施新闻里的名词，它变成聊天框里的等待。

三、推理时计算上桌

OpenAI 在《Learning to Reason with LLMs》中给出了 o1 叙事的技术骨架：通过强化学习训练模型进行复杂推理，并让模型在回答之前产生更长的内部思考过程。[4] 这不是第一次有人讨论思维链，也不是第一次有人让模型分步骤解题。但 o1 的不同之处在于，OpenAI 把它作为一个独立产品系列推向用户，而不是作为提示词技巧或论文实验。

官方数据也围绕这个方向展开。

OpenAI 称，在一项与国际数学奥林匹克竞赛资格考试相关的测试中，GPT-4o 正确解出约 13% 的题目，而其推理模型达到约 83%。[4] 这句话需要小心阅读。它不是说 o1 正式参加了国际数学奥林匹克并获得某种名次，也不是说数学竞赛被模型“解决”了；它说明，在 OpenAI 所报告的特定测试设置中，推理时计算显著改变了模型解难题的表现。

在竞争编程方面，OpenAI 称 o1 在 Codeforces 题目上达到约第 89 百分位。[2] 在科学推理方面，官方材料称其在物理、生物、化学等博士级问题基准上超过以往模型，并在 GPQA 等评测中表现突出。[4][5] 这些数字共同服务于一个结论：o1 的卖点不是闲聊，而是难题；不是广泛知识覆盖，而是在已有知识和题目条件之间做更长的推理。

这里仍要保持怀疑。基准测试不是现实世界的同义词。数学题、竞赛编程题和科学问答有明确答案、评分标准和题目边界；真实工作中的任务常常缺少这些边界。一个模型能在题目集上多解出许多题，并不自动等于它能可靠管理项目、替代研究员，或在复杂业务流程里承担责任。2024年的行业已经被太多演示教育过：能完成一段任务，不等于能稳定完成一类工作。

但 o1 的确改变了能力讨论的重心。传统用户体验通常把推理看作一次性输出：用户问，模型答，越快越好。o1 则把回答过程拉长。对平台而言，这意味着每个高难问题可能消耗更多推理阶段算力；对开发者而言，这意味着“模型价格”不只由输入输出 token 决定，还由模型在看不见的中间过程里花了多少计算决定。

这对小团队尤其具体。一个大公司可以把 o1 当作高价值任务的专家接口，把它放在代码审查、数学建模、科研辅助、复杂客服升级等环节；一个独立开发者或小型创业团队则要在每次调用前计算成本。到底是让 o1-preview 慢慢推理，还是让 o1-mini 解决足够明确的编程问题，或者干脆先用便宜模型筛一遍？模型能力越强，账单越像产品经理和工程师共同面对的设计约束。

因此，o1-mini 并不是附属品。OpenAI 在发布中强调它比 o1-preview 便宜 80%。[2] 这暴露了推理模型商业化的第一道门槛：如果每一次“慢思考”都太贵，它只能停留在考试、研究和高价值编程任务中；如果能够把部分推理能力做成更便宜的小模型，它才可能进入日常开发、自动化脚本和企业流程。

这也是2024年秋天的行业背景。上一阶段，许多自动化演示看起来流畅，落到真实工作流却暴露出脆弱性。o1 给出的回答不是“让代理立刻接管所有工作”，而是更保守也更深的路线：先让模型在复杂任务上少犯一些错，先把难题多推几步。

它像一声起跑枪，却不是烟花。烟花的价值在于瞬间照亮天空；起跑枪的价值在于让所有人知道，比赛换了赛道。

四、看不见的思维链

o1 的核心争议，正好藏在它最吸引人的地方：它会“想”，但用户不能完整看见它怎么想。

长期以来，思维链提示被开发者视为提高模型推理能力的办法。让模型“逐步思考”，常常能改善数学题、逻辑题和代码题表现。于是，当 OpenAI 发布一个主打推理的新系列，很多用户自然希望看到完整的推理过程：模型列出了哪些假设，尝试过哪些路径，在哪里回溯，为什么放弃某个答案。

OpenAI 选择了另一种做法。它不向用户展示原始 chain-of-thought，而是提供摘要式解释。官方在《Learning to Reason with LLMs》中写道：“We believe that a hidden chain of thought presents a unique opportunity for monitoring models.”——“我们认为，隐藏的思维链为监控模型提供了独特机会。”[4]

这句话把透明度问题翻转了。通常，人们会认为，公开模型推理过程更透明；OpenAI 的论点则是，隐藏的原始思维链可以成为一种安全监控通道。如果模型的内部推理过程不被直接展示给用户，也不被训练成迎合用户偏好的表演文本，安全团队就可能在其中观察到模型是否出现规避规则、计划不当行为、试图操纵用户等迹象。[4]

这种说法有其安全逻辑。完整思维链可能暴露模型如何绕过限制、如何构造攻击步骤、如何把危险任务拆解成可执行计划。对于具备更强推理能力的模型，公开每一步推理也可能给越狱者提供更详细的攻击面。OpenAI o1 System Card 披露的评估覆盖越狱、违规内容、网络安全、生物风险、说服、自治能力等方向，反映出 OpenAI 并没有把“会推理”只当作性能问题。[5]

但另一边的质疑也合理。开发者调试复杂系统时，需要知道模型为什么失败；科学用户希望理解答案可靠性；企业用户要审计模型输出；研究者则关心模型推理能力到底来自真实的结构化推导，还是来自更复杂的模式匹配。摘要式解释可以帮助用户理解答案，却不等于完整可审计记录。

这对个体使用者不是抽象争论。一个程序员把 o1 用在难以复现的 bug 上，如果模型给出正确修复，摘要足够；如果修复失败，摘要可能不足以帮助他判断模型在哪一步偏离。一个研究生把模型用于推导证明，如果答案看似优雅却有隐藏漏洞，他需要的不只是“我先分析了条件，再得出结论”。一个企业安全负责人要审计模型参与的流程，他关心的不只是最终输出，还包括模型是否在中间步骤尝试访问不该访问的信息。

于是，o1 把一个老问题推到更尖锐的位置：能力越强，越需要解释；越需要解释，越可能暴露新的风险。过去的聊天模型即使胡说八道，伤害通常表现为错误答案。推理模型一旦被接入代码、科学分析、金融流程和自动化工具，错误就可能沿着任务链扩散。用户想看更多，安全团队想藏更多，这不是简单的公关矛盾，而是模型产品化的结构性冲突。

行业荒诞感也在这里出现：AI 公司告诉用户，模型正在更认真地思考；同时又告诉用户，真正的草稿纸不能给你看。用户得到的是答案和摘要，平台保留的是原始推理轨迹。一个以“思考”为卖点的产品，必须把部分“思考”锁起来，才能被认为更安全。

五、开放权重把地板铺到边缘

o1 发布不到两周后，另一条路线从 Meta 的发布中继续推进。

2024年9月25日，Meta 发布 Llama 3.2，官方标题是“Llama 3.2: Revolutionizing edge AI and vision with open, customizable models”——“Llama 3.2：用开放、可定制模型革新边缘 AI 与视觉。”[6] 这次发布包括 1B、3B 轻量文本模型，以及 11B、90B 视觉模型。[6][7]

如果把它和前文写过的 Llama 3.1 405B 放在一起看，Meta 的策略就更清楚。405B 是开放权重路线向前沿能力发起的上限挑战：开放模型也可以很大，也可以进入顶级评测的比较表。Llama 3.2 的 1B 和 3B 则是另一种基础设施：它们不是为了在所有 benchmark 上争第一，而是为了降低部署门槛。

这条路线与 o1 的“慢思考”形成鲜明对照。o1 把更多计算放在回答阶段，依赖云端平台、限额和价格体系；Llama 3.2 的轻量模型则把模型推向本地应用、私有环境和边缘设备。企业不一定愿意把所有数据送进闭源 API；开发者也不一定每次都需要最强模型。一个能在本地运行的小模型，可能比远处的旗舰模型更适合低延迟、隐私敏感、成本受限的任务。

这对许多使用者是非常具体的选择。医院、律所、制造企业、政府承包商和教育机构中的 IT 人员，常常不是在“最强模型排行榜”上做决定，而是在数据边界、合规要求、预算上限、网络环境和维护能力之间做决定。一个小模型是否足够好，可能比一个旗舰模型是否聪明得令人震惊更重要。对他们来说，所谓“智能涌动”不是模型在榜单上又上升了几分，而是某个原本不能接入云端 API 的内部流程，终于可以在本地试运行。

Llama 3.2 的视觉模型也有象征意义。Meta 称 11B 和 90B 视觉模型支持图像理解等多模态任务，这是 Llama 系列向视觉能力扩展的重要一步。[6][7] 在2024年的模型竞争中，多模态已经不再是少数闭源模型的展示项目。开放权重生态也开始把视觉、轻量化和可定制性结合起来。

这不是说开放路线没有代价。模型越容易被下载、微调、量化、嵌入设备，责任越分散。闭源 API 至少还有一个中心化的阀门；开放模型的优势恰恰在于阀门更少。发布方、应用开发者、模型托管平台、微调者、企业部署者和最终用户之间的责任边界会变得更复杂。

但 Meta 的路线说明，2024年秋天的“新曲线”并不只有 o1 一种。OpenAI 把复杂推理推向更深的推理时计算；Meta 把模型能力铺向更广的部署地板。一个追求更会想，一个追求到处跑。它们都在回答同一个压力：当训练更大模型越来越昂贵，行业还能在哪里继续前进？

六、Claude 开始动鼠标

10月22日，Anthropic 给出了第三种答案。

这一天，Anthropic 发布升级版 Claude 3.5 Sonnet，宣布 Claude 3.5 Haiku，并推出 Computer Use beta。官方博客写道：“developers can direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking buttons, and typing text.”——“开发者可以指示 Claude 像人一样使用电脑——看屏幕、移动光标、点击按钮、输入文字。”[8]

这句话把 Agent 叙事从“写计划”推向“操作界面”。

在此之前，很多 Agent 产品的工作方式主要停留在语言层：模型拆解任务，生成步骤，调用工具，等待外部系统执行。Computer Use 则让模型面对普通软件界面。它不只是输出“请点击下一步”，而是可以在开发者提供的环境中观察屏幕截图，决定移动光标，点击按钮，输入文本。[8][9]

Anthropic 并没有把这项能力包装成已经成熟的通用代理。官方材料明确称其处于 beta 阶段，并提醒该能力仍然实验性强、容易出错，需要开发者在受控环境中使用，限制权限并保持监督。[8][9] 这种谨慎不是装饰。让模型操作电脑意味着错误不再只停留在文本里。它可能点错按钮、提交错误表单、误删文件、访问不该访问的页面，或者在复杂网页中被提示注入误导。

同一篇发布博客给出了新版 Claude 3.5 Sonnet 的软件工程成绩：Anthropic 称其在 SWE-bench Verified 上达到 49.0%，此前 Claude 3.5 Sonnet 为 33.4%。[8] 这是一个重要数字，因为 SWE-bench Verified 评估的是模型解决真实软件仓库问题的能力，而不是只写一段孤立代码。软件工程任务天然需要理解上下文、定位错误、修改文件、运行测试。它与 Computer Use 的方向相互呼应：模型不只是回答代码问题，而是更接近参与工作流。

在 Computer Use 官方材料中，Anthropic 还提到 Claude 在 OSWorld 上的表现：在截图条件下达到 14.9%，高于下一最佳系统约 7.8%，但仍远低于人类约 70%—75% 的水平。[9] 这个差距比宣传语更有解释力。它说明模型已经能在某些界面操作任务中超过其他系统，却离稳定替代人类还很远。Agent 的未来看起来更近了，但坑也被量化了。

对企业里的普通员工和 IT 管理者来说，“模型会动鼠标”既诱人又麻烦。诱人之处在于，大量数字工作仍然活在旧软件、网页后台、表单系统和内部工具里，根本没有优雅的 API。麻烦之处在于，光标一旦移动，权限、审计、回滚、责任和培训都要跟上。过去，模型给出一段错误建议，用户可以不采纳；现在，模型可能真的点击“提交”。

Anthropic 的路线与 OpenAI 的 o1 形成分叉。o1 让模型在难题前停下来思考，Computer Use 让模型在屏幕前开始行动。一个强调内部推理，一个强调外部操作。前者的风险是看不见的思维链和复杂任务中的错误自信；后者的风险是看得见的光标和真实系统中的误操作。

如果说 GPT-4o 把模型带进实时对话，o1 把模型带进慢思考，那么 Claude Computer Use 则把模型带到了操作系统门口。门还没有完全打开，但光标已经动了。

七、第二轴竞争确立

到2024年秋天，模型行业的竞争图景变得更立体。

第一条轴仍然存在：更大规模、更强预训练、更多数据、更长上下文、更高 benchmark。没有公司会轻易放弃这条路。前沿模型的能力上限仍然决定市场声望、融资叙事和生态吸引力。

但第二条轴已经确立：使用时更深。

OpenAI 的 o1-preview 和 o1-mini 把推理时计算推到产品层。模型不只是在训练时吸收世界，也在回答时花更多计算探索解法。它可能更慢、更贵、更受限，却在数学、编程和科学问题上显示出新的能力曲线。

Meta 的 Llama 3.2 把开放权重部署继续向边缘和视觉扩展。它说明能力不只属于云端旗舰模型，也可以通过小模型、视觉模型和可定制生态进入本地环境。开放路线的战略价值不只是“便宜替代”，而是让模型嵌入更多无法或不愿依赖闭源 API 的场景。

Anthropic 的 Computer Use beta 则让 Agent 从语言规划走向界面操作。它没有宣告通用代理已经实现，反而用 OSWorld 的数字提醒行业：模型能动鼠标，不等于能可靠工作。但它改变了想象边界。过去，模型输出的是句子；现在，它开始输出点击。

三条路线都带着兴奋，也都带着怀疑。

慢思考需要更多算力，也需要解释机制。隐藏思维链可能帮助安全监控，却削弱用户审计。界面操作让模型更像代理，也让错误进入真实系统。边缘部署降低成本、保护隐私，却让治理更分散。2024年夏天监管和成本带来的刹车，并没有让行业停下；它迫使行业寻找更深、更窄、更具体的新曲线。

o1 的意义不在于一次发布击败所有模型。它的意义在于把一个问题摆到所有公司面前：如果训练更大不再足够，能不能让模型在使用时想得更久？这听起来像一句朴素建议，却改变了模型经济学。算力不再只堆在训练中心，也被切进每一次复杂回答；智能不再只表现为秒回，也可以表现为愿意等待。

这一章的尾声不是胜利，而是责任问题的前奏。当模型会慢思考、会看屏幕、会移动光标、能在本地运行，错误也会拥有更多形态。它可以是一个错误证明，一段错误代码，一次错误点击，一个被微调后无法追踪的本地模型。到那时，人们不能只问模型有多聪明，还要问：它的行为算谁的行为？它的草稿纸归谁保管？它点下去的按钮，责任由谁承担？

草莓时刻没有让行业恢复2023年的轻狂。它带来的更像重新加速后的低沉轰鸣。模型没有变得无所不能，但它们开始在回答前停顿，在屏幕上移动，在设备边缘铺开。人工智能的下一阶段，不再只是更快说出答案，而是更深地介入过程。那既是新的能力，也是新的麻烦。

参考文献

OpenAI，Hello GPT-4o，2024.05.13。
OpenAI，Introducing OpenAI o1-preview，2024.09.12。
Reuters，Exclusive: OpenAI working on new reasoning technology under code name ‘Strawberry’，2024.07.12。
OpenAI，Learning to Reason with LLMs，2024.09。
OpenAI，OpenAI o1 System Card，2024。
Meta，Llama 3.2: Revolutionizing edge AI and vision with open, customizable models，2024.09.25。
Meta，Llama 3.2 Model Card，2024.09。
Anthropic，Claude 3.5 Sonnet, Claude 3.5 Haiku, and computer use，2024.10.22。
Anthropic，Computer use beta，2024。

Keyboard shortcuts

智能涌动