Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第21章|草莓时刻:o1 让模型开始“慢思考”

一、等待成为功能

在过去一年里,人工智能公司一直训练用户相信一件事:越快越好。

2024年5月,GPT-4o 把这种信念推到台前。OpenAI 把它描述为能够跨音频、视觉和文本实时推理的新旗舰模型;前文已经写过,那次发布的关键词不是长篇论文式回答,而是听见、看见、打断、接话。模型的价值第一次如此直接地表现为反应速度:等待越短,机器越像一个在场的助手。[1]

四个月后,同一家公司推出了另一种体验。

2024年9月12日,OpenAI 发布 o1-preview 和 o1-mini。官方博客开头写道:“We’ve developed a new series of AI models designed to spend more time thinking before they respond.”——“我们开发了一个新的 AI 模型系列,设计目标是在回答前花更多时间思考。”紧接着,OpenAI 又写道:“They can reason through complex tasks and solve harder problems than previous models in science, coding, and math.”——“它们能够推理复杂任务,并在科学、编程和数学中解决比以往模型更难的问题。”[2]

这两句话改变了发布节奏。GPT-4o 的叙事是实时,o1 的叙事是延迟;GPT-4o 让模型更会接话,o1 让模型更愿意停下来做题。过去,等待常常意味着服务器繁忙、模型笨重、体验退步。o1 发布后,等待被重新包装成一种能力:模型在回答前多花时间,可能不是失败,而是产品设计的一部分。

这不是一个小小的交互差异。对一个在网页端使用 ChatGPT 的学生、程序员或研究助理来说,过去的聊天框像即时通信软件:问题发出后,答案最好立刻出现。o1 把这种节奏拧慢。用户不是看见一个模型“手速更快”,而是看见平台告诉他:有些问题,机器也需要多算一会儿。

OpenAI 没有把 o1-preview 描述成已经替代 GPT-4o 的通用助手。相反,官方博客强调,它还是早期模型,尚不具备 ChatGPT 中许多实用功能,例如浏览网页、上传文件和图像等。[2] 这种克制本身值得注意。2023年的模型发布常常喜欢用“通用”“全能”“涌现”去覆盖缺陷;到2024年秋天,行业已经被成本、监管、可靠性和用户疲劳打磨得更谨慎。OpenAI 需要告诉用户:这个模型不是更快的聊天机器人,它更像一条新曲线的样品。

这条曲线的价格也写在产品限额里。发布时,ChatGPT Plus 和 Team 用户可以使用 o1-preview 与 o1-mini,但有周度消息限制。OpenAI 在发布博客中写明,o1-preview 每周 30 条消息,o1-mini 每周 50 条消息,并表示正在努力提高这些限制。[2] 这不是无关紧要的产品细节。它提醒用户,所谓“多想一会儿”不是修辞,而是计算资源。模型在回答阶段花更多算力,平台就必须用限额、价格和队列来管理需求。

o1-mini 的存在也说明了这一点。OpenAI 称,o1-mini 比 o1-preview 便宜 80%,适合需要推理但不需要广泛世界知识的应用。[2] 在一个习惯把“旗舰模型”当作唯一主角的行业里,小模型忽然又获得了战略意义。它不是为了和最大模型比百科知识,而是为了把一部分推理能力压到更低成本。

从这一刻开始,模型竞赛不再只有一个方向:预训练时更大、更久、更多数据。o1 把另一条轴摆到桌面上——推理时计算。模型不仅可以在训练阶段变聪明,也可以在回答问题时多花算力,像考试前打草稿一样,把答案推到更远的地方。

行业刚刚经历前一章所写的那脚刹车:Agent 演示的脆弱性、监管铁门的落下、资本对成本的追问。o1 没有让行业回到2023年的轻狂。它更像在刹车后的低速档里重新给油:不再承诺马上自动完成一切,而是先让模型在难题前多停顿几秒。

二、草莓不是招牌

o1 发布前,行业已经给这条路线取过一个更好传播的名字:Strawberry,草莓。

2024年7月12日,Reuters 报道称,OpenAI 正在推进一个代号为 “Strawberry” 的项目,目标与增强模型推理能力有关。报道说,Reuters 根据知情人士和其看到的内部文件了解到,该项目旨在让 AI 不只是生成问题答案,还能提前规划,并更可靠地自主浏览互联网执行 OpenAI 所称的“deep research”任务。[3]

这类报道在2024年的 AI 行业有一种特殊作用。它不等同于官方确认,却会迅速变成产业叙事的燃料。新闻标题、社交媒体帖子、开发者论坛和投资人简报会把一个内部代号压缩成一句话:OpenAI 在做会推理的东西。等到9月 o1-preview 和 o1-mini 正式发布,外界很自然地把 o1 与 Strawberry 联系起来。

但在这里必须划一道线:Strawberry 是媒体报道中的代号,不是 OpenAI 在9月12日官方博客中使用的产品名。OpenAI 正式发布的是 o1-preview 和 o1-mini;官方材料谈的是“spend more time thinking before they respond”,谈的是科学、编程和数学任务中的复杂推理能力。[2] 至于 Strawberry 项目内部如何组织、经历了哪些实验、与 o1 有怎样的对应关系,公开信源不足以把每个细节写成确定事实。

这并不削弱“草莓时刻”的象征意义。相反,它暴露了2024年模型竞赛的叙事机制:当技术公司不完全公开路线图,媒体报道、基准测试和产品限额就会一起填补空白。行业需要一个名字来称呼这种转向。实时多模态、长上下文、开源大模型、编程助手都已经有了自己的市场标签;到了 o1,外界需要一个词来描述“模型开始慢下来”的反直觉变化。

“草莓”正好承担了这个角色。它有内部代号的神秘感,也有消费产品的轻盈感。一个听起来像冰淇淋口味的词,被用来谈论推理、规划、强化学习和昂贵算力。行业幽默常常来自这种错位:一个可能影响软件工程、科研助理和自动化代理的技术路线,先以水果名在市场里流通。

不过,o1 的真正重点不在名字。重点在于 OpenAI 把“回答前多想一会儿”公开变成产品主张。这意味着,行业开始严肃讨论一个问题:如果继续扩大预训练模型的边际收益变得昂贵而不稳定,那么在推理阶段投入更多计算,会不会成为下一条曲线?

这也是许多普通使用者第一次以产品体验的方式碰到“推理时计算”这个概念。过去,计算发生在看不见的数据中心训练阶段;用户只在新闻里听说 GPU、集群、电力和参数规模。o1 把一部分计算重新带回每一次对话:用户提出难题,模型多等一会儿,平台扣掉一条更稀缺的额度。算力不再只是财报和基础设施新闻里的名词,它变成聊天框里的等待。

三、推理时计算上桌

OpenAI 在《Learning to Reason with LLMs》中给出了 o1 叙事的技术骨架:通过强化学习训练模型进行复杂推理,并让模型在回答之前产生更长的内部思考过程。[4] 这不是第一次有人讨论思维链,也不是第一次有人让模型分步骤解题。但 o1 的不同之处在于,OpenAI 把它作为一个独立产品系列推向用户,而不是作为提示词技巧或论文实验。

官方数据也围绕这个方向展开。

OpenAI 称,在一项与国际数学奥林匹克竞赛资格考试相关的测试中,GPT-4o 正确解出约 13% 的题目,而其推理模型达到约 83%。[4] 这句话需要小心阅读。它不是说 o1 正式参加了国际数学奥林匹克并获得某种名次,也不是说数学竞赛被模型“解决”了;它说明,在 OpenAI 所报告的特定测试设置中,推理时计算显著改变了模型解难题的表现。

在竞争编程方面,OpenAI 称 o1 在 Codeforces 题目上达到约第 89 百分位。[2] 在科学推理方面,官方材料称其在物理、生物、化学等博士级问题基准上超过以往模型,并在 GPQA 等评测中表现突出。[4][5] 这些数字共同服务于一个结论:o1 的卖点不是闲聊,而是难题;不是广泛知识覆盖,而是在已有知识和题目条件之间做更长的推理。

这里仍要保持怀疑。基准测试不是现实世界的同义词。数学题、竞赛编程题和科学问答有明确答案、评分标准和题目边界;真实工作中的任务常常缺少这些边界。一个模型能在题目集上多解出许多题,并不自动等于它能可靠管理项目、替代研究员,或在复杂业务流程里承担责任。2024年的行业已经被太多演示教育过:能完成一段任务,不等于能稳定完成一类工作。

但 o1 的确改变了能力讨论的重心。传统用户体验通常把推理看作一次性输出:用户问,模型答,越快越好。o1 则把回答过程拉长。对平台而言,这意味着每个高难问题可能消耗更多推理阶段算力;对开发者而言,这意味着“模型价格”不只由输入输出 token 决定,还由模型在看不见的中间过程里花了多少计算决定。

这对小团队尤其具体。一个大公司可以把 o1 当作高价值任务的专家接口,把它放在代码审查、数学建模、科研辅助、复杂客服升级等环节;一个独立开发者或小型创业团队则要在每次调用前计算成本。到底是让 o1-preview 慢慢推理,还是让 o1-mini 解决足够明确的编程问题,或者干脆先用便宜模型筛一遍?模型能力越强,账单越像产品经理和工程师共同面对的设计约束。

因此,o1-mini 并不是附属品。OpenAI 在发布中强调它比 o1-preview 便宜 80%。[2] 这暴露了推理模型商业化的第一道门槛:如果每一次“慢思考”都太贵,它只能停留在考试、研究和高价值编程任务中;如果能够把部分推理能力做成更便宜的小模型,它才可能进入日常开发、自动化脚本和企业流程。

这也是2024年秋天的行业背景。上一阶段,许多自动化演示看起来流畅,落到真实工作流却暴露出脆弱性。o1 给出的回答不是“让代理立刻接管所有工作”,而是更保守也更深的路线:先让模型在复杂任务上少犯一些错,先把难题多推几步。

它像一声起跑枪,却不是烟花。烟花的价值在于瞬间照亮天空;起跑枪的价值在于让所有人知道,比赛换了赛道。

四、看不见的思维链

o1 的核心争议,正好藏在它最吸引人的地方:它会“想”,但用户不能完整看见它怎么想。

长期以来,思维链提示被开发者视为提高模型推理能力的办法。让模型“逐步思考”,常常能改善数学题、逻辑题和代码题表现。于是,当 OpenAI 发布一个主打推理的新系列,很多用户自然希望看到完整的推理过程:模型列出了哪些假设,尝试过哪些路径,在哪里回溯,为什么放弃某个答案。

OpenAI 选择了另一种做法。它不向用户展示原始 chain-of-thought,而是提供摘要式解释。官方在《Learning to Reason with LLMs》中写道:“We believe that a hidden chain of thought presents a unique opportunity for monitoring models.”——“我们认为,隐藏的思维链为监控模型提供了独特机会。”[4]

这句话把透明度问题翻转了。通常,人们会认为,公开模型推理过程更透明;OpenAI 的论点则是,隐藏的原始思维链可以成为一种安全监控通道。如果模型的内部推理过程不被直接展示给用户,也不被训练成迎合用户偏好的表演文本,安全团队就可能在其中观察到模型是否出现规避规则、计划不当行为、试图操纵用户等迹象。[4]

这种说法有其安全逻辑。完整思维链可能暴露模型如何绕过限制、如何构造攻击步骤、如何把危险任务拆解成可执行计划。对于具备更强推理能力的模型,公开每一步推理也可能给越狱者提供更详细的攻击面。OpenAI o1 System Card 披露的评估覆盖越狱、违规内容、网络安全、生物风险、说服、自治能力等方向,反映出 OpenAI 并没有把“会推理”只当作性能问题。[5]

但另一边的质疑也合理。开发者调试复杂系统时,需要知道模型为什么失败;科学用户希望理解答案可靠性;企业用户要审计模型输出;研究者则关心模型推理能力到底来自真实的结构化推导,还是来自更复杂的模式匹配。摘要式解释可以帮助用户理解答案,却不等于完整可审计记录。

这对个体使用者不是抽象争论。一个程序员把 o1 用在难以复现的 bug 上,如果模型给出正确修复,摘要足够;如果修复失败,摘要可能不足以帮助他判断模型在哪一步偏离。一个研究生把模型用于推导证明,如果答案看似优雅却有隐藏漏洞,他需要的不只是“我先分析了条件,再得出结论”。一个企业安全负责人要审计模型参与的流程,他关心的不只是最终输出,还包括模型是否在中间步骤尝试访问不该访问的信息。

于是,o1 把一个老问题推到更尖锐的位置:能力越强,越需要解释;越需要解释,越可能暴露新的风险。过去的聊天模型即使胡说八道,伤害通常表现为错误答案。推理模型一旦被接入代码、科学分析、金融流程和自动化工具,错误就可能沿着任务链扩散。用户想看更多,安全团队想藏更多,这不是简单的公关矛盾,而是模型产品化的结构性冲突。

行业荒诞感也在这里出现:AI 公司告诉用户,模型正在更认真地思考;同时又告诉用户,真正的草稿纸不能给你看。用户得到的是答案和摘要,平台保留的是原始推理轨迹。一个以“思考”为卖点的产品,必须把部分“思考”锁起来,才能被认为更安全。

五、开放权重把地板铺到边缘

o1 发布不到两周后,另一条路线从 Meta 的发布中继续推进。

2024年9月25日,Meta 发布 Llama 3.2,官方标题是“Llama 3.2: Revolutionizing edge AI and vision with open, customizable models”——“Llama 3.2:用开放、可定制模型革新边缘 AI 与视觉。”[6] 这次发布包括 1B、3B 轻量文本模型,以及 11B、90B 视觉模型。[6][7]

如果把它和前文写过的 Llama 3.1 405B 放在一起看,Meta 的策略就更清楚。405B 是开放权重路线向前沿能力发起的上限挑战:开放模型也可以很大,也可以进入顶级评测的比较表。Llama 3.2 的 1B 和 3B 则是另一种基础设施:它们不是为了在所有 benchmark 上争第一,而是为了降低部署门槛。

这条路线与 o1 的“慢思考”形成鲜明对照。o1 把更多计算放在回答阶段,依赖云端平台、限额和价格体系;Llama 3.2 的轻量模型则把模型推向本地应用、私有环境和边缘设备。企业不一定愿意把所有数据送进闭源 API;开发者也不一定每次都需要最强模型。一个能在本地运行的小模型,可能比远处的旗舰模型更适合低延迟、隐私敏感、成本受限的任务。

这对许多使用者是非常具体的选择。医院、律所、制造企业、政府承包商和教育机构中的 IT 人员,常常不是在“最强模型排行榜”上做决定,而是在数据边界、合规要求、预算上限、网络环境和维护能力之间做决定。一个小模型是否足够好,可能比一个旗舰模型是否聪明得令人震惊更重要。对他们来说,所谓“智能涌动”不是模型在榜单上又上升了几分,而是某个原本不能接入云端 API 的内部流程,终于可以在本地试运行。

Llama 3.2 的视觉模型也有象征意义。Meta 称 11B 和 90B 视觉模型支持图像理解等多模态任务,这是 Llama 系列向视觉能力扩展的重要一步。[6][7] 在2024年的模型竞争中,多模态已经不再是少数闭源模型的展示项目。开放权重生态也开始把视觉、轻量化和可定制性结合起来。

这不是说开放路线没有代价。模型越容易被下载、微调、量化、嵌入设备,责任越分散。闭源 API 至少还有一个中心化的阀门;开放模型的优势恰恰在于阀门更少。发布方、应用开发者、模型托管平台、微调者、企业部署者和最终用户之间的责任边界会变得更复杂。

但 Meta 的路线说明,2024年秋天的“新曲线”并不只有 o1 一种。OpenAI 把复杂推理推向更深的推理时计算;Meta 把模型能力铺向更广的部署地板。一个追求更会想,一个追求到处跑。它们都在回答同一个压力:当训练更大模型越来越昂贵,行业还能在哪里继续前进?

六、Claude 开始动鼠标

10月22日,Anthropic 给出了第三种答案。

这一天,Anthropic 发布升级版 Claude 3.5 Sonnet,宣布 Claude 3.5 Haiku,并推出 Computer Use beta。官方博客写道:“developers can direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking buttons, and typing text.”——“开发者可以指示 Claude 像人一样使用电脑——看屏幕、移动光标、点击按钮、输入文字。”[8]

这句话把 Agent 叙事从“写计划”推向“操作界面”。

在此之前,很多 Agent 产品的工作方式主要停留在语言层:模型拆解任务,生成步骤,调用工具,等待外部系统执行。Computer Use 则让模型面对普通软件界面。它不只是输出“请点击下一步”,而是可以在开发者提供的环境中观察屏幕截图,决定移动光标,点击按钮,输入文本。[8][9]

Anthropic 并没有把这项能力包装成已经成熟的通用代理。官方材料明确称其处于 beta 阶段,并提醒该能力仍然实验性强、容易出错,需要开发者在受控环境中使用,限制权限并保持监督。[8][9] 这种谨慎不是装饰。让模型操作电脑意味着错误不再只停留在文本里。它可能点错按钮、提交错误表单、误删文件、访问不该访问的页面,或者在复杂网页中被提示注入误导。

同一篇发布博客给出了新版 Claude 3.5 Sonnet 的软件工程成绩:Anthropic 称其在 SWE-bench Verified 上达到 49.0%,此前 Claude 3.5 Sonnet 为 33.4%。[8] 这是一个重要数字,因为 SWE-bench Verified 评估的是模型解决真实软件仓库问题的能力,而不是只写一段孤立代码。软件工程任务天然需要理解上下文、定位错误、修改文件、运行测试。它与 Computer Use 的方向相互呼应:模型不只是回答代码问题,而是更接近参与工作流。

在 Computer Use 官方材料中,Anthropic 还提到 Claude 在 OSWorld 上的表现:在截图条件下达到 14.9%,高于下一最佳系统约 7.8%,但仍远低于人类约 70%—75% 的水平。[9] 这个差距比宣传语更有解释力。它说明模型已经能在某些界面操作任务中超过其他系统,却离稳定替代人类还很远。Agent 的未来看起来更近了,但坑也被量化了。

对企业里的普通员工和 IT 管理者来说,“模型会动鼠标”既诱人又麻烦。诱人之处在于,大量数字工作仍然活在旧软件、网页后台、表单系统和内部工具里,根本没有优雅的 API。麻烦之处在于,光标一旦移动,权限、审计、回滚、责任和培训都要跟上。过去,模型给出一段错误建议,用户可以不采纳;现在,模型可能真的点击“提交”。

Anthropic 的路线与 OpenAI 的 o1 形成分叉。o1 让模型在难题前停下来思考,Computer Use 让模型在屏幕前开始行动。一个强调内部推理,一个强调外部操作。前者的风险是看不见的思维链和复杂任务中的错误自信;后者的风险是看得见的光标和真实系统中的误操作。

如果说 GPT-4o 把模型带进实时对话,o1 把模型带进慢思考,那么 Claude Computer Use 则把模型带到了操作系统门口。门还没有完全打开,但光标已经动了。

七、第二轴竞争确立

到2024年秋天,模型行业的竞争图景变得更立体。

第一条轴仍然存在:更大规模、更强预训练、更多数据、更长上下文、更高 benchmark。没有公司会轻易放弃这条路。前沿模型的能力上限仍然决定市场声望、融资叙事和生态吸引力。

但第二条轴已经确立:使用时更深。

OpenAI 的 o1-preview 和 o1-mini 把推理时计算推到产品层。模型不只是在训练时吸收世界,也在回答时花更多计算探索解法。它可能更慢、更贵、更受限,却在数学、编程和科学问题上显示出新的能力曲线。

Meta 的 Llama 3.2 把开放权重部署继续向边缘和视觉扩展。它说明能力不只属于云端旗舰模型,也可以通过小模型、视觉模型和可定制生态进入本地环境。开放路线的战略价值不只是“便宜替代”,而是让模型嵌入更多无法或不愿依赖闭源 API 的场景。

Anthropic 的 Computer Use beta 则让 Agent 从语言规划走向界面操作。它没有宣告通用代理已经实现,反而用 OSWorld 的数字提醒行业:模型能动鼠标,不等于能可靠工作。但它改变了想象边界。过去,模型输出的是句子;现在,它开始输出点击。

三条路线都带着兴奋,也都带着怀疑。

慢思考需要更多算力,也需要解释机制。隐藏思维链可能帮助安全监控,却削弱用户审计。界面操作让模型更像代理,也让错误进入真实系统。边缘部署降低成本、保护隐私,却让治理更分散。2024年夏天监管和成本带来的刹车,并没有让行业停下;它迫使行业寻找更深、更窄、更具体的新曲线。

o1 的意义不在于一次发布击败所有模型。它的意义在于把一个问题摆到所有公司面前:如果训练更大不再足够,能不能让模型在使用时想得更久?这听起来像一句朴素建议,却改变了模型经济学。算力不再只堆在训练中心,也被切进每一次复杂回答;智能不再只表现为秒回,也可以表现为愿意等待。

这一章的尾声不是胜利,而是责任问题的前奏。当模型会慢思考、会看屏幕、会移动光标、能在本地运行,错误也会拥有更多形态。它可以是一个错误证明,一段错误代码,一次错误点击,一个被微调后无法追踪的本地模型。到那时,人们不能只问模型有多聪明,还要问:它的行为算谁的行为?它的草稿纸归谁保管?它点下去的按钮,责任由谁承担?

草莓时刻没有让行业恢复2023年的轻狂。它带来的更像重新加速后的低沉轰鸣。模型没有变得无所不能,但它们开始在回答前停顿,在屏幕上移动,在设备边缘铺开。人工智能的下一阶段,不再只是更快说出答案,而是更深地介入过程。那既是新的能力,也是新的麻烦。

参考文献

  1. OpenAI,Hello GPT-4o,2024.05.13。
  2. OpenAI,Introducing OpenAI o1-preview,2024.09.12。
  3. Reuters,Exclusive: OpenAI working on new reasoning technology under code name ‘Strawberry’,2024.07.12。
  4. OpenAI,Learning to Reason with LLMs,2024.09。
  5. OpenAI,OpenAI o1 System Card,2024。
  6. Meta,Llama 3.2: Revolutionizing edge AI and vision with open, customizable models,2024.09.25。
  7. Meta,Llama 3.2 Model Card,2024.09。
  8. Anthropic,Claude 3.5 Sonnet, Claude 3.5 Haiku, and computer use,2024.10.22。
  9. Anthropic,Computer use beta,2024。