Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第30章|从聊天框到行动者:ChatGPT Agent 与 GPT-5 落地

一、聊天框长出手

很长一段时间里,聊天框是一种礼貌的家具。用户输入问题,它给出回答;用户继续追问,它继续补充。它可以写邮件、列清单、解释代码、总结论文,却通常停在屏幕里,像一位坐在桌边的顾问。

2025年7月,这张桌子的边界往外挪了一截。

OpenAI 的官方直播索引把这一段夏季发布排成一条清楚的时间线:7月17日,ChatGPT Agent;8月7日,GPT-5。[1] 如果说前者让熟悉的 ChatGPT 界面开始执行任务,后者则把新的基础模型放进消费者、企业和开发者的工作流。两件事相隔三周,构成了这一轮产品叙事的铰链:用户不再只是提问;他们开始委托。

这不是比喻。OpenAI 在 ChatGPT Agent 发布文中说,它把此前 Operator 的网页操作能力、deep research 的信息综合能力,以及 ChatGPT 的对话能力结合起来。用户可以让它研究信息、浏览网页、分析数据,并在授权范围内执行动作。[2] 过去,用户问:“帮我比较三家供应商。”模型返回一张表。现在,用户可以进一步要求它打开网站、查找价格、整理交付条款、生成表格,甚至在必要时准备表单。产品边界从“对话框内”延伸到“对话框外”。

这只手不是自由的。官方材料反复强调,Agent 在执行有外部后果的动作前需要用户确认,用户可以随时中断、接管浏览器,系统也会对高风险任务设置限制。[2] 换句话说,它不是一个脱缰的数字雇员,而是一只戴着安全绳的手:能抓东西,不能随便乱抓;能把工作推进到确认按钮前,却不能替用户消灭确认按钮本身。

行业里最荒诞也最真实的场景就此出现:一个工具可以替用户逛网站、查资料、跑代码、做幻灯片,但到了登录、付款、发送、提交的时候,又会像办公室里最懂合规的同事一样停下来。它能把几十个浏览器标签页压缩成一句指令,却仍可能被验证码、权限弹窗、过期网页和用户自己的粗心拦住。进步很大,进步也很像日常办公:许多革命,最后都堵在“请再次确认”前。

TechCrunch 在当日报道中也把重点放在同一个转折上:ChatGPT Agent 不是单纯聊天,而是使用一台虚拟电脑完成任务。[3] 对普通用户来说,这句话的含义比模型参数更直接。以前,AI 的错误多半以文本形式出现;现在,错误可能出现在一个被填好的表单、一封草拟好的邮件、一个筛选过的购物车、一段已经运行过的脚本里。回答需要判断,行动需要验收。

于是,聊天框获得了手。它不是科幻电影里的金属手臂,而是网页浏览器、终端、文件、表格、日历、连接器和权限提示组成的一组产品能力。它没有离开屏幕,却已经开始碰到屏幕外的世界。

二、Agent 的工作台:浏览器、终端与确认按钮

ChatGPT Agent 的发布文没有把它描述成无所不能的机器人,而是描述成一个能在“自己的电脑”上工作的系统。[2] 这台电脑是虚拟的,却承担了真实工作流中的多个环节:它可以看网页,用浏览器点击和导航;可以用文本浏览器快速读取页面;可以运行代码,处理文件;可以把研究结果组织成可编辑的文档、表格或演示材料。用户还可以把它放回对话里继续追问,要求修改路线、补充来源、调整输出格式。

这一步的重要性,在于任务不再被切成“问答”。一个用户要做市场研究,过去可能需要让模型先列竞争对手,再把链接逐个打开,再把结果复制回聊天框,再要求汇总。ChatGPT Agent 的产品设想是把这些步骤串起来:搜索、打开、筛选、比较、计算、生成文件。它仍然可能犯错,但它开始处理“连续工作”。

OpenAI 给出的能力边界同样清楚。Agent 可以执行许多网页任务,但对于购买、发送邮件、提交表单等有现实后果的动作,需要用户确认。对于敏感操作,用户可以接管浏览器;对于一些高风险领域,系统会拒绝或限制执行。[2] 这些限制不是注脚,而是 Agent 进入日常工作的前提。一个只能回答问题的模型,最多需要“引用来源”;一个能替人点击按钮的模型,需要“权限制度”。

这也是 ChatGPT Agent 与此前插件时代的差别。插件时期,聊天框像一个呼叫中心:它向外部服务发送请求,拿回结果,再把结果说给用户听。Agent 时期,聊天框更像一个初级助理坐在工作台前:它可以打开网页、切换工具、整理材料、运行步骤。用户给它的不是单个问题,而是一段目标。目标越长,权限越重要。

官方发布中还有一个值得注意的安全表述:OpenAI 把 Agent 的能力与风险放在同一篇文章里叙述,强调用户控制、外部后果确认、任务中断和安全训练。[2] 这不是公关材料里的道德花边,而是产品本体的一部分。因为 Agent 的价值恰恰来自“它能做事”;风险也来自同一个地方。让它能做更多事,就必须让它在更多地方停下来。

行业的笑点也在这里。人类花了几十年把软件做成“自动化”,又在自动化变聪明之后,重新发明了层层确认。过去是用户对着软件点按钮;现在是用户让 Agent 点按钮,然后软件要求用户确认 Agent 是否可以点按钮。办公流程没有消失,只是换了一个更有未来感的绕口令。

到7月中旬,ChatGPT Agent 的可用性也不是“全体用户同时拥有一个全能助理”。OpenAI 公告称,它面向 ChatGPT 的付费层级推出,并计划继续扩展到更多组织用户;不同套餐有不同使用额度和可用范围,欧洲经济区、瑞士等地区的可用性也受发布安排限制。[2] 这类细节提醒人们:Agent 不是抽象能力,而是产品、算力、监管、账户等级和地区政策共同塑造的服务。

这一节的核心事实很朴素:聊天框没有变成完全自治的主体。它只是获得了一套可以行动的工具,并被放进一组限制里。真正改变用户体验的,正是这两个东西同时出现——能力与边界。

三、委托的第一课:验收不是礼貌,是职责

当一个用户让 Agent “帮我比较三家服务商”时,任务表面上变简单了。过去他要自己搜索、打开网页、复制价格、查服务条款、做表格;现在,他可以把这些步骤交给 Agent。几分钟后,屏幕上出现一张表,列出价格、交付周期、客户案例和来源链接。这个时刻很容易让人兴奋:白领劳动中最耗人的部分,似乎被一段指令吞掉了。

但新的职责也在同一刻出现。用户不能只看表格是否漂亮,还要点开来源;不能只看价格,还要确认日期;不能只看结论,还要检查 Agent 是否把促销价当成长期报价,是否把旧页面当成新公告,是否遗漏了地区限制。过去,模型给错答案,用户可以说“它胡说”;现在,Agent 把错误整理成一份像样的文件,用户如果直接提交,责任很难继续留在聊天框里。

OpenAI 对 ChatGPT Agent 的设计已经把这门课写进流程:涉及外部后果的步骤需要确认,用户可以打断或接管,系统对敏感任务设限。[2] 这些机制把一个现实问题摆到用户面前:委托不是放弃监督。委托是把执行权部分交出去,把验收权更清楚地拿回来。

在个人层面,Agent 带来的变化可以拆成四条纪律。

第一,任务要分层。适合交给 Agent 的,往往是“收集、比较、整理、草拟、跑初步分析”;不适合完全交出去的,是“最终承诺、法律判断、付款授权、医疗或财务决策”。这并不是因为模型不聪明,而是因为这些动作的后果不一样。查十个酒店价格和确认一次不可退订订单,不是同一种点击。

第二,证据要能追。Agent 生成的表格、摘要、方案,如果没有来源链接、时间戳、计算路径,就不该直接进入正式流程。deep research 类能力曾经让用户习惯看引用;Agent 时代,这种习惯要扩展到所有可执行任务。它不是写得像报告就成了报告,正如一个表单填得整齐并不等于可以提交。

第三,权限要最小。能让 Agent 看公开网页,就不要先给它账户后台;能让它草拟邮件,就不要让它直接发送;能让它准备购物车,就不要把支付确认一起交出去。权限比口才更重要。一个回答流畅但权限很少的模型,风险有限;一个回答偶尔糊涂但权限很大的 Agent,才是真正需要制度驯服的东西。

第四,确认要慢一点。Agent 的界面会制造一种效率幻觉:它把复杂过程压缩成一串进度条和最终文件,用户很容易把“完成了”理解成“正确了”。可在行动者时代,“完成”只是进入验收。那只新长出来的手可以替人把事情推到门口,但门是不是该开,仍要有人看一眼门牌号。

这不是给技术泼冷水。恰恰相反,只有当用户学会验证和授权,Agent 才能真正进入工作。没有边界的自动化无法规模化;没有验收的委托只是把错误包装得更正式。2025年夏天的产品转折,不是人类退场,而是人类换了站位:从每一步亲手操作,变成设目标、分权限、看证据、按确认。

四、GPT-5:新模型进入工作流

三周后,OpenAI 把另一个更大的名字推到台前。2025年8月7日,OpenAI 发布 GPT-5。[4] 官方产品页把它定位为一个更强、更快、更有用的模型系统,面向 ChatGPT 用户、企业和开发者,重点强调写作、编程、健康、工作任务等使用场景。[4] 直播索引中的时间顺序也让这次发布与7月的 ChatGPT Agent 形成呼应:先把聊天框变成行动入口,再把更强的模型放进这个入口。[1]

GPT-5 的发布很容易被写成“更聪明的模型又来了”。但在这一章里,更重要的是它怎样服务于“委托”这件事。OpenAI 面向开发者的发布文把 GPT-5 描述为适合编码和 agentic tasks 的模型,并强调它在复杂代码生成、前端生成、长链任务、工具调用等方面的能力。[5] 对开发者而言,模型不只是回答 API 怎么用,而是被放进能读仓库、改文件、跑测试、调用工具的系统里。它的价值不只在一句答案,而在能否稳定推进一串步骤。

官方开发者材料还把 GPT-5 放进 API 产品结构中,介绍不同规模模型、推理强度、输出详略等控制参数。[5] 这些听上去像工程细节,却恰好说明大模型产品正在从“聊天体验”转向“工作部件”。在聊天时代,用户关心的是它答得好不好;在 Agent 时代,开发者还要关心它什么时候思考更久,什么时候回答更短,什么时候调用工具,什么时候停止,怎样把成本、延迟和可靠性放进同一个系统。

OpenAI 对 GPT-5 的能力叙述同时包含营销语言和测量结果。比如,官方产品页强调它在日常工作、写作、编码等方面更有用;这是产品定位。开发者发布文列出多个公开基准和内部评估,用来说明它在软件工程、代码修改、多语言编程等任务上的表现;这是测量能力。[4][5] 两类话不能混为一谈。前者告诉市场“该把它用在哪里”,后者告诉工程师“在某些测试上它表现如何”。从实验室分数到办公室委托,中间仍有很长一段路,路上铺满权限、数据质量、组织流程和人类复核。

GPT-5 发布后的一个小插曲也提醒人们,模型升级不是单向度的狂欢。据 The Verge 报道,GPT-5 上线后,部分用户对旧模型选项变化和使用体验表达不满,OpenAI 随后调整,让部分付费用户继续使用 GPT-4o 作为选项。[6] 这类反应并不否定 GPT-5 的能力,却说明消费者对模型的关系已经变得具体:他们不是抽象地崇拜“最强模型”,而是在乎某个写作风格、响应速度、稳定性和熟悉感。模型一旦进入工作流,就不只是技术指标,而是习惯、流程和信任的一部分。

路透社在发布日报道中也把 GPT-5 放在 OpenAI 与大型科技公司竞争的背景下理解。[7] 这当然是资本市场和平台战争的语言。但对普通用户来说,更直接的变化是:基础模型的升级与 Agent 能力的铺开开始合流。一个更能编码、推理、调用工具的模型,放进一个能浏览、填表、运行代码的界面里,才构成了“从聊天到行动”的产品事实。

因此,GPT-5 不是本章里的“AGI 时刻”。它更像一台更强的发动机,被装进已经开始长出轮子的车辆里。车辆仍有刹车,仍要人开门上路,仍可能在复杂路况中犯错。但发动机变强之后,用户愿意委托的任务会变长,开发者敢交给系统的步骤会变多,组织需要设计的护栏也会变厚。

五、同一个夏天,不同入口

OpenAI 并不是唯一把模型推向行动的一家公司。2025年夏天,竞争对手的动作从多个方向挤压同一个问题:谁能成为用户委托任务的入口?

8月5日,Anthropic 发布 Claude Opus 4.1,称其是 Claude Opus 4 的升级版本,并强调在 agentic tasks、真实世界编码和推理任务上的改进。[8] 官方材料中特别提到它在 SWE-bench Verified 等软件工程评测中的提升,并保持与 Opus 4 相同价格。[8] 这条新闻发生在 GPT-5 发布前两天,时间上很接近,方向上也很清楚:高端模型的竞争越来越围绕“能否完成复杂任务”,而不仅是“能否写一段漂亮回答”。

Google 的路径则更靠近命令行。6月,Google 发布 Gemini CLI,把它称为开源 AI agent,让开发者可以在终端中使用 Gemini 处理代码、文件和工作流。[9] GitHub 也在6月宣布 Copilot coding agent 面向 Copilot Business 用户可用,7月又为它加入远程 MCP 服务器支持。[10][11] 这些发布与 ChatGPT Agent 不是同一种产品形态,却指向同一个趋势:模型正在被放进真实工具环境里,接触文件、仓库、终端、浏览器和外部服务。

三家公司在同一个夏天喊出相似的口号,但入口不同。OpenAI 把 Agent 放进普通用户最熟悉的聊天框;Anthropic 把能力深扎进开发者工作和 Claude Code 生态;Google 把开源终端 Agent 推到命令行;GitHub 则从代码仓库和 pull request 出发。它们争夺的不是一句回答的所有权,而是委托任务的第一站。

这一点解释了为什么“Agent”突然变成行业热词。它不是因为模型拥有了完整自治,也不是因为科幻意义上的智能体降临。更现实的原因是:谁掌握了行动入口,谁就更接近用户的工作流程。搜索引擎掌握问题入口,办公软件掌握文档入口,代码平台掌握仓库入口;Agent 时代,各家公司想掌握“把事情办了”的入口。

竞争也让护栏变成产品能力。过去,安全限制常被看作妨碍体验的刹车;到 Agent 阶段,刹车本身成了卖点。企业用户不会把客户数据、财务系统、代码仓库随便交给一个只会热情回答的模型。它们需要审计、权限、日志、确认、撤销和责任边界。谁能让模型“多做事而少闯祸”,谁才有机会进入组织的日常流程。

这场竞争的幽默感在于:科技公司一边宣布 AI 可以替人完成更多工作,一边紧锣密鼓地发明更多办法阻止 AI 乱完成工作。左手给它工具,右手给它手套;左手接上浏览器,右手加上确认弹窗;左手开放终端,右手写下权限策略。看起来矛盾,其实正是 Agent 落地的真实形状。

六、开发者、白领与那张待确认的表

GPT-5 与 ChatGPT Agent 合流以后,最先感到变化的群体之一仍是开发者。第28章写过,编程 Agent 已经从自动补全走向读取仓库、修改文件、运行测试。到2025年7月至8月,这种变化获得了更强的基础模型和更明确的平台竞争。OpenAI 在 GPT-5 for developers 中强调编码和 agentic tasks;Anthropic 强调 Claude Opus 4.1 的 agentic coding;GitHub 和 Google 则把 Agent 放进终端、仓库和命令行。[5][8][9][10]

一个前端工程师面对组件库时,新的工作方式不再只是“请解释这段代码”。他可以要求模型扫描目录、找出重复组件、提出重构方案、修改若干文件、运行测试,再生成变更说明。每一步都可以由 Agent 推进,但每一步也都留下验收问题:测试是否覆盖关键路径?修改是否破坏无障碍属性?生成的说明是否夸大了变更范围?模型能跑测试,不等于测试足够;模型能开 pull request,不等于可以合并。

对白领工作来说,类似变化出现在研究、销售、采购、人力、运营和行政任务中。ChatGPT Agent 发布文展示的方向,是让用户把多步骤任务交给系统:收集信息、整理日程、生成材料、准备可编辑输出。[2] 这类任务过去常被称为“杂活”,但组织正是靠大量杂活运转。客户会议前的背景调查、供应商名单的初筛、报销材料的整理、竞品功能的对比、培训材料的初稿,都不是改变世界的伟大叙事,却占据了真实工作日的大块时间。

Agent 对这些工作的影响,不是简单“替代一个职位”。更准确地说,它改变了任务颗粒度。过去,一个人亲手做十个步骤;现在,他可以把前六个步骤交给 Agent,把第七步到第十步变成检查、判断和确认。劳动没有消失,而是从执行细节转向任务设计和结果验收。对熟练用户来说,这是杠杆;对粗心用户来说,这是放大器。它既放大效率,也放大疏忽。

这也是为什么个人权限纪律会变成一种新素养。办公室过去训练人们如何写邮件、做表格、开视频会议;Agent 时代还要训练人们如何写可执行指令,如何拆分任务,如何检查来源,如何限制授权,如何在系统即将提交、发送、购买、删除、合并代码之前停一下。确认按钮不再是烦人的流程残留,而是人类仍在场的证据。

A-source 报道中的用户反应也显示,公众并不会只按厂商发布会的节奏接受新模型。GPT-5 上线后,围绕模型选择、旧模型保留和体验变化的争议说明,人们已经把模型当成工作伙伴的一部分,而不是一次性玩具。[6] 当一个工具只是聊天机器人,用户可以随时换;当它进入文档、代码、日程和采购流程,切换成本就会上升。熟悉感本身变成生产力的一部分。

因此,个体影响的关键词不是“被替代”,而是“被重新分配”。用户把搜索、整理、初稿、初步执行委托出去,同时拿回更重的确认责任。一个人从键盘前的操作者,变成任务链条上的委托人、审稿人和权限管理员。这个新角色听起来不如“AI 魔法师”浪漫,却更接近2025年夏天真实发生的事情。

七、手停在确认按钮上

从7月17日到8月7日,OpenAI 连续推出 ChatGPT Agent 和 GPT-5。一个改变界面能做什么,一个改变模型能支撑什么。把它们放在一起看,2025年夏天的转折才完整:熟悉的聊天框开始越过回答,进入行动;更强的模型开始服务于更长的任务链。用户不再只是提问;他们开始委托。

但这一转折不应被写成自动化乌托邦。Agent 没有获得完整自治,GPT-5 也不等于 AGI。公开材料中反复出现的确认、接管、限制、可用范围和安全框架,说明厂商自己也知道,行动能力越强,边界越重要。[2][4][5] 如果说2023年的关键词是“生成”,2024年的关键词是“多模态”和“工具”,那么2025年夏天的关键词更像“授权”。谁授权,授权到哪里,何时收回,如何验收——这些问题决定 Agent 能否真正工作。

兴奋与怀疑在这里同时成立。兴奋的是,许多日常任务终于不必被拆成无数次复制粘贴、网页切换和格式整理;怀疑的是,模型的流畅输出仍可能遮住错误来源,自动化的速度仍可能超过人的检查习惯。Agent 让软件更像同事,也让管理同事的麻烦进入个人电脑。一个不会抱怨加班的助理固然诱人,但它如果把两年前的网页当成最新报价,也不会主动尴尬。

这一章的核心不是机器取代人,而是人和机器之间的动作分配发生了变化。过去,人类问,模型答;现在,人类设定目标,模型推进步骤,人类检查证据并授予下一步权限。聊天框长出手以后,人类也握住了另一只手:暂停键。

到这里,AI 的历史叙事从“它会说什么”转向“它能做什么”,又从“它能做什么”转向“谁允许它做”。确认按钮于是成了这个时代最朴素的象征。它没有发布会上的光环,也没有基准测试里的百分号,却决定一项委托是否真正越过屏幕。

人类仍在场,只是站在了一个新的位置:不是每一步的操作者,而是任务的委托人。那只手停在确认按钮上;按下去之前,工作还没有完全交出去。

参考文献

  1. OpenAI,OpenAI Livestreams,2025。
  2. OpenAI,Introducing ChatGPT agent: bridging research and action,2025-07-17。
  3. TechCrunch,OpenAI launches ChatGPT agent, a new AI agent that can use a computer,2025-07-17。
  4. OpenAI,GPT-5,2025-08-07。
  5. OpenAI,Introducing GPT-5 for developers,2025-08-07。
  6. The Verge,OpenAI is bringing back GPT-4o as an option after GPT-5 backlash,2025-08-08。
  7. Reuters,OpenAI launches GPT-5 in push to stay ahead in AI race,2025-08-07。
  8. Anthropic,Claude Opus 4.1,2025-08-05。
  9. Google,Introducing Gemini CLI: your open-source AI agent,2025-06-25。
  10. GitHub Blog Changelog,GitHub Copilot coding agent is now available for Copilot Business users,2025-06-24。
  11. GitHub Blog Changelog,Copilot coding agent now supports remote MCP servers,2025-07-09。