第30章｜从聊天框到行动者：ChatGPT Agent 与 GPT-5 落地

一、聊天框长出手

很长一段时间里，聊天框是一种礼貌的家具。用户输入问题，它给出回答；用户继续追问，它继续补充。它可以写邮件、列清单、解释代码、总结论文，却通常停在屏幕里，像一位坐在桌边的顾问。

2025年7月，这张桌子的边界往外挪了一截。

OpenAI 的官方直播索引把这一段夏季发布排成一条清楚的时间线：7月17日，ChatGPT Agent；8月7日，GPT-5。[1] 如果说前者让熟悉的 ChatGPT 界面开始执行任务，后者则把新的基础模型放进消费者、企业和开发者的工作流。两件事相隔三周，构成了这一轮产品叙事的铰链：用户不再只是提问；他们开始委托。

这不是比喻。OpenAI 在 ChatGPT Agent 发布文中说，它把此前 Operator 的网页操作能力、deep research 的信息综合能力，以及 ChatGPT 的对话能力结合起来。用户可以让它研究信息、浏览网页、分析数据，并在授权范围内执行动作。[2] 过去，用户问：“帮我比较三家供应商。”模型返回一张表。现在，用户可以进一步要求它打开网站、查找价格、整理交付条款、生成表格，甚至在必要时准备表单。产品边界从“对话框内”延伸到“对话框外”。

这只手不是自由的。官方材料反复强调，Agent 在执行有外部后果的动作前需要用户确认，用户可以随时中断、接管浏览器，系统也会对高风险任务设置限制。[2] 换句话说，它不是一个脱缰的数字雇员，而是一只戴着安全绳的手：能抓东西，不能随便乱抓；能把工作推进到确认按钮前，却不能替用户消灭确认按钮本身。

行业里最荒诞也最真实的场景就此出现：一个工具可以替用户逛网站、查资料、跑代码、做幻灯片，但到了登录、付款、发送、提交的时候，又会像办公室里最懂合规的同事一样停下来。它能把几十个浏览器标签页压缩成一句指令，却仍可能被验证码、权限弹窗、过期网页和用户自己的粗心拦住。进步很大，进步也很像日常办公：许多革命，最后都堵在“请再次确认”前。

TechCrunch 在当日报道中也把重点放在同一个转折上：ChatGPT Agent 不是单纯聊天，而是使用一台虚拟电脑完成任务。[3] 对普通用户来说，这句话的含义比模型参数更直接。以前，AI 的错误多半以文本形式出现；现在，错误可能出现在一个被填好的表单、一封草拟好的邮件、一个筛选过的购物车、一段已经运行过的脚本里。回答需要判断，行动需要验收。

于是，聊天框获得了手。它不是科幻电影里的金属手臂，而是网页浏览器、终端、文件、表格、日历、连接器和权限提示组成的一组产品能力。它没有离开屏幕，却已经开始碰到屏幕外的世界。

二、Agent 的工作台：浏览器、终端与确认按钮

ChatGPT Agent 的发布文没有把它描述成无所不能的机器人，而是描述成一个能在“自己的电脑”上工作的系统。[2] 这台电脑是虚拟的，却承担了真实工作流中的多个环节：它可以看网页，用浏览器点击和导航；可以用文本浏览器快速读取页面；可以运行代码，处理文件；可以把研究结果组织成可编辑的文档、表格或演示材料。用户还可以把它放回对话里继续追问，要求修改路线、补充来源、调整输出格式。

这一步的重要性，在于任务不再被切成“问答”。一个用户要做市场研究，过去可能需要让模型先列竞争对手，再把链接逐个打开，再把结果复制回聊天框，再要求汇总。ChatGPT Agent 的产品设想是把这些步骤串起来：搜索、打开、筛选、比较、计算、生成文件。它仍然可能犯错，但它开始处理“连续工作”。

OpenAI 给出的能力边界同样清楚。Agent 可以执行许多网页任务，但对于购买、发送邮件、提交表单等有现实后果的动作，需要用户确认。对于敏感操作，用户可以接管浏览器；对于一些高风险领域，系统会拒绝或限制执行。[2] 这些限制不是注脚，而是 Agent 进入日常工作的前提。一个只能回答问题的模型，最多需要“引用来源”；一个能替人点击按钮的模型，需要“权限制度”。

这也是 ChatGPT Agent 与此前插件时代的差别。插件时期，聊天框像一个呼叫中心：它向外部服务发送请求，拿回结果，再把结果说给用户听。Agent 时期，聊天框更像一个初级助理坐在工作台前：它可以打开网页、切换工具、整理材料、运行步骤。用户给它的不是单个问题，而是一段目标。目标越长，权限越重要。

官方发布中还有一个值得注意的安全表述：OpenAI 把 Agent 的能力与风险放在同一篇文章里叙述，强调用户控制、外部后果确认、任务中断和安全训练。[2] 这不是公关材料里的道德花边，而是产品本体的一部分。因为 Agent 的价值恰恰来自“它能做事”；风险也来自同一个地方。让它能做更多事，就必须让它在更多地方停下来。

行业的笑点也在这里。人类花了几十年把软件做成“自动化”，又在自动化变聪明之后，重新发明了层层确认。过去是用户对着软件点按钮；现在是用户让 Agent 点按钮，然后软件要求用户确认 Agent 是否可以点按钮。办公流程没有消失，只是换了一个更有未来感的绕口令。

到7月中旬，ChatGPT Agent 的可用性也不是“全体用户同时拥有一个全能助理”。OpenAI 公告称，它面向 ChatGPT 的付费层级推出，并计划继续扩展到更多组织用户；不同套餐有不同使用额度和可用范围，欧洲经济区、瑞士等地区的可用性也受发布安排限制。[2] 这类细节提醒人们：Agent 不是抽象能力，而是产品、算力、监管、账户等级和地区政策共同塑造的服务。

这一节的核心事实很朴素：聊天框没有变成完全自治的主体。它只是获得了一套可以行动的工具，并被放进一组限制里。真正改变用户体验的，正是这两个东西同时出现——能力与边界。

三、委托的第一课：验收不是礼貌，是职责

当一个用户让 Agent “帮我比较三家服务商”时，任务表面上变简单了。过去他要自己搜索、打开网页、复制价格、查服务条款、做表格；现在，他可以把这些步骤交给 Agent。几分钟后，屏幕上出现一张表，列出价格、交付周期、客户案例和来源链接。这个时刻很容易让人兴奋：白领劳动中最耗人的部分，似乎被一段指令吞掉了。

但新的职责也在同一刻出现。用户不能只看表格是否漂亮，还要点开来源；不能只看价格，还要确认日期；不能只看结论，还要检查 Agent 是否把促销价当成长期报价，是否把旧页面当成新公告，是否遗漏了地区限制。过去，模型给错答案，用户可以说“它胡说”；现在，Agent 把错误整理成一份像样的文件，用户如果直接提交，责任很难继续留在聊天框里。

OpenAI 对 ChatGPT Agent 的设计已经把这门课写进流程：涉及外部后果的步骤需要确认，用户可以打断或接管，系统对敏感任务设限。[2] 这些机制把一个现实问题摆到用户面前：委托不是放弃监督。委托是把执行权部分交出去，把验收权更清楚地拿回来。

在个人层面，Agent 带来的变化可以拆成四条纪律。

第一，任务要分层。适合交给 Agent 的，往往是“收集、比较、整理、草拟、跑初步分析”；不适合完全交出去的，是“最终承诺、法律判断、付款授权、医疗或财务决策”。这并不是因为模型不聪明，而是因为这些动作的后果不一样。查十个酒店价格和确认一次不可退订订单，不是同一种点击。

第二，证据要能追。Agent 生成的表格、摘要、方案，如果没有来源链接、时间戳、计算路径，就不该直接进入正式流程。deep research 类能力曾经让用户习惯看引用；Agent 时代，这种习惯要扩展到所有可执行任务。它不是写得像报告就成了报告，正如一个表单填得整齐并不等于可以提交。

第三，权限要最小。能让 Agent 看公开网页，就不要先给它账户后台；能让它草拟邮件，就不要让它直接发送；能让它准备购物车，就不要把支付确认一起交出去。权限比口才更重要。一个回答流畅但权限很少的模型，风险有限；一个回答偶尔糊涂但权限很大的 Agent，才是真正需要制度驯服的东西。

第四，确认要慢一点。Agent 的界面会制造一种效率幻觉：它把复杂过程压缩成一串进度条和最终文件，用户很容易把“完成了”理解成“正确了”。可在行动者时代，“完成”只是进入验收。那只新长出来的手可以替人把事情推到门口，但门是不是该开，仍要有人看一眼门牌号。

这不是给技术泼冷水。恰恰相反，只有当用户学会验证和授权，Agent 才能真正进入工作。没有边界的自动化无法规模化；没有验收的委托只是把错误包装得更正式。2025年夏天的产品转折，不是人类退场，而是人类换了站位：从每一步亲手操作，变成设目标、分权限、看证据、按确认。

四、GPT-5：新模型进入工作流

三周后，OpenAI 把另一个更大的名字推到台前。2025年8月7日，OpenAI 发布 GPT-5。[4] 官方产品页把它定位为一个更强、更快、更有用的模型系统，面向 ChatGPT 用户、企业和开发者，重点强调写作、编程、健康、工作任务等使用场景。[4] 直播索引中的时间顺序也让这次发布与7月的 ChatGPT Agent 形成呼应：先把聊天框变成行动入口，再把更强的模型放进这个入口。[1]

GPT-5 的发布很容易被写成“更聪明的模型又来了”。但在这一章里，更重要的是它怎样服务于“委托”这件事。OpenAI 面向开发者的发布文把 GPT-5 描述为适合编码和 agentic tasks 的模型，并强调它在复杂代码生成、前端生成、长链任务、工具调用等方面的能力。[5] 对开发者而言，模型不只是回答 API 怎么用，而是被放进能读仓库、改文件、跑测试、调用工具的系统里。它的价值不只在一句答案，而在能否稳定推进一串步骤。

官方开发者材料还把 GPT-5 放进 API 产品结构中，介绍不同规模模型、推理强度、输出详略等控制参数。[5] 这些听上去像工程细节，却恰好说明大模型产品正在从“聊天体验”转向“工作部件”。在聊天时代，用户关心的是它答得好不好；在 Agent 时代，开发者还要关心它什么时候思考更久，什么时候回答更短，什么时候调用工具，什么时候停止，怎样把成本、延迟和可靠性放进同一个系统。

OpenAI 对 GPT-5 的能力叙述同时包含营销语言和测量结果。比如，官方产品页强调它在日常工作、写作、编码等方面更有用；这是产品定位。开发者发布文列出多个公开基准和内部评估，用来说明它在软件工程、代码修改、多语言编程等任务上的表现；这是测量能力。[4][5] 两类话不能混为一谈。前者告诉市场“该把它用在哪里”，后者告诉工程师“在某些测试上它表现如何”。从实验室分数到办公室委托，中间仍有很长一段路，路上铺满权限、数据质量、组织流程和人类复核。

GPT-5 发布后的一个小插曲也提醒人们，模型升级不是单向度的狂欢。据 The Verge 报道，GPT-5 上线后，部分用户对旧模型选项变化和使用体验表达不满，OpenAI 随后调整，让部分付费用户继续使用 GPT-4o 作为选项。[6] 这类反应并不否定 GPT-5 的能力，却说明消费者对模型的关系已经变得具体：他们不是抽象地崇拜“最强模型”，而是在乎某个写作风格、响应速度、稳定性和熟悉感。模型一旦进入工作流，就不只是技术指标，而是习惯、流程和信任的一部分。

路透社在发布日报道中也把 GPT-5 放在 OpenAI 与大型科技公司竞争的背景下理解。[7] 这当然是资本市场和平台战争的语言。但对普通用户来说，更直接的变化是：基础模型的升级与 Agent 能力的铺开开始合流。一个更能编码、推理、调用工具的模型，放进一个能浏览、填表、运行代码的界面里，才构成了“从聊天到行动”的产品事实。

因此，GPT-5 不是本章里的“AGI 时刻”。它更像一台更强的发动机，被装进已经开始长出轮子的车辆里。车辆仍有刹车，仍要人开门上路，仍可能在复杂路况中犯错。但发动机变强之后，用户愿意委托的任务会变长，开发者敢交给系统的步骤会变多，组织需要设计的护栏也会变厚。

五、同一个夏天，不同入口

OpenAI 并不是唯一把模型推向行动的一家公司。2025年夏天，竞争对手的动作从多个方向挤压同一个问题：谁能成为用户委托任务的入口？

8月5日，Anthropic 发布 Claude Opus 4.1，称其是 Claude Opus 4 的升级版本，并强调在 agentic tasks、真实世界编码和推理任务上的改进。[8] 官方材料中特别提到它在 SWE-bench Verified 等软件工程评测中的提升，并保持与 Opus 4 相同价格。[8] 这条新闻发生在 GPT-5 发布前两天，时间上很接近，方向上也很清楚：高端模型的竞争越来越围绕“能否完成复杂任务”，而不仅是“能否写一段漂亮回答”。

Google 的路径则更靠近命令行。6月，Google 发布 Gemini CLI，把它称为开源 AI agent，让开发者可以在终端中使用 Gemini 处理代码、文件和工作流。[9] GitHub 也在6月宣布 Copilot coding agent 面向 Copilot Business 用户可用，7月又为它加入远程 MCP 服务器支持。[10][11] 这些发布与 ChatGPT Agent 不是同一种产品形态，却指向同一个趋势：模型正在被放进真实工具环境里，接触文件、仓库、终端、浏览器和外部服务。

三家公司在同一个夏天喊出相似的口号，但入口不同。OpenAI 把 Agent 放进普通用户最熟悉的聊天框；Anthropic 把能力深扎进开发者工作和 Claude Code 生态；Google 把开源终端 Agent 推到命令行；GitHub 则从代码仓库和 pull request 出发。它们争夺的不是一句回答的所有权，而是委托任务的第一站。

这一点解释了为什么“Agent”突然变成行业热词。它不是因为模型拥有了完整自治，也不是因为科幻意义上的智能体降临。更现实的原因是：谁掌握了行动入口，谁就更接近用户的工作流程。搜索引擎掌握问题入口，办公软件掌握文档入口，代码平台掌握仓库入口；Agent 时代，各家公司想掌握“把事情办了”的入口。

竞争也让护栏变成产品能力。过去，安全限制常被看作妨碍体验的刹车；到 Agent 阶段，刹车本身成了卖点。企业用户不会把客户数据、财务系统、代码仓库随便交给一个只会热情回答的模型。它们需要审计、权限、日志、确认、撤销和责任边界。谁能让模型“多做事而少闯祸”，谁才有机会进入组织的日常流程。

这场竞争的幽默感在于：科技公司一边宣布 AI 可以替人完成更多工作，一边紧锣密鼓地发明更多办法阻止 AI 乱完成工作。左手给它工具，右手给它手套；左手接上浏览器，右手加上确认弹窗；左手开放终端，右手写下权限策略。看起来矛盾，其实正是 Agent 落地的真实形状。

六、开发者、白领与那张待确认的表

GPT-5 与 ChatGPT Agent 合流以后，最先感到变化的群体之一仍是开发者。第28章写过，编程 Agent 已经从自动补全走向读取仓库、修改文件、运行测试。到2025年7月至8月，这种变化获得了更强的基础模型和更明确的平台竞争。OpenAI 在 GPT-5 for developers 中强调编码和 agentic tasks；Anthropic 强调 Claude Opus 4.1 的 agentic coding；GitHub 和 Google 则把 Agent 放进终端、仓库和命令行。[5][8][9][10]

一个前端工程师面对组件库时，新的工作方式不再只是“请解释这段代码”。他可以要求模型扫描目录、找出重复组件、提出重构方案、修改若干文件、运行测试，再生成变更说明。每一步都可以由 Agent 推进，但每一步也都留下验收问题：测试是否覆盖关键路径？修改是否破坏无障碍属性？生成的说明是否夸大了变更范围？模型能跑测试，不等于测试足够；模型能开 pull request，不等于可以合并。

对白领工作来说，类似变化出现在研究、销售、采购、人力、运营和行政任务中。ChatGPT Agent 发布文展示的方向，是让用户把多步骤任务交给系统：收集信息、整理日程、生成材料、准备可编辑输出。[2] 这类任务过去常被称为“杂活”，但组织正是靠大量杂活运转。客户会议前的背景调查、供应商名单的初筛、报销材料的整理、竞品功能的对比、培训材料的初稿，都不是改变世界的伟大叙事，却占据了真实工作日的大块时间。

Agent 对这些工作的影响，不是简单“替代一个职位”。更准确地说，它改变了任务颗粒度。过去，一个人亲手做十个步骤；现在，他可以把前六个步骤交给 Agent，把第七步到第十步变成检查、判断和确认。劳动没有消失，而是从执行细节转向任务设计和结果验收。对熟练用户来说，这是杠杆；对粗心用户来说，这是放大器。它既放大效率，也放大疏忽。

这也是为什么个人权限纪律会变成一种新素养。办公室过去训练人们如何写邮件、做表格、开视频会议；Agent 时代还要训练人们如何写可执行指令，如何拆分任务，如何检查来源，如何限制授权，如何在系统即将提交、发送、购买、删除、合并代码之前停一下。确认按钮不再是烦人的流程残留，而是人类仍在场的证据。

A-source 报道中的用户反应也显示，公众并不会只按厂商发布会的节奏接受新模型。GPT-5 上线后，围绕模型选择、旧模型保留和体验变化的争议说明，人们已经把模型当成工作伙伴的一部分，而不是一次性玩具。[6] 当一个工具只是聊天机器人，用户可以随时换；当它进入文档、代码、日程和采购流程，切换成本就会上升。熟悉感本身变成生产力的一部分。

因此，个体影响的关键词不是“被替代”，而是“被重新分配”。用户把搜索、整理、初稿、初步执行委托出去，同时拿回更重的确认责任。一个人从键盘前的操作者，变成任务链条上的委托人、审稿人和权限管理员。这个新角色听起来不如“AI 魔法师”浪漫，却更接近2025年夏天真实发生的事情。

七、手停在确认按钮上

从7月17日到8月7日，OpenAI 连续推出 ChatGPT Agent 和 GPT-5。一个改变界面能做什么，一个改变模型能支撑什么。把它们放在一起看，2025年夏天的转折才完整：熟悉的聊天框开始越过回答，进入行动；更强的模型开始服务于更长的任务链。用户不再只是提问；他们开始委托。

但这一转折不应被写成自动化乌托邦。Agent 没有获得完整自治，GPT-5 也不等于 AGI。公开材料中反复出现的确认、接管、限制、可用范围和安全框架，说明厂商自己也知道，行动能力越强，边界越重要。[2][4][5] 如果说2023年的关键词是“生成”，2024年的关键词是“多模态”和“工具”，那么2025年夏天的关键词更像“授权”。谁授权，授权到哪里，何时收回，如何验收——这些问题决定 Agent 能否真正工作。

兴奋与怀疑在这里同时成立。兴奋的是，许多日常任务终于不必被拆成无数次复制粘贴、网页切换和格式整理；怀疑的是，模型的流畅输出仍可能遮住错误来源，自动化的速度仍可能超过人的检查习惯。Agent 让软件更像同事，也让管理同事的麻烦进入个人电脑。一个不会抱怨加班的助理固然诱人，但它如果把两年前的网页当成最新报价，也不会主动尴尬。

这一章的核心不是机器取代人，而是人和机器之间的动作分配发生了变化。过去，人类问，模型答；现在，人类设定目标，模型推进步骤，人类检查证据并授予下一步权限。聊天框长出手以后，人类也握住了另一只手：暂停键。

到这里，AI 的历史叙事从“它会说什么”转向“它能做什么”，又从“它能做什么”转向“谁允许它做”。确认按钮于是成了这个时代最朴素的象征。它没有发布会上的光环，也没有基准测试里的百分号，却决定一项委托是否真正越过屏幕。

人类仍在场，只是站在了一个新的位置：不是每一步的操作者，而是任务的委托人。那只手停在确认按钮上；按下去之前，工作还没有完全交出去。

参考文献

OpenAI，OpenAI Livestreams，2025。
OpenAI，Introducing ChatGPT agent: bridging research and action，2025-07-17。
TechCrunch，OpenAI launches ChatGPT agent, a new AI agent that can use a computer，2025-07-17。
OpenAI，GPT-5，2025-08-07。
OpenAI，Introducing GPT-5 for developers，2025-08-07。
The Verge，OpenAI is bringing back GPT-4o as an option after GPT-5 backlash，2025-08-08。
Reuters，OpenAI launches GPT-5 in push to stay ahead in AI race，2025-08-07。
Anthropic，Claude Opus 4.1，2025-08-05。
Google，Introducing Gemini CLI: your open-source AI agent，2025-06-25。
GitHub Blog Changelog，GitHub Copilot coding agent is now available for Copilot Business users，2025-06-24。
GitHub Blog Changelog，Copilot coding agent now supports remote MCP servers，2025-07-09。

Keyboard shortcuts

智能涌动