第32章|平台吃掉界面:AgentKit、Apps SDK、Atlas 与工作区代理
一、图标退到幕后
2025 年秋天,应用图标开始显得像上一个时代的路标。
过去二十年,软件工业训练用户记住一个动作:先想清楚要做什么,再打开对应的 App。订机票打开航旅应用,做海报打开设计工具,查客户打开 CRM,写报销打开财务系统,找文件打开网盘,问同事打开聊天软件。智能手机把这种秩序压缩成一屏屏小方块;SaaS 又把它搬进浏览器标签页。企业员工的一天,经常不是完成任务,而是在完成任务之前,先完成一场跨应用迁徙。
Agent 把这个秩序倒了过来。用户不再从图标开始,而从意图开始:整理这次客户拜访;比较两家供应商报价;把会议纪要变成任务;根据网页资料更新销售演示;在公司知识库里找出上季度的定价例外。随后,代理去调用邮件、日历、浏览器、网盘、表格、CRM、代码仓库和内部知识库。图标还在,但它们越来越像后台服务的徽章,而不是用户旅程的入口。
OpenAI 在 2025 年 10 月发布 Apps in ChatGPT 和 Apps SDK 时,正式把这种入口变化摆到台前。官方说明称,开发者可以用 Apps SDK 在 ChatGPT 中构建应用,让用户在对话中与第三方服务交互;这不是把一个网页链接贴进聊天窗口,而是让应用能力成为对话的一部分。[1] 同一天,OpenAI 又发布 AgentKit,把它描述为用于构建、部署和优化代理的一组工具。[2] 两周后,ChatGPT Atlas 发布,ChatGPT 被放进浏览器,网页不再只是被浏览的对象,也成为代理可解释、可总结、可继续操作的工作场。[3]
这三件事合在一起,说明竞争的坐标发生了变化。模型能力仍然重要,推理、编码、视觉、工具调用仍然是底层燃料;但更上层的战场,正在从“谁的模型更聪明”扩展为“谁拥有工作流、身份、记忆、权限、连接器、账单和治理”。在这一层,模型像发动机,平台像交通系统。发动机强不强当然要紧,可道路、收费站、驾驶证、维修记录和保险条款,开始决定谁能把车开进城市中心。
这种变化并非没有前史。本书前文写过插件商店的第一轮热闹:聊天框曾试图像手机系统那样安装插件,又很快暴露出发现、权限、可靠性和分发的难题。2025 年的新意不在于“又有一个商店”,而在于平台方把聊天、浏览器、开发工具、企业工作区和管理控制台一起搬进同一张地图。插件时代的问题是:聊天机器人能不能调用外部工具。代理平台时代的问题变成:谁来批准调用,谁来记录调用,谁来收费,谁来承担治理责任。
这听上去像企业架构师的白板话术,却直接改变普通人的屏幕。用户少切换一个应用,背后就多一次授权;少复制一段文本,背后就多一条连接器链路;少手动检查一个表格,背后就多一段代理日志。便利没有消灭复杂性,只是把复杂性从前台图标挪到了后台控制面板。行业的荒诞感也在这里:人类终于不用在十几个标签页之间搬运信息了,但为了实现这一点,他们需要学会阅读比标签页更难懂的权限说明。
二、OpenAI 的三块拼图:构建、分发、浏览
OpenAI 在这一阶段的动作,并不是单点产品发布,而是一组互相咬合的基础设施。
AgentKit 对开发者说的是:不要只把模型 API 当作补全文本的接口,要把代理当作可设计、可测试、可部署的工作流。官方发布文把 AgentKit 放在代理构建语境下,强调开发者可以创建代理工作流、连接工具、评估代理表现,并把代理体验嵌入产品。[2] 这意味着 OpenAI 不只想出售一次模型调用,也想参与代理从原型到生产的整个生命周期。模型回答错了,可以调模型;代理走错流程,就要调工作流、工具描述、权限边界、失败回退和评测用例。后者需要平台。
Apps SDK 则面向另一端:分发。Apps in ChatGPT 的官方发布把 ChatGPT 描述为用户可以直接发现和使用应用的地方,开发者通过 Apps SDK 把应用能力带进 ChatGPT。[1] 这里的关键不是“又多了几个应用”,而是入口所有权。过去,第三方应用争夺的是手机桌面、搜索排名、浏览器书签和企业门户;现在它们还要争夺聊天窗口里的可见性。当用户说“帮我做一张活动海报”时,究竟由哪个设计工具接住请求,谁来展示界面,谁来保存结果,谁来获得付费转化,都变成平台规则的一部分。
Atlas 补上第三块:浏览器。OpenAI 对 ChatGPT Atlas 的官方说明把它定位为内置 ChatGPT 的浏览器,用户可以围绕网页内容询问、总结、辅助操作,并在代理能力支持下让 ChatGPT 帮助完成浏览器中的任务。[3] 浏览器本来就是互联网工作流的总入口。把 ChatGPT 放进浏览器,意味着代理不再等待用户把网页内容复制进聊天框;网页、对话和行动可以在同一处发生。过去,浏览器扩展把一个个小工具挂在地址栏边上;Atlas 的方向是让代理成为浏览器本身的组织原则。
这一组动作背后有一个明显的平台逻辑:构建者用 AgentKit 创建代理,开发者用 Apps SDK 把服务接入 ChatGPT,终端用户在 ChatGPT 或 Atlas 中把任务交给代理,企业则在工作区里管理身份、权限和数据边界。每一环都可以单独解释为产品改进;连起来看,它们是一条从模型 API 到工作流控制面的迁移路线。
行业分析也注意到这一点。The Verge 在报道 OpenAI 2025 年开发者活动时,把 Apps in ChatGPT 放在“ChatGPT 变成应用平台”的语境下讨论。[4] 这种说法并不意味着平台已经成功,更不意味着开发者和用户已经大规模迁移。SDK 发布只是供给侧事件,不是采用率数据。真正的竞争要等用户是否愿意在聊天窗口里完成原本属于独立应用的任务,开发者是否愿意把关键交互交给平台分发,企业是否允许代理跨系统调用内部数据。发布会可以宣布入口,市场还要决定入口是不是门。
对 OpenAI 来说,危险与机会正好重叠。若 ChatGPT 成为前台,第三方应用可能获得新的流量;但如果用户只记得“让 ChatGPT 帮我做”,而不再记得具体应用名称,应用品牌就会被压到代理动作背后。手机时代,图标至少还在桌面上占一个位置;代理时代,应用可能只在授权弹窗、调用日志和账单明细里露面。软件业辛苦设计的启动页、导航栏和新手引导,有一部分会被压缩成一行工具描述。多年 UX 研究最后浓缩成一句话:请允许本代理访问你的数据。
三、工作区代理:公司边界进入聊天框
如果只看消费者场景,代理平台像是一个更聪明的个人助理;一旦进入企业,它就变成公司边界的一部分。
企业软件的基本单位不是“用户”,而是“带权限的用户”。同一家公司里,销售可以看客户记录,财务可以看付款信息,法务可以看合同条款,工程师可以看代码仓库,人力资源可以看员工档案。传统 SaaS 用角色、组、目录服务、单点登录、审计日志和数据保留规则维持这些边界。代理进入之后,问题变得更刁钻:如果一个员工可以看某份文件,他委托的代理是否也可以看?如果代理把文件摘要写入另一套系统,原始权限是否随摘要流动?如果代理调用了外部应用,谁来证明它没有越界?
OpenAI 的企业和工作区资料把 ChatGPT 放在组织管理语境中,强调面向企业的管理控制、数据保护、连接公司知识和工作流的能力。[5] 这类资料的意义不只是安抚采购部门。它说明 ChatGPT 不再只是员工个人打开的网页,而是可以被纳入公司身份体系和管理体系的工作区。所谓工作区代理,并不一定是一个拟人化头像,而是“某个组织中可被配置、授权、约束和审计的代理能力”。
这与 2023 年的聊天机器人热潮不同。那时,很多公司最紧张的问题是员工把敏感信息粘进公开聊天框。到了 2025 年,问题变成公司是否要主动把内部知识库、文件系统、日历、协作工具和业务系统接进代理平台。前者是影子 IT,后者是正式采购。前者的风险来自员工绕过流程,后者的风险来自流程终于批准了一个能跨系统行动的工具。
工作区代理的诱惑很强。企业知识通常散在邮件、会议纪要、文档、工单、CRM 字段和聊天记录里。员工要回答一个简单问题,可能要搜索四个系统、问两个同事、再翻一个过期的表格。代理如果能在已有权限范围内检索、汇总、生成后续动作,效率提升是可见的。荒诞的是,许多组织花了十年把数据装进“统一工作平台”,最后发现真正统一它们的可能不是门户网站,而是一个会调用门户网站的聊天框。
但这同样把平台方放进更中心的位置。谁承载工作区身份,谁就知道用户属于哪个组织、哪个组、拥有哪些连接器、能调用哪些工具。谁承载记忆和上下文,谁就能影响代理下一次如何解释同一项业务。谁承载审计日志,谁就掌握合规复盘的事实底稿。谁承载账单,谁就决定一次代理调用究竟算模型消耗、应用服务费、连接器费用,还是企业席位价值的一部分。
在企业采购语言里,这些叫安全、合规、管理、可观测性;在平台竞争语言里,它们叫控制面。
四、Anthropic 的 Skills:把能力打包,而不是只抢入口
OpenAI 的路线突出入口和分发,Anthropic 在 2025 年公布 Agent Skills 时,则展示了另一种实现方式:把代理能力打包成可复用的技能。
Anthropic 的工程文章把 Skills 描述为给代理配备现实世界能力的方法。根据官方说明,Skills 可以包含指令、脚本和资源,让 Claude 在需要时加载相关能力,用于完成特定任务。[6] 这看起来没有“应用进聊天框”那么像平台发布会,却触及代理工程的核心问题:长任务不是靠一次提示词完成的,而需要可复用的操作知识、文件、代码和约束。技能包把这些东西组织起来,使代理在处理某类任务时不必每次从零开始。
这种设计有自己的平台含义。若应用平台争夺的是用户入口,Skills 争夺的是能力封装格式。一个企业可以为财务分析写技能,为品牌审查写技能,为客户支持写技能,为数据清洗写技能。技能如果以文件和脚本形式存在,就更接近软件工程中的包管理;它不一定要求用户在某个平台商店里点击安装,却要求组织维护一套代理可调用的能力库。
这条路线与 Anthropic 过去强调的安全、可控和工程实践相符。Agent Skills 的重点不是让用户在聊天中召唤更多第三方品牌,而是让代理在特定任务中拥有更稳定的操作手册。它把“代理会不会做事”拆成几个可管理元素:任务说明是否清楚,脚本是否可靠,资源是否齐全,加载时机是否合适,输出是否可检查。相比把所有能力都塞进模型上下文,技能机制更像是给代理一个工具箱仓库,需要时取出对应抽屉。
这并不意味着 Anthropic 不参与平台竞争。恰恰相反,能力封装本身也是平台竞争的一部分。谁定义技能格式,谁提供运行环境,谁管理技能权限,谁支持技能在团队内分发,谁就可能成为代理工作流的基础设施。只是它的冲突点不是“用户从哪个前台入口开始”,而是“组织把自己的业务能力写成什么格式、存在哪里、由谁执行”。
这也提供了一个有趣的对照。OpenAI 的 Apps SDK 把第三方应用带到 ChatGPT 里,强调对话入口中的应用交互;Anthropic 的 Skills 把任务能力带到 Claude 可使用的结构中,强调代理执行中的能力加载。前者更像城市商业街,店铺争取在主街上开门;后者更像工厂工具库,关键在于每个工具是否能被正确取用、维护和追踪。两者都在平台化,只是一个更靠近用户界面,一个更靠近代理工程。
五、Google 的 Gemini Enterprise:企业代理的正门
Google 的路径又不同。它的优势不是从一个聊天产品向外扩张,而是从云、办公套件、搜索、身份和企业数据基础设施向代理平台收拢。
Google Cloud 在 2025 年发布 Gemini Enterprise Agent Platform,官方将其描述为面向企业构建、部署和管理 AI 代理的平台,强调连接企业数据、创建代理、治理代理使用,并把 Gemini 能力带入工作场景。[7] 这不是一个孤立的聊天窗口故事,而是 Google 长期企业业务的延伸:Workspace 里的文档、邮件、会议和表格,Google Cloud 里的数据、应用和安全体系,Vertex AI 等开发平台,以及企业已经配置好的身份和权限。
对于大型组织来说,这种路线有现实吸引力。企业不只是要一个能回答问题的模型,还要知道模型能接触哪些数据、运行在哪里、如何与已有云资源对接、如何纳入合规和审计。Google 的叙事重点,正是把代理放进企业平台:员工可以使用代理,开发者可以构建代理,管理员可以治理代理。这三个角色一旦同时出现,代理就不再是个人效率工具,而是组织级软件层。
这也使竞争变得更像云战争,而不只是聊天机器人战争。云厂商熟悉的不是“日活跃用户”一项指标,而是账户体系、项目、资源配额、IAM、日志、数据驻留、采购合同和服务级别协议。代理平台一旦进入企业核心流程,就必须面对这些旧而硬的东西。没有它们,代理像演示;有了它们,代理才像系统。行业有时喜欢把 Agent 说成会自己干活的数字员工,但真正让数字员工上岗的,仍是非常不浪漫的入职流程:分配账号、设定权限、绑定成本中心、启用日志、接受安全培训。
Google 的企业代理平台,也把一个事实说得更清楚:模型厂商、云厂商和应用厂商正在同一层相遇。OpenAI 从模型和 ChatGPT 入口向企业工作区推进;Google 从企业数据和云平台向代理入口推进;Anthropic 从模型安全和代理工程向技能与企业部署推进。它们看似卖的是不同产品,争夺的却是同一个控制面:工作如何被表达,数据如何被接入,权限如何被继承,行动如何被记录,费用如何被归因。
这一层竞争不会很快有胜者。大型企业通常不会只用一个模型,也不会轻易把所有工作流交给单一供应商。它们会试点、分部门采购、设白名单、做安全评估、要求日志导出、要求合同条款。平台方想要的是默认入口,企业想要的是可替换性。双方都说自己支持开放生态,但采购谈判桌上,真正的开放程度通常要看数据能否迁出、日志能否带走、权限模型能否复用、代理工作流能否在另一处重建。
六、控制面:身份、记忆、连接器、审计、账单
代理平台的真正权力,不在一个漂亮的回答里,而在六个后台名词里:身份、记忆、连接器、审计、账单、治理。
身份是第一层。没有身份,代理只能回答公共问题;有了身份,代理才能代表某个用户访问邮件、文档、日历、代码和业务系统。企业身份体系通常包含单点登录、目录同步、组管理、多因素认证和离职回收。代理接入后,这些机制不再只是登录便利,而是行动边界。一个代理能否读取客户名单,不取决于它“懂不懂销售”,而取决于它继承了谁的权限、被授予了哪个连接器、是否经过管理员批准。
记忆是第二层。消费者喜欢记忆,因为它能减少重复说明;企业喜欢上下文,因为它能让代理理解内部术语、项目历史和团队偏好。但记忆也提出难题:哪些内容可以长期保存,谁能查看,如何删除,是否跨设备、跨工作区、跨应用生效。记忆让代理更像同事,也让它更像档案系统。一个忘性很大的代理效率低;一个什么都记住的代理合规压力高。平台要在这两种失败之间找路。
连接器是第三层。它们把代理从语言系统变成工作系统。没有连接器,代理只能建议用户打开哪个应用;有了连接器,代理可以检索、汇总、创建草稿、更新记录,甚至触发业务流程。连接器的数量容易被做成发布会数字,但真正重要的是权限继承、数据最小化、调用失败处理和管理员可见性。一个能连接十个应用但无法解释权限边界的代理,比一个只能连接两个应用但日志清楚的代理更难进入严肃组织。
审计是第四层。传统软件里,用户点击按钮,系统记录操作。代理时代,用户给出目标,系统中间可能发生多步推理、多次检索、多轮工具调用。审计日志必须回答新的问题:代理看了哪些资料,调用了哪些工具,依据什么生成了输出,在哪一步需要人工确认,哪里发生了失败。欧洲关于 AI 治理的官方说明中,围绕通用 AI、风险管理和合规义务的讨论,已经把透明度、文档和责任链放在监管框架内。[8] 企业不会因为“这是 AI”就放弃追责;相反,AI 越能行动,追责链越需要可读。
账单是第五层。平台化的标志之一,是费用从单一订阅变成多层计量:模型调用、代理运行、第三方应用、连接器、企业席位、存储、日志保留、云资源。用户看到的是“帮我完成这件事”,财务看到的是一串成本归属。代理若真的减少人工操作,它就会增加机器操作;机器操作也要进账单。软件业最稳定的幽默之一,就是每次有人宣布“无缝体验”,都会有另一个部门开始研究新的计费维度。
治理是第六层,也是前五层的总和。治理不是在代理外面贴一个“安全使用 AI”的海报,而是把身份、权限、数据、日志、评测、人工确认、供应商管理和合同条款嵌进日常流程。AgentKit、Apps SDK、Atlas、Skills、Gemini Enterprise 这些产品线的共同方向,正是把代理从演示阶段拉进治理阶段。它们各自强调的功能不同,但都承认一个前提:代理要进入真实工作,就必须被管理。
这就是平台吃掉界面的含义。界面没有消失,它只是退后了。真正决定体验的,不再只是按钮摆在哪里,而是谁能在什么条件下调用什么能力。前台越简单,后台越复杂。用户说一句话,平台要完成身份确认、上下文检索、工具选择、权限检查、调用执行、结果生成、日志记录和费用归属。应用图标消失的地方,控制面板长了出来。
七、个人的授权时刻
平台化最终落到个人身上时,常常不是宏大叙事,而是一个授权按钮。
一个员工准备让代理整理下周客户会议。为了完成任务,代理需要访问日历确认参会人,读取邮件找历史沟通,打开网盘查报价文件,进入 CRM 查看客户阶段,调用文档工具生成会议简报。过去,员工要在五个应用之间来回切换;现在,员工可以在一个代理入口里发出委托。便利真实存在。少复制一次附件,少找一次版本,少在搜索框里猜关键词,都是工作日里能被感知的减负。
但授权按钮也真实存在。员工必须理解:这是临时访问还是长期连接;是只读还是可写;代理能否代表自己发出消息、创建记录、修改字段;授权能否随时撤销;撤销后历史日志是否保留;管理员能否看到代理调用;第三方应用是否获得了新的数据副本;离职或转岗时这些权限如何回收。这些问题以前属于 IT、安全和法务,现在开始进入普通知识工作者的日常。
锁定效应也从这里出现。若一个人的会议准备、客户摘要、写作风格、常用资料、应用连接和自动化流程都沉淀在某个平台,他更换平台的成本就不只是重新订阅,而是重建工作记忆、重连工具、重写代理指令、重新通过公司审批。对个人来说,这叫“用顺手了”;对平台来说,这叫留存;对采购部门来说,这叫供应商风险。三个词描述同一件事,只是站位不同。
订阅蔓延同样会变得更隐蔽。过去用户知道自己买了设计软件、项目管理软件和云存储;代理入口出现后,用户可能通过一个对话同时触发多个付费系统。平台若处理得好,账单会清楚归属;处理不好,便利就会变成月底报销单上的考古工作。到那时,员工会发现自己不再需要记住每个应用的入口,却仍然需要解释每笔费用的来源。图标消失了,成本中心没有。
这并不是反代理的结论。恰恰相反,代理平台化代表软件终于开始围绕任务而不是应用边界组织。对许多工作者来说,这是一件令人兴奋的事。人类长期承担着“软件胶水”的角色:把 A 系统里的信息复制到 B 系统,把会议里的决定变成项目管理里的任务,把邮件里的承诺变成日历里的提醒。Agent 如果能可靠承担一部分胶水工作,人的时间会从搬运转向判断。
怀疑也必须同时保留。一个能跨应用行动的代理,比一个只会回答问题的聊天机器人更有价值,也更需要边界。平台方越强调无缝,用户越要寻找缝在哪里:权限缝、数据缝、日志缝、账单缝、退出缝。真正成熟的代理平台,不应只让授权变得容易,也应让撤销、审计和迁移变得同样容易。否则,所谓“智能工作流”很可能只是把旧时代的应用孤岛,升级成新时代的平台围城。
到 2026 年春天,胜负仍未揭晓。OpenAI 在入口、构建工具和浏览器上连续落子;Anthropic 用 Skills 强调可封装、可复用的代理能力;Google 把企业代理放进云和 Workspace 的治理框架。没有一家可以宣布吃掉整个界面。可是方向已经足够清楚:下一轮软件竞争,不只发生在模型参数和基准测试里,也发生在谁替用户打开应用、谁替企业保管权限、谁替开发者分发能力、谁替监管留下记录。
应用图标不会一夜消失。它们会先变少被点击,再变成代理调用清单里的名字,最后在某些任务中退化为后台服务。人类仍会使用软件,只是越来越少从软件开始。平台吃掉界面,并不是屏幕上少了几个按钮;它是软件工业重新分配入口、身份和控制权的一次缓慢吞并。
参考文献
- OpenAI,Introducing apps in ChatGPT,2025-10-06。
- OpenAI,Introducing AgentKit,2025-10-06。
- OpenAI,Introducing ChatGPT Atlas,2025-10-21。
- The Verge,OpenAI wants ChatGPT to be an app platform,2025-10-06。
- OpenAI,ChatGPT Enterprise,访问于 2026-04。
- Anthropic,Equipping agents for the real world with Agent Skills,2025-10-16。
- Google Cloud,Google Gemini Enterprise Agent Platform,2025-10-09。
- European Commission,Navigating the AI Act: FAQ,访问于 2026-04。