Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第33章|三套规则,一场竞赛:当 Agent 开始需要护栏

一、聊天框造成尴尬,代理造成后果

在上一轮人工智能热潮里,最常见的恐惧,是一句话说错了。

聊天机器人可能编造引用,可能把客服话术写得过分热情,可能在搜索摘要里给出离谱答案。它让公司尴尬,让用户困惑,让律师皱眉。错误大多停留在文本里:一段回复、一封草稿、一张幻灯片、一行错误代码。人们争论的是模型能不能说、该不该说、怎样拒绝说。

2025年7月以后,问题变了。

OpenAI 在 7月17日发布 ChatGPT Agent 时,把它描述为一种可以在用户授权下研究信息、浏览网页、运行代码、分析数据并执行任务的系统。它不只是把答案写在聊天框里,而是把浏览器、终端、连接器和任务执行放进同一条工作流。[1] 一个普通的聊天机器人如果犯错,可能让用户复制了一段荒唐邮件;一个代理如果被接进企业系统,可能在日历上发出邀请,在表格里改动数字,在代码仓库里开出拉取请求,在采购系统里生成申请,在客户关系管理系统中更新字段。

行业的荒诞感也在这里出现:同一句“帮我处理一下”,在旧时代意味着写一段文字;在代理时代,可能意味着调用五个工具、访问三套数据库、触发两个审批流,再把所有动作写进审计日志。过去,安全团队担心模型把密钥说出来;现在,他们还要担心模型拿着一个合法身份去调用合法接口,做出不该做的合法动作。

这并不意味着聊天时代的内容治理消失了。幻觉、偏见、版权、儿童安全、选举虚假信息仍然在场。但代理把监管问题从“AI 可以说什么”推进到“AI 可以做什么、代表谁做、凭什么权限做、出了事谁负责”。这也是本章的起点:2023 年那些围绕风险信、听证会和“暂停训练”的公共争论,在 2025 至 2026 年变成了更琐碎也更要命的工程问题。护栏不再只是一套拒答模板,而是一张权限表、一组日志、一份模型文档、一个区域开关,以及一条能够被审计的责任链。

二、布鲁塞尔把合规做成接线图

欧盟给出的答案,不是简单地“严格”,而是把责任拆成不同层次。

2025年7月,欧盟委员会公布通用人工智能模型《行为准则》(General-Purpose AI Code of Practice)相关材料。官方页面把这套准则放在《人工智能法案》框架下:它旨在帮助通用人工智能模型提供者履行法案中的义务,尤其是透明度、版权,以及对具有系统性风险模型的安全和安保要求。[2] 这不是一部新的法,也不是一张万能清单;它更像是在法律条文和工程组织之间架起的一组接头。

欧盟《人工智能法案》的逻辑并不把所有 AI 产品揉成一团。它区分被禁止的用法、高风险 AI 系统、透明度义务、通用人工智能模型,以及通用人工智能模型中可能构成系统性风险的模型。欧盟委员会的问答材料解释,法案分阶段适用:部分禁用实践先行生效,通用人工智能模型义务在 2025 年 8 月进入关键节点;已经投放市场的既有通用模型,则有更长的过渡期。[3] 法案文本本身要求通用人工智能模型提供者准备并维护技术文档,向下游系统提供必要信息,建立遵守欧盟版权法的政策,并公开训练内容摘要;对具有系统性风险的模型,还要求进行模型评估、评估和缓解系统性风险、跟踪并报告严重事件,并保证网络安全保护。[4]

这些条款在报纸标题里容易显得抽象,在产品经理和安全工程师手里却会变成接线图。一个模型提供者要知道训练和评估材料如何记录,模型能力和限制怎样说明,版权合规策略放在哪里,严重事件谁接收,红队测试如何留痕。一个下游应用提供者要知道自己调用的基础模型给了哪些信息,自己在医疗、教育、就业、信贷、公共服务等场景中是否落入高风险分类,用户界面上需要怎样告知,人的监督如何安排。

代理使这套接线图更复杂。通用模型本身可能只是生成文本或代码,但一旦它被放进代理框架,就会开始调用外部工具。模型提供者、代理平台、企业部署者和最终用户之间,责任边界不再天然清楚。模型说“可以帮你整理供应商报价”,平台给它浏览器和表格工具,企业给它采购系统权限,员工让它生成比价报告。若报告中引用了错误网页、误读了合同、越权访问了内部价格表,问题不只属于“模型输出质量”,还属于权限设计、日志记录、人员监督和供应商管理。

欧盟的规则在这里显得既雄心勃勃又笨重。雄心在于,它把上游模型和下游系统都纳入治理视野;笨重在于,代理的真实运行路径常常跨越公司、云服务、插件、浏览器、身份系统和外部网站。法案要的是可说明、可追责、可减缓风险;产品要的是少点弹窗、少点摩擦、少点延迟。二者相遇时,工程团队得到的不是一句“遵守 AI Act”,而是大量具体问题:哪些工具默认禁用,哪些动作需要二次确认,哪些日志保留多久,哪些区域暂缓上线,哪些模型版本需要额外文档。

因此,布鲁塞尔的监管不是把速度按停,而是把速度变成有表单、有证明、有责任人的速度。对想在欧洲提供通用模型和代理服务的公司来说,合规不再是发布后的法律附录,而是发布前的产品结构。

三、华盛顿把规则写成动员令

大西洋另一边,2025年7月,美国白宫发布《America’s AI Action Plan》。官方页面和白宫 PDF 把它写成一份国家竞争方案:加速 AI 创新,建设美国 AI 基础设施,并在国际外交与安全上保持领先。[5][6]

如果用“松”来概括美国路线,会漏掉它真正起作用的地方。美国的文件没有采用欧盟那种统一横向法案的表达方式,但它把 AI 规则嵌入了另一套机器:能源、数据中心、芯片、标准、采购、出口、盟友体系、科研基础设施和国家安全审查。它关心的不是少数条文能否管住所有模型,而是美国能否足够快地建出算力、布置电力、扩展半导体供应链,把 AI 技术栈出口给盟友,同时用标准、测试和安全机制约束高风险方向。

这是一种基础设施姿态。数据中心审批、电网接入、芯片制造、模型评测、政府采购、开源与开放权重、出口管制、国际标准组织,在这份行动计划里互相勾连。对企业而言,它的信号不是“随便做”,而是“快做、在美国做、用美国供应链做、按美国安全与标准体系做,并把这套体系卖到外部世界”。

代理时代使这种姿态更有现实意义。聊天机器人主要消耗的是模型推理和用户注意力;代理消耗的是更长链条的计算、工具调用、浏览会话、沙盒环境、身份系统和后台任务。一个能连续处理研究、网页操作、文件分析和企业工作流的代理,比单轮问答更像一项基础设施服务。它需要低延迟、可靠上下文、隔离环境、权限网关、日志存储和合规接口。美国行动计划所强调的基础设施、标准和安全,在这种场景下不只是宏观产业政策,也会落到每一次代理任务的后台成本上。

白宫文件还把 AI 与国际竞争并列书写。这里的竞赛并不只是模型参数或排行榜,而是规则的输出能力:谁的云、谁的芯片、谁的安全评测、谁的采购模板、谁的标准文本,会成为其他国家和企业采用 AI 代理时的默认配置。欧洲通过法案塑造市场准入,美国通过基础设施和技术栈塑造依赖关系。两者不是“管得严”和“管得松”的对照,而是两种不同的操作系统。

这也解释了为什么同一个企业在 2025 年下半年会同时开三种会:法务部门研究欧盟通用模型义务,公共政策团队阅读美国行动计划,基础设施团队计算代理工作流会增加多少推理和工具调用成本。监管没有停在政府网站上,它沿着采购合同、云账单和安全评审进入公司。

四、北京的标签,亚洲的另一种入口

亚洲不是一种制度。若把中国、日本、韩国、新加坡、印度和东南亚市场简单归入“亚洲监管”,只会制造新的幻觉。本章只取 2025 至 2026 年期间有明确官方来源、且对产品设计有直接影响的一条中国规则:人工智能生成合成内容标识。

2025年3月,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局发布《人工智能生成合成内容标识办法》,并明确自 2025年9月1日起施行。[7] 这套办法围绕一个具体问题展开:当内容由人工智能生成或合成,服务提供者和传播平台应如何标识。办法要求服务提供者按照规则添加显式标识或隐式标识;提供网络信息内容传播平台服务的主体,要采取措施识别、提示和管理生成合成内容;任何组织和个人不得恶意删除、篡改、伪造、隐匿相关标识。

这条规则处理的不是代理权限本身,而是代理输出进入公共传播空间后的可识别性。一个图像生成工具、一段 AI 配音、一个自动生成的视频、一篇由代理整理并发布的商品说明,都可能触发标识要求。若代理替用户跨平台发布内容,问题进一步变得具体:标识由谁加,是模型服务商、代理平台、内容发布平台,还是最后点击发布的用户?若代理把多段人工和机器内容混合,显式标识放在哪里?若内容被二次编辑,隐式标识如何保留?这些不是哲学问题,而是元数据、界面提示、水印、平台审核和用户协议问题。

中国此前已有《生成式人工智能服务管理暂行办法》,对面向境内公众提供生成式人工智能服务提出安全评估、算法备案、训练数据、个人信息保护、生成内容管理等要求。[8] 到 2025 年秋季,标识办法使“生成合成内容可识别”成为更可操作的一层。它与欧盟的通用模型文档义务不同,与美国的基础设施动员也不同。它从内容流通和平台责任切入,要求产品在生成、传播、再传播环节留下痕迹。

代理在这里带来的麻烦,是它会把“生成”和“发布”连起来。过去,用户先让模型写文案,再复制到平台;责任链至少有一个人工搬运环节。代理若被授权直接登录账号、排程发布、修改标题、配图、加标签,内容标识就必须嵌入任务链,而不是发布前的事后提醒。行业荒诞又一次出现:一个看似聪明的营销代理,若不会正确加上“AI 生成”标识,可能在合规上比一个笨拙但只会生成草稿的聊天机器人更危险。

因此,中国的这一组规则不是“更严格”四个字可以概括的。它展示的是另一种治理入口:从内容可识别、平台管理和传播秩序出发,让生成式 AI 产品把标签写进工作流。对代理而言,这意味着护栏不只在模型拒答处,也在发布按钮、文件元数据、视频水印和平台接口处。

五、风险变成一张权限表

监管一旦进入代理时代,就会遇到安全工程的老问题:身份、权限、审计。

NIST 在生成式人工智能风险管理框架画像中,将生成式 AI 的风险放进治理、映射、测量和管理流程里讨论,涉及信息完整性、数据隐私、网络安全、滥用、知识产权、偏见和人机监督等方面。[9] 这些风险在聊天框里已经存在,但代理把它们接上了工具。工具连接后,风险不再只是“模型说错”,还包括“模型拿到什么”“模型调用什么”“模型替谁调用”“调用后能不能撤销”。

企业安全部门对此并不陌生。过去十年,零信任、最小权限、身份治理和审计日志已经成为云安全常识。代理出现后,一个新对象被塞进这些制度:非人类行动者。微软在 Entra Agent ID 相关材料中,把 AI 代理作为需要身份管理和访问治理的对象来处理,强调为代理建立可识别身份、管理访问权限并纳入治理流程。[10] 这类设计说明了一个方向:如果代理要访问邮件、文档、代码仓库、客户数据或财务系统,它不能永远躲在某个员工账号后面。否则审计日志只能显示“张三访问了文件”,却无法说明是张三本人、张三授权的代理,还是被错误配置的自动流程。

Google 在 2025 年推出 Gemini Enterprise 代理平台时,也把企业代理与治理、安全、连接器和可观测性放在同一套叙述中。[11] 这不是偶然。代理平台要卖给企业,不能只展示“会做事”,还要展示“做了什么能查清楚、能限制、能撤回、能证明”。一个代理如果能跨 Gmail、Drive、Slack、Salesforce、Jira 或内部数据库工作,管理员就需要白名单、黑名单、数据边界、审批流、日志导出和异常告警。代理的智力只是产品海报的上半部分;下半部分是权限矩阵。

软件开发场景把这一点演得很直观。GitHub 在 2025年7月宣布 Copilot coding agent 支持远程 MCP 服务器,使编码代理可以连接外部上下文和工具。[12] 对开发者来说,这意味着代理获得更多项目知识和自动化能力;对安全团队来说,这意味着新的供应链入口、新的凭据边界和新的审计对象。代理可以读 issue、改代码、运行测试、提交分支、打开拉取请求。每一步看起来都是正常开发动作,但组合起来就是一条自动化生产线。问题不再是“它写的代码好不好”,还包括“它为什么能访问这个仓库”“它用了哪个外部工具”“谁批准了这个 MCP 服务器”“失败后谁回滚”。

在代理时代,护栏的形状因此发生变化。第一层是模型层:拒绝生成恶意内容,降低幻觉,处理敏感数据。第二层是工具层:哪些 API 可用,哪些动作只读,哪些动作需要确认。第三层是身份层:代理以谁的身份运行,是用户委托、服务账号,还是独立非人身份。第四层是组织层:日志、审计、审批、事件响应、供应商合同。第五层是法律和区域层:不同司法辖区的模型文档、内容标识、数据保护和行业规则。

这五层叠在一起,构成了代理的真实护栏。它们不如“AI 会不会失控”那样适合做演讲标题,却决定了 2025 年以后大多数 AI 事故的边界:不是科幻电影里的机器叛乱,而是一个权限配置过宽的代理,把正常接口用在了错误任务上。

六、普通用户看到的不是同一个 AI

监管和企业治理最直接的结果,是用户开始看到不同版本的“同一个 AI”。

同一款代理产品,在不同地区、不同价格层级、不同组织租户中,可能拥有不同按钮、不同连接器、不同额度、不同拒绝策略和不同日志规则。OpenAI 在 ChatGPT Agent 发布时就说明,该能力按订阅层级和上线节奏开放,并且企业、教育和不同地区的可用性存在差异。[1] 这意味着一个用户在个人付费账户里看到的功能,未必会出现在公司账号;一个地区先开放的代理能力,另一个地区可能等待法律、隐私或安全评估;一个管理员允许连接的工具,另一个组织会全部关闭。

OpenAI 在 2025年10月发布 Apps in ChatGPT 和 Apps SDK 时,把第三方应用接入 ChatGPT 的平台化方向进一步展开。[13] 从用户角度看,这像是聊天窗口里多了应用;从合规角度看,这是更多权限请求、更多数据流动、更多区域差异。某个餐饮、设计、旅行或办公应用能否在聊天中调用,取决于地区、账号、产品阶段和企业管理员设置。按钮看似消失了,背后的准入规则却更多了。

企业用户的差异更明显。公司可能要求所有代理任务进入审计日志,禁止代理访问某些文件夹,限制外发邮件,要求高风险操作二次确认,或者只允许在特定模型和特定区域的数据中心运行。于是,一个员工让代理总结会议纪要时得到正常结果;同一个员工让代理提取客户数据时,系统拒绝;另一个国家的同事看不到同样的连接器;外包人员的账号只能使用只读模式。对终端用户来说,这些差异常常表现为一句平淡的提示:该功能在你的地区不可用,或你的组织未启用此功能,或你没有访问该资源的权限。

价格也成为治理的一部分。更高价格层级通常意味着更高额度、更强模型、更长上下文、更多连接器、更细管理控制和更完善日志。它既是商业分层,也是风险分层。能执行更多动作的代理,消耗更多计算,也带来更高权限风险;企业愿意为审计、隔离、身份和合规付费。于是,AI 的“能力”不再是排行榜上一个统一数字,而是合同、地区、组织策略和管理员开关共同塑造的体验。

这给普通劳动者带来一种新的夹层处境。公司要求他们“用 AI 提高效率”,同时又要求他们监督 AI 的输出、确认 AI 的动作、为 AI 生成的草稿负责。合规义务可能写在供应商合同、企业政策和监管文件里,但最后的确认按钮常常落到员工手上。员工不是模型提供者,不是平台运营者,也不是法务负责人,却要判断代理生成的客户回复是否合适、代码修改是否可靠、数据引用是否越权。代理减轻了一部分体力劳动,也把一部分监督劳动转移到更多岗位。

这不是反 AI 的结论。恰恰相反,只有当这些差异被认真处理,代理才可能进入更多真实工作。一个不能分地区上线、不能按组织授权、不能留下日志、不能解释拒绝原因、不能把价格与风险成本对应起来的代理,很难成为企业基础设施。用户看到的功能差异,是监管落地的表层;背后是一个行业正在把“聪明”翻译成“可管理”。

七、三套规则,一场竞赛

到 2026年4月,代理时代的监管轮廓已经比两年前清楚许多。

欧盟用《人工智能法案》和通用人工智能模型《行为准则》把模型提供者、系统部署者、透明度、版权和系统性风险连成法律框架。美国用《America’s AI Action Plan》把创新速度、基础设施、国际竞争、标准和安全写进国家动员。中国用生成合成内容标识等规则,从内容可识别和平台责任切入,把水印、元数据、提示和传播管理变成产品要求。三者都不是完整答案,也都不是简单姿态。

它们共同指向一个事实:代理让 AI 治理从言论管理进入行动管理。

聊天框时代,一个监管者可以问:模型会不会生成违法内容,会不会歧视,会不会侵犯版权,会不会泄露隐私。代理时代,这些问题仍在,但后面必须加上更多动词:会不会访问、会不会调用、会不会购买、会不会提交、会不会删除、会不会发布、会不会越权、会不会留下证据。模型输出是一页纸;代理行为是一串事件。

这场竞赛也不只是政府之间的竞赛。它是监管者、云厂商、模型公司、企业安全团队、开源社区、标准组织和普通用户之间的共同竞赛。欧盟要求文档和风险管理,美国要求基础设施和全球技术栈,中国要求生成内容可识别;企业要求身份、权限和日志;用户要求功能好用、价格合理、不被无端拒绝;开发者要求接口稳定、沙盒清楚、责任边界明确。

行业因此进入一种兴奋与怀疑并存的状态。兴奋在于,代理终于让 AI 从会说话的工具变成能协助完成任务的系统;怀疑在于,一旦系统能做事,错误也会离现实更近。一个会编造答案的模型让人恼火;一个会拿着正确权限执行错误任务的代理,让组织必须重新设计工作。

护栏不是刹车片,也不是装饰条。它是代理成为基础设施的条件。没有护栏,代理只能在演示视频里自由奔跑;有了护栏,它才可能在医院、银行、学校、政府、工厂和软件仓库里慢慢获得信任。真正的变化不在于监管者终于写出了多少页文件,而在于每一次代理行动开始被问四个问题:它能做什么,为谁做,凭什么权限做,出了事谁负责。

这四个问题,构成了代理时代的新章法。

参考文献

  1. OpenAI,Introducing ChatGPT agent,2025年7月17日。
  2. European Commission,The General-Purpose AI Code of Practice,2025年7月10日。
  3. European Commission,Navigating the AI Act: Questions and Answers,2024年8月1日。
  4. European Parliament and Council,Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence,2024年6月13日。
  5. The White House,America’s AI Action Plan,2025年7月23日。
  6. The White House,America’s AI Action Plan PDF,2025年7月。
  7. 国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局,人工智能生成合成内容标识办法,2025年3月14日。
  8. 国家互联网信息办公室等,生成式人工智能服务管理暂行办法,2023年7月13日。
  9. National Institute of Standards and Technology,Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile, NIST AI 600-1,2024年7月。
  10. Microsoft Security,Secure and govern AI agents with Microsoft Entra Agent ID,2025年5月19日。
  11. Google Cloud,Introducing Gemini Enterprise: the new front door for AI in the workplace,2025年10月9日。
  12. GitHub Changelog,Copilot coding agent now supports remote MCP servers,2025年7月9日。
  13. OpenAI,Introducing apps in ChatGPT and Apps SDK,2025年10月6日。