第33章｜三套规则，一场竞赛：当 Agent 开始需要护栏

一、聊天框造成尴尬，代理造成后果

在上一轮人工智能热潮里，最常见的恐惧，是一句话说错了。

聊天机器人可能编造引用，可能把客服话术写得过分热情，可能在搜索摘要里给出离谱答案。它让公司尴尬，让用户困惑，让律师皱眉。错误大多停留在文本里：一段回复、一封草稿、一张幻灯片、一行错误代码。人们争论的是模型能不能说、该不该说、怎样拒绝说。

2025年7月以后，问题变了。

OpenAI 在 7月17日发布 ChatGPT Agent 时，把它描述为一种可以在用户授权下研究信息、浏览网页、运行代码、分析数据并执行任务的系统。它不只是把答案写在聊天框里，而是把浏览器、终端、连接器和任务执行放进同一条工作流。[1] 一个普通的聊天机器人如果犯错，可能让用户复制了一段荒唐邮件；一个代理如果被接进企业系统，可能在日历上发出邀请，在表格里改动数字，在代码仓库里开出拉取请求，在采购系统里生成申请，在客户关系管理系统中更新字段。

行业的荒诞感也在这里出现：同一句“帮我处理一下”，在旧时代意味着写一段文字；在代理时代，可能意味着调用五个工具、访问三套数据库、触发两个审批流，再把所有动作写进审计日志。过去，安全团队担心模型把密钥说出来；现在，他们还要担心模型拿着一个合法身份去调用合法接口，做出不该做的合法动作。

这并不意味着聊天时代的内容治理消失了。幻觉、偏见、版权、儿童安全、选举虚假信息仍然在场。但代理把监管问题从“AI 可以说什么”推进到“AI 可以做什么、代表谁做、凭什么权限做、出了事谁负责”。这也是本章的起点：2023 年那些围绕风险信、听证会和“暂停训练”的公共争论，在 2025 至 2026 年变成了更琐碎也更要命的工程问题。护栏不再只是一套拒答模板，而是一张权限表、一组日志、一份模型文档、一个区域开关，以及一条能够被审计的责任链。

二、布鲁塞尔把合规做成接线图

欧盟给出的答案，不是简单地“严格”，而是把责任拆成不同层次。

2025年7月，欧盟委员会公布通用人工智能模型《行为准则》（General-Purpose AI Code of Practice）相关材料。官方页面把这套准则放在《人工智能法案》框架下：它旨在帮助通用人工智能模型提供者履行法案中的义务，尤其是透明度、版权，以及对具有系统性风险模型的安全和安保要求。[2] 这不是一部新的法，也不是一张万能清单；它更像是在法律条文和工程组织之间架起的一组接头。

欧盟《人工智能法案》的逻辑并不把所有 AI 产品揉成一团。它区分被禁止的用法、高风险 AI 系统、透明度义务、通用人工智能模型，以及通用人工智能模型中可能构成系统性风险的模型。欧盟委员会的问答材料解释，法案分阶段适用：部分禁用实践先行生效，通用人工智能模型义务在 2025 年 8 月进入关键节点；已经投放市场的既有通用模型，则有更长的过渡期。[3] 法案文本本身要求通用人工智能模型提供者准备并维护技术文档，向下游系统提供必要信息，建立遵守欧盟版权法的政策，并公开训练内容摘要；对具有系统性风险的模型，还要求进行模型评估、评估和缓解系统性风险、跟踪并报告严重事件，并保证网络安全保护。[4]

这些条款在报纸标题里容易显得抽象，在产品经理和安全工程师手里却会变成接线图。一个模型提供者要知道训练和评估材料如何记录，模型能力和限制怎样说明，版权合规策略放在哪里，严重事件谁接收，红队测试如何留痕。一个下游应用提供者要知道自己调用的基础模型给了哪些信息，自己在医疗、教育、就业、信贷、公共服务等场景中是否落入高风险分类，用户界面上需要怎样告知，人的监督如何安排。

代理使这套接线图更复杂。通用模型本身可能只是生成文本或代码，但一旦它被放进代理框架，就会开始调用外部工具。模型提供者、代理平台、企业部署者和最终用户之间，责任边界不再天然清楚。模型说“可以帮你整理供应商报价”，平台给它浏览器和表格工具，企业给它采购系统权限，员工让它生成比价报告。若报告中引用了错误网页、误读了合同、越权访问了内部价格表，问题不只属于“模型输出质量”，还属于权限设计、日志记录、人员监督和供应商管理。

欧盟的规则在这里显得既雄心勃勃又笨重。雄心在于，它把上游模型和下游系统都纳入治理视野；笨重在于，代理的真实运行路径常常跨越公司、云服务、插件、浏览器、身份系统和外部网站。法案要的是可说明、可追责、可减缓风险；产品要的是少点弹窗、少点摩擦、少点延迟。二者相遇时，工程团队得到的不是一句“遵守 AI Act”，而是大量具体问题：哪些工具默认禁用，哪些动作需要二次确认，哪些日志保留多久，哪些区域暂缓上线，哪些模型版本需要额外文档。

因此，布鲁塞尔的监管不是把速度按停，而是把速度变成有表单、有证明、有责任人的速度。对想在欧洲提供通用模型和代理服务的公司来说，合规不再是发布后的法律附录，而是发布前的产品结构。

三、华盛顿把规则写成动员令

大西洋另一边，2025年7月，美国白宫发布《America’s AI Action Plan》。官方页面和白宫 PDF 把它写成一份国家竞争方案：加速 AI 创新，建设美国 AI 基础设施，并在国际外交与安全上保持领先。[5][6]

如果用“松”来概括美国路线，会漏掉它真正起作用的地方。美国的文件没有采用欧盟那种统一横向法案的表达方式，但它把 AI 规则嵌入了另一套机器：能源、数据中心、芯片、标准、采购、出口、盟友体系、科研基础设施和国家安全审查。它关心的不是少数条文能否管住所有模型，而是美国能否足够快地建出算力、布置电力、扩展半导体供应链，把 AI 技术栈出口给盟友，同时用标准、测试和安全机制约束高风险方向。

这是一种基础设施姿态。数据中心审批、电网接入、芯片制造、模型评测、政府采购、开源与开放权重、出口管制、国际标准组织，在这份行动计划里互相勾连。对企业而言，它的信号不是“随便做”，而是“快做、在美国做、用美国供应链做、按美国安全与标准体系做，并把这套体系卖到外部世界”。

代理时代使这种姿态更有现实意义。聊天机器人主要消耗的是模型推理和用户注意力；代理消耗的是更长链条的计算、工具调用、浏览会话、沙盒环境、身份系统和后台任务。一个能连续处理研究、网页操作、文件分析和企业工作流的代理，比单轮问答更像一项基础设施服务。它需要低延迟、可靠上下文、隔离环境、权限网关、日志存储和合规接口。美国行动计划所强调的基础设施、标准和安全，在这种场景下不只是宏观产业政策，也会落到每一次代理任务的后台成本上。

白宫文件还把 AI 与国际竞争并列书写。这里的竞赛并不只是模型参数或排行榜，而是规则的输出能力：谁的云、谁的芯片、谁的安全评测、谁的采购模板、谁的标准文本，会成为其他国家和企业采用 AI 代理时的默认配置。欧洲通过法案塑造市场准入，美国通过基础设施和技术栈塑造依赖关系。两者不是“管得严”和“管得松”的对照，而是两种不同的操作系统。

这也解释了为什么同一个企业在 2025 年下半年会同时开三种会：法务部门研究欧盟通用模型义务，公共政策团队阅读美国行动计划，基础设施团队计算代理工作流会增加多少推理和工具调用成本。监管没有停在政府网站上，它沿着采购合同、云账单和安全评审进入公司。

四、北京的标签，亚洲的另一种入口

亚洲不是一种制度。若把中国、日本、韩国、新加坡、印度和东南亚市场简单归入“亚洲监管”，只会制造新的幻觉。本章只取 2025 至 2026 年期间有明确官方来源、且对产品设计有直接影响的一条中国规则：人工智能生成合成内容标识。

2025年3月，国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局发布《人工智能生成合成内容标识办法》，并明确自 2025年9月1日起施行。[7] 这套办法围绕一个具体问题展开：当内容由人工智能生成或合成，服务提供者和传播平台应如何标识。办法要求服务提供者按照规则添加显式标识或隐式标识；提供网络信息内容传播平台服务的主体，要采取措施识别、提示和管理生成合成内容；任何组织和个人不得恶意删除、篡改、伪造、隐匿相关标识。

这条规则处理的不是代理权限本身，而是代理输出进入公共传播空间后的可识别性。一个图像生成工具、一段 AI 配音、一个自动生成的视频、一篇由代理整理并发布的商品说明，都可能触发标识要求。若代理替用户跨平台发布内容，问题进一步变得具体：标识由谁加，是模型服务商、代理平台、内容发布平台，还是最后点击发布的用户？若代理把多段人工和机器内容混合，显式标识放在哪里？若内容被二次编辑，隐式标识如何保留？这些不是哲学问题，而是元数据、界面提示、水印、平台审核和用户协议问题。

中国此前已有《生成式人工智能服务管理暂行办法》，对面向境内公众提供生成式人工智能服务提出安全评估、算法备案、训练数据、个人信息保护、生成内容管理等要求。[8] 到 2025 年秋季，标识办法使“生成合成内容可识别”成为更可操作的一层。它与欧盟的通用模型文档义务不同，与美国的基础设施动员也不同。它从内容流通和平台责任切入，要求产品在生成、传播、再传播环节留下痕迹。

代理在这里带来的麻烦，是它会把“生成”和“发布”连起来。过去，用户先让模型写文案，再复制到平台；责任链至少有一个人工搬运环节。代理若被授权直接登录账号、排程发布、修改标题、配图、加标签，内容标识就必须嵌入任务链，而不是发布前的事后提醒。行业荒诞又一次出现：一个看似聪明的营销代理，若不会正确加上“AI 生成”标识，可能在合规上比一个笨拙但只会生成草稿的聊天机器人更危险。

因此，中国的这一组规则不是“更严格”四个字可以概括的。它展示的是另一种治理入口：从内容可识别、平台管理和传播秩序出发，让生成式 AI 产品把标签写进工作流。对代理而言，这意味着护栏不只在模型拒答处，也在发布按钮、文件元数据、视频水印和平台接口处。

五、风险变成一张权限表

监管一旦进入代理时代，就会遇到安全工程的老问题：身份、权限、审计。

NIST 在生成式人工智能风险管理框架画像中，将生成式 AI 的风险放进治理、映射、测量和管理流程里讨论，涉及信息完整性、数据隐私、网络安全、滥用、知识产权、偏见和人机监督等方面。[9] 这些风险在聊天框里已经存在，但代理把它们接上了工具。工具连接后，风险不再只是“模型说错”，还包括“模型拿到什么”“模型调用什么”“模型替谁调用”“调用后能不能撤销”。

企业安全部门对此并不陌生。过去十年，零信任、最小权限、身份治理和审计日志已经成为云安全常识。代理出现后，一个新对象被塞进这些制度：非人类行动者。微软在 Entra Agent ID 相关材料中，把 AI 代理作为需要身份管理和访问治理的对象来处理，强调为代理建立可识别身份、管理访问权限并纳入治理流程。[10] 这类设计说明了一个方向：如果代理要访问邮件、文档、代码仓库、客户数据或财务系统，它不能永远躲在某个员工账号后面。否则审计日志只能显示“张三访问了文件”，却无法说明是张三本人、张三授权的代理，还是被错误配置的自动流程。

Google 在 2025 年推出 Gemini Enterprise 代理平台时，也把企业代理与治理、安全、连接器和可观测性放在同一套叙述中。[11] 这不是偶然。代理平台要卖给企业，不能只展示“会做事”，还要展示“做了什么能查清楚、能限制、能撤回、能证明”。一个代理如果能跨 Gmail、Drive、Slack、Salesforce、Jira 或内部数据库工作，管理员就需要白名单、黑名单、数据边界、审批流、日志导出和异常告警。代理的智力只是产品海报的上半部分；下半部分是权限矩阵。

软件开发场景把这一点演得很直观。GitHub 在 2025年7月宣布 Copilot coding agent 支持远程 MCP 服务器，使编码代理可以连接外部上下文和工具。[12] 对开发者来说，这意味着代理获得更多项目知识和自动化能力；对安全团队来说，这意味着新的供应链入口、新的凭据边界和新的审计对象。代理可以读 issue、改代码、运行测试、提交分支、打开拉取请求。每一步看起来都是正常开发动作，但组合起来就是一条自动化生产线。问题不再是“它写的代码好不好”，还包括“它为什么能访问这个仓库”“它用了哪个外部工具”“谁批准了这个 MCP 服务器”“失败后谁回滚”。

在代理时代，护栏的形状因此发生变化。第一层是模型层：拒绝生成恶意内容，降低幻觉，处理敏感数据。第二层是工具层：哪些 API 可用，哪些动作只读，哪些动作需要确认。第三层是身份层：代理以谁的身份运行，是用户委托、服务账号，还是独立非人身份。第四层是组织层：日志、审计、审批、事件响应、供应商合同。第五层是法律和区域层：不同司法辖区的模型文档、内容标识、数据保护和行业规则。

这五层叠在一起，构成了代理的真实护栏。它们不如“AI 会不会失控”那样适合做演讲标题，却决定了 2025 年以后大多数 AI 事故的边界：不是科幻电影里的机器叛乱，而是一个权限配置过宽的代理，把正常接口用在了错误任务上。

六、普通用户看到的不是同一个 AI

监管和企业治理最直接的结果，是用户开始看到不同版本的“同一个 AI”。

同一款代理产品，在不同地区、不同价格层级、不同组织租户中，可能拥有不同按钮、不同连接器、不同额度、不同拒绝策略和不同日志规则。OpenAI 在 ChatGPT Agent 发布时就说明，该能力按订阅层级和上线节奏开放，并且企业、教育和不同地区的可用性存在差异。[1] 这意味着一个用户在个人付费账户里看到的功能，未必会出现在公司账号；一个地区先开放的代理能力，另一个地区可能等待法律、隐私或安全评估；一个管理员允许连接的工具，另一个组织会全部关闭。

OpenAI 在 2025年10月发布 Apps in ChatGPT 和 Apps SDK 时，把第三方应用接入 ChatGPT 的平台化方向进一步展开。[13] 从用户角度看，这像是聊天窗口里多了应用；从合规角度看，这是更多权限请求、更多数据流动、更多区域差异。某个餐饮、设计、旅行或办公应用能否在聊天中调用，取决于地区、账号、产品阶段和企业管理员设置。按钮看似消失了，背后的准入规则却更多了。

企业用户的差异更明显。公司可能要求所有代理任务进入审计日志，禁止代理访问某些文件夹，限制外发邮件，要求高风险操作二次确认，或者只允许在特定模型和特定区域的数据中心运行。于是，一个员工让代理总结会议纪要时得到正常结果；同一个员工让代理提取客户数据时，系统拒绝；另一个国家的同事看不到同样的连接器；外包人员的账号只能使用只读模式。对终端用户来说，这些差异常常表现为一句平淡的提示：该功能在你的地区不可用，或你的组织未启用此功能，或你没有访问该资源的权限。

价格也成为治理的一部分。更高价格层级通常意味着更高额度、更强模型、更长上下文、更多连接器、更细管理控制和更完善日志。它既是商业分层，也是风险分层。能执行更多动作的代理，消耗更多计算，也带来更高权限风险；企业愿意为审计、隔离、身份和合规付费。于是，AI 的“能力”不再是排行榜上一个统一数字，而是合同、地区、组织策略和管理员开关共同塑造的体验。

这给普通劳动者带来一种新的夹层处境。公司要求他们“用 AI 提高效率”，同时又要求他们监督 AI 的输出、确认 AI 的动作、为 AI 生成的草稿负责。合规义务可能写在供应商合同、企业政策和监管文件里，但最后的确认按钮常常落到员工手上。员工不是模型提供者，不是平台运营者，也不是法务负责人，却要判断代理生成的客户回复是否合适、代码修改是否可靠、数据引用是否越权。代理减轻了一部分体力劳动，也把一部分监督劳动转移到更多岗位。

这不是反 AI 的结论。恰恰相反，只有当这些差异被认真处理，代理才可能进入更多真实工作。一个不能分地区上线、不能按组织授权、不能留下日志、不能解释拒绝原因、不能把价格与风险成本对应起来的代理，很难成为企业基础设施。用户看到的功能差异，是监管落地的表层；背后是一个行业正在把“聪明”翻译成“可管理”。

七、三套规则，一场竞赛

到 2026年4月，代理时代的监管轮廓已经比两年前清楚许多。

欧盟用《人工智能法案》和通用人工智能模型《行为准则》把模型提供者、系统部署者、透明度、版权和系统性风险连成法律框架。美国用《America’s AI Action Plan》把创新速度、基础设施、国际竞争、标准和安全写进国家动员。中国用生成合成内容标识等规则，从内容可识别和平台责任切入，把水印、元数据、提示和传播管理变成产品要求。三者都不是完整答案，也都不是简单姿态。

它们共同指向一个事实：代理让 AI 治理从言论管理进入行动管理。

聊天框时代，一个监管者可以问：模型会不会生成违法内容，会不会歧视，会不会侵犯版权，会不会泄露隐私。代理时代，这些问题仍在，但后面必须加上更多动词：会不会访问、会不会调用、会不会购买、会不会提交、会不会删除、会不会发布、会不会越权、会不会留下证据。模型输出是一页纸；代理行为是一串事件。

这场竞赛也不只是政府之间的竞赛。它是监管者、云厂商、模型公司、企业安全团队、开源社区、标准组织和普通用户之间的共同竞赛。欧盟要求文档和风险管理，美国要求基础设施和全球技术栈，中国要求生成内容可识别；企业要求身份、权限和日志；用户要求功能好用、价格合理、不被无端拒绝；开发者要求接口稳定、沙盒清楚、责任边界明确。

行业因此进入一种兴奋与怀疑并存的状态。兴奋在于，代理终于让 AI 从会说话的工具变成能协助完成任务的系统；怀疑在于，一旦系统能做事，错误也会离现实更近。一个会编造答案的模型让人恼火；一个会拿着正确权限执行错误任务的代理，让组织必须重新设计工作。

护栏不是刹车片，也不是装饰条。它是代理成为基础设施的条件。没有护栏，代理只能在演示视频里自由奔跑；有了护栏，它才可能在医院、银行、学校、政府、工厂和软件仓库里慢慢获得信任。真正的变化不在于监管者终于写出了多少页文件，而在于每一次代理行动开始被问四个问题：它能做什么，为谁做，凭什么权限做，出了事谁负责。

这四个问题，构成了代理时代的新章法。

参考文献

OpenAI，Introducing ChatGPT agent，2025年7月17日。
European Commission，The General-Purpose AI Code of Practice，2025年7月10日。
European Commission，Navigating the AI Act: Questions and Answers，2024年8月1日。
European Parliament and Council，Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence，2024年6月13日。
The White House，America’s AI Action Plan，2025年7月23日。
The White House，America’s AI Action Plan PDF，2025年7月。
国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局，人工智能生成合成内容标识办法，2025年3月14日。
国家互联网信息办公室等，生成式人工智能服务管理暂行办法，2023年7月13日。
National Institute of Standards and Technology，Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile, NIST AI 600-1，2024年7月。
Microsoft Security，Secure and govern AI agents with Microsoft Entra Agent ID，2025年5月19日。
Google Cloud，Introducing Gemini Enterprise: the new front door for AI in the workplace，2025年10月9日。
GitHub Changelog，Copilot coding agent now supports remote MCP servers，2025年7月9日。
OpenAI，Introducing apps in ChatGPT and Apps SDK，2025年10月6日。

Keyboard shortcuts

智能涌动