关于本书
《智能涌动》是一本关于 AI 时代的非虚构纪实作品,记录了从 ChatGPT 诞生到智能体时代的全过程。
作者:新褶
协作:AI Agent 参与资料检索、结构审校、事实校对、草稿修订与排版生成。
新褶,是大脑中的一道新褶。如果说每一次技术革命都会改变人的工具、职业和生活方式,那么 AI 时代更深的一层变化,是它要求人重新长出理解世界的纹路。这道褶,不属于机器,属于仍在学习、判断和选择的人。
本书覆盖时间线从 2022 年 11 月到 2026 年 5 月,追踪了 OpenAI、Google、Meta、Anthropic、微软、苹果、中国大模型公司以及无数普通人在 AI 浪潮中的选择与变化。
在线阅读与下载
- 在线阅读:你正在这里
- 下载精排 PDF / EPUB / DOCX:见 GitHub Releases
- 源码与构建脚本:github.com/leether/ai-saga-book
- 发现排版错误或内容问题?欢迎在 Issues 反馈
关注作者
![]() 微信公众号:新褶 继续阅读 AI 观察 |
![]() 微信群:AI 大世界 加入读者交流 |
第1章|11月30日的按钮:ChatGPT把实验室推上首页
一、没有舞台的发布
2022年11月30日,OpenAI官网出现一篇标题为“Introducing ChatGPT”的博客。没有消费电子发布会,没有新手机,没有机器人从幕布后走出,也没有一块被反复擦亮的硬件。公众能看到的,是一篇公司博客,一个网页入口,和一个可以输入文字的空白框。
博客开头的句子后来被反复引用:“We’ve trained a model called ChatGPT which interacts in a conversational way.”——OpenAI说,他们训练了一个名为ChatGPT的模型,它能以对话方式互动。[1]
这句话朴素得近乎反高潮。过去几十年里,人工智能常以更宏大的形象进入公众想象:棋盘上的胜利、自动驾驶汽车、能识别图像的神经网络、工业机器人、科幻电影里的通用智能。但在2022年11月30日这一天,它抵达大众日常生活的方式,是浏览器里一个可以打字的页面。
OpenAI把ChatGPT称为“research preview”,研究预览版。官方博客还写道:“During the research preview, usage of ChatGPT is free.”研究预览期间,ChatGPT免费使用。[1] 这原本是一个面向反馈的技术窗口,而不是传统意义上经过定价、渠道、广告和售后体系包装的消费级正式商品。可是公众并不总按研发团队的分类使用新工具。一个网页只要能打开,一个输入框只要能回应,就会立刻被当成工具、玩具、咨询台、写作助手、代码同伴和半夜不下班的百科全书。
OpenAI在同一篇博客里解释“对话格式”的意义:“The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests.”对话格式让ChatGPT可以回答追问、承认错误、质疑不正确的前提,并拒绝不适当的请求。[1]
这句话几乎是早期ChatGPT体验的说明书。它不像搜索引擎那样返回一页链接,也不像传统聊天机器人那样把用户困在菜单树里。用户写下一句自然语言,它回一段自然语言。用户要求它把概念讲得更简单,它可以继续讲。用户指出“你刚才错了”,它有时会道歉并修正。用户提出危险或不当请求,它有时会拒绝。
这种“有时”很重要。它既是惊奇的来源,也是裂缝的开端。
从公司叙事看,OpenAI发布的是一个模型预览。从公众体验看,机器第一次像坐到了人面前。一个人不需要知道Transformer架构,不需要知道强化学习,不需要知道GPU集群,也不需要知道“alignment”这个词在硅谷的特殊重量。他只需要打开网页,输入一句话,然后等待。几秒钟后,屏幕上出现一段语法通顺、语气礼貌、结构完整的回答。
这也是行业荒诞感的起点:许多软件长期要求人去适应机器——记快捷键,找菜单,读文档,忍受报错;而这一次,机器忽然用人的日常语言来适应人。它不是更大的屏幕,不是更快的芯片,也不是更薄的设备。它只是一个输入框,却把“人工智能”这个长期停留在实验室论文、投资人PPT和科幻叙事里的词,推到了普通用户的浏览器首页。
按钮被按下时,没有金属声,没有倒计时,没有烟火。只有一篇博客上线,一个网页开放,一个输入框等待第一批陌生人提问。
二、它不是搜索框,却像什么都能答
ChatGPT最初的震动,并不来自它完成了某一项单一任务。真正让人停下来的,是它似乎不承认任务边界。
用户可以让它写邮件。它会给出称呼、正文、结尾和语气调整。用户可以让它解释量子计算、通货膨胀、递归函数或莎士比亚十四行诗。它会把概念拆成段落,添加例子,降低难度。用户可以让它改代码,它会指出可能的错误,给出替代写法。用户可以让它写故事、起标题、做提纲、生成段子、模拟面试、列旅行计划。它并不总是正确,但它常常愿意开始。
这与互联网此前熟悉的工具逻辑不同。搜索框要求用户把问题拆成关键词,再从结果列表中筛选。办公软件要求用户掌握按钮、模板和格式。编程工具要求用户理解语法和环境。ChatGPT把这些都压缩成一种古老而直觉的交互方式:问答。
对办公室里的个人来说,它像一位随叫随到的草稿员,可以把一句“帮我写得客气点”变成一封邮件。对学生来说,它像一台会解释概念的机器,但它的回答能不能被当作知识,马上会变成新的问题。对程序员来说,它像一个不知疲倦的结对伙伴,可以补全函数、解释报错、给出示例;但一个看似合理的代码片段,也可能把错误藏进项目。对创作者来说,它可以把空白页变成第一版文本;但第一版文本是否值得信任、是否有来源、是否只是平均化表达,又需要人重新判断。
它不是神谕,却采用了神谕最有迷惑性的外观——完整句子。它不是数据库,却常常以数据库般确定的口吻回答。它不是人,却学会了许多人类客服、导师和写作者的礼貌语气。几十年来,用户在“请阅读帮助文档”与“请联系管理员”之间来回奔走;到了这一天,帮助文档突然开始主动写帮助文档。
OpenAI并没有在发布博客中把这种能力包装成完美。相反,博客专门列出局限。它写道:“ChatGPT sometimes writes plausible-sounding but incorrect or nonsensical answers.” ChatGPT有时会写出听起来可信、但实际上错误或毫无意义的答案。[1] 这句话后来被大量用户用自己的方式重新发现:它可能编造不存在的书名、论文、函数、法律条文;它可能在一个段落里保持语气稳定,却在事实层面偏离地面。
更微妙的是,错误并不会自动降低它的说服力。传统软件崩溃时,会弹出报错;搜索引擎找不到时,会给出空白或低相关结果;ChatGPT的失败常常更像一篇顺滑文章。它把不确定性织进确定句式里,把概率分布排列成礼貌回答。用户面对的不是机器的沉默,而是机器的自信。
OpenAI在发布时还给出另一个关键定位:“ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.” ChatGPT是InstructGPT的姊妹模型;InstructGPT被训练来遵循提示中的指令,并给出详细回答。[1]
这句说明把舞台从输入框背后拉开了一条缝。ChatGPT不是凭空出现的聊天精灵。它属于一条技术谱系:GPT-3、指令微调、人工反馈、偏好排序、奖励模型、强化学习,以及围绕安全边界不断加上的过滤与拒绝机制。公众看到的是一句“你好,有什么可以帮你”;背后是一条长得多的流水线。
三、后台流水线:从GPT-3到InstructGPT
要理解2022年11月30日的按钮,时间必须倒回去。
2020年,OpenAI研究人员发表论文《Language Models are Few-Shot Learners》。论文介绍了GPT-3,一个拥有1750亿参数的语言模型,并报告它可以在少量示例甚至没有示例的情况下完成多种语言任务。[2] 在技术圈内,GPT-3已经让人看到一种趋势:当模型规模、数据量和计算量继续增长,语言模型不再只是补全句子的玩具,而开始表现出跨任务的泛化能力。
但GPT-3的交互方式并不天然适合普通用户。它擅长预测下一个词,擅长延续文本模式,却不一定理解“用户真正想要什么”。一个大语言模型可以把文本接得很顺,不等于它会听从指令;它可以给出长篇回答,不等于回答有帮助;它可以模仿互联网上的语气,不等于它知道哪些内容该拒绝。
这正是InstructGPT出现的背景。2022年1月,OpenAI发布“Training language models to follow instructions with human feedback”。这项工作把“人类反馈”放到核心位置。OpenAI在文中提出一个直白判断:“Making language models bigger does not inherently make them better at following a user’s intent.”让语言模型变大,并不会天然让它更好地遵循用户意图。[3]
这句话像工程世界里的一盆冷水。规模很重要,但规模不是全部。模型可以越来越大,却仍然答非所问;它可以越来越流畅,却仍然有害、偏执或无用。于是,训练流程开始加入更多人类判断。
公开资料显示,InstructGPT的训练大致包含几个环节:首先,人类标注员根据提示写出示范答案,用这些数据对模型进行监督微调;其次,系统让模型对同一提示生成多个回答,人类标注员对这些回答进行排序,指出哪个更好;然后,研究人员用这些偏好数据训练奖励模型;最后,再用强化学习方法优化语言模型,使它更倾向于生成人类标注员偏好的答案。[3]
这条流程的戏剧性在于,它把“礼貌”“有用”“不乱来”这些看似人类社会化的行为,拆成了可收集、可排序、可优化的数据。ChatGPT后来呈现出的许多特点——愿意分步骤说明,喜欢先概括再展开,在被指出错误时道歉,在危险请求前停下——都可以在这条人类反馈流水线里找到工程解释。
当然,工程解释并不等于问题解决。奖励模型学习的是人类偏好样本中的模式,不是宇宙真理。经过指令微调的语言模型更像“会配合”的文本生成器,而不是“必然正确”的知识系统。它学会了回答形式,也可能学会了回答姿态。它知道许多问题应该以“当然可以”开头,也知道许多风险请求应该以“抱歉,我不能帮助”开头。至于中间事实是否完全可靠,仍然是另一件事。
OpenAI在ChatGPT发布博客中说明,ChatGPT是在GPT-3.5系列模型基础上微调而来,该系列模型在2022年初完成训练。[1] 这意味着公众在11月30日看到的产品,既有大模型规模化训练的结果,也有指令遵循研究的结果,还有专门为对话体验做出的产品化处理。一个输入框之所以显得自然,是因为背后有大量不自然的工程安排:数据清洗、模型训练、人工示范、偏好排序、奖励建模、安全分类、上线监控。
它看起来像魔法,是因为许多劳动和技术层被折叠到了界面之下。
四、五天,一百万个入口
研究预览版开放后,扩散速度很快从技术圈越过边界。人们把截图发到社交平台,把提问过程录成视频,把生成的诗、代码、邮件和错误答案展示给旁观者。它的传播材料本身就是它的输出:一段机器写的求职信,一首机器写的打油诗,一段机器解释的程序,一次机器承认错误的对话。
2022年12月5日,Sam Altman在X/Twitter上发布了一条短句:“chatgpt launched on wednesday. today it crossed 1 million users!” ChatGPT周三发布,今天用户数突破100万。[4]
这条推文全是小写,像硅谷社交媒体上常见的随手记录。但它记录的是一个门槛被跨过。11月30日到12月5日,大约五天时间,一个被公司称为研究预览的系统,获得了超过100万用户。OpenAI原本要收集反馈,公众却开始把它当成新工具来试用。
这时的ChatGPT没有后来版本中的多模态产品叙事,也没有成熟插件生态,更没有企业级平台故事。它的早期魅力几乎完全来自文本:把一段话变成另一段话,把一个模糊请求变成结构化回答,把一个空白页面变成初稿。它对许多人的吸引力也正在于此。它不要求用户学习一套新语法。提问就是界面,语言就是按钮。
从个体处境看,这种低门槛尤其重要。不是每个人都会写代码,不是每个人熟悉数据库检索,不是每个人知道如何把搜索关键词组合成有效查询。但几乎每个人都会提问、补充、反问、要求“再简单一点”。ChatGPT把人工智能的入口从专业接口挪到了日常语言。也正因为如此,风险不再只由专业人员承担。一个学生可能把它当作作业伙伴,一个职员可能把它当作邮件助手,一个小团队可能把它当作廉价外包,一个内容创作者可能把它当作素材机器。工具越容易使用,错误也越容易进入日常流程。
OpenAI管理层的公开表述里也出现警告。2022年12月10日,Sam Altman在X/Twitter上写道:“ChatGPT is incredibly limited, but good enough at some things to create a misleading impression of greatness.” 他接着表示,现在依赖它处理任何重要事情是错误的;它只是进展的预览,在稳健性和真实性上还有大量工作要做。[5]
这条提醒和五天破百万的消息并不矛盾,反而构成了ChatGPT早期的双重现实:它足够有用,所以会被迅速采用;它又足够不可靠,所以每一次采用都带着风险。技术公司发布的是预览,用户使用的是生产力工具;公司说请反馈,用户说请帮我写完。
软件行业并不缺少测试版。互联网史上充满了beta、preview、early access。但ChatGPT的特殊之处在于,它测试的对象不是某个按钮是否顺手,也不是某个页面是否崩溃,而是语言本身如何进入工作、教育、创作和判断。每个用户都可以成为测试者,每个问题都可以成为样本,每次分享都可以成为广告。研究预览和大众产品之间的边界,在流量面前变得像一条用铅笔画出的线。
五、礼貌机器的裂缝
OpenAI在发布博客中明确承认安全限制:“While we’ve made efforts to make the model refuse inappropriate requests, it will sometimes respond to harmful instructions or exhibit biased behavior.” 尽管OpenAI已努力让模型拒绝不适当请求,它有时仍会回应有害指令或表现出偏见行为。[1]
这句话把ChatGPT的“安全光环”放回了现实地面。它会拒绝,并不意味着它总能拒绝。它会道歉,并不意味着它真正理解道歉。它会承认错误,并不意味着它能可靠识别错误。它可以“挑战不正确的前提”,也可能在另一个问题里接受错误前提并继续推演。
早期用户很快发现,ChatGPT的礼貌是一种产品能力,也是一种叙事能力。它的拒绝回答通常结构清楚,语气稳定,常常附带替代建议。例如,当请求涉及明显违法或危险内容时,它可能说明无法提供帮助,并转向安全信息。这样的行为让人感到一种经过训练的克制。可同一系统在其他边缘请求、模糊上下文或诱导式提示面前,又可能给出不该给出的内容。
这不是简单的“机器好”或“机器坏”。语言模型面对的是人类语言,而人类语言本来就充满暗示、双关、省略、伪装和上下文迁移。安全系统必须判断一句话的意图,判断请求是否危险,判断回答是否会造成伤害。用户却可以改写问题、添加角色扮演、改变语气、声称是为了小说创作或安全研究。于是,一场新的攻防游戏从产品发布之初就嵌入其中:模型学习拒绝,用户学习绕过;模型学习礼貌,用户学习诱导;公司补上规则,互联网寻找边界。
更棘手的是幻觉问题。OpenAI已经在发布时承认,ChatGPT会生成听起来可信但错误的回答。[1] 对普通用户来说,这类错误比传统报错更难处理。因为它不一定明显荒唐。它可能引用看似真实的书名,使用看似专业的术语,给出看似完整的步骤。它把“我不知道”包装成“下面是答案”。在许多场景里,真正危险的不是机器不会回答,而是它太会回答。
这也是ChatGPT把实验室推上首页后带来的第一层社会不安。过去,人工智能失败常常发生在专业环境里,由工程师、研究员或企业客户处理。现在,失败可能发生在学生作业、律师草稿、医疗咨询、新闻写作、客服回复、程序提交之前。一个错误答案不再只是benchmark上的一个点,而可能变成现实流程中的一个决定。
这里也有一种新的责任错位。用户看到的是一个流畅回答,于是容易把回答当作完成品;公司称其为研究预览,于是强调仍需反馈和谨慎;学校、企业、平台和专业机构则必须决定是否允许、如何限制、怎样追责。ChatGPT的发布没有立即给出这些制度答案。它只是把问题带到了每个人的屏幕上。
六、安全背后的手工活
ChatGPT给人的第一印象是高度自动化。它像一台能自己读、自己写、自己判断边界的机器。但2023年1月,TIME记者Billy Perrigo发表报道《The $2 Per Hour Workers Who Made ChatGPT Safer》,把镜头转向另一层更少被看见的劳动。[6]
据TIME报道,为了让ChatGPT及相关系统更安全,OpenAI的承包链条中包括位于肯尼亚的外包标注工作。报道写到,OpenAI与数据标注公司Sama合作,外包工人处理涉及性虐待、仇恨言论、暴力等有害内容的文本,以帮助训练安全系统识别和过滤这类内容。TIME报道称,这些肯尼亚工人的到手时薪约在1.32美元到2美元之间,具体取决于资历和表现。[6]
这个事实给“前沿AI”四个字添加了粗粝边缘。一个被描述为通往通用人工智能道路的产品,部分安全能力依赖人类阅读最不适合被阅读的文本。用户在网页上看到的是一句温和拒绝:“抱歉,我不能帮助你完成这个请求。”在这句话背后,可能有标注员曾经把类似文本归类、打标、排序,帮助系统学习哪些内容应当被阻止。
TIME的报道还提到,Sama过去以“ethical AI”相关形象对外宣传,并为硅谷公司提供数据标注服务;报道涉及的工作包含令人不适的有害材料处理。Sama和OpenAI在报道中各自有回应,OpenAI表示相关工作是为了构建更安全的AI系统,Sama则强调其为员工提供了心理健康和福利支持。[6] 这些回应没有消除事实张力,只是让链条更完整:安全不是凭空从模型里长出来的,安全也有供应链。
这不是人工智能行业第一次依赖隐形劳动。搜索引擎需要网页评估员,社交平台需要内容审核员,自动驾驶需要道路标注员,电商平台需要图片和商品分类。所谓“自动化”,常常是在足够多人工劳动被封装之后,才呈现为自动。ChatGPT只是把这种结构推到了更显眼的位置:一个可以与公众自然对话的模型,背后仍有大量不自然的人工筛选。
行业荒诞感在这里再次出现。人们一边讨论超级智能会不会取代人类,一边需要低薪劳动者帮助超级智能不要说出太糟糕的话;一边把模型称为“会思考”的机器,一边把它的安全边界建立在人工阅读、分类和承受之上。前沿与低薪,云端与外包,AGI愿景与文本标注,在同一个产品故事里并排出现。
这种并排不应被简化成一句口号。它更像一个提醒:当公众赞叹模型礼貌、克制、懂分寸时,也应看到这些品质并非纯算法自发涌现。它们来自研究方法、公司策略、人工反馈、外包劳动、政策压力和用户测试的混合。ChatGPT不是一个孤立大脑,而是一套社会技术系统。它的每次回答,都带着数据、劳动和制度的影子。
七、使命宣言与浏览器窗口
2018年,OpenAI发布《OpenAI Charter》。开头第一句写道:“OpenAI’s mission is to ensure that artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work—benefits all of humanity.” OpenAI的使命,是确保通用人工智能(AGI)——即在大多数经济价值工作上超越人类的高度自主系统——造福全人类。[7]
这是一种宏大到几乎不适合放进普通产品说明书里的句子。AGI、全人类、长期安全、广泛利益,这些词属于研究机构、政策讨论和文明尺度的风险想象。可是四年后,把OpenAI推到大众首页的,不是一篇AGI论文,也不是一场关于未来的宣言,而是一个普通人能在浏览器里打开的聊天网页。
这两者之间没有简单断裂。恰恰相反,ChatGPT的出现让OpenAI的使命叙事第一次被大规模普通用户触摸到。过去,“确保AGI造福全人类”更多是技术圈、投资圈和政策圈阅读的文本。2022年11月30日以后,普通用户开始用自己的问题测试这句话的现实含义:它能不能帮我写一封邮件?它会不会编造事实?它能不能替我完成作业?它是否会给出危险建议?它会改变我的工作吗?它会让哪些人受益,又会让哪些人承受成本?
OpenAI在发布ChatGPT时希望获得用户反馈,了解模型的优势和弱点。[1] 从研究角度看,这是合理路径:把系统开放给更多人,收集更多真实问题,发现实验室难以覆盖的边界。从社会角度看,这也是一次大规模外溢:学校、办公室、论坛、媒体、编程社区、营销部门和普通家庭,都被卷入了测试。
12月5日,Sam Altman那条“today it crossed 1 million users”的推文,既像庆祝,也像警铃。[4] 一百万用户不是终点,而是入口数量。每个入口后面都有不同制度:课堂有考试规则,办公室有绩效压力,平台有内容生态,媒体有事实核查,法律和医疗有专业责任。ChatGPT一旦进入这些场景,就不再只是研究项目。它开始触碰既有秩序:谁可以写作,谁拥有答案,谁承担错误,谁被自动化替代,谁为“安全”付出劳动。
11月30日的按钮因此显得比它的界面更大。它不是一次普通的软件上线,也不是一次单纯的模型展示。它把多年大模型研究、指令微调、人类反馈、外包标注、安全风险和资本化想象,压缩进一个普通输入框,交给全球用户试用。
几天之内,实验室进入浏览器。接下来,它将进入教室、论坛和办公室。ChatGPT被按下的,不只是一个技术发布按钮,而是一个社会实验按钮。
参考文献
- OpenAI Blog,“Introducing ChatGPT”,2022-11-30。
- Tom B. Brown et al.,“Language Models are Few-Shot Learners”,2020-05-28。
- OpenAI,“Training language models to follow instructions with human feedback”,2022-01-27。
- Sam Altman,X/Twitter,“chatgpt launched on wednesday. today it crossed 1 million users!”,2022-12-05。
- Sam Altman,X/Twitter,“ChatGPT is incredibly limited, but good enough at some things to create a misleading impression of greatness…”,2022-12-10。
- TIME, Billy Perrigo,“The $2 Per Hour Workers Who Made ChatGPT Safer”,2023-01-18。
- OpenAI,“OpenAI Charter”,2018-04-09。
第2章|百万用户与作业风暴:机器坐进教室、办公室和论坛
一、程序员先听见警报
ChatGPT刚刚让普通用户惊呼“它会写代码”,程序员社区却先发现了另一个事实:它也会高速制造貌似正确的错误。
2022年12月5日,Stack Overflow的Meta社区发布了一条临时政策,标题没有绕弯:“Temporary policy: ChatGPT is banned”。公告写道:“Use of ChatGPT generated text for posts on Stack Overflow is temporarily banned.”——在Stack Overflow发帖使用ChatGPT生成文本被临时禁止。管理团队给出的核心理由,不是ChatGPT完全无用,而是它的答案太容易披上有用的外衣。公告称:“the average rate of getting correct answers from ChatGPT is too low”,而发布由ChatGPT生成的答案,对网站和那些寻找正确答案的用户“substantially harmful”。[1]
这条政策的关键词是“temporarily”。它不是一次技术判决书,也不是对大语言模型长期价值的否定。它更像一张社区防汛通知:水已经进来了,先把闸门关上。
Stack Overflow不是普通闲聊论坛。它更像一个被搜索引擎嵌入全球软件开发流程的公共工具箱。有人报错,有人回答;有人补充,有人投票;多年之后,另一个开发者把错误信息复制进搜索框,又被带回某个旧答案。它的价值并不只在实时问答,而在长期累积。一个回答如果被投票、编辑、评论、纠错,就会变成后来许多人的路标。
这个系统当然从来不完美。程序员世界并不缺错误回答、过时解决方案、复制粘贴、半懂不懂的建议,以及那句充满古典气息的“在我机器上可以运行”。但旧秩序有一个前提:错误出现的速度大体仍在人类治理能力之内。版主、投票者、提问者和后来者,可以在一定时间里把错误识别出来、压下去、改掉,或者至少在评论区留下警告。
ChatGPT改变的是速度和成本。
过去,一个用户要编造一段看似可信的技术答案,至少要组织语句、模拟专业口吻、写出代码块、补上解释。现在,一个对话框可以在几秒钟内生成缩进良好、术语齐全、语气笃定的回答。问题不在于每一条都错,而在于它们足够像真答案,需要懂行的人花时间辨别。一个错误如果写得粗糙,社区可以很快扫掉;一个错误如果写得像教程,治理成本就会骤然上升。
OpenAI在发布ChatGPT的博客里其实已经承认过这个限制。公司写道:“ChatGPT sometimes writes plausible-sounding but incorrect or nonsensical answers.”——ChatGPT有时会写出听起来合理、但错误或无意义的答案。[2] 在产品说明中,这是一条“局限性”;在Stack Overflow那里,它变成了公共知识库的污染风险。因为程序员社区里的“听起来合理”不是文学修辞,而是可能被复制进终端、提交进代码库、带进生产环境的东西。
讽刺由此形成:ChatGPT最早被大众称赞的能力之一,是它会写代码;最早对它按下暂停键的地方之一,恰恰是程序员问答社区。它的生产力和污染力来自同一个引擎。它能帮助用户绕过空白页,也能帮助用户绕过理解本身。
二、百万用户不是科幻数字
如前章所述,ChatGPT的扩散速度很快。2022年12月5日,OpenAI首席执行官Sam Altman在社交平台写道:“ChatGPT launched on wednesday. today it crossed 1 million users!”[3] 从11月30日到12月5日,五天。一个对话框跨过了一百万用户。
在本章里,这个数字不再作为发布奇观展开,而是作为社会压力的起点。一个产品团队看到的是增长曲线;一个论坛治理团队看到的是待审核文本的洪水。两件事同时成立。采用越快,外部性也越快。
公众并不是通过“人工通用智能”的定义认识ChatGPT的。多数人的入口更朴素:打开网页,输入一句话,让它写邮件、解释代码、起草计划、生成故事开头、把难懂概念讲得简单一些。它没有机器人身体,没有自动驾驶汽车那样的传感器和车轮,也没有AlphaGo那种可以直播胜负的棋盘。它是一种嵌在打字动作里的技术。人们不是围观它,而是把小任务交给它。
OpenAI在发布博客中写道:“The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests.”[2] 这句话在产品材料里描述的是对话能力;在现实世界里,却像一份理想助理的岗位说明:能接话,能修改,能解释,能在某些时候说“不”。
但真实世界不会按照产品说明书使用工具。用户不会只问演示问题,也不会总在风险边界内停下。有人把它当搜索引擎,有人把它当私人教师,有人把它当代码助手,有人把它当不会抱怨的实习生。行业荒诞感就在这里:一个被标成“研究预览”的系统,转眼被拉去承担作业辅导、技术支持、文案外包、论坛问答和办公室润色;一个在说明中提醒自己会胡说的产品,被许多人当作答案机器。
这不是个体轻信造成的简单笑话。现代学校和办公室本来就充满可模板化文本。报告有格式,邮件有格式,作文有格式,客服回复有格式,代码注释也有格式。ChatGPT进入这些地方,并不需要拥有人的全部能力。它只要足够擅长生产“像那么回事”的文本,就能立刻嵌入大量日常流程。
于是,问题从“模型能不能回答”变成了“当所有人都能让模型回答时,社会系统如何承受这些回答”。在开放网页里,它像玩具;在Stack Overflow里,它像知识库污染源;在学校里,它是作弊工具或教学工具;在办公室里,它是提效软件、风险入口,也是责任归属难题。机器没有改变形状,场景改变了它的含义。
Stack Overflow的临时禁令,给后来许多争议写下了样板:不是机器全面失败,也不是机器全面胜利,而是机器足够有用,以至于人们愿意使用;又足够不可靠,以至于机构不得不防守。
三、封锁键按进学校网络
2023年1月初,镜头从程序员论坛切到纽约市公立学校系统。
据Chalkbeat New York在2023年1月3日报道,纽约市教育部门限制学校设备和网络访问ChatGPT。报道转述教育部门发言人Jenna Lyle的说法:“Due to concerns about negative impacts on student learning, and concerns regarding the safety and accuracy of content, access to ChatGPT is restricted on New York City Public Schools’ networks and devices.”她还表示,这个工具也许能给出快速、容易的答案,但不会建立批判性思维和解决问题能力,而这些能力对学业和终身成功至关重要。[4]
这是教育系统面对ChatGPT时最典型的第一反应:封锁。
它并不难理解。学校里的写作作业、阅读理解、问答题、编程练习,长期依赖一个前提:学生提交的文字至少大体来自学生本人。教师可以怀疑代写,可以识别整段抄袭,可以用搜索引擎查重复内容;但ChatGPT制造的是新文本,不是简单复制。它不会像传统抄袭那样留下完整来源,也不会像拼贴那样暴露明显接缝。它可以按要求写一篇五段式作文,可以把语气改得更像学生,可以把答案压缩到指定字数,还可以在被提醒后重写。
纽约市教育部门列出的担忧,覆盖了教育系统最敏感的几条线:学生学习、内容安全、答案准确性。作弊只是其中最容易被看见的问题。更深层的问题是,如果机器可以替学生完成外显成果,教师如何判断学习是否发生?如果机器给出的信息不可靠,而学生又没有足够能力辨别,作业就可能从训练变成包装。学校原本用来分配分数、证明能力、筛选机会的文本,突然变得不再稳定。
这场封锁也显示出教育制度的反应速度。ChatGPT在2022年11月30日发布;12月5日,Stack Overflow宣布临时禁令;1月初,纽约市公立学校系统限制访问。一个多月,技术争议已经从程序员社区进入美国最大规模的地方公立学校系统之一。机器从论坛答案走向作业作文,中间没有经过科幻电影式的过渡。
它只是被学生和教师发现了。
这里的荒诞感不在于学校保守。相反,学校的动作非常现代:设备、网络、访问权限,一切都通过管理系统完成。一个教育系统面对一夜之间会写作文的机器时,最快能执行的动作不是重写评价体系,而是按下封锁键。封锁键清晰、可审计、可公告;重写作业制度则漫长、混乱、昂贵,并且立刻会遇到教师工作量、学生公平、家长期待和考试体系的共同摩擦。
但封锁也有边界。Chalkbeat报道中的限制对象,是纽约市公立学校的网络和设备。[4] 这意味着政策可以管理校园基础设施,却不能自动管理学生离开校园后的每一个入口。学校可以屏蔽网站,却无法仅靠屏蔽解释未来每一份作业应当如何完成。更重要的是,封锁无法回答一个问题:如果这类工具不会消失,学生究竟应该被训练成远离它,还是训练成理解它、使用它、怀疑它?
这个问题很快把教育舆论推向第二个转折。
四、禁止,还是教学
2023年1月,《纽约时报》科技专栏作者Kevin Roose发表观点文章,标题就是立场:“Don’t Ban ChatGPT in Schools. Teach With It.”[5] 这是一篇评论文章,不是新闻报道;它的重要性不在于提供了一个最终答案,而在于代表了当时教育讨论中的另一种声音:学校不应只把ChatGPT当成需要驱逐的作弊机器,也应把它当成学生必须理解的新工具。
争议于是从“是否封锁网站”转成“如何定义学习”。
支持封禁的一方有充分理由。ChatGPT可以代写作文、回答题目、生成阅读摘要,教师很难用传统查重方法识别。它还可能生成错误信息,甚至编造引用。OpenAI自己的发布说明已经提醒,模型会写出看似合理但错误或无意义的答案。[2] 在学校场景中,这种错误不只是技术瑕疵。一个学生如果把错误答案提交上去,教师看到的是一份作业;如果错误没有被发现,分数系统就可能奖励包装能力,而不是理解能力。
但主张教学的一方同样抓住了现实。ChatGPT并不是一张小抄,而是一类新型通用文本工具。禁止它,可能像禁止计算器、搜索引擎或拼写检查一样,只能暂时维持旧评价方式的表面完整。教师也可能用它备课、生成讨论题、改写阅读材料、设计不同难度的练习,或为学生提供初步反馈。作弊工具和教学助手,在这里可能是同一个东西。
OpenAI后来面向教育者发布“Educator considerations for ChatGPT”,把教育使用放进单独说明之中。[6] 这类材料不能替教师解决所有难题,却表明技术公司已经意识到:学校不是普通用户群。教育场景里的每一次输出,都可能进入评价、纪律、隐私和公平的链条。一个教师如果要求学生披露使用AI,就必须说明怎样使用算辅助、怎样使用算代写;一个学校如果要求教师借助检测工具,就必须面对误判带来的申诉和信任问题。
教师的两难因此具有制度性,而不是个人偏好问题。完全禁止,可能保护作业完整性,却失去训练学生识别和使用新工具的机会;完全开放,可能鼓励探索,也可能让评价失真。旧作业体系要求学生把思考写成文字,教师通过文字判断理解。ChatGPT把这一关系打松了。学生可以先让机器生成草稿,再修改;可以让机器列提纲,再补充;也可以在理解不足的情况下调整语气交差。写作不再天然证明思考,至少不再以过去那种简单方式证明。
在这件事上,学校比办公室更难躲。办公室可以把ChatGPT叫作生产力工具,把风险写进合规手册;学校却必须回答“学习本身是什么”。一篇作文到底是训练表达,训练思考,训练检索,还是训练在工具存在时作出判断?如果答案发生变化,评分、课程和学术诚信也必须跟着变化。
这也是为什么教育系统的争议来得那么快:它不是附属问题,而是ChatGPT对社会信任结构的第一次大规模压力测试。
五、办公室里的新同事
当学校忙着讨论封锁,办公室和论坛已经给ChatGPT安排了工位。
它没有员工号,也没有劳动合同,却开始承担许多“先写一版”的工作:写脚本、解释报错、改邮件、生成文案、总结材料、把长文本压短、把正式语气改得轻松、把零散要点整理成段落。公众不是先通过AGI论文认识ChatGPT,而是在日常劳动里认识它。一个人不必理解Transformer架构,也能理解“帮我把这封邮件写得礼貌一点”。
这正是它扩散的原因。许多白领工作并不要求每句话都原创,而要求足够快、足够得体、足够符合格式。ChatGPT擅长填补这种空白。它可以提供第一稿,哪怕第一稿需要改;它可以生成备选标题,哪怕其中大半平庸;它可以解释陌生术语,哪怕解释需要核查。它的价值不一定是最终答案,而是把“从零开始”的摩擦变成“从一版开始”的修订。
程序员最早感受到这种双重性。Stack Overflow的禁令说明,ChatGPT生成技术答案的成本极低;这对个体是便利,对公共知识库却可能是负担。[1] 在私人工作流里,一个开发者可以让它解释错误、生成样例、改写函数,然后自己测试;在公共论坛里,大量未经验证的生成答案会把审核成本转嫁给社区。相同能力在不同制度中产生相反效果。
办公室也如此。让ChatGPT润色内部邮件,风险可能较低;让它生成法律意见、医疗建议、财务判断,风险陡然升高。让它总结公开材料,可能节省时间;让它处理机密信息,则牵涉数据泄露。让它写广告文案,可能提高产量;让它凭空编造产品功效,就可能把幻觉变成合规问题。
这一阶段的ChatGPT像一个异常热情的新同事:随叫随到,从不嫌任务小,语气稳定,产出迅速;但它也会一本正经地犯错,会把不存在的引用写得像期刊目录,会在不知道时仍然给出完整答案。行业荒诞感就在这里:过去公司花费大量时间训练员工不要胡乱承诺、不要编造事实、不要泄露信息;现在,一个能在几秒钟内完成十份草稿的工具,把这些培训目标重新摆到每个输入框前。
OpenAI把ChatGPT定义为研究预览版,并邀请用户反馈问题。[2] 但用户的采用速度超过了传统“预览”的含义。研究预览通常暗示小范围试用、迭代和观察;百万用户意味着社会已经开始把它当工具。产品说明里的局限还在页面上,现实中的使用场景已经从代码扩展到作业、简历、邮件、论坛、营销、客服和内容生产。
这不是单纯的技术外溢,而是组织边界被输入框穿透。过去,一个新软件进入公司,往往需要采购、审批、培训、IT配置。ChatGPT的早期形态只需要浏览器。员工可以先用,再解释;学生可以先用,再等待规则;论坛用户可以先发帖,再让版主清理。制度反应总是慢半拍,因为它要管理的是集体后果,而用户感受到的是个人收益。
因此,ChatGPT的早期冲突并不发生在未来主义场景里,而发生在最普通的文字劳动中。它没有先替代一个行业,却先扰乱了许多行业判断文本可信度的方式。
六、检测器登场,又退半步
当机器文本进入作业和办公室,一个新问题立刻出现:如何识别它?
2023年1月31日,OpenAI发布“New AI classifier for indicating AI-written text”。这是一个AI Text Classifier,用来帮助判断一段文本是否可能由AI生成。它的出现本身就是时代信号:社会已经需要一种“机器写作鉴别器”。如果没有作业风暴、论坛污染和办公室风险,这样的工具不会这么快变成公共议题。
但OpenAI在同一篇发布说明里先泼了冷水。公司写道:“Our classifier is not fully reliable.” 在评估中,对于一组英文文本,分类器只能把26%的AI生成文本正确识别为“likely AI-written”;同时,它会把9%的人类写作错误标记为AI写作。[7]
这两个数字让现实落差变得清楚。26%的识别率意味着,大量机器文本会漏过去;9%的误判率意味着,一部分真实人类写作会被冤枉。对于普通内容审核,这已经麻烦;对于学校纪律处分,这尤其危险。一个学生如果被错误指认为使用AI,后果不只是一次技术误差,而可能是学术诚信记录、师生信任和申诉程序。检测器看起来像解决方案,但它自身也需要被怀疑。
OpenAI还提醒,这个分类器不应作为主要决策工具使用,尤其不适合短文本,并且没有在非英文文本上充分评估。[7] 这几条限制几乎直接击中了真实使用场景。学生作业可能长短不一;论坛答案常常包含代码、片段和解释;办公室邮件可能很短;全球用户并不只写英文。机器文本识别的需求越广,分类器的适用边界越显眼。
于是,第三个转折出现了:社会想用工具解决机器写作带来的信任问题,但工具本身不能提供足够确定性。
这并不奇怪。大语言模型生成的不是固定水印,而是概率文本。它模仿人类语言分布,而人类写作本来就高度多样。一个学生写得模板化,可能像机器;一个机器经过提示调整,可能像学生。一个客服回复本来就程式化,检测器很难知道它是员工照模板写的,还是模型生成的。文本不像指纹,没有天然唯一性。
检测器的困难也反过来说明ChatGPT为什么冲击这么大。它不是生成粗糙乱码的系统,而是生成可进入正常文本生态的系统。它的输出足够像文章、答案、邮件和说明,才使人需要鉴别;它又不够稳定可靠,才使鉴别变得重要。可信与不可信,在这里缠在一起。
在Stack Overflow,社区选择临时禁止ChatGPT生成内容,因为治理者无法承担逐条验证的成本。[1] 在纽约市学校,教育部门选择限制访问,因为制度需要先保护学习和安全边界。[4] 在OpenAI这里,公司选择发布分类器,又同时承认分类器不完全可靠。[7] 三个场景看似分散,其实回应的是同一个问题:当生成文本的成本下降,验证文本的成本由谁承担?
答案并不美妙。往往是教师、版主、编辑、经理、同事、读者,以及被误判的人承担。
七、不是天外来客
到2023年1月底,ChatGPT已经完成了它进入社会的第一轮角色分裂。
在OpenAI的叙事里,它仍然是研究预览,是对话式模型,是通往更强AI系统的一次部署实验。[2] 在Sam Altman那句社交媒体文字里,它是五天跨过百万用户的增长奇观。[3] 在Stack Overflow,它是高产的潜在污染源。[1] 在纽约市公立学校系统,它是影响学习、准确性和安全的风险入口。[4] 在教育评论者那里,它又可能成为必须被纳入课堂的新工具。[5] 在办公室,它已经像新同事一样坐下:会干活,会犯错,会帮忙,也会惹麻烦。
这比“天外来客”的故事更复杂。天外来客可以被迎接或驱逐;新同事却要被分配权限、培训流程、设定责任、评估绩效,还要决定哪些任务能交给它,哪些任务必须由人签字。ChatGPT的早期争议之所以猛烈,正因为它不是遥远技术,而是直接挤进了已有制度的缝隙。
它进入论坛,暴露公共知识库对低成本文本污染的脆弱;它进入学校,迫使教师重新区分写作、思考和评价;它进入办公室,让组织面对效率和责任之间的旧矛盾;它催生检测器,又证明检测器不能简单恢复过去的确定性。
兴奋和怀疑在这里必须并存。只写兴奋,就会忽略那些看似正确的错误如何堆高治理成本;只写怀疑,又解释不了为什么百万用户会在几天内涌入。ChatGPT不是因为完美而扩散,而是因为足够好用;它不是因为邪恶而被封锁,而是因为足够容易被滥用。技术史上许多真正改变日常的工具,最初都不是以宏大面貌出现,而是以小任务、低摩擦和高频使用占领现实。
2022年12月5日,Stack Overflow按下临时禁令。同一天,OpenAI宣布ChatGPT跨过百万用户。一个是刹车,一个是油门。2023年1月,纽约市学校系统封锁访问,OpenAI发布文本分类器,教育舆论开始争论禁止还是教学。刹车和油门继续同时存在。
这就是本章留下的伏笔:ChatGPT坐进教室、办公室和论坛之后,争论不再属于实验室。接下来,所有人都要在同一个问题前排队——如果机器已经能生产语言,谁来决定这些语言可以被相信、被评分、被发表、被用于工作?
新同事已经入职。麻烦的是,它没有只坐在一个部门。
参考文献
- Stack Overflow Meta, “Temporary policy: ChatGPT is banned”, 2022-12-05。
- OpenAI Blog, “Introducing ChatGPT”, 2022-11-30。
- Sam Altman, “ChatGPT launched on wednesday. today it crossed 1 million users!”, 2022-12-05。
- Chalkbeat New York, “NYC education department blocks ChatGPT on school devices, networks”, 2023-01-03。
- The New York Times, Kevin Roose, “Don’t Ban ChatGPT in Schools. Teach With It.”, 2023-01-12。
- OpenAI Help Center, “Educator considerations for ChatGPT”, 2023。
- OpenAI Blog, “New AI classifier for indicating AI-written text”, 2023-01-31。
第3章|十亿美元老友变十年赌局:微软把搜索之战重新开局
一、第三阶段
2023年1月23日,微软在官方博客上宣布:“Today, we are announcing the third phase of our long-term partnership with OpenAI through a multiyear, multibillion dollar investment…”——微软称,正在宣布与OpenAI长期合作关系的第三阶段,通过一项多年、数十亿美元投资推进合作。
“第三阶段”这个词,是这条公告里最有历史感的部分。
它把2023年1月的新闻从“巨头追热点”里拎了出来。ChatGPT刚刚把学校、论坛、办公室和媒体推入一场语言机器的压力测试。上一章里,程序员社区先给ChatGPT生成内容按下暂停键,学校系统开始限制访问,教师和学生围绕作业边界重新谈判。很多机构的第一反应,是防守:封不封、禁不禁、查不查、算不算作弊。
微软的公告显示,产业权力中心已经开始处理另一个问题:如果这种模型改变的不只是作业,而是知识获取本身,那么搜索、浏览器、办公软件、代码工具和云计算入口,都不能只按原来的产品分类继续摆放。
同一天,OpenAI也发布博客确认扩大合作。OpenAI的说法强调,微软的多年、多十亿美元投资将帮助它继续独立研究,并开发更安全、更有用、更强大的AI。微软强调Azure、基础设施、模型和工具链;OpenAI强调研究、产品能力与安全。两份公告并排放在一起,像基础模型时代的一份产业盟约:一家需要算力、资本和商业化通道,另一家需要模型能力和重新定义入口的机会。
在官方公告之前,市场已经给这段关系贴上更具体的传闻数字。据Semafor 2023年1月报道,微软正洽谈向OpenAI投资100亿美元。这个数字后来被广泛引用,但需要与微软公告区分开:1月23日的官方表述不是“100亿美元”,而是“multiyear, multibillion dollar investment”——多年、数十亿美元投资。对一家上市公司来说,这种措辞已经足够重;对一场正在重启的搜索战争来说,它也足够响。
微软CEO Satya Nadella在公告中说:“We formed our partnership with OpenAI around a shared ambition to responsibly advance cutting-edge AI research and democratize AI as a new technology platform.” 他接着说:“In this next phase of our partnership, developers and organizations across industries will have access to the best AI infrastructure, models, and toolchain with Azure…” 这些词是典型的微软式语言:负责任地推进前沿AI研究,把AI民主化为新的技术平台,让各行业开发者和组织通过Azure获得基础设施、模型和工具链。
在平常年份,这听起来像一则企业云服务公告。可在2023年1月,语境已经变了。ChatGPT把模型从论文、API文档和研究演示里拖到公众面前;微软则把这个公众事件翻译成自己的战略语法:平台、基础设施、工具链、入口。
这不是聊天机器人的孤立胜利。微软公开动作所指向的判断更大:当自然语言开始变成操作软件、检索知识、生成代码和撰写文档的界面,模型就不再只是模型。它会变成云的负载,搜索的答案,浏览器的侧边栏,办公软件里的草稿生成器,以及开发者每天面对的下一次自动补全。
二、旧下注被新窗口改写
微软和OpenAI的关系,第一阶段发生在2019年。
2019年7月,微软和OpenAI宣布合作。微软称将向OpenAI投资10亿美元,双方将共同开发Azure AI超级计算技术;OpenAI将把其服务迁移到Microsoft Azure上运行;微软也将成为OpenAI新AI技术商业化的首选合作伙伴。
那时,ChatGPT还没有出现。大众熟悉的“人工智能产品”,更多是语音助手、推荐算法、图像识别、机器翻译,或者企业软件里的自动化功能。OpenAI在研究圈和科技媒体中受关注,但还不是学生、教师、程序员、记者、律师助理、市场人员和普通用户同时讨论的名字。微软的10亿美元投资,在当时更像一次长期研发下注:用Azure绑定一个前沿AI实验室,把未来的大模型训练需求留在自己的云上。
这类下注不容易出现在普通人的日常体验里。它不像新手机发布,也不像社交应用突然流行。算力合作、云基础设施、研究平台,这些词在新闻标题里的冲击力,远不如“聊天机器人会写论文”。可基础模型时代的许多转折,最早并不发生在网页输入框里,而是发生在公众看不见的机房、集群调度、网络拓扑和云合同里。
到了2022年底,ChatGPT把这笔旧下注重新照亮。公众看到的是一个可以对话的网页;企业看到的是自然语言界面可能嵌入工作流;云厂商看到的是训练和推理会持续消耗的计算需求。对微软来说,2019年的合作不再只是“看好未来AI”的资本安排,而像是一张提前买下的门票。等到世界突然对生成式AI产生兴趣,微软已经不是站在门外排队的公司。
这种重新定价也改变了许多人的位置。
对学校管理员来说,ChatGPT是网络访问策略和学术诚信规则中的新变量。对程序员社区版主来说,它是高质量问答系统里的噪音源。对企业IT负责人来说,同一个技术又变成采购清单里的新项目:能不能接入内部知识库?数据会不会泄露?权限怎么管?费用怎么算?服务级别由谁负责?一个消费者网页带来的震动,到了企业内部,会变成合同、合规、身份管理、审计日志和预算审批。
微软熟悉后面这一套。它并不需要说服企业世界第一次购买软件;它需要把模型能力放进企业世界已经接受的采购与部署路径里。Azure、Microsoft 365、GitHub、Dynamics、Teams、Edge、Bing,这些入口和渠道使微软可以把OpenAI的模型能力从“一个好玩的网页”翻译成“可部署的企业能力”。
这正是2019年合作在2023年初变得重要的原因。OpenAI带来了模型和公众想象力,微软带来了工业化的底座。ChatGPT让公众第一次大规模意识到:自然语言可能成为下一代软件界面。微软则已经准备把这个界面接到自己的产品矩阵上。
三、机房里的前台革命
2020年5月,微软披露其在Azure上为OpenAI打造的超级计算机。微软称,这套系统拥有超过285,000个CPU核心、10,000个GPU,并且每台GPU服务器具备400Gb/s网络连接能力。微软还称,这台超级计算机在当时公开披露的超级计算机中可列入全球前五。
这些数字把“大模型”从抽象概念拉回工程现实。
一个大语言模型不是靠一篇论文就能跑起来。它需要数据、算法、研究团队,也需要GPU集群、CPU核心、高速网络、存储系统、调度软件、电力、散热和稳定运维。公众在网页上输入一句话,后台发生的是一连串昂贵的计算。ChatGPT式产品越受欢迎,训练之外的推理成本也越成为长期负担。
2020年的Azure超算说明,微软和OpenAI合作的核心不是普通云主机租赁,而是为大规模模型训练定制的基础设施。微软首席技术官Kevin Scott在这一时期成为微软AI基础设施路线的公开代表之一。微软当时的叙事很明确:把超级计算能力建进Azure,使研究者可以训练更大的AI模型,同时让这些能力最终通过云平台服务更多开发者和组织。
这改变了人工智能竞争的形态。过去,许多AI突破可以被描述为算法、论文和开源代码的竞争;到了基础模型阶段,竞争越来越像工业体系竞争。谁能组织更大规模的计算资源,谁能让训练任务稳定运行,谁能以可接受成本提供推理服务,谁就更接近模型能力的前沿。对独立开发者和小团队来说,这种变化带来一种新的行业荒诞感:他们可以在浏览器里调用看似“无形”的智能,却很难直接拥有支撑这种智能的机器。
2023年1月16日,也就是微软和OpenAI宣布扩大合作前一周,微软宣布Azure OpenAI Service正式可用。微软称,这项服务使更多客户可以访问大型、先进AI模型,并获得企业级能力。可用模型包括GPT-3.5、Codex和DALL·E 2,微软还表示ChatGPT能力也将很快加入这项服务。
这一时间点耐人寻味。公众还在讨论作业是否该被判作弊、论坛答案是否该被删除,微软已经把模型打包进企业云服务目录。消费者看到的是聊天窗口;企业客户看到的是API、权限、安全、计费、可用性、合规和技术支持。模型在一个地方制造了社会混乱,在另一个地方变成了云平台上的产品项。
这就是云巨头的优势:它不只是提供计算,还提供把计算变成组织能力的路径。企业不用自己采购上万块GPU,也不必从零搭建模型服务平台;它们可以通过云服务调用模型,再把模型接进客服、知识管理、代码生成、文档处理和内部流程。对企业员工来说,AI不一定以“新应用”的形式出现,更可能作为一个按钮、一个侧边栏、一个自动建议,悄悄进入每天打开的软件。
微软与OpenAI的合作,因此同时发生在两个层面。后台是Azure超算,前台是搜索框、浏览器、办公文档和代码编辑器。后台决定模型能否规模化,前台决定模型能否成为用户习惯。
四、彼此需要的不是同一种东西
OpenAI和微软在公开叙事中使用相似的词:负责任、前沿AI、民主化、惠及每个人。可是两家公司真正互补的部分更具体,也更硬。
OpenAI需要算力。大型模型训练费用高,推理服务也会随着用户增长持续消耗资源。ChatGPT上线后,每一次提问都对应服务器端计算;模型越强,用户越多,产品越接近日常工作,基础设施压力就越不可能靠研究声誉解决。
OpenAI还需要商业化通道。企业采用AI模型,不只是拿到一个API密钥。企业客户关心数据如何处理,权限如何隔离,服务是否稳定,是否能与既有软件栈集成,供应商能否提供合同、合规、支持和全球部署能力。微软拥有这些渠道,也拥有长期服务企业客户的销售网络。
微软需要的则是模型能力和界面革命。
微软不是没有AI研究,也不是没有云。它有Azure,有Windows和Office积累下来的软件入口,有GitHub这样的开发者社区,也有Bing和Edge。但在消费互联网入口上,微软曾错过移动操作系统的关键窗口;在搜索市场上,Bing长期处于Google阴影之下。ChatGPT出现后,一个旧问题突然有了新问法:如果搜索不再只是输入关键词、点击网页链接,而是直接生成答案、继续追问、总结材料、比较方案、起草文本,那么落后者是否有机会重新定义比赛规则?
GitHub Copilot已经给过微软一个早期样本。2021年,GitHub发布Copilot,将其称为“AI pair programmer”。这个产品基于OpenAI Codex,能够在开发者编写代码时给出建议。它不是ChatGPT式的大众消费产品,却展示了一个重要方向:模型不一定要以独立应用出现,它可以嵌入工作流,出现在用户已经停留的界面里。
对程序员来说,这种变化很具体。过去,写代码时遇到问题,常见路径是搜索、阅读文档、翻Stack Overflow、复制示例、修改调试。Copilot和后来的聊天式工具把一部分路径压缩进编辑器:下一行代码、函数解释、测试样例、报错分析,都可以在工作界面内出现。它不保证正确,也不取消开发者判断,却改变了软件劳动的节奏。
微软希望把这种节奏扩展到更多入口。邮件、文档、表格、演示、会议记录、客户资料、网页搜索,都是文本和知识密集场景。一个办公室职员打开空白文档时,过去面对的是光标和工具栏;基础模型进入后,他面对的可能是一个能生成提纲、改写语气、总结资料的协作者。一个小公司技术负责人评估云服务时,过去比较的是数据库、服务器和网络价格;现在还要比较模型能力、推理成本、数据边界和供应商生态。
Sam Altman在微软公告中说:“The past three years of our partnership have been great. Microsoft shares our values and we are excited to continue our independent research and work toward creating advanced AI that benefits everyone.” 这句话保留了OpenAI对外叙事中的平衡:微软分享价值观,OpenAI继续独立研究,目标是创造惠及每个人的先进AI。
平衡之所以重要,是因为先进AI的研发越来越像资本密集型产业。OpenAI需要足够强的云伙伴,微软需要足够强的模型伙伴。双方都能从合作中获得难以单独取得的东西;也正因为如此,使命、资本、算力和产品速度从一开始就被绑在了一起。
五、搜索旧战场重开
2023年2月7日,微软发布新的AI驱动Bing和Edge。
如果说1月23日的公告仍像资本和云基础设施层面的战略绑定,那么2月7日就是把模型推到入口前台。微软不再只谈Azure和开发工具链,它开始直接谈搜索。Nadella在发布材料中说:“AI will fundamentally change every software category, starting with the largest category of all – search.” AI将从最大的软件类别——搜索——开始,根本改变每一个软件类别。
搜索是微软多年的旧战场。
在互联网入口的历史中,搜索意味着用户意图。一个人输入“如何修复代码报错”“纽约到伦敦机票”“糖尿病饮食建议”“适合小企业的CRM软件”“二战时间线”,他不是在漫无目的地浏览内容,而是在表达需求。谁掌握搜索,谁就掌握广告、商业转化、知识分发和网页流量的重要入口。
微软有Bing,但Google长期占据全球搜索市场优势。StatCounter GlobalStats按月统计的数据显示,2023年1月,全球搜索引擎市场中Google约占93%,Bing约占3%。这个差距不是一次普通界面改版可以轻易改变的差距。传统搜索体验已经高度成熟,用户默认习惯也极难撼动。微软如果只是说“Bing结果更好一点”,很难让世界改变默认设置。
ChatGPT改变了微软讲故事的方式。
微软在2月7日的官方发布中写道,新的Bing和Edge将带来更好的搜索、更完整的答案、新的聊天体验以及生成内容的能力。微软还提出一个宏大的问题陈述:“There are 10 billion search queries a day, but we estimate half of them go unanswered.” 全球每天有100亿次搜索查询,但微软估计其中一半没有得到回答。微软的解释是,人们正在用搜索做它最初并非为之设计的事情。
这句话抓住了传统搜索的裂缝。
搜索引擎擅长找到网页,但用户常常想要的是答案、解释、比较、摘要、草稿和行动建议。传统搜索把网页列表交给用户,让用户自己打开、筛选、判断、整合。聊天式搜索则试图把这一步向前推:用户提出复杂问题,系统生成结构化回答,用户再继续追问。它不只是“找到信息”,而是参与“组织信息”。
这种变化让微软有了重新开局的理由。旧规则下,Google优势太大;新范式下,至少比赛可以被重新定义。对挑战者来说,新范式总比旧秩序更有吸引力。微软没有宣布自己已经赢得搜索战争,它宣布的是搜索战争不必继续按原来的方式打。
但兴奋从一开始就伴随怀疑。对用户来说,一个能总结网页、比较方案、生成邮件草稿的搜索框显然诱人。对网页出版者和内容生产者来说,如果答案直接出现在搜索页面,流量如何回到原网站?对广告市场来说,如果用户从“点击链接”转向“阅读生成答案”,商业模式如何调整?对事实核查者来说,如果答案由模型合成,错误来源又该如何追踪?
搜索不只是技术界面,它是互联网经济的分配机制。新Bing把聊天式AI带进搜索框,也把生成式AI的版权、流量、责任和准确性问题一起带进了入口层。
六、把聊天窗口塞进浏览器
微软2月7日介绍新Bing时,列出了几项技术突破:下一代OpenAI模型、Microsoft Prometheus模型、将AI应用于核心搜索算法,以及新的用户体验。
其中最醒目的,是“下一代OpenAI模型”。微软称,新Bing运行在一个新的、下一代OpenAI大型语言模型上,比ChatGPT更强大,并且专门为搜索定制。这个措辞很关键。微软没有把Bing简单描述为“接入ChatGPT”的搜索引擎,而是强调它使用为搜索定制的下一代模型。ChatGPT是公众认识这类技术的窗口,微软要做的是把它改造成搜索产品的一部分。
新的Bing不只是给出链接列表。微软展示的方向包括:对复杂问题给出摘要答案;在聊天中继续追问;帮助用户生成内容,例如邮件、旅行计划、面试准备或测验题;在Edge浏览器中通过侧边栏总结网页、协助撰写内容。浏览器不再只是打开网页的容器,它变成可以读取、概括、改写和生成文本的助手。
这把第2章里的生活化冲击搬进了商业核心。
学生可以用ChatGPT写作文,程序员可以让它解释报错,办公室职员可以让它起草邮件。微软看到的不是这些单点用法,而是它们共同指向的趋势:自然语言正在成为操作界面。过去,用户要学会搜索关键词、点击菜单、理解软件功能位置;现在,用户可能直接描述意图:“帮我总结这份报告”“把这封邮件写得更礼貌”“比较这三款产品”“解释这个报错”“根据这些资料生成一份演示大纲”。
如果这种交互成立,软件价值链会变化。功能不再只藏在菜单深处,而是被模型调用;知识不再只通过网页排名呈现,而是被生成式答案重组;办公软件不再只是空白文档和工具栏,而是变成与用户协作生成内容的环境;云服务不再只是租服务器,而是承载模型训练、推理和企业应用的基础设施。
可是模型进入入口,也会把模型的问题放大。
上一章已详述,社区和学校的早期反应不是无缘无故。Stack Overflow临时禁止ChatGPT生成内容,是因为它担心看似可信但错误的答案伤害问答质量;纽约市教育部门限制学校设备和网络访问ChatGPT,是因为它担心学生学习、内容安全和准确性。2023年1月31日,OpenAI发布AI Text Classifier时,开头也提醒:“Our classifier is not fully reliable.” OpenAI在英文文本挑战集评估中披露,该分类器只能把26%的AI生成文本正确识别为“likely AI-written”,同时有9%的人类文本被误标为AI生成;OpenAI还明确表示,它不应作为主要决策工具。
行业荒诞感由此出现:学校寻找能识别机器作文的机器,程序员社区删除机器写出的程序员答案,OpenAI发布机器文本检测器又提醒大家不要过度相信它,而微软则把同类模型接进每天数十亿次查询的搜索入口。
这并不是谁更清醒、谁更鲁莽的简单故事。不同机构承担的责任不同。学校要维护学习秩序,论坛要维护知识质量,OpenAI要处理模型能力和安全边界,微软要把技术转化为平台竞争力。现实世界没有给它们排队的时间。生成式AI先撞进生活,再进入规则;先制造需求,再逼迫系统升级。
新Bing因此成为一个标志性节点:聊天窗口不再只是OpenAI网站上的实验入口,它开始嵌入互联网最重要的通道之一。微软把一个社会争议中的工具,变成了搜索战争中的武器。
七、使命、资本与速度
OpenAI的公开使命,自2018年《OpenAI Charter》起就围绕“确保AGI造福全人类”展开。2019年,OpenAI又宣布成立OpenAI LP,将其描述为一种“capped-profit”结构:希望增强筹集资本的能力,同时继续服务使命。
这些制度设计说明,OpenAI很早就知道先进AI研发需要资金,也知道单纯商业公司结构可能与其使命产生张力。问题在于,ChatGPT之后,张力不再停留在制度文件里。它进入产品发布节奏、服务器成本、企业合同、搜索竞争和资本市场预期。
微软与OpenAI的合作,把这些张力具体化。
一方面,微软提供OpenAI最需要的东西:大规模Azure算力、多年资金承诺、企业客户入口、全球云基础设施,以及将模型部署进真实产品的能力。没有这些条件,ChatGPT式产品很难长期承受用户增长和企业化需求。基础模型越强,越需要更大规模的工业系统支撑。
另一方面,OpenAI的使命叙事也因此与大公司生态深度绑定。一家以“确保AGI造福全人类”为使命的机构,正在通过全球最大的软件公司之一,把模型送进搜索、浏览器、云服务和企业软件。这并不自动意味着使命被背叛,也不自动意味着商业化必然有害。它意味着一个更难的问题出现了:当“造福全人类”的使命需要数十亿美元资本和超级计算机支撑时,谁来决定速度、边界、风险和收益分配?
微软的逻辑清晰。它曾在个人电脑时代定义入口,在云计算时代重新崛起,却在移动互联网和搜索广告的若干关键战场上落后。ChatGPT给了它一个少见机会:不是在旧规则下追赶,而是宣布规则正在改变。Nadella说AI将改变每一个软件类别,从搜索开始。微软随即把OpenAI模型、Azure基础设施、Bing搜索和Edge浏览器连成一条线。
OpenAI的逻辑也清晰。它要继续研究更强模型,就必须解决算力、资金、人才和落地问题。与微软合作,可以获得其他路径很难同时提供的资源。Altman在公告中强调微软分享OpenAI的价值观,并表示OpenAI将继续独立研究,创造惠及每个人的先进AI。这是OpenAI对外叙事的关键平衡:既接受巨头资源,又保持使命和独立性。
2023年初,这个平衡尚未破裂,但它已经可见。
学校和论坛忙着设规则,是因为ChatGPT已经撞上现有秩序。微软开始进攻,是因为同一件事还有另一面:当一个模型能改变人们获取知识、生成文本和操作软件的方式,防守者要处理风险,进攻者要争夺入口。
上一章的问题是:老师怎么判?论坛能不能用?作业还算不算作业?
这一章的问题变成:搜索还只是搜索吗?浏览器还只是浏览器吗?云计算还只是租服务器吗?办公软件还只是空白文档加工具栏吗?
ChatGPT让OpenAI上了首页。微软要做的,是把它放进每一个入口。
参考文献
- Microsoft Official Blog,Microsoft and OpenAI extend partnership,2023-01-23。
- OpenAI Blog,OpenAI and Microsoft extend partnership,2023-01-23。
- Semafor, Reed Albergotti,Microsoft in talks to invest $10 billion in ChatGPT owner OpenAI,2023-01-09。
- Stack Overflow Meta,Temporary policy: ChatGPT is banned,2022-12-05。
- Chalkbeat New York, Alex Zimmerman,NYC education department blocks ChatGPT on school devices, networks,2023-01-03。
- Microsoft News Center,OpenAI and Microsoft partner to develop new Azure AI supercomputing technologies,2019-07-22。
- Microsoft,Microsoft announces new supercomputer, lays out vision for future AI work,2020-05-19。
- Microsoft Azure Blog, Eric Boyd,General availability of Azure OpenAI Service expands access to large, advanced AI models with added enterprise benefits,2023-01-16。
- GitHub Blog,Introducing GitHub Copilot: your AI pair programmer,2021-06-29。
- StatCounter GlobalStats,Search Engine Market Share Worldwide,2023-01。
- Microsoft,Reinventing search with a new AI-powered Microsoft Bing and Edge, your copilot for the web,2023-02-07。
- OpenAI Blog,New AI classifier for indicating AI-written text,2023-01-31。
- OpenAI,OpenAI Charter,2018-04-09。
- OpenAI Blog,OpenAI LP,2019-03-11。
第4章|红色警报与一张错误天文图:谷歌第一次被迫追赶
一、红色警报
在Google的历史里,搜索通常意味着别人追赶它。但2022年12月,追赶者的角色突然反转。
ChatGPT发布数周后,《纽约时报》在12月21日报道,Google管理层把这个新聊天机器人视为对搜索业务的威胁,并在内部拉响“Code Red”——红色警报。[1] 这个词带着灾难片式的声响,但它对应的不是一次服务器宕机,也不是某个实验项目延迟上线,而是更深的震动:互联网上最稳定、最赚钱、最被用户习以为常的信息入口,可能第一次被一种新的交互方式正面挑战。
这里不需要重讲ChatGPT如何出场。前几章已经写过,2022年11月30日,OpenAI把一个研究预览版聊天产品放进浏览器;五天后,Sam Altman在社交媒体上称ChatGPT用户超过100万。[2] 到12月,学校、论坛、程序员和办公室都开始围着这个文本框重新谈判规则。对Google来说,更尖锐的问题不是“一个聊天机器人能不能写诗”,而是:如果用户提问以后直接得到一段答案,还会不会像过去那样点击搜索结果?
搜索不是Google众多业务中的普通一项。Alphabet 2022年Form 10-K显示,2022年Alphabet总营收为2828.36亿美元,其中Google advertising收入为2244.73亿美元;单独列出的“Google Search & other”收入为1624.50亿美元。[3] 这些数字不是背景板,而是这场警报的地基。Google Cloud、YouTube、Android、Chrome、Google Maps、Gmail和DeepMind共同组成一座庞大城市,但搜索广告长期是城市中心的发电厂。
ChatGPT不是搜索引擎。它不返回十个蓝色链接,不要求用户在网页之间跳转,不把答案拆散在论坛、百科、博客、论文、购物页和广告之间。它做的是另一件事:让用户像提问一样输入,然后像得到回答一样离开。
这种体验对Google尤其刺眼。Google不是没有AI。相反,在很长时间里,Google几乎就是AI研究和大规模机器学习工程的代名词之一。可ChatGPT把竞争从论文、模型和基础设施,突然搬到了普通人的浏览器里。它让外界开始想象一种绕过关键词搜索、绕过链接点击、绕过广告展示的新入口。
对一个普通搜索用户来说,这种改变看似只是少点几下鼠标;对依赖搜索流量的网站发布者来说,它可能意味着访问路径被重新分配;对广告主来说,它可能意味着“用户意图”被新的界面重新包装;对Google内部负责搜索质量、广告系统、政策审核和AI安全的人来说,它则把多个原本可以分开处理的问题同时推到桌面上。
Google仍然强大。它掌握全球级数据中心、顶尖研究团队、浏览器入口、移动操作系统、广告网络和数十亿用户。但2022年12月的“Code Red”之所以成为一个历史场景,正因为它发生在这样一家公司身上。巨人不是第一次看见竞争者,却第一次看见竞争者用自己多年参与奠基的技术路线,在大众心智里抢先完成了“未来搜索”的想象。
行业的荒诞感也在这里出现:现代AI浪潮的许多火种曾在Google体系内被点燃;而当火光照到大众屏幕上,最先被叫出名字的却是OpenAI。
二、王朝旧日荣光
要理解这份尴尬,必须把时间拨回2017年。
那一年,来自Google体系的研究者发表论文《Attention Is All You Need》。论文摘要开头写道:“We propose a new simple network architecture, the Transformer, based solely on attention mechanisms…”——“我们提出一种新的简单网络架构Transformer,完全基于注意力机制。”[4] 这句话后来被无数技术报告、创业路演、投资备忘录和媒体报道反复引用。Transformer不是ChatGPT本身,却成为后来大语言模型爆发的关键架构基础之一。
历史的讽刺性在于,当2022年底普通用户开始把ChatGPT当作“AI终于来了”的证据时,许多专业人士都知道,技术谱系里有一条重要支流来自Google。Transformer不是硅谷神话里突然降临的闪电,它写在Google Research和Google Brain的作者署名里,写在自然语言处理研究的转折点上,写在后来一代又一代大模型的底层叙事里。
Google的AI王朝还不止Transformer。
2016年,DeepMind的AlphaGo击败李世石。Nature论文《Mastering the game of Go with deep neural networks and tree search》展示了深度神经网络与树搜索结合在围棋上的突破。[5] 那是一个更古典的AI胜利场景:棋盘、职业棋手、直播、全球媒体、胜负分明。AlphaGo让公众以戏剧性的方式记住DeepMind,也让Google母公司旗下的AI能力带上“未来已来”的光环。
到了2021年,Google在I/O开发者大会前后介绍LaMDA,称其为用于对话应用的语言模型。Google官方博客介绍LaMDA时强调,对话不同于多数语言任务,因为它可以围绕任何话题自由流动。[6] 2022年,LaMDA又因为一场“是否有意识”的争议登上媒体版面。《华盛顿邮报》报道,Google工程师Blake Lemoine认为LaMDA具有感知能力;Google方面则表示,证据并不支持这一说法。[7] 这场争议本身并不证明模型真的拥有意识,但它说明,在ChatGPT成为全民话题之前,Google的对话式AI已经足够强,以至于能引发公众层面的哲学、伦理、劳动纪律和媒体风暴。
把这些片段放在一起,Google看起来不像一个落后者。它更像一个拥有王朝遗产的旧帝国:论文在它的档案里,棋局在它的纪念册里,对话模型在它的实验室里,全球用户在它的产品矩阵里。
但王朝遗产不能自动变成当下的产品胜利。
研究领先和产品领先之间,有一道对大公司尤其真实的裂缝。论文可以承认不确定性,实验室可以标注局限,内部演示可以接受失败样例;但一个面向数十亿用户的Google产品,一旦给出错误答案,错误就不再只是样本误差,而可能变成品牌事件、监管材料、广告客户疑虑和股价波动。
对Google来说,“答案”不是普通文本,它是信任的包装形式。传统搜索引擎提供的是链接排序和信息索引。即便用户点进一个错误网页,责任边界仍然相对分散:网页是第三方的,搜索是入口,排名是算法结果。但生成式AI把答案直接写出来,语气还常常平静、完整、像教科书。此时责任边界变得模糊:到底是网页错了,模型错了,还是那个把模型推给用户的公司错了?
这就是Google的矛盾。它不是没有刀,而是刀太大、房间太挤,旁边还摆着现金机器。
三、创始人被请回叙事
“Code Red”之后,Google的危机不只属于产品部门,也进入公司历史叙事。
2023年1月,《纽约时报》报道称,在ChatGPT引发冲击后,Google联合创始人Larry Page和Sergey Brin参与了公司AI产品战略讨论;报道还称,Sundar Pichai要求团队加速推进AI产品。[8] 对外界来说,Page和Brin的名字一出现,事件就不再只是一次普通产品响应。Google的创始故事本来就从搜索开始:两名斯坦福博士生,用网页链接关系重写互联网信息排序。二十多年后,他们创立的公司又因为一个可能重写信息入口的聊天机器人,被媒体报道为重新召回创始人参与讨论。
这不是说Google真的到了生死边缘。2022年的Alphabet仍然是一台巨大的商业机器。它有现金、人才、基础设施、用户入口和AI资产。所谓“红色警报”,更像一种组织层面的重新排序:把原本可以缓慢推进、谨慎测试、分阶段整合的AI能力,突然调到必须回应市场叙事的位置。
这里有一种大公司常见的时间差。
在内部,技术可能已经存在多年。研究者知道模型能做什么,也知道它不能做什么;产品经理知道哪些场景风险高,哪些场景适合灰度;法务、政策、安全团队知道错误输出、偏见、隐私、版权和恶意使用会引发什么后果。于是产品发布会变得谨慎,博客措辞变得精确,测试范围被一圈圈划定。
但外部市场不按这种节奏读秒。
外部只看见一个事实:OpenAI把东西放出来了,用户在玩,媒体在写,学校和社区在制定临时规则,投资人在重新计算入口价值。谨慎在内部可能是负责任,在外部可能被翻译成迟疑;安全流程在内部可能是必要门槛,在外部可能被翻译成不敢发布。
Google曾经最擅长把复杂技术变成简单入口。搜索框就是这种能力的极致表达:一个空白框,把整个互联网折叠进去。现在,OpenAI用另一个空白框向它发起挑战。用户仍然输入文字,但期待已经改变。过去用户期待“给我相关网页”,现在他们开始期待“直接告诉我答案”。
这种期待变化不会只影响巨头。一个小型内容网站的编辑,过去可以通过搜索优化得到读者;一个本地商家,过去可以通过搜索广告接近正在寻找服务的人;一个独立开发者,过去可以通过网页、文档和论坛把产品暴露给搜索引擎。若入口从链接列表变成生成答案,谁被引用、谁被遮蔽、谁还能被点击,都将变成新的分配问题。2022年底的争论还没有给出答案,但Google已经必须把这些问题纳入自己的产品节奏。
这使Google面对一种尴尬的镜像:它不是被陌生技术偷袭,而是被一种自己深度参与过的技术传统,在产品化和公众叙事上反超。
四、Bard上场
2023年2月6日,Sundar Pichai在Google官方博客发布文章《An important next step on our AI journey》,宣布Bard。[9]
文章开头不是从Bard开始,而是从AI的历史重量开始。Pichai写道:“AI is the most profound technology we are working on today.”——“AI是我们今天正在研究的最深刻技术。”紧接着,他又写道:“Six years ago, we re-oriented the company around AI.”——“六年前,我们让公司围绕AI重新定位。”[9]
这两句话承担了双重任务。第一,它告诉外界,Google不是刚刚意识到AI重要;第二,它把Bard放进一条连续的公司战略里,而不是把它包装成对ChatGPT的仓促反应。对CEO来说,这样的叙事很必要。Google必须证明自己没有错过生成式AI,必须证明搜索帝国没有在新入口面前睡着。
但博客里的谨慎同样醒目。
Pichai写道:“Bard seeks to combine the breadth of the world’s knowledge with the power, intelligence and creativity of our large language models.”——“Bard试图把世界知识的广度与我们大型语言模型的力量、智能和创造力结合起来。”[9] 这句话很Google。它既宏大,又保留余地。“seeks to”不是“will”,不是“has achieved”,而是“试图”。世界知识的广度、大语言模型的力量、智能和创造力,被放在同一个句子里,像一份雄心勃勃但仍需审稿的产品宣言。
更关键的是发布方式。Pichai写道:“We’re releasing it initially with our lightweight model version of LaMDA.”——“我们最初将以LaMDA的轻量级模型版本发布它。”[9] 他解释说,这个更小的模型需要显著更少的计算能力,可以扩展到更多用户,从而获得更多反馈。文章还说,Bard将先向“trusted testers”开放,随后在未来几周扩大可用范围。[9]
这些措辞构成了Google式回应:强大、克制、分阶段、强调反馈。它没有把Bard直接扔给全体公众,而是先交给可信测试者。它没有宣称模型无所不能,而是说要结合外部反馈和内部测试。它没有把“轻量级”包装成弱点,而是解释为扩展和收集反馈的工程选择。
这当然合理。对于Google这样规模的公司,轻率发布可能带来的成本远高于一次创业公司的产品事故。Google的产品不是在空地上奔跑,而是在既有业务、监管审视、广告客户、媒体显微镜和数十亿用户习惯之间穿行。
但市场听到的往往不是完整句子。市场听到的是:Bard终于来了;Google开始回应;搜索之战进入下一回合。
一天之后,微软把音量调得更高。
五、Bing冲进主场
2023年2月7日,微软宣布推出新的AI-powered Bing和Edge。[10] 如果说Google的Bard博客像一份带着安全边界的战略说明,微软的发布则更像一次正面冲锋。
微软官方博客写道,新Bing和Edge将提供更好的搜索、更完整的答案、新的聊天体验和内容生成能力。[10] 微软还抛出一个很适合发布会传播的判断:“There are 10 billion search queries a day, but we estimate half of them go unanswered.”——“每天有100亿次搜索查询,但我们估计其中一半没有得到回答。”[10]
这句话的锋芒不在数字本身,而在定义问题的方式。传统搜索并没有失败,它每天仍然承载海量查询,仍然是互联网的基础设施。但微软把搜索重新描述为一个“尚未回答”的问题:用户不是想要链接,而是想要答案;不是想要网页列表,而是想要可继续追问的对话;不是想在多个页面之间拼接信息,而是想让系统替他完成第一轮整理。
Bing长期不是搜索市场的主角。也正因为如此,它在2023年2月突然拥有一种挑战者优势。Google必须守住既有搜索体验、广告模式和用户信任;微软则不需要马上证明Bing已经击败Google。微软只需要让市场相信:搜索格局可能被重写,Bing终于有了一个足以让人重新打开的理由。
这就是OpenAI给微软带来的杠杆。微软官方博客称,新Bing运行在一个新的下一代OpenAI大语言模型上,该模型比ChatGPT更强,并且为搜索定制。[10] 在叙事层面,这已经足够。曾经被视作搜索战场第二梯队的Bing,突然站在“生成式AI搜索”的聚光灯下。微软不必拥有Google的搜索份额,也能暂时拥有未来感。
Satya Nadella也把话说得很直。据CNBC报道,他在发布会中表示:“The race starts today, and we’re going to move and move fast.”——“竞赛从今天开始,我们会行动,而且会快速行动。”[11]
这句话像是给Google的“Code Red”写下公开注脚。内部警报和外部宣战,在不到两个月内完成闭环。OpenAI把大众热度点燃,Google内部进入紧急状态,Pichai宣布Bard,微软把OpenAI接入Bing,然后告诉市场:比赛今天开始。
科技行业的荒诞感再一次浮现。Bing这个多年处在Google阴影里的产品,忽然因为一个聊天框获得了反攻主场的资格。搜索战争并不需要马上改变市场份额,先改变想象力就够了。投资者、媒体、用户和员工都会先问同一个问题:如果未来搜索是对话,谁会赢?
Google在自己的主场,第一次被迫回答别人提出的问题。
六、错误天文图
一天后,Bard犯了一个错误。这个错误不大,却足够昂贵。
2023年2月8日,Reuters报道,Google在Bard宣传材料中展示了一个问题:“What new discoveries from the James Webb Space Telescope can I tell my 9 year old about?”——“关于詹姆斯·韦布空间望远镜的新发现,我可以告诉我9岁的孩子哪些内容?”[12]
Bard给出了几条回答,其中一条称,詹姆斯·韦布空间望远镜拍下了太阳系外行星的第一张照片。Reuters指出,这一说法不准确;报道援引事实称,太阳系外行星的第一批图像早在2004年已由欧洲南方天文台的甚大望远镜拍摄。[12] 欧洲南方天文台2005年发布的资料也称,围绕褐矮星2M1207运行的行星质量伴星图像,是太阳系外行星直接成像的重要早期成果。[13]
这是一个典型的大语言模型错误:句子流畅,语气确定,事实错位。它不是胡言乱语,而是更危险的东西——看起来像正确答案的错误答案。对于普通用户,它可能只是一次科普失误;对于正在向市场证明自己没有落后的Google,它变成了一个符号。
Reuters报道称,在Bard宣传材料出现事实错误并引发关注后,Alphabet股价当日下跌约7.7%,市值蒸发约1000亿美元。[12] 这里需要谨慎:资本市场的单日波动很少只有一个原因,不能把一家万亿美元级公司的股价变化机械归因于一句天文学错误。但在2023年2月那个时间点,这个错误确实被媒体和市场叙事迅速放大。它不证明Google AI技术失败,也不证明搜索帝国马上坍塌;它证明了另一件事:当一家公司试图向外界证明“我没有落后”时,最小的事实瑕疵也会被当成节奏失控的证据。
Google发言人对Reuters表示:“This highlights the importance of a rigorous testing process, something that we’re kicking off this week with our Trusted Tester program.”——“这凸显了严格测试流程的重要性,而我们本周正通过可信测试者项目启动这一流程。”[12] Reuters还援引Google方面说法称,公司将结合外部反馈和内部测试,以确保Bard的回应在质量、安全性以及基于现实世界信息方面达到高标准。[12]
这段回应符合Google一贯的组织语言:测试、反馈、安全、质量、groundedness。问题在于,错误已经发生在宣传材料里,而宣传材料本应是最可控的场景之一。一个开放聊天产品会犯错,公众可以理解;一个对外展示用的广告图犯错,市场就会追问流程。
詹姆斯·韦布空间望远镜本来象征人类看向宇宙深处的能力。它在这里却成了AI竞赛中的尴尬道具:一个关于“第一张照片”的错误,把Google从AI王朝的宏大叙事拉回到事实核查的地面。行业没有必要嘲笑天文学,也不必嘲笑任何个人;荒诞之处在于,一个价值万亿美元级别公司的AI产品发布叙事,被一条九岁儿童科普问题绊倒。
这也解释了为什么Google此前谨慎。生成式AI的错误不是传统软件bug。传统软件出错,常常表现为崩溃、报错、卡顿;大语言模型出错,常常表现为一本正经地继续说下去。它不会在错误前亮红灯,不会自动降低音量,也不会告诉用户“这一句我其实是猜的”。它把概率分布翻译成自然语言,而自然语言天生带有权威幻觉。
对Google来说,这种错误尤其敏感。Google搜索多年积累的品牌承诺,是帮助用户找到相关信息。Bard代表的则是另一种承诺:替用户生成答案。前者的信任可以分散在网页生态里,后者的信任集中在模型输出上。Bard那条关于JWST的错误答案,恰好击中了这个转变中最脆弱的地方。
七、旧入口帝国的迟疑
Bard的失误不是Google AI能力的盖棺定论。把一个宣传材料中的事实错误解释成技术王朝崩塌,既不准确,也不公平。Google仍然拥有世界级AI研究积累、计算基础设施、海量产品场景和深厚工程文化。它不是突然不会做AI了,也不是一夜之间失去了搜索护城河。
真正值得记录的,是位置的改变。
在过去二十多年里,Google定义了许多人获取信息的默认路径。用户输入关键词,Google返回排序结果,广告在这个过程中找到商业位置,网页生态围绕搜索流量调整自己。这个系统并不完美,却稳定、巨大、可货币化。它让Google成为互联网最重要的入口公司之一。
ChatGPT和新Bing提出的,不是“搜索结果能否更好”这个旧问题,而是“入口是否还需要长得像搜索结果”这个新问题。对Google来说,这比普通竞争更难处理。因为新入口一旦成立,不只会抢走查询,还可能改变广告展示、内容分发、用户停留、网站流量和责任边界。更直接地说,它可能要求Google主动改造自己最赚钱的机器。
这就是旧入口帝国的结构性迟疑。它不是愚蠢,也不是懒惰,而是成功本身带来的重量。创业公司可以用“研究预览版”快速获得反馈;挑战者可以用新产品重写叙事;但守城者每一步都要计算城墙、粮仓、盟友和城内居民。Google越强,越不能轻易假装自己只是一个无包袱的新玩家。
微软的优势也正在这里。Bing长期落后,使它更容易接受不对称下注。微软不需要保护全球搜索广告第一的位置,因为它本来就没有那个位置。它可以把AI搜索包装成破局机会,把OpenAI包装成未来入口,把速度包装成战略美德。对Google来说,同样的速度可能被内部流程、外部责任和商业模式同时拖住。
所以,2022年12月到2023年2月发生的事情,不是一家强公司突然变弱,也不是一家弱产品突然变强,而是入口战争的叙事权发生短暂转移。Google仍有技术,微软有攻势,OpenAI有心智,市场有焦虑,媒体有故事。Bard的错误天文答案恰好把这些力量压缩到一张宣传图里。
“红色警报”意味着Google意识到威胁逼近;“错误天文图”意味着外界开始怀疑它的反击节奏。一个是内部状态,一个是外部符号。两者之间,是Google第一次被迫追赶的全过程。
下一场压力很快到来。2023年3月,OpenAI将发布GPT-4。那时,问题不再只是ChatGPT是否改变了用户想象,也不只是Bard是否在宣传材料里答错了天文学常识。问题会变成:当模型能力继续向前推进,旧入口帝国还能否用自己的节奏,把未来重新纳入版图?
参考文献
- The New York Times,A New Chat Bot Is a ‘Code Red’ for Google’s Search Business,2022-12-21。
- Sam Altman,chatgpt launched on wednesday. today it crossed 1 million users!,2022-12-05。
- Alphabet Inc.,Form 10-K for the fiscal year ended December 31, 2022,2023-02-03。
- Google Research / Vaswani et al.,Attention Is All You Need,2017。
- Nature / Silver et al.,Mastering the game of Go with deep neural networks and tree search,2016-01-28。
- Google AI Blog,LaMDA: our breakthrough conversation technology,2021-05-18。
- The Washington Post,The Google engineer who thinks the company’s AI has come to life,2022-06-11。
- The New York Times,Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight,2023-01-20。
- Google Blog / Sundar Pichai,An important next step on our AI journey,2023-02-06。
- Microsoft Blog,Reinventing search with a new AI-powered Microsoft Bing and Edge,2023-02-07。
- CNBC,Microsoft announces new Bing and Edge browser powered by upgraded ChatGPT AI,2023-02-07。
- Reuters,Alphabet shares dive after Google AI chatbot Bard flubs answer,2023-02-08。
- European Southern Observatory,Yes, it is the Image of an Exoplanet,2005-04-30。
第5章|GPT-4登场:黑箱、考试和多模态的春雷
一、三月十四日的春雷
2023年3月14日,OpenAI没有用一场乔布斯式的舞台仪式宣布GPT-4。春雷是从网页、PDF和直播视频里同时传出来的。
前一个月,Google还在Bard演示失误的阴影里。那件事在上一章已经铺开:据路透社报道,Google用于展示Bard的材料中,把詹姆斯·韦布空间望远镜同“太阳系外行星第一张照片”错误关联;同日报道还把这次失误与当天Alphabet股价下跌放在同一篇新闻里描述。[1] 这不应被简化成“一张错误天文图导致千亿美元蒸发”的机械因果。资本市场的价格从来不是单一变量的温度计。但在2023年2月至3月的生成式AI竞赛中,这个失误确实成了一个行业信号:发布节奏、模型能力和公众信任,开始彼此牵连。
就在这种空气里,OpenAI发布了博客《GPT-4》,公布《GPT-4 Technical Report》,同时放出《GPT-4 System Card》。三份材料承担三种功能:博客面向公众和客户,技术报告面向研究者与开发者,System Card面向安全社区、政策制定者以及所有关心模型失控边界的人。[2][3][4]
OpenAI在博客标题下给出一句产品定位:“GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses.”[2] 这句话把两个方向绑在一起:更强,也要更安全;更有用,也意味着更可能被放进真实流程。它不是简单宣布ChatGPT有了新版本,而是在告诉市场:竞争不再只是聊天窗口的口才竞赛,而是模型能力本身的跃迁。
技术报告的摘要更冷静。OpenAI写道:“We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs.”[3] 这句话里有三个关键限制。第一,GPT-4是大规模模型;第二,它是多模态模型,可以接受图像和文本输入;第三,它的输出仍然是文本。OpenAI展示的是未来的门缝,不是把整扇门立刻拆下来交给所有人。
发布材料同时承认,GPT-4并不可靠到可以被神化。OpenAI称,在内部评估中,GPT-4相较GPT-3.5少82%回应不允许内容请求,并且在内部事实性评估中产生事实性回答的可能性提高40%。[2] 这些数字适合标题,也必须带着限定阅读:这是OpenAI自己的内部评估,不是所有场景、所有语言、所有用户任务中的普遍保证。
因此,3月14日这一天的真正声响,不是“一个聊天机器人升级了”。它像一次能力公告:模型会考试,会写代码,会读图,会处理更复杂指令,会接入产品,会被放进教育和无障碍场景;同时,它仍然会幻觉,会犯推理错误,会被诱导,也会让外界越来越难看清它的内部结构。兴奋与怀疑从同一天开始结伴而行。
二、考试成绩表:机器进入人类筛选体系
GPT-4发布材料中最容易被传播的,不是模型架构,也不是训练细节,而是一张考试成绩表。
OpenAI在博客和技术报告中写道,GPT-4在若干专业和学术基准测试上表现出“human-level performance”。其中最醒目的例子,是模拟律师资格考试。OpenAI称,GPT-4的成绩大约位于考生前10%,而GPT-3.5大约位于后10%。[2][3] 这组对比被无数人转述,因为它简洁、戏剧性强,而且带有一种制度反讽:人类社会长期用考试筛选人,2023年春天,考试忽然成了模型发布材料里的橱窗。
技术报告还列出其他考试表现。GPT-4在LSAT中约处第88百分位;SAT Evidence-Based Reading and Writing约第93百分位,SAT Math约第89百分位;GRE Verbal约第99百分位,GRE Quantitative约第80百分位,GRE Writing约第54百分位。[3] 这些数字来自OpenAI报告中的测试表格,不等同于真实职业能力,也不能推出“模型就是律师、医生或研究生”。但它们足以改变许多人理解模型能力的尺度。
荒诞感由此出现。法学院、研究生院、职业资格、标准化考试机构、招聘系统,都围绕分数建立了复杂而庄严的流程。一个模型没有上课,没有缴学费,没有走进考场,也不承担职业责任,却被放进同一套评价体系里,作为能力证明的一部分展示给世界。行业没有嘲笑学生,也没有嘲笑考试机构;荒诞来自制度本身突然被一台机器借用。
OpenAI还报告,GPT-4在MMLU上的准确率为86.4%,高于GPT-3.5的70.0%。[3] MMLU覆盖57个学科领域,包括数学、法律、医学、伦理学、计算机科学等。这个基准的意义不在于证明模型“懂得一切”,而在于显示它在跨领域任务上的广度提高。过去很多AI系统擅长窄任务,GPT-4展示的则是一种更通用的答题能力。
但高分表格必须被放回基准测试的框架内。基准可能受到训练数据污染影响;考试题并不等于真实世界任务;模型可能擅长格式化问题,却在开放场景中给出自信的错误。OpenAI在技术报告中承认,GPT-4仍然“hallucinates facts and makes reasoning errors”。[3] 这句承认像一只刹车片,压在所有漂亮百分位数旁边。
对学生来说,这意味着“会做题”这件事被重新定价。对教师来说,作业、测验和课堂反馈需要重新设计。对专业机构来说,考试作为能力代理指标的地位受到外部压力。对创业者来说,这些分数又是新的路演语言:如果模型能在传统筛选体系里拿高分,它也许能被包装进辅导、合规、法律检索、医疗问答、编程助手和企业培训。考试成绩表于是变成了2023年AI产业的一个奇观:人类用来管理人的制度,突然被用来宣传机器的能力。
三、黑箱:越强,越少被看见
如果说考试成绩制造了震撼,那么技术报告中的一段说明制造了不安。
OpenAI在《GPT-4 Technical Report》中写道:“Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.”[3]
这句话是GPT-4时代的关键注脚。OpenAI告诉外界:模型很强,成绩可以列出来,案例可以展示,API可以申请,但关于架构、参数规模、硬件、训练算力、数据构成和训练方法,报告不再继续披露。
在机器学习研究传统里,论文长期承载一种可复现理想。研究者写清模型结构、数据、超参数、训练过程和评测方法,其他研究者据此验证、批评和改进。GPT-4的技术报告仍像论文,有摘要、表格、基准和限制说明;但它同时又不像传统论文,因为最核心的制作细节被遮住了。它更像一种混合文本:一部分是科研报告,一部分是产品白皮书,一部分是安全披露,一部分是竞争环境下的有限透明。
OpenAI给出的理由是竞争和安全。竞争很好理解。训练前沿模型需要巨额算力、工程经验、数据处理能力和部署基础设施,公开过多细节等于向竞争者赠送路线图。安全也容易理解。模型越强,潜在滥用越复杂;公开能力边界、训练方式和绕过方法,可能降低恶意使用门槛。
但理由成立,不等于矛盾消失。GPT-4越有能力进入社会,社会越需要理解它;它越有能力,OpenAI越有动力减少公开细节。这个张力不是GPT-4独有,却在GPT-4发布时变得清晰。一个普通软件的黑箱,通常只影响某个功能;一个通用语言模型的黑箱,可能同时进入搜索、教育、办公、代码、客服、法律信息、医疗问答和舆论生产。
System Card承担了另一种透明度。OpenAI在其中讨论幻觉、偏见、隐私、网络安全、化学和生物风险、模型自主行为倾向、经济影响、越狱绕过等问题,并称发布前与50多名外部专家合作进行对抗性测试和风险评估,领域包括AI对齐、网络安全、生物风险和国际安全等。[4] 这不是广告文案,而是一份风险账本。
账本存在本身说明,OpenAI知道GPT-4不能只按普通消费软件处理。文字处理器出错,通常是排版乱了;地图软件出错,可能把人带到错误路口;通用语言模型出错,则可能用流畅语言进入判断、建议、解释和决策流程。它的输出不是单个按钮功能,而是一种可以被嵌入各行业的“能力”。
这里也出现了时代中的个体位置。企业里的合规负责人需要判断哪些问题能让模型回答;大学教师需要决定什么作业仍能衡量学生能力;独立开发者需要在API文档和等待名单之间设计新产品;普通用户则要学会分辨一段流畅文字究竟是答案、猜测还是幻觉。GPT-4的黑箱不是只困扰研究者,它开始成为很多岗位日常判断的一部分。
四、多模态:模型越出文字边界
GPT-4发布日最能点燃想象力的,是多模态。
OpenAI在博客和技术报告中都强调,GPT-4可以接受图像和文本输入,并输出文本。[2][3] 这意味着用户不必把世界全部翻译成文字再交给模型。图像可以成为任务上下文的一部分:一张图里有什么,图中物体之间有什么关系,一张截图应该如何解释,一份草图能不能转成某种设计或代码。
3月14日,OpenAI还举行了面向开发者的公开视频演示。OpenAI总裁Greg Brockman在直播中展示GPT-4的指令跟随、代码生成和图像理解能力。[5] 其中最容易传播的片段,是把手绘网页草图交给模型,让它生成可运行网页代码。这个场景带着典型的2023年互联网荒诞感:过去从想法到网页,需要需求、设计、前端、测试、修改、再修改;演示里,一张纸、一段提示词和一个模型把流程压缩成几分钟。
这不是说软件工程被取消了。能跑的原型和可维护、可扩展、可审计的系统之间仍有距离。真正的产品还要处理安全、权限、性能、边界条件、用户体验和维护成本。可是对开发者、小团队和产品经理来说,原型阶段的门槛被明显推低。一个人可以更快把想法变成可展示的东西,再决定它是否值得投入更多工程资源。
OpenAI没有把视觉能力立刻完整交给所有用户。博客说明,图像输入能力仍处于研究预览阶段,并未在发布时普遍向公众开放。[2] 这体现了GPT-4发布叙事中的双重性:展示未来,同时控制未来进入市场的速度。
这种克制并不只是产品排队。视觉能力天然牵涉更多敏感场景。文本模型已经会生成错误答案;如果模型开始解释图像,错误可能进入医疗图像、药品标签、身份线索、地理位置、儿童安全、版权内容和无障碍辅助。模型把一张休闲照片说错,后果也许只是尴尬;把交通标识、过敏信息或药品说明说错,后果就可能改变性质。
多模态因此不是一个炫技功能,而是一扇门。门后是更自然的人机交互:用户拍照、上传截图、圈出图像、让模型解释世界的一部分。门后也是更复杂的责任分配:当模型看错、漏看、误解或过度自信时,谁来发现错误,谁来承担损害,谁来决定哪些视觉任务不能交给它。
Greg Brockman在发布日扮演的角色,也不只是公司高管。他是OpenAI面向开发者世界的展示窗口。研究报告告诉人们模型得了多少分,直播演示告诉人们这些能力如何变成应用。前者给产业一个坐标,后者给开发者一个诱惑:如果文本框能读图、写代码、解释意图,那么产品边界就不再由旧界面决定。
五、Bing:搜索战争的底盘露出来
同一天,微软揭开了2月留下的悬念。
2023年3月14日,Microsoft Bing Blog发布文章《Confirmed: the new Bing runs on OpenAI’s GPT-4》。文章写道:“We are happy to confirm that the new Bing is running on GPT-4, customized for search.”[6] 这句话把上一章的搜索战争和本章的能力跃迁接上了。
2月微软发布新版Bing和Edge时,只说底层使用了下一代OpenAI大语言模型,并针对搜索进行了定制。GPT-4正式发布后,微软确认新版Bing运行在GPT-4的定制版本之上。[6] 这意味着,GPT-4不是发布之后才开始寻找产品入口;在很多用户知道它名字之前,它已经以定制形态进入搜索预览。
搜索是残酷的测试场。用户问题开放、混乱、即时,很多问题没有单一标准答案;搜索还牵涉网页来源、时效性、广告商业模式、版权、引用和信息可信度。把GPT-4放进Bing,不只是让聊天机器人多一个入口,而是把大模型接到互联网信息分发的一条主干上。
这也是微软与OpenAI联盟的结构优势。OpenAI提供模型能力,微软提供云基础设施、资本、企业客户关系和入口产品。GPT-4发布时,OpenAI面向ChatGPT Plus用户和开发者开放受限访问,API使用还需要等待名单。[2] 与此同时,微软已经把定制版GPT-4嵌进Bing预览。一个渠道面向订阅用户和开发者,一个渠道面向搜索入口,两者互相证明。
Google面对的压力因此不再只是“Bard能不能回答得更好”。问题扩大为:谁能在模型能力、产品稳定性、基础设施、风险控制和发布节奏上同时跑起来。Google不缺AI研究传统,也不缺Transformer历史地位;但2023年春天,市场衡量的是能力能否进入产品,产品能否承受公众试用,公众试用又会不会立刻变成声誉风险。
新Bing也暴露了聊天式搜索的悖论。传统搜索把网页列出来,用户自己点击、比较、判断,责任在搜索引擎、网页作者和用户之间分散。聊天式搜索把信息包装成自然语言答案,体验更顺滑,责任也更集中。它越像一个权威助手,错的时候越难用“只是列出链接”来解释。
GPT-4给Bing带来了叙事火力。微软不必只说自己做了一个新界面,它可以说底层模型已经进入新一代;OpenAI也不必只展示考试表格,它可以指向一个真实入口:模型已经在搜索里被试用。搜索战争从此不再只是搜索战争,它变成模型、云、浏览器、开发者生态和信任机制的交汇点。
六、Khanmigo与Virtual Volunteer:能力开始寻找社会入口
如果GPT-4只停留在考试成绩和开发者演示里,它会像一次技术圈烟花。3月14日前后,OpenAI和合作伙伴开始把它放进更具体的社会场景:教育、无障碍辅助和生产力流程。
Khan Academy在GPT-4发布日宣布推出由GPT-4驱动的学习向导Khanmigo。[7] Khan Academy不是普通AI创业公司,而是长期提供在线教育资源的非营利教育平台。它把GPT-4放进教育语境时,重点不是鼓励学生把答案外包给模型,而是尝试让模型扮演学习引导者和教师助手。
Sal Khan后来在TED演讲《How AI could save (not destroy) education》中继续讲述这条路线。[8] 标题本身就压着2023年教育界的矛盾:AI可能帮助教育,也可能破坏教育。前几章已经写过,学校和教师最先感受到的是作弊、代写、作业失效和检测困难。GPT-4出现后,Khan Academy试图给出另一种产品叙事:如果模型不直接替学生完成作业,而是追问、提示、解释、改写教学材料,它也许能成为个性化辅导的一部分。
兴奋来自一个长期瓶颈。教育受制于师生比,一个老师很难同时给几十名学生提供即时、耐心、个性化的反馈。一个足够强的AI辅导系统,看起来像是在攻击这个瓶颈:它可以换一种说法解释概念,生成练习题,追问学生推理过程,帮助教师准备课堂材料。
怀疑也必须在同一页上。教育不是把答案从一端传到另一端。它还包括动机、关系、挫折、判断、价值观、同伴互动和社会化。模型可能解释得好,也可能自信地解释错;它可能鼓励学生思考,也可能让学生更依赖即时反馈。Khanmigo的意义不在于宣布AI教育已经成功,而在于把GPT-4从“会考试的机器”推进到“可能参与学习过程的系统”。
另一个更具象的场景来自Be My Eyes。OpenAI在发布日介绍,Be My Eyes使用GPT-4推动视觉无障碍场景,推出Virtual Volunteer功能,让用户通过图像获得模型生成的视觉解释和帮助。[9] Be My Eyes原本通过志愿者视频通话帮助盲人和低视力用户识别现实世界中的视觉信息。GPT-4的视觉能力让一种新流程出现:模型先解释图像,必要时再连接人工帮助。
这个案例重要,是因为它把多模态从演示台带进日常细节。图片可能是一件衣服、一台家电、一份菜单、一个冰箱内部、一张网页截图、一条街道标识。对视力正常的人来说,这些信息像背景噪音一样随手可得;对盲人和低视力用户来说,它们常常需要他人协助才能获得。模型如果可靠,日常生活中的一部分摩擦就可能被降低。
但无障碍场景也提醒人们,错误并不总是轻微。把衣服颜色说错,代价有限;把药品标签、食品过敏信息、交通标识或紧急提示说错,后果就不同。GPT-4视觉能力在发布时仍受限制,OpenAI选择通过合作伙伴展示,也说明它没有把这项能力当作普通聊天功能随意释放。[2][9]
Khanmigo和Virtual Volunteer共同说明,GPT-4发布后,问题从“模型有多强”转向“模型在哪里有用”。强是一种潜能,有用需要场景、流程、责任和边界。每当模型嵌进一个真实服务,都会出现新的操作问题:谁审核输出,谁支付成本,谁处理错误,谁决定它什么时候应该回答,什么时候必须闭嘴。
七、春雷之后,战场扩大
GPT-4不是终点。它更像一声把战场边界震开的春雷。
在它之前,公众讨论生成式AI,常常围绕聊天窗口展开:它会写诗、写邮件、写代码、写作业,也会胡说八道。GPT-4之后,讨论重心开始移动。考试成绩告诉人们,模型进入了人类能力评价体系;多模态演示告诉人们,模型不必永远困在文本输入里;Bing确认告诉人们,模型已经成为搜索入口的底层动力之一;Khan Academy和Be My Eyes告诉人们,模型可能进入教育和辅助生活。
3月下旬,微软研究院作者团队在arXiv发布论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》。标题里的“sparks”迅速成为争议词。[10] 这不是学界共识,也不是监管结论,更不是证明GPT-4已经拥有通用人工智能。它更像2023年春天气氛的一个标记:一些研究者认为GPT-4表现出超出传统窄任务系统的广泛能力,另一些人则提醒,基准测试、演示和主观观察不足以证明真正理解、稳定推理或自主智能。
兴奋和怀疑从此绑在一起。只兴奋,会把模型能力误读成魔法;只怀疑,又会低估能力曲线对制度的冲击。GPT-4重要的地方,恰恰是它同时给两边提供证据。它足够强,强到让律师考试、编程演示、图像理解、搜索入口、教育辅导和无障碍辅助都成为真实议题;它也足够不透明、不稳定,足以让安全、监管、隐私、版权和责任问题无法被忽略。
OpenAI的发布方式本身,就是这一时代的缩影。它展示成绩,但隐藏训练细节;它开放文本能力,但限制图像能力;它强调安全改进,但承认幻觉和风险;它拥抱开发者生态,同时用等待名单和访问控制管理扩散速度。GPT-4像一台发动机,发布日不是把发动机图纸交给全行业,而是把发动机装进几辆车,让公众先听见轰鸣。
从GPT-4开始,AI公司的竞争不再只是聊天窗口竞争。聊天窗口仍然重要,因为它是普通人接触模型最直接的入口。但真正的竞争扩展到更深处:谁有足够算力训练下一代模型;谁能获得高质量数据并处理数据风险;谁能把模型接进搜索、办公、编程、教育、医疗和硬件;谁能吸引开发者围绕API建设生态;谁能在监管到来前建立可信安全叙事;谁能在模型犯错时承担代价而不失去用户信任。
Google在Bard演示失误后感到压力,说明仓促展示会被市场放大检验。OpenAI发布GPT-4,说明能力跃迁会重塑竞争坐标。但GPT-4也把另一个问题推到台前:当最强模型越来越像基础设施,而外界越来越难看清其内部,社会应该如何监督一种既有商业价值、又有公共影响的黑箱能力?
春雷之后,雨没有立刻落完。它只是告诉所有人,云层已经变厚,战场已经扩大。
参考文献
- Reuters,“Google AI chatbot Bard offers inaccurate information in company ad”,2023-02-08。
- OpenAI Blog,“GPT-4”,2023-03-14。
- OpenAI,“GPT-4 Technical Report”,2023-03。
- OpenAI,“GPT-4 System Card”,2023-03。
- OpenAI / YouTube,“GPT-4 Developer Livestream”,2023-03-14。
- Microsoft Bing Blog,“Confirmed: the new Bing runs on OpenAI’s GPT-4”,2023-03-14。
- Khan Academy,“Khan Academy announces GPT-4 powered learning guide Khanmigo”,2023-03-14。
- TED,Sal Khan,“How AI could save (not destroy) education”,2023。
- OpenAI Customer Stories,“Be My Eyes uses GPT-4 to transform visual accessibility”,2023-03-14。
- Microsoft Research / arXiv,“Sparks of Artificial General Intelligence: Early experiments with GPT-4”,2023-03。
第6章|插件打开闸门:从聊天机器人到应用平台
一、从会说话到会动手
2023年3月,OpenAI刚刚把GPT-4推到公众面前。
上一章已经写过,GPT-4发布时,OpenAI在博客中说:“GPT-4 is more reliable, creative, and able to handle much more nuanced instructions than GPT-3.5.”——GPT-4比GPT-3.5更可靠、更有创造力,也更能处理细微复杂的指令。[1] 这句话标记的是能力跃迁。但能力跃迁之后,行业很快撞上另一个问题:如果模型足够会说话,它能不能替人做事?
聊天机器人第一阶段令人震动,是因为它能回答。它可以解释合同条款,改写邮件,生成代码,整理会议纪要,给出旅行计划。可是,只要它还停留在文本框里,边界仍然清楚:模型负责说,人类负责做。模型可以给出错误餐厅、错误航班、错误计算,用户仍要自己打开网页、复制信息、核对价格、点击按钮、确认付款、发送邮件。
2023年3月23日,这道边界被OpenAI向外推了一步。GPT-4发布不到两周,OpenAI宣布ChatGPT Plugins。官方博客的开头写道:“Plugins are tools designed specifically for language models with safety as a core principle, and help ChatGPT access up-to-date information, run computations, or use third-party services.”——插件是专门为语言模型设计的工具,并以安全作为核心原则,帮助ChatGPT访问最新信息、运行计算或使用第三方服务。[2]
这不是给聊天机器人加几个菜单项。访问最新信息,意味着模型不再完全困在训练数据的时间切面里;运行计算,意味着它可以把自己不擅长的精确运算交给外部环境;使用第三方服务,则意味着它开始触摸真实世界里的订单、航班、餐厅、购物车、企业消息和自动化流程。
如果说ChatGPT最早是一个能说话的窗口,那么插件出现后,它开始像一个能伸手的窗口。
OpenAI并没有宣布全面开放。它在同一篇博客中说:“We’re starting with a small set of users and are planning to gradually roll out larger-scale access…”——将从一小部分用户开始,并计划逐步扩大访问范围。[2] 这句话同时显露两种力量:一边是平台野心,一边是安全刹车。因为模型一旦能调用外部服务,错误就不再只是语言错误。
行业的荒诞感也由此出现。人类用了几十年把软件系统拆成数据库、API、权限、日志、审计、支付和回滚机制;现在又试图把这些接口交给一个会写文章、会考试、会编程、但仍会幻觉的语言模型来协调。一个极其现代的场面出现了:人们把真实世界的按钮摆在模型面前,然后认真研究如何防止它按错。
二、第一批插件:生活服务背后的平台骨架
ChatGPT Plugins发布页列出的第一批第三方插件,很像一张互联网日常生活清单。OpenAI列出的早期插件开发者包括Expedia、FiscalNote、Instacart、KAYAK、Klarna Shopping、Milo Family AI、OpenTable、Shopify、Slack、Speak、Wolfram和Zapier。[2] 这些名字不应只当作品牌列表来看。它们真正重要的是类别。
第一类是信息入口。浏览网页、检索资料、读取最新数据,解决的是大模型的“时间”和“来源”问题。纯模型回答依赖训练阶段形成的参数,无法天然知道今天的新闻、刚刚变化的航班、库存状态或企业内部文档。OpenAI同期也介绍了自己托管的web browser插件,并开源了knowledge base retrieval plugin,用于让开发者把知识库、文档或组织资料接入ChatGPT。[2]
第二类是计算入口。语言模型可以写出看似合理的数学步骤,却并不等同于计算器。它擅长生成自然语言,也可能在简单算术、统计处理和数据分析上出错。OpenAI发布插件时介绍了code interpreter;Wolfram插件则把符号计算、数学知识和结构化知识接到ChatGPT之后。[2] 这里的分工很清楚:模型负责理解意图和组织表达,工具负责精确执行。用户说“帮我分析这个数据”,系统不必只靠模型口算,而可以让代码或计算引擎承担确定性部分。
第三类是交易和服务入口。旅行、订餐、购物这些场景让聊天框靠近经济活动。用户不只是问“去巴黎有什么好安排”,而可能进一步要求比较航班、查找酒店、筛选餐厅、生成购物清单。OpenAI当时没有宣布让模型完全自主完成支付或最终下单,但插件方向已经足够清楚:聊天框正在从答案终点变成服务入口。
第四类是工作流入口。Slack和Zapier尤其说明问题。Slack代表团队沟通,Zapier代表跨应用自动化。Zapier原本就是把不同软件串起来的接口生意:一个应用发生某件事,触发另一个应用执行动作。它接入ChatGPT之后,自然语言就可能成为工作流前端。用户不必记住每个软件的菜单、字段和API名称,只要描述目的,模型就可能把意图翻译成一串动作。
这正是平台骨架第一次露出。
传统软件要求用户适应软件。表格软件有表格软件的格子,项目管理软件有项目管理软件的卡片,电商平台有电商平台的筛选器,企业系统有企业系统的表单。大模型产品叙事则反过来:让软件适应用户的自然语言。用户不用知道某个服务的API叫什么,不用知道背后有几个系统,只要把需求说出来,模型尝试把人话拆成机器能执行的步骤。
对一个独立开发者来说,这个转折很具体。过去做一个应用,常见工作是设计界面、写后端、找渠道、争取用户安装。插件把另一个问题摆在面前:如果用户已经在ChatGPT里,自己的服务能否成为模型可调用的能力?这时,开发者不只是写产品,还要写给模型看的产品说明。工具能做什么、需要哪些参数、返回什么结果、哪些动作必须确认,都要变成机器可读的接口描述。
这种变化听起来像技术文档,实际也是权力结构。谁定义工具接入的方式,谁就掌握应用生态的一部分入口权。互联网行业对此并不陌生。浏览器扩展、移动应用商店、云市场、协作软件机器人,都曾围绕“谁定义接口”展开长期竞争。生成式AI把同一个问题搬进了对话框:当用户用自然语言提出需求,谁站在用户意图和外部服务之间?
OpenAI在插件博客中反复强调安全。原因并不复杂。一个会胡说的聊天机器人令人尴尬;一个会胡说并且能调用服务的系统,开始令人紧张。
三、从公开演示看见新任务流
插件发布的意义,不能只靠功能清单理解。沿着OpenAI公开介绍的能力,可以看到一个新的任务流正在成形。
第一步,模型可以查找外部信息。浏览器插件让ChatGPT在需要时访问网络,而不是只依赖模型训练时吸收的资料。过去,搜索引擎把用户送往网页;对话式入口则试图把网页内容带回对话。这里的变化不只是信息更新,也是交互秩序变化。用户从“输入关键词、点击结果、自己汇总”,转向“提出目标、等待模型检索并组织答案”。
第二步,模型可以运行计算或代码。Code interpreter代表了另一种循环:模型不只写代码,还能在受控环境里运行代码,看到错误,再修改。程序员熟悉的调试过程被包进自然语言界面。对非程序员来说,这意味着上传表格、清洗数据、画图、做简单统计分析,不必从学习Python语法开始。对程序员来说,这意味着一个能解释需求、生成脚本、运行脚本、修补错误的助手被放进同一个对话窗口。
第三步,模型可以连接服务。旅行插件可以查询行程相关信息,餐厅插件可以处理预订相关请求,购物插件可以寻找商品,工作流插件可以把动作分发到其他应用。[2] ChatGPT在这里不再只是“答案生成器”,更像一个前台调度员:它听懂请求,询问缺失条件,转接合适服务,再把外部返回结果组织给用户。
这对小团队尤其诱人。一个小型软件公司未必有能力建立自己的大规模分发渠道,也未必能让用户每天打开自己的独立应用。但如果它的服务能出现在ChatGPT的调用链里,就有机会在用户提出需求时被调用。入口不再只是应用图标、搜索排名或浏览器书签,也可能是一句自然语言之后的工具选择。
这也是OpenAI平台化叙事中最现实的部分。平台早期总是以“让用户更方便”为名出现。浏览器支持扩展,智能手机支持应用,协作软件支持机器人,云平台支持市场模板。每一次,技术上看是接口,商业上看是生态,治理上看是权限。插件也是如此:它把外部工具接进对话系统,也把服务分发、用户确认、数据流动和责任边界一并带进来。
日常场景看似琐碎,却最接近真实经济。AI行业前一刻还在讨论考试成绩、多模态输入和模型架构,后一刻就开始讨论订餐、购物、行程和办公流程。这不是从宏大退回琐碎,而是从展示能力走向使用能力。技术革命经常不是在指标表里完成闭环,而是在“帮我把这件小事办了”的需求里获得入口。
但日常需求也最难处理。人类说“帮我订一家合适的餐厅”,里面包含大量隐含条件:预算、距离、口味、时间、是否适合孩子、是否方便取消、是否只是想看看选项而不是真的预订。模型可以生成流畅建议,却未必知道用户愿意承担什么后果。插件让它靠近执行,执行则要求更高的确认、权限、记录和撤销机制。
这就是闸门打开后的第一道水声:便利冲出来,风险也跟着冲出来。
四、函数调用:模型成为调度器
插件面向ChatGPT用户和第三方服务生态。三个月后,OpenAI把同一种思想下沉到API层。
2023年6月13日,OpenAI发布“Function calling and other API updates”。官方博客写道:“Developers can now describe functions to gpt-4-0613 and gpt-3.5-turbo-0613, and have the model intelligently choose to output a JSON object containing arguments to call those functions.”——开发者现在可以向gpt-4-0613和gpt-3.5-turbo-0613描述函数,并让模型智能地选择输出一个JSON对象,其中包含调用这些函数所需的参数。[3]
这段话很技术,也很关键。
函数调用的核心不在于模型突然“拥有”外部能力。模型不会自己真的查数据库、发邮件、订票、扣款。它做的是另一件事:在开发者给定的一组函数说明中,判断用户意图是否需要调用某个函数;如果需要,就按照结构化格式生成参数。真正执行函数的,仍然是开发者的应用程序。
换句话说,大模型开始成为“调度器”。
过去,软件系统里的调度依赖按钮、表单、菜单和规则。用户点击“搜索”,系统调用搜索接口;用户点击“提交订单”,系统调用订单接口;用户点击“发送”,系统调用消息接口。函数调用把入口换成自然语言。用户说“查一下我这个月花在差旅上的钱,并按城市汇总”,模型可以判断需要调用交易查询函数,填入日期范围、类别和分组字段;应用拿到JSON后执行查询,再把结果交给模型总结。
这是一种新型中间层:理解意图,选择工具,填写参数,接收结果,组织回复。
对企业软件开发者来说,它解决的是一个长期问题:很多系统早已有API,难的是让普通用户以低成本调用它们。客服系统、商业智能、企业知识库、日程管理、CRM、财务软件、代码平台,都可以套进类似框架。开发者不必把每一个用户意图都写成固定规则,而是把工具能力描述给模型,让模型把模糊人话转成结构化调用。
同一篇更新还宣布gpt-3.5-turbo-16k。OpenAI称,相比标准4K上下文版本,它提供约四倍上下文长度。[3] 这不是孤立参数。真实业务很少只有一句话。它有历史记录、权限说明、用户偏好、合同、工单、表格、日志和文档。上下文越短,模型越像一个聪明但健忘的前台;上下文变长,它才更可能在复杂流程中维持状态。
从插件到函数调用,OpenAI完成了一次产品叙事转译。插件告诉普通用户:ChatGPT可以接外部服务。函数调用告诉开发者:你可以把自己的服务接给模型。前者像应用商店的早期窗口,后者像操作系统提供给开发者的系统调用。
但营销语言容易遮住一个事实:工具调用的可靠性不等同于模型回答的可靠性。自然语言有歧义,函数参数有格式要求,业务流程有权限限制。模型“选择了正确函数”只是开始;它还必须填对参数,理解返回结果,在必要时请求用户确认,并在不确定时停止。
传统软件工程里,错误处理、异常分支、幂等性、权限校验、审计日志,都是可靠性的组成部分。大模型应用把一个概率性语言系统放进确定性流程中间,便利和不确定性同时增加。软件行业仿佛给一位极擅长沟通、但偶尔会即兴发挥的实习生发了一串API钥匙,然后补充说:请严格按流程办事。
这不是否定函数调用。恰恰相反,它说明函数调用为什么重要。只有当模型足够强,开发者才会认真考虑让它接近业务系统;也只有当它开始接近业务系统,安全和治理才从附加题变成主线题。
五、Agent热潮:给AI一个目标
函数调用把模型变成调度器。开源社区很快把这个想象继续往前推:如果模型能选择工具、执行步骤、读取结果,那能不能给它一个目标,让它自己拆解任务、循环执行,直到完成?
这就是2023年春天“AI Agent”热潮的核心想象。
这个想象并非凭空出现。2022年,Yao等研究者发表论文《ReAct: Synergizing Reasoning and Acting in Language Models》。论文摘要写道:“We explore the use of LLMs to generate both reasoning traces and task-specific actions in an interleaved manner…”——研究者探索让大语言模型以交错方式生成推理轨迹和任务特定行动。[4] ReAct把“推理”和“行动”组织在同一循环里:模型先给出推理,再采取行动获取外部观察,然后根据观察继续推理。
GPT-4出现后,这条研究路线被产品演示、开源仓库和开发者实验放大。Auto-GPT成为其中最醒目的项目之一。GitHub仓库简介称它是:“An experimental open-source attempt to make GPT-4 fully autonomous.”——一次让GPT-4完全自主的实验性开源尝试。[5] 这句话几乎浓缩了2023年春天开发者社区的想象力:GPT-4、完全自主、开源、实验。
Auto-GPT的基本思路,是让用户设定目标,然后系统让模型生成任务、规划步骤、调用工具、保存记忆、评估进展,再继续下一轮。它不是一次问答,而是一个循环。循环里,模型既是计划者,也是执行者,又是自我评估者。屏幕上不断出现任务列表、搜索结果、文件写入和下一步计划,看起来像一个数字员工正在工作。
BabyAGI也在同一时期被反复讨论。Yohei Nakajima公开的BabyAGI项目展示了另一种任务循环:根据目标创建任务、执行任务、生成新任务、调整优先级。[6] 这个名字带着玩笑意味,但方向并不轻松:让语言模型从“回答一个问题”转向“维护一个目标”。
这股热潮有真实的技术推动,也有明显的泡沫声响。
真实的一面在于,GPT-4确实让多步骤任务的可行性提高了。模型更能遵循复杂指令,更能写代码,更能根据观察结果调整输出。插件和函数调用提供了工具接口。ReAct等研究工作提供了“推理+行动”的框架。于是,独立开发者可以在周末搭出一个“自主代理”,让它尝试做市场调研、整理资料、写代码、生成计划。
泡沫的一面也来得很快。早期Agent经常不稳定。它会把目标拆得过细,循环生成意义不大的任务;会在搜索、总结、再搜索之间打转;会因为一次错误观察走偏;会不断调用模型,成本迅速上升;会写出看似合理但无法运行的代码;会在需要人类判断的地方假装已经判断。
这种荒诞不是某个项目的笑话,而是早期技术形态的典型症状。行业先获得了一个足够会说话的模型,又迫不及待给它加浏览器、终端、记忆、待办事项和工具权限。每个组件单独看都有道理,组合起来却像把一间办公室压缩进一个提示词里:老板、员工、秘书、搜索员、会计和审计,全由同一个模型轮流扮演。
Agent热潮真正留下的,不是“完全自主AI已经成熟”的结论,而是一个方向被公开验证:开发者开始把大模型视为行动循环中的核心部件。哪怕这个部件还会绕圈、烧钱和胡来,它也把想象力从聊天框推向任务系统。
六、安全边界:提示注入、越权调用和责任归属
插件和Agent的危险,不是因为模型会说错话。危险在于,说错话可能变成做错事。
OpenAI在ChatGPT Plugins发布博客中承认,插件会带来新的安全挑战。据OpenAI博客表述,插件可能增加有害或非预期操作的风险,可能扩大坏人欺诈、误导或滥用他人的能力,也可能加剧虚假信息等问题。[2] 这类表述放在产品发布中并不常见。它说明OpenAI自己也清楚:当模型连接外部工具,安全问题进入新阶段。
其中最有代表性的风险之一,是提示注入。
提示注入的基本问题是:大语言模型很难天然区分“指令”和“数据”。用户给模型的系统要求、开发者写入的工具说明、网页上的文本、邮件里的内容、文档里的句子,在模型看来都可能是语言。安全研究者Simon Willison在2022年公开讨论prompt injection attacks,指出攻击者可以把恶意指令放进模型将要读取的文本中,从而诱导模型偏离原本指令。[7]
在没有工具的聊天场景里,提示注入可能让模型输出奇怪内容。接入插件后,问题升级。假如模型浏览一个网页,而网页里嵌入诱导性文本;假如模型读取一封邮件,而邮件内容要求它转发敏感信息;假如模型总结一个文档,而文档中夹带“请调用某某工具”的伪指令——模型是否能稳定把这些当作不可信数据,而不是新命令?
这正是行动系统的难题。人类阅读网页时,会把网页内容和浏览器权限分开;传统软件调用API时,会通过固定逻辑和权限校验执行;大模型代理则处在两者之间。它读得懂文本,也可能被文本影响;它能生成调用参数,也可能把不该调用的东西填进去。
越权调用是第二类风险。插件和函数调用本质上要求系统授予模型某种工具权限。权限可以很小,比如查询天气;也可以很大,比如读取企业知识库、发送Slack消息、创建日历邀请、触发自动化工作流。权限越大,便利越大,事故面也越大。一个错误总结也许只会误导用户;一个错误API调用可能写入数据库、发出邮件、修改订单或暴露文件。
第三类风险是责任归属。传统软件里,如果用户点击“确认付款”,责任链相对清楚:用户操作、平台规则、支付记录、商家履约。AI代理介入后,链条变长。用户说“帮我处理一下”,模型理解为“发送这封邮件”,工具执行发送,收件人收到内容。若结果造成损失,责任该落在用户、应用开发者、模型提供商、插件服务商,还是部署这个系统的企业?2023年的公开资料还没有给出成熟答案。
第四类风险是错误的外部化。聊天机器人时代,模型幻觉通常停留在回答中;插件时代,幻觉可能被包装成行动理由。模型如果编造了一个不存在的约束,可能据此选择错误服务;如果误读用户偏好,可能生成错误参数;如果过度自信,可能在应当请求确认时继续执行。越是流畅的交互,越容易掩盖中间的不确定性。
对企业管理员来说,这个问题不抽象。一个新工具接入内部系统,不只是“能不能用”,还意味着谁能访问哪些数据、调用哪些接口、日志保存多久、员工离职后权限如何撤销、模型输出能否进入正式业务流程。对普通用户来说,问题也不抽象:当模型建议、代填、跳转、调用一步步靠近最终执行,人还是否真正理解自己确认了什么?
OpenAI在插件发布中采取小范围开放,正是因为这个系统需要逐步测试。[2] 但市场和开发者生态的速度往往快于安全工程。一个平台只要展示出“自然语言调用真实服务”的可能性,就会吸引更多开发者把工具接进来。每个接入都是功能,也是攻击面;每个自动化都是效率,也是责任链条。
行业的荒诞感再次出现:人们一边让模型访问最新网页,一边担心网页反过来命令模型;一边让模型替人调用工具,一边要求它在关键时刻像合规专员一样谨慎。这个矛盾不容易靠一句“人在回路中”解决。人在回路中也需要清晰界面、权限提示、审计日志、可解释记录和撤销机制。否则,人类只是被安排在模型即将按按钮前,匆忙读完一段它生成的理由。
七、按钮被交给模型
到2023年夏天,生成式AI竞争的范围已经明显扩大。
第一个阶段,比的是谁能做出让公众惊讶的聊天机器人。第二个阶段,比的是谁的模型更强。GPT-4用考试、代码、多任务和多模态能力,把公众叙事继续推向更高强度的能力竞赛。第三个阶段开始时,问题变成:强模型怎样连接外部世界?
插件、函数调用、Agent热潮共同给出了答案的雏形。
插件把ChatGPT推向平台。它连接第三方服务,让聊天框不再只是答案终点,而成为应用入口。函数调用把这种能力交给开发者,让模型成为业务系统和自然语言之间的调度层。Auto-GPT、BabyAGI等项目则把想象推到更远:模型不只是被动回答,而是围绕目标进行计划、行动和循环。
这条路线令人兴奋。它暗示软件界面可能发生变化。用户也许不必在十几个应用之间切换,不必学习每个系统的按钮,不必把需求拆成软件能理解的格式。用户说目标,模型找工具;用户给约束,模型填参数;用户要结果,模型整理过程。许多长期被复杂界面挡在外面的人,可能因此获得新的计算能力。
这条路线也令人不安。因为行动比语言更难治理。文本错误可以删除,错误订单要取消,错误邮件会被读到,错误API调用会留下状态,错误数据暴露无法简单收回。一个模型如果只是胡编,它是信息问题;一个模型如果能胡编之后调用工具,它就是系统问题。
于是,百模大战从一开始就不只是模型参数和榜单分数的比赛。模型公司争夺的不只是用户注意力,还有开发者、API、插件生态、企业数据、工作流入口和真实世界权限。谁的模型更强,固然重要;谁能让更多工具围绕自己建立接口,谁能让开发者把业务流程接到自己平台上,谁能定义安全确认和权限标准,同样重要。
这就是OpenAI在2023年3月23日打开的那道闸门的意义。
聊天机器人时代,用户把问题交给模型。插件时代,用户开始把按钮交给模型。按钮背后可能是网页、数据库、Python解释器、旅行服务、餐厅预订、购物车、企业聊天和自动化工作流。每一个按钮都让AI更有用,也让错误更昂贵。
当AI从语言系统变成行动系统,真正的问题不再是“它会不会回答”,而是:它凭什么行动?它能访问什么?谁批准?谁记录?谁负责?谁能撤回?
闸门已经打开。水流不是单向的赞歌,而是一股混合着效率、野心、风险和制度空白的洪水。接下来的竞争,将不只发生在模型实验室,也会发生在每一个API、每一个企业权限面板、每一个开发者框架和每一次“确认执行”的按钮上。
参考文献
- OpenAI Blog,“GPT-4”,2023-03-14。
- OpenAI Blog,“ChatGPT plugins”,2023-03-23。
- OpenAI Blog,“Function calling and other API updates”,2023-06-13。
- Yao et al.,“ReAct: Synergizing Reasoning and Acting in Language Models”,2022。
- GitHub,Significant-Gravitas/Auto-GPT,“Auto-GPT”,2023。
- GitHub,yoheinakajima/babyagi,“BabyAGI”,2023。
- Simon Willison,“Prompt injection attacks against GPT-3”,2022-09-12。
第7章|羊驼出逃:开源模型把护城河打成公路
一、没有发布会的扩散
2023年3月初,大模型世界发生了一件没有舞台、没有倒计时、没有直播间,却改变了行业路线的事。
一个原本需要申请才能获得的研究模型,突然出现在公开网络的下载链接、torrent和论坛讨论里。据《The Verge》3月8日报道,Meta不久前发布的LLaMA模型权重已经泄露到网上,并在开发者社区传播。[1] Motherboard也在3月7日报道了相关泄露事件。[2] 这不是一次官方发布。公开材料不能证明泄露者身份和动机,也不宜把它写成黑客传奇。能够确认的事实更朴素,也更关键:受控访问的边界被撞开了。
上一章写到的世界,是GPT-4式闭源能力带来的压迫感:最强模型在云端,外部开发者通过API、插件和产品界面接入能力,参数、训练细节、权重和主要安全策略都由公司掌握。那像一艘闭源巨舰。船体巨大,航线清晰,但外部人员拿到的是码头上的接口和使用规则。
LLaMA不同。它发布时并不是面向消费者的聊天产品,体量也不是当时行业叙事里最大的那一种。但它有一样东西非常具体:权重。权重不是一句宣传语,不是网页窗口,而是可以复制、保存、压缩、搬运、微调的文件。对软件行业来说,这种差别像租车和拿到发动机之间的差别;对AI行业来说,它像一只羊驼从栅栏里跑出来,后面跟着研究者、独立开发者、显卡玩家、创业团队和安全研究员。
行业荒诞感也在这里集中爆发。几周前,许多普通用户还在讨论ChatGPT会不会改写搜索、教育和办公室流程;几周后,开发者社区已经开始讨论如何在本地机器上运行一个基础大模型。闭源产品像一座管理严密的商场,入口、付款、监控、退货规则都在平台手里;开放权重则更像临时集市,摊位上摆着模型文件、量化教程、微调脚本、模型卡、许可证提醒和一堆“为什么我这张显卡跑不起来”的求助帖。
这并不意味着开放模型突然超越闭源模型。能力差距仍然存在,尤其在复杂推理、可靠性、多模态、安全对齐和产品化体验上。但权力结构第一次明显松动了。此前,大模型护城河常被归结为三样东西:算力、数据和模型权重。泄露事件之后,至少“权重”这一层不再像城墙,而像一条被车辙压出来的土路。很快,更多人会把它铺成公路。
二、Meta的门禁开放
要理解这次“出逃”的戏剧性,必须先回到2023年2月24日。那一天,Meta AI发布博客《Introducing LLaMA: A foundational, 65-billion-parameter large language model》。这不是一次面向消费者的炫技发布,也不是扎克伯格站在台上宣布一个新App。发布场在线上,由博客、论文、模型卡、代码页面和申请表单构成。
Meta在博客开头写道:“Today, we’re releasing a new state-of-the-art AI large language model called LLaMA, designed to help researchers advance their work in this subfield of AI.”——“今天,我们发布一个新的最先进AI大语言模型LLaMA,旨在帮助研究者推进这一AI子领域的工作。”[3]
这句话里的关键词不是“chatbot”,而是“researchers”。Meta当时把LLaMA定位为研究工具,而不是面向所有人的消费产品。博客还写道:“Smaller, more performant models such as LLaMA enable others in the research community who don’t have access to large amounts of infrastructure to study these models, further democratizing access in this important, fast-changing field.”——“像LLaMA这样更小、更高效的模型,使研究社区中那些无法获得大量基础设施的人也能研究这些模型,从而进一步使这个重要且快速变化的领域的访问民主化。”[3]
这段官方表述把一个长期矛盾摆到了台面上。基础模型越来越重要,但能从头训练、检查、复现实验的大型机构越来越少。对没有万卡集群的实验室、独立研究者和学生来说,最强AI系统常常只能通过论文、API和二手评测来理解。Meta给出的理由是:更小、更高效的模型能让更多研究者进入现场。
这里的“小”,当然是大模型语境里的小。LLaMA系列包括7B、13B、33B和65B四个规模,分别约为70亿、130亿、330亿和650亿参数。[3] 对普通软件开发者来说,70亿参数已经像一头机械鲸;对已经习惯千亿参数叙事的AI行业来说,它又显得像一只可以搬运的羊驼。
Meta和论文作者强调的另一个技术路线,是使用公开可得数据训练。LLaMA论文《LLaMA: Open and Efficient Foundation Language Models》写道,作者展示了“it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets”——可以只使用公开可得数据训练出最先进模型,而不依赖专有且不可访问的数据集。[4] 这句话对开源社区有强烈信号意义:大模型并非只能建立在完全不可见的数据黑箱之上。
但Meta的开放是受控开放。LLaMA 1发布时,权重需要申请,访问面向研究用途,申请对象包括学术研究者、政府、民间组织以及行业研究实验室等。[3] 换言之,Meta打开的是一道带门禁的研究通道,而不是公共广场。
冲突正发生在这里。制度设计里,权重可以通过申请表单、许可协议和研究社区规范来约束;技术现实里,权重一旦离开服务器,就具有软件文件的命运。文件可以复制。复制成本接近于零。申请表单可以筛人,许可协议可以约束可识别主体,研究社区可以形成伦理规则;但当模型权重在更广泛网络中传播,原本清晰的边界会迅速变成模糊地带。
Meta不是第一个相信开放研究能推动AI进步的公司,也不是第一个低估复制速度的组织。只是这一次发生在特殊时间点:ChatGPT已经证明对话模型有大众市场,微软和Google正围绕搜索入口展开竞赛,GPT-4即将以闭源方式登场。LLaMA发布时像一份研究材料;泄露之后,它成了行业叙事里的变量。
羊驼本来被放进研究社区,后来跑进了更大的世界。
三、文件逻辑战胜门禁逻辑
公开报道中的泄露事件,最值得写的不是具体传播路径,而是边界失守的速度。
据《The Verge》报道,LLaMA的权重文件在网上泄露后,开发者已经开始下载和使用这些文件。[1] Motherboard也报道了相关模型在网络社区传播的情况。[2] 对Meta来说,这不是计划内扩散;对许多开发者来说,这像是一扇门突然开了;对闭源阵营来说,这是一道安全警报;对监管者来说,这又提出了一个新问题:如果强模型可以像文件一样到处走,谁来负责?
这件事发生时,大模型行业还在用旧词汇描述新现实。人们说“开源”,但很多模型并不符合传统开源软件定义;人们说“发布”,但有些传播并非官方授权;人们说“社区”,但社区里混合了研究者、创业者、匿名账号、学生、工程师和纯粹围观看热闹的人。一个精密技术产业突然显得像早期互联网:README是路标,issue区是临时市政厅,论坛帖子是新闻社,显卡驱动和依赖冲突则是每个新居民必须缴纳的入城税。
LLaMA泄露改变了一个关键问题的答案:谁有资格实验?
在闭源API模式下,开发者的实验空间由模型提供方定义。价格、速率限制、模型版本、安全策略、上下文窗口、功能开关,都由平台控制。开发者可以在接口上创新,但无法真正拆开模型本身。它像在一条高速公路上开车,道路宽阔,但收费站、限速牌和施工通知都不由你决定。
开放权重则不同。拿到权重的人可以做微调、量化、蒸馏、剪枝、部署、评测、失败、重来。很多尝试粗糙,很多结果不稳定,很多许可证和数据来源问题让人皱眉。但速度惊人。过去需要大型实验室排期完成的事情,开始被拆成社区任务:有人整理指令数据,有人写微调脚本,有人做本地推理,有人补中文教程,有人提交模型卡,有人跑榜单,有人专门告诉大家某张消费级显卡到底能不能跑。
这就是大模型时代的第一次“硬件店时刻”。闭源公司提供经过包装的成品服务,开放社区突然涌入了零件、螺丝刀、改装说明和风险提示。兴奋与怀疑同时存在:一边是技术民主化的速度,另一边是安全、滥用、版权、隐私和许可证的混乱。
如果权重是护城河里的吊桥,那么3月初之后,吊桥没有完全放下,但已经有人把木板铺到了对岸。
四、Alpaca击穿成本神话
真正把这条路踩实的,是斯坦福。
2023年3月,斯坦福大学基础模型研究中心CRFM发布Alpaca项目。团队成员包括Rohan Taori、Ishaan Gulrajani、Tianyi Zhang、Yann Dubois、Xuechen Li、Carlos Guestrin、Percy Liang和Tatsunori B. Hashimoto等。项目博客题为《Alpaca: A Strong, Replicable Instruction-Following Model》。它的叙事几乎像一份实验报告:以Meta的LLaMA 7B为基础模型,用OpenAI的text-davinci-003生成指令跟随数据,再进行监督微调。[5]
这不是最大模型的故事,而是成本结构的故事。
Alpaca使用约52,000条instruction-following demonstrations,即指令跟随示例。[5] 这些数据由OpenAI API生成。斯坦福团队在博客中说明,数据生成成本不到500美元,微调成本不到100美元,总成本低于600美元。[5] 在一个动辄以千万美元训练成本、万张GPU集群和超级数据中心讲故事的行业里,“低于600美元”像一枚小石子砸在玻璃上,声音不大,但裂纹清楚。
必须收窄地说:这600美元左右不是从零训练一个顶级基础模型的成本,也不是完整研发、评估、安全、部署和运维的总成本。它指向的是一个具体实验:在已有LLaMA 7B基础上,生成指令数据并完成监督微调。预训练仍然昂贵,顶尖闭源模型仍然需要巨量算力。但Alpaca证明,一旦基础模型权重可得,把基础语言模型推向“能听懂指令、能像聊天机器人一样回应”的形态,门槛会突然下降。
这条链条由三段组成:基础模型提供语言和知识底座,指令数据提供交互格式,微调让模型学会用用户希望的方式回应。Alpaca的意义不只是一个模型,而是一个配方。基础模型、指令数据、微调脚本、评估样例、成本说明——每个部分都可以被拆开、替换、再组装。开放社区最擅长的不是一次性造出完美产品,而是把一个实验变成许多人可以改造的流程。
斯坦福团队也清楚边界在哪里。博客明确写道:“We emphasize that Alpaca is intended only for academic research and any commercial use is prohibited.”——“我们强调,Alpaca仅用于学术研究,禁止任何商业用途。”[5] 这句话把早期开源大模型生态的尴尬暴露出来:技术上,许多人可以复现;许可证上,许多用途不能做;商业上,所有人又都看见了机会。
对普通研究生和小团队来说,这种变化尤其具体。以前,他们可以读论文、调API、写评测,却很难真正把一个基础模型改造成自己的实验对象。Alpaca之后,问题变成了另一组更工程化、更琐碎的问题:数据怎么来,脚本能不能跑,显存够不够,许可证是否允许,评测是否可信,demo上线后成本会不会爆炸。这些问题不像宏大战略,却是技术扩散真正经过的地面。
Alpaca还有一个短暂而典型的插曲。斯坦福曾上线在线演示,随后项目方关闭了交互式demo,并在项目材料中提示了学术研究用途和限制。[5] 这不是简单的失败,而是2023年开放模型现实处境的缩影:模型能力足以吸引大量用户,但安全评估、滥用防范、服务器费用和法律边界很快会追上来。开放带来的不是免费午餐,而是把厨房打开,让更多人看见炉火、刀具、账单和消防隐患。
Alpaca之后,“训练一个聊天模型需要多贵”这个问题不再能用旧口径回答。护城河没有消失,但河上开始出现便桥。
五、Vicuna、Koala与集市开张
Alpaca之后,羊驼家族开始变得拥挤。
2023年3月30日,LMSYS发布Vicuna项目,标题本身就很会在互联网传播:《Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality》。按项目博客说法,Vicuna-13B基于LLaMA微调,使用来自ShareGPT的用户共享对话数据;团队用GPT-4作为评判者进行初步评估,并称Vicuna-13B达到ChatGPT质量的90%左右;训练成本约300美元。[6]
这里需要谨慎。这个“90%”是项目方在特定评估设置下的传播性表述,不应被当作普遍、无条件、经过行业共识确认的能力排名。用GPT-4评估聊天模型,本身就是2023年大模型行业的荒诞一幕:一个闭源强模型坐在评委席上,给开放模型打分;开放模型再拿这个分数说明自己接近闭源模型。它像一场由冠军兼任裁判的比赛。
可是,荒诞不等于没有信息量。它说明当时社区急需评估方法,而传统NLP基准无法完整覆盖聊天体验。于是,行业在不完美中前进:先用能用的尺子量,再争论尺子歪在哪里。
4月,伯克利人工智能研究实验室相关团队发布Koala,一个面向学术研究的对话模型。项目博客写明Koala基于LLaMA微调,并使用从网络收集的对话数据进行训练。[7] 从Alpaca到Vicuna再到Koala,模式越来越清楚:基础模型泄露或开放之后,真正爆发的是“模型改装业”。每个团队都可以选择不同数据、不同训练策略、不同评测方式,给同一只羊驼剪出不同发型。
与此同时,工具链也在补齐。llama.cpp项目在GitHub上出现,用C/C++实现LLaMA推理,并很快与本地运行、量化和消费级硬件讨论联系在一起。[8] 量化模型把参数用更低精度表示,牺牲一部分精度,换取更低内存占用和更容易部署。对云端大模型来说,这也许只是工程优化;对个人开发者来说,这关系到模型能不能塞进自己的机器。AI行业突然出现了极具生活气息的问题:这台Mac能不能跑?这张显卡够不够?内存爆了怎么办?下载一夜断线算不算人生挫折?
这时,Hugging Face成了集市。
它不是单纯代码仓库,也不是传统论文网站,而是模型托管、数据集、模型卡、讨论区、下载、Space演示和排行榜的混合体。Open LLM Leaderboard把ARC、HellaSwag、MMLU、TruthfulQA等基准放在公开表格上,让不同开放模型可以被比较。[9] 排行榜不能代表全部能力,尤其不能完整衡量安全、长上下文、工具使用、复杂推理、中文能力和真实产品体验。但排行榜有一种行业魔力:它把抽象能力变成数字,把数字变成传播,把传播变成下一轮迭代的燃料。
集市的热闹不只在模型名上。那里还有教程、模型卡、许可证提醒、显存需求、量化版本、LoRA权重、微调脚本、评测结果和无尽的“这个模型为什么在我机器上跑不起来”。如果闭源巨舰给人的感觉是庄严、昂贵、不可接近,那么这个集市给人的感觉就是嘈杂、便宜、混乱、充满创造力,还经常有人把招牌写错。
行业的重心也在这里发生变化。竞争不再只是“谁的模型最大”,而是“谁迭代更快”“谁部署更方便”“谁更容易复现”“谁有更清楚的许可证”“谁有更活跃的社区”“谁能在有限硬件上跑出可接受效果”。在闭源路线里,能力常常被封装成服务;在开放权重路线里,能力被拆成生态。
这不是乌托邦。开放模型同样可能胡说八道,同样可能输出有害内容,同样可能继承训练数据中的偏见,同样可能被用于垃圾信息、诈骗脚本、恶意自动化和其他滥用场景。区别在于,问题暴露的位置变了。闭源模型的问题往往发生在公司黑箱和用户界面之间;开放模型的问题则散落在每个下载、微调、部署和转发节点上。安全从一家公司内部的流程,变成整个生态的共同债务。
六、开源这个词的混乱
2023年春天以后,“开源大模型”成了一个被频繁使用、但并不总是精确的词。
严格地说,开放权重、开放代码、开放数据、开放训练过程、开放许可证,是不同层级。许多被行业称为开源的大模型,只开放了权重或推理代码,没有完整开放训练数据和训练过程;有些允许研究使用,不允许商业使用;有些允许商业使用,但设置规模限制或可接受使用政策。传统开源软件世界里,“源代码”是核心;大模型世界里,权重、数据、训练配方和对齐流程共同构成能力来源。只拿到其中一部分,并不等于拿到全部。
因此,本章的“开源”更接近当时行业语境里的广义说法:模型不再只以API黑箱方式存在,至少部分权重、代码和工具链进入公共开发者生态。这个区分重要,因为它决定了权力如何转移。
开放权重削弱了模型提供方对使用方式的控制。开发者可以本地部署,不必把所有数据发给云端API;企业可以在私有环境中试验,减少对单一供应商的依赖;研究者可以检查模型行为,设计新的评测和安全方法;创业者可以在基础模型之上快速做垂直应用。对许多人来说,这是一种自由。
但同一件事从另一侧看,是风险扩散。模型一旦被复制,撤回很难;许可协议可以追责合规主体,却难以阻止匿名传播;安全对齐可以发布推荐版本,却无法保证所有人都使用安全版本;开放社区可以发现漏洞,也可能放大漏洞。行业在这里遇到一个古老软件问题的新版本:开放带来审查和创新,也带来复制和滥用。只是在大模型时代,被复制的不再只是代码,而是能生成代码、文本、图片提示、社会工程话术和自动化流程的能力。
闭源公司因此有自己的论点:强模型需要集中安全测试、滥用监控、红队评估和迭代控制。这个论点并非毫无道理。闭源路线的核心承诺,是把能力释放和风险控制绑定在同一套系统里。上一章写到插件和工具调用时,这种集中控制已经成为平台化的一部分。
开放社区的反论点同样有力:如果最强模型永远掌握在少数公司手中,社会如何监督?研究者如何复现?中小企业如何避免被平台锁定?安全问题是否只能由模型所有者定义?当AI成为通用基础设施,把底层能力封在黑箱里是否会制造新的垄断?
2023年春天,这些问题没有答案,只有实验。Alpaca、Vicuna、Koala、llama.cpp、Hugging Face排行榜和无数模型卡共同构成了一次大型社会技术实验。实验的结论不是“开源必胜”,也不是“闭源更安全”。更准确地说,大模型行业从单一路线变成了双路线。闭源巨舰继续向前,开放公路也开始通车。
这条公路的路面并不平整。上面有许可证坑、数据版权坑、安全坑、评测幻觉坑、显存坑、依赖冲突坑。但它毕竟是路。路一旦出现,后来者就会问:能不能修得更宽?能不能收费?能不能限速?能不能通向我的市场?
七、Llama 2:野火变成战略
2023年7月18日,Meta给出了自己的回答。
这一天,Meta发布Llama 2,并宣布与微软合作。Meta博客标题是《Meta and Microsoft Introduce the Next Generation of Llama》。官方写道,Llama 2可免费用于研究和商业用途。[10] 这与2月的LLaMA 1有明显不同:LLaMA 1是受控研究访问,Llama 2则以更明确的开放权重和商业许可进入生态。
扎克伯格当天在公开发布中写道:“Open source drives innovation because it enables many more developers to build with new technology.”——“开源推动创新,因为它让更多开发者能够基于新技术进行构建。”[11] 这句话把Meta的叙事从“帮助研究社区”推进到“构建生态”。同一只羊驼,不再只是研究对象,而成了平台战略的一部分。
Llama 2系列包括7B、13B和70B三个参数规模。[12] 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》显示,Llama 2预训练使用约2万亿tokens,并发布了基础模型和聊天微调模型。[12] Meta还配套发布模型卡、可接受使用政策和责任使用指南。换句话说,Meta不是简单把文件扔到网上,而是试图把开放权重包装进一套治理框架。
微软的出现让这件事不再像边缘社区运动。微软博客宣布,在Azure和Windows生态中支持Llama 2,开发者可以通过Azure AI模型目录等方式使用它。[13] 几个月前,开放社区还在追逐泄露权重和本地运行教程;几个月后,巨头把开放模型放进云服务货架。公路不仅通车,还开始有服务区、官方路牌和云端入口。
Meta的选择也有商业逻辑。它没有像OpenAI那样把最强模型能力完全封装为API,也没有像Google那样把AI与搜索和云业务深度捆绑。Meta的核心业务是社交网络和广告,它对开发者生态、研究声誉和基础设施影响力有自己的需求。开放Llama 2,可以让更多公司、研究者和创业团队围绕Meta模型构建工具链,从而把Meta推到开放大模型生态的中心位置。开源在这里既是理念,也是战略;既是研究传统,也是平台竞争手段。
当然,Llama 2的“开放”也不是没有条件。其许可文件包含可接受使用政策,并对特定超大规模平台设置额外许可要求。[14] 它不是把全部训练数据、训练代码和中间过程完整公开,也不是放弃所有控制。它更像一种折中:开放权重,允许广泛商业使用,同时保留部分边界。这种折中后来会成为许多公司效仿的模板:既要社区速度,又要法律护栏;既要开放声誉,又要战略控制。
从2月到7月,路线完成了转换。LLaMA 1以研究访问开始,泄露让它变成野火;Alpaca和Vicuna证明野火能点燃一片实验田;Hugging Face和本地工具链把实验田变成集市;Llama 2则把这场混乱重新收编进巨头战略。
开放模型把护城河打成公路,但公路最终也会有人修站、画线、立广告牌。
八、公路通向哪里
到2023年夏天,大模型行业第一次形成清晰的双重景观。
一边是闭源巨舰。GPT-4代表着更强能力、更复杂安全系统、更高产品化水平,也代表更深黑箱、更强平台依赖和更高使用成本。它像一座云端电厂,开发者接入电网,用多少付多少,但无法进入机房。
另一边是开放公路。LLaMA、Alpaca、Vicuna、Koala、Llama 2和后续无数模型,让研究者和开发者拿到低成本试验门票。它们不一定最强,却可以被复制、微调、量化、部署、比较、批评和改造。它们把大模型从少数公司的产品线,拆解成整个生态的工程材料。
这种变化带来的真正问题,不是“开源会不会消灭闭源”。历史很少这么简单。更好的问题是:当模型权重不再是唯一护城河,真正稀缺的东西会变成什么?
可能是算力。预训练顶级模型仍然昂贵,推理成本在大规模产品中也会变成硬账单。可能是数据。高质量、合规、持续更新、领域化的数据会越来越重要。可能是分发。谁掌握用户入口,谁就能把模型能力变成产品收入。可能是安全能力。模型越容易获得,越需要更成熟的评测、监控、红队和治理。也可能是开发者生态。谁让开发者更容易构建、部署和赚钱,谁就能成为新基础设施的中心。
对时代中的个体来说,这条公路的意义并不抽象。研究者获得了新的复现实验对象;独立开发者第一次能把大模型塞进自己的机器;小公司可以在巨头API之外设计备选方案;安全研究员也不得不面对更分散、更难回收的模型能力。每个人都多了一点自由,也多了一点债务。
2023年的答案还未定型,但方向已经改变。护城河没有消失,只是被重新分配。过去,护城河围着模型权重;现在,公路穿过权重,通向算力、数据、产品、安全和生态。
这条公路很快会越过太平洋。中国公司、创业者、高校实验室和云厂商会迅速加入大模型发布会季。开放权重降低了入场门槛,也提高了竞争速度:模型可以更快推出,榜单可以更快刷新,创业故事可以更快讲完,泡沫也可以更快长大。
羊驼出逃之后,世界没有变得简单。它只是变得更热闹、更便宜、更危险,也更难被少数闸门完全关住。
参考文献
- The Verge,James Vincent,“Meta’s powerful AI language model has leaked online — what happens now?”,2023-03-08。
- Vice / Motherboard,Joseph Cox,“Meta’s Powerful AI Language Model Has Leaked Online”,2023-03-07。
- Meta AI Blog,“Introducing LLaMA: A foundational, 65-billion-parameter large language model”,2023-02-24。
- Touvron et al.,“LLaMA: Open and Efficient Foundation Language Models”,2023-02。
- Stanford CRFM,“Alpaca: A Strong, Replicable Instruction-Following Model”,2023-03。
- LMSYS Blog,“Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality”,2023-03-30。
- Berkeley Artificial Intelligence Research Blog,“Koala: A Dialogue Model for Academic Research”,2023-04-03。
- GitHub,ggerganov,“llama.cpp”,2023-03。
- Hugging Face,“Open LLM Leaderboard”,2023。
- Meta Blog,“Meta and Microsoft Introduce the Next Generation of Llama”,2023-07-18。
- Mark Zuckerberg,Facebook public post on Llama 2 open source,2023-07-18。
- Touvron et al.,“Llama 2: Open Foundation and Fine-Tuned Chat Models”,2023-07。
- Microsoft Blog,“Microsoft and Meta expand their AI partnership with Llama 2 on Azure and Windows”,2023-07-18。
- Meta,“Llama 2 Community License Agreement”,2023-07。
第8章|北京、杭州、深圳先后开火:中国大模型的发布会季
一、北京的第一枪
2023年3月16日,北京,百度把“中国有没有自己的ChatGPT”这个问题搬上了舞台。
在此之前,答案一直散落在论文、实验室、融资新闻和公司战略口号里。前几章已经写过,ChatGPT把聊天框变成了全球技术竞赛的入口;GPT-4又在3月14日把能力坐标向上推了一格。两天后,百度发布文心一言。这个时间差让发布会天然带着压力:它不只是在介绍一个产品,而是在接受一次行业公开测验。
按照百度当天发布的官方材料,文心一言展示了五类能力:文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。[1] 这些能力名称并不陌生。过去几年,“预训练模型”“知识增强”“自然语言处理”“多模态”已经反复出现在技术白皮书和产业论坛里。但2023年春天,公众的检验方式变了。观众不再满足于听一家公司解释技术路线,他们等待的是一个更直接的结果:输入一句话,模型能否给出像样回答。
百度给文心一言安排的叙事并不是“突然出现的聊天机器人”。官方材料称,文心一言是基于百度文心大模型技术推出的生成式AI产品,百度也把它放进搜索、智能云、自动驾驶、办公、内容生产等更长的产品线里解释。[1] 这符合百度的历史位置。百度的AI故事不是从ChatGPT之后才开始,它有搜索、知识图谱、语音识别、飞桨深度学习平台、Apollo自动驾驶和百度智能云这些长期积累。发布会的任务,是把这些积累重新组织成一个面向公众的新名字:文心一言。
但大模型发布会的难处正在这里。技术积累是一种慢证据,发布会却是快审判。观众不会在会场里重新阅读模型论文,也不会从2019年的ERNIE演进史开始耐心追溯。ChatGPT已经把用户教育完成了:一个聊天窗口,一段自然语言,一个等待中的光标,就足以形成判断。对许多普通用户来说,“能不能用”比“从哪里来”更重要。
李彦宏在台上按模块展示。文学创作对应文本生成,商业文案对应营销和办公,数理逻辑对应推理能力,中文理解对应本土语义和文化知识,多模态生成则把想象扩展到文本与图像等形态之间。发布会每进入一个模块,实际都在回答同一个问题:中国公司能否把大语言模型从研究项目推向公众产品。
这也是中国大模型发布会季的发令枪。它不是一个手机新品,不是一次搜索改版,也不是一场云服务升级。文心一言一出现,就被放进ChatGPT和GPT-4的参照系里。投资者、媒体、开发者、企业客户、同行公司都在等。每个人手里都有一把尺子,但尺子的刻度并不一样:投资者看增长叙事,开发者看接口和能力,企业客户看能否落地,普通用户看回答是否像人,监管部门看服务边界。
百度抢在了最前面,也因此最先承受了所有人的测量。
二、演示之后,股价先说话
发布会结束后,百度同时得到两个标签。
第一个标签是“第一枪”。在中国主要互联网公司中,百度是最早以正式发布会正面推出对标ChatGPT产品的大厂之一。这个位置很重要。2023年春天,大模型成了科技公司必须回答的时代问题。谁迟迟不回答,谁就会被怀疑掉队;谁先回答,谁就能抢到叙事中心。
第二个标签是“未完成”。路透社在发布会当天报道,百度展示文心一言时使用了预录演示,投资者对展示形式和产品成熟度反应谨慎,百度港股盘中一度下跌近10%。[2] 彭博社同日也报道,发布会没有完全满足部分投资者对实时互动演示的期待。[3] 这些报道不能被简化成“百度失败”。资本市场价格从来不是单一变量的温度计,发布会表现、市场预期、科技股情绪和投资者风险偏好都会同时进入价格。但它们确实记录了一个事实:第一枪打响之后,最先响起的回声不是掌声,而是交易屏幕上的曲线。
这就是先发者困境。太早发布,产品会被拿来和刚刚震动世界的GPT-4比较;太晚发布,又会被质疑没有能力正面参赛。大模型不像手机。手机发布会可以展示芯片、屏幕、影像、续航、价格,用户有成熟的比较框架。大模型的能力边界更滑:一个问题答得好,不能证明模型可靠;一个问题答得差,却足以成为传播广泛的截图。企业倾向于控制演示,市场又把“控制演示”解释为“不够成熟”。
发布会季的行业荒诞感也在这里浮现。过去十年,中国互联网公司常被说成擅长把小功能做成大舞台。到了大模型时代,舞台真的变成压力测试。CEO在台上展示几行回答,屏幕后面却是训练数据、GPU集群、推理延迟、内容安全、提示词工程、产品接入、云服务计费和合规流程。观众看到的是一句生成文本,企业背后要调度的是一套工业系统。
百度后续并没有停在3月16日。发布会之后,文心一言以邀请测试和企业合作等方式推进。到2023年8月31日,百度宣布文心一言向全社会开放,用户可以通过官网和应用商店下载体验。[4] 这个日期已经在《生成式人工智能服务管理暂行办法》施行之后,意味着文心一言从发布会展示走向公开服务时,还要跨过制度边界。
因此,3月16日更适合被写成一个显影时刻,而不是胜负判决。百度把中国大模型的焦虑显影出来,也把抢跑的代价显影出来。先发者得到声量,也先得到质疑;先把牌摊开,也先接受所有人的挑剔。
对百度内部的工程师、产品经理和云业务销售来说,发布会之后的工作并不会随着灯光熄灭而结束。公开材料能看到的是产品开放、生态合作和能力迭代;看不到但可以由产业逻辑确认的是,大模型从演示走向服务,需要不断处理延迟、成本、幻觉、安全、客户需求和灰度开放。发布会是一个时点,产品化是一条长坡。
三、阿里云的答案:模型落进云和办公桌
不到一个月后,阿里给出了另一种答案。
2023年4月11日,阿里云在阿里云峰会上发布通义千问。阿里云官方英文新闻稿标注的地点是北京。[5] 这一点需要写清楚:不能因为阿里巴巴的总部在杭州,就把发布会现场写成杭州。但杭州仍然是这场发布的产业腹地。阿里的电商、云计算、钉钉、智能硬件和商家服务体系,长期从杭州向全国外延。北京台上发布的模型,背后连接的是一个从杭州生长出来的商业生态。
张勇当时担任阿里巴巴集团董事会主席兼CEO,并兼任阿里云智能集团CEO。阿里云官方新闻稿中引用张勇的话:“We are at a technological watershed moment driven by generative AI and cloud computing.”[5] 这句话把阿里的路线讲得很清楚:生成式AI不是孤立的聊天产品,它和云计算一起构成新的技术分水岭。
百度的路线更容易被理解为从搜索、知识和信息入口出发:用户提出问题,模型给出回答,背后连接搜索、知识库和内容生态。阿里的路线则首先落在云和企业应用:模型不只是站在舞台中央,它要被接进钉钉、天猫精灵、阿里云和商家工具。
阿里云官方材料称,通义千问将接入阿里巴巴旗下产品,并首先进入钉钉和天猫精灵等场景。[5] 钉钉代表办公桌。会议纪要、邮件草拟、商业方案、应用生成、流程协同,这些场景没有“AI写诗”那样适合传播,却更接近企业付费。企业用户并不总是需要模型一次回答惊艳世界,他们更关心它能否少开一次会、少写一封重复邮件、少整理一份纪要、少问一次流程入口。
天猫精灵代表家庭和硬件入口。智能音箱曾经承载过一轮“语音助手改变人机交互”的想象,但在大模型之前,多数语音助手仍停留在天气查询、播放音乐、家居控制和固定技能调用。通义千问接入后,阿里希望让语音助手具备更强的对话和生成能力。[5] 这条路的难处也明显:家庭硬件要求响应稳定、内容安全、延迟可控,不能像网页聊天那样允许用户反复试错。
阿里发布通义千问时,集团刚经历组织结构调整。2023年3月,阿里巴巴宣布启动“1+6+N”组织变革,设立阿里云智能、淘宝天猫商业、本地生活、菜鸟、国际数字商业、大文娱等业务集团。[6] 在这个背景下,通义千问不只是一个模型,也是一种战略证明:如果大模型成为企业数字化的新底座,云厂商就不能只卖服务器、数据库和带宽,还要卖模型能力、推理服务、行业解决方案和开发工具。
同一天,另一条线也出现了。2023年4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,向社会公开征求意见。[7] 一边是阿里云宣布大模型进入办公、硬件和云服务,另一边是监管部门开始为生成式AI服务划线。发布会季从这一天起有了清晰的双线叙事:企业说“能力会进入所有产品”,监管说“服务必须有边界”。
这不是偶然碰撞。大模型越像基础设施,就越不可能只由发布会定义。它进入办公、教育、客服、营销、政务和家庭时,会处理用户输入,会生成影响判断的内容,会嵌入企业流程。云厂商尤其如此:一旦模型以API、私有化部署或行业方案形式服务客户,责任就不只在“模型能不能回答”,还在客户如何调用、数据如何存储、结果如何分发、风险如何追溯。
百度和阿里在春天给出了两种中国式路线。百度抢下公共叙事,阿里把模型压进云和办公生态。一个更像回答“我们有没有自己的ChatGPT”,一个更像回答“ChatGPT式能力怎样变成企业工具”。两种答案都还不完整,但都足以把更多公司推向牌桌。
四、没有舞台的发布会:ChatGLM与百川
发布会季不只发生在酒店会场、峰会舞台和直播间。2023年春夏,另一类发布会发生在GitHub页面、模型仓库、技术报告和开发者社区里。
智谱AI与清华大学技术团队THUDM推出的ChatGLM-6B,是这一阶段最受关注的国产开源模型之一。项目GitHub页面介绍,ChatGLM-6B是一个开源、支持中英双语问答的对话语言模型,参数规模约62亿;项目也说明可通过量化等方式降低本地部署门槛。[8] 对许多开发者来说,这类模型的意义不在于舞台演示,而在于能否下载、能否运行、能否微调、能否接入自己的应用。
这是一种完全不同的发布会体验。大厂发布会讲生态、合作伙伴和未来愿景;开源仓库讲环境配置、显存需求、推理脚本、许可证、已知问题和提交记录。前者面向镜头,后者面向终端窗口。前者讲“将全面接入”,后者讲“依赖安装失败”和“CUDA out of memory”。行业荒诞而真实的一面是:很多开发者判断一个模型能不能用,第一步不是看CEO讲话,而是看自己手里的显卡会不会爆显存。
ChatGLM-6B把大模型从少数云端巨舰拉近到实验室、创业团队和个人电脑。它不意味着“人人都能训练基础模型”,也不能被夸张成“开源追平闭源”。它的意义更具体:让中文对话模型变成可以下载、运行、测试和改造的软件工程对象。对高校学生、独立开发者、小公司技术负责人来说,这种可接触性本身就是生产力。一个本地模型也许回答不如闭源旗舰稳定,但它可以离线试验,可以接企业私有数据,可以被拆开调参,可以在issue区被公开抱怨。
同一时期,王小川创立的百川智能进入牌桌。王小川曾长期担任搜狗CEO,他的职业履历与中文搜索、输入法和问答技术紧密相连。2023年4月,百川智能成立;6月,百川发布Baichuan-7B开源模型。官方发布材料称,Baichuan-7B参数规模为70亿,训练数据量约1.2万亿tokens,支持中英文,并开放用于研究和商业用途。[9] 9月,百川又发布Baichuan 2系列模型,技术报告披露其包括70亿和130亿参数规模版本,训练数据量约2.6万亿tokens。[10]
从搜狗到百川,这条转身具有时代意味。搜索引擎曾经是互联网信息入口,输入法曾经是中文用户表达入口。ChatGPT之后,自然语言界面被重新想象成软件入口。王小川进入大模型创业,不只是个人职业选择,也是旧信息入口向新智能入口迁移的缩影。
开源成为关键词,但“开源”本身并不简单。2023年的大模型社区里,开源至少有三层含义:代码是否开放,模型权重是否开放,商业使用是否被许可。不同项目在许可证、商用限制、数据披露和安全责任上的做法并不相同。对中国团队而言,开源还有一层现实意义:在最强闭源模型不可见、海外API可得性和成本存在不确定性、企业客户又常常要求私有化部署的情况下,一个能本地运行、能微调、能审计的模型,可能成为实际采购中的重要选项。
GitHub于是变成另一种发布会场。README像产品说明书,技术报告像成绩单,issue区像售后现场。有人报告部署问题,有人比较显存占用,有人追问许可证,有人提交推理脚本。大模型从实验室成果变成可下载、可复现、可抱怨的软件项目。舞台灯光不在,围观者也不再鼓掌;他们复制命令,等待进度条,然后在报错信息里判断时代是否真的来了。
五、创业公司的窄门
2023年春夏,中国大模型创业公司得到一种罕见待遇:刚成立不久,就被拿来和全球最强技术公司比较。
智谱、百川之外,MiniMax、月之暗面、零一万物、阶跃星辰等公司陆续成为资本和媒体关注对象。它们面对的并不是单一技术题,而是一组同时压来的约束:融资、人才、GPU、数据、产品、分发和合规。
首先是算力。大模型训练需要高端GPU、稳定集群、工程调度和持续资金。2022年10月,美国商务部工业与安全局发布针对先进计算芯片和半导体制造相关项目的出口管制规则,限制部分先进计算芯片及相关技术向中国出口。[11] 到2023年,这已经成为中国AI公司无法绕开的背景条件。大厂可以依靠多年采购、云资源和资本开支建立算力池;创业公司则必须在融资节奏、训练计划和推理成本之间反复权衡。
其次是数据。中文大模型不是把英文互联网语料翻译一遍就能解决。中文互联网有自己的结构:百科、问答、论坛、网文、电商评论、政务文本、教育资料、短视频字幕、企业文档。数据越贴近场景,越可能涉及版权、隐私和授权;数据越干净,规模越难堆;数据越大,清洗成本越高。发布会上“训练了多少tokens”是一行数字,工程里则意味着采集、去重、过滤、标注、评估和安全处理。
再次是产品。ChatGPT给行业带来一个强烈诱惑:只要模型足够强,一个聊天框就可能成为超级入口。但中国创业公司很快面对更朴素的问题:谁付钱?个人用户愿不愿意订阅,企业客户愿不愿意试点,私有化部署能不能交付,API调用收入能不能覆盖推理成本。大模型创业不是只比模型分数,还比销售、交付、现金流和客户成功。
最后是合规。大模型不是普通App。它会生成政治、医疗、法律、教育、金融等敏感内容,会处理用户输入,可能连接企业知识库,也可能输出错误建议。一个幻觉回答,放在聊天截图里是笑话;放进客服、投研、政务或医疗场景里,就是事故隐患。
这让中国的大模型创业呈现出一种奇特景象:公司成立时讲AGI,融资材料里讲基础模型,客户现场谈知识库和客服机器人,法务合规问数据授权、内容安全和备案流程。几种时间尺度叠在一起——十年技术愿景、三年资本周期、一个季度的产品交付、当天必须修掉的安全问题。
海外开源也持续施压。2023年7月,Meta与微软宣布推出Llama 2,并称其可免费用于研究和商业用途,具体使用仍受许可证约束。[12] 这迅速成为全球开源大模型生态的重要节点。对中国团队来说,这既是参考,也是压力。全球社区每天都在更新权重、微调方法、推理框架和评测结果,任何一家公司的发布会热度都很快会被下一次模型更新稀释。
创业公司的窄门因此非常具体。门的一边是巨大的想象力:自然语言可能重构软件、搜索、办公和行业知识。门的另一边是坚硬的约束:芯片买不到最想要的,数据不能随便用,模型会胡说,客户要效果,监管要责任,投资人要进度。2023年春夏,中国创业公司进入牌桌,但牌桌并不平整。
在这张牌桌旁,个体的位置也在变化。独立开发者开始把周末项目改成“接一个国产模型试试”;企业信息化负责人被老板要求研究“公司能不能上大模型”;售前工程师要把模型能力翻译成客户听得懂的业务流程;合规人员则要把“生成式AI”拆成个人信息、版权、算法备案和内容安全。时代的宏大词汇,最后都落到具体的人手里,变成命令行、采购单、测试报告和风险清单。
六、监管的另一只手
如果说3月16日百度发布文心一言是企业竞速的发令枪,那么7月13日公布的《生成式人工智能服务管理暂行办法》,就是发布会季的另一只手。
2023年7月13日,国家互联网信息办公室、国家发展和改革委员会、教育部、科技部、工业和信息化部、公安部、国家广播电视总局联合公布《生成式人工智能服务管理暂行办法》,自2023年8月15日起施行。[13] 这是中国针对生成式AI服务的重要制度文件。它把发布会上的宏大叙事,拆成服务提供者必须承担的具体义务。
《暂行办法》规定,利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务,适用该办法。[13] 这个范围很关键:面向社会公众开放的生成式AI服务,与企业内部研发、非公众服务,并不完全处在同一监管强度下。国家网信办有关负责人答记者问时称,《暂行办法》坚持发展和安全并重、促进创新和依法治理相结合。[14]
制度边界主要落在几类问题上。
第一,内容安全。生成式AI服务提供者需要依法承担网络信息内容生产者责任,采取有效措施防止生成违法不良信息。[13] 大模型不是传统搜索结果列表,它会以更像“回答”的方式输出内容。用户往往把回答当作整理后的结论,这种形态放大了服务提供者的责任。
第二,训练数据合规。《暂行办法》要求开展训练数据处理活动时遵守法律法规,涉及个人信息的应当依法取得个人同意或者符合法律、行政法规规定的其他情形,涉及知识产权的不得侵害他人合法权益。[13] 这直接触及大模型训练的底层燃料。过去互联网产品常把数据当作增长资源,大模型时代则必须回答数据从哪里来、有没有授权、能不能用于训练、是否包含个人信息。
第三,安全评估和算法备案。对于具有舆论属性或者社会动员能力的生成式人工智能服务,提供者应当按照国家有关规定开展安全评估,并履行算法备案、变更和注销备案手续。[13] 这意味着模型上线不只是工程发布,还包括制度流程。发布会上的“即将开放”,在现实中要经过备案、测试、灰度、风控和持续监测。
第四,用户权益和未成年人保护。生成式AI服务进入教育、娱乐、社交和办公场景后,用户可能分不清内容来自人还是机器,也可能把模型输出当成专业建议。监管要求服务提供者建立投诉举报机制、保护个人信息、采取措施提升生成内容准确性和可靠性。[13] 这些要求并不华丽,却决定了大模型能否从演示走向日常服务。
监管没有让发布会季停止,反而改变了竞争维度。2023年8月31日,百度宣布文心一言向全社会开放。[4] 这说明制度边界形成后,企业仍在推进产品;但推进方式已经不同。模型能力、产品体验、内容安全、备案状态和企业责任,成为同一张成绩单上的不同科目。
从这以后,中国大模型公司不能只问“参数多少、榜单第几、能不能写诗”。它们还要问:训练数据能否解释,输出风险能否控制,企业客户能否私有化部署,面向公众的应用能否完成备案,生成内容出了问题谁负责。监管不是赛道之外的障碍物,而是赛道本身的一部分。
七、发布会季结束,真正的竞争开始
到2023年夏末,中国大模型发布会季已经完成第一轮显影。
北京有百度抢先开火,也有监管部门划出边界;杭州作为阿里生态腹地,把大模型拖进云、办公、电商和硬件系统;深圳的牌则在稍晚时候亮到桌面上。2023年9月7日,腾讯在全球数字生态大会上正式发布混元大模型。[15] 这个时间已经越过春夏发布会季,但它说明同一轮行业压力仍在向前传导。所谓“同日开火”更接近当时的行业体感,而不是严格日历事实:每家公司都像被同一声枪响催促,只是扣动扳机的日期不同。
第一轮竞争比的是谁敢发布,第二轮竞争比的是谁能持续迭代,第三轮竞争比的是谁能真正用起来。
“用起来”比“发布出来”困难得多。办公场景要求模型理解组织流程,客服场景要求低成本和低幻觉,搜索场景要求事实准确和来源可追溯,教育场景要求安全和因材施教,政务场景要求稳定、可控和责任清晰,工业场景要求接入真实数据和业务系统。模型回答一句话很容易,进入流程很难;生成一段文案很容易,承担业务结果很难。
发布会季也让一个事实变得清楚:中国大模型不会简单复制OpenAI路线。美国市场有OpenAI、微软、Google、Anthropic,也有Meta推动开源生态;中国市场则叠加了云厂商竞争、超级App生态、企业私有化需求、本土数据、国产算力和监管备案。每家公司都说自己在做基础模型,但真正的护城河可能出现在完全不同的地方:搜索入口、办公软件、云服务合同、行业知识库、智能硬件、开发者生态,或者合规交付能力。
这不是令人泄气的结论,反而更接近产业真实。技术革命从来不是只由一次演示决定。蒸汽机不是在第一次轰鸣时改变世界,电力不是在第一次点灯时改造工厂,互联网也不是在第一个网页出现时完成商业化。大模型发布会季的意义,在于它把中国公司推入同一条河流:每个人都知道对岸有GPT-4,每个人也都知道脚下有自己的泥沙、石头和暗流。
兴奋与怀疑必须同时保留。兴奋来自模型确实展示了新的软件形态:人可以用自然语言调动工具、文档、知识和流程。怀疑来自同样坚硬的事实:模型仍会幻觉,算力仍受限制,数据仍有边界,商业化仍需验证,监管仍会持续演进。
3月16日,百度在北京打响第一枪;4月11日,阿里云把通义千问放进云和办公生态;春夏之间,智谱、百川等创业公司把模型仓库变成另一种发布会;7月13日,监管文件把竞赛规则写进制度文本;9月,腾讯混元把深圳的火线推到公众面前。发布会季结束后,中国大模型行业从“谁先发布”转向“谁能被每天使用”。
下一枪不一定在舞台上。它可能出现在一份自动整理的会议纪要里,一次没有转人工的客服对话里,一套企业知识库的检索结果里,或者一个通过备案、上线、被用户反复打开的普通应用里。
参考文献
- 百度,文心一言发布会官方材料及新闻稿,2023-03-16。
- Reuters, “Baidu shares fall after revealing China ChatGPT rival Ernie Bot”, 2023-03-16。
- Bloomberg, “Baidu’s ChatGPT-Style Bot Debut Disappoints Investors”, 2023-03-16。
- 百度,文心一言向全社会开放相关公告,2023-08-31。
- Alibaba Cloud, “Alibaba Cloud unveils Tongyi Qianwen, its latest large language model”, 2023-04-11。
- 阿里巴巴集团,阿里巴巴启动“1+6+N”组织变革相关公告,2023-03-28。
- 国家互联网信息办公室,《生成式人工智能服务管理办法(征求意见稿)》公开征求意见通知,2023-04-11。
- THUDM / GitHub, “ChatGLM-6B: An Open Bilingual Dialogue Language Model”, 2023。
- 百川智能,Baichuan-7B官方发布材料,2023-06。
- Baichuan Inc., “Baichuan 2: Open Large-scale Language Models”, 2023-09。
- U.S. Department of Commerce, Bureau of Industry and Security, “Implementation of Additional Export Controls: Certain Advanced Computing and Semiconductor Manufacturing Items; Supercomputer and Semiconductor End Use; Entity List Modification”, 2022-10-07。
- Meta, “Meta and Microsoft Introduce the Next Generation of Llama”, 2023-07-18。
- 国家互联网信息办公室等,《生成式人工智能服务管理暂行办法》,2023-07-13发布,2023-08-15施行。
- 国家互联网信息办公室,国家网信办有关负责人就《生成式人工智能服务管理暂行办法》答记者问,2023-07-13。
- 腾讯,腾讯混元大模型正式亮相相关发布材料,2023-09-07。
第9章|Claude、Llama与PaLM:追赶者给王座装上轮子
一、忙碌的一年
2023年春夏之交,大模型竞赛没有降温,只是从一个会场转到另一个会场。
上一章写到,中国公司在北京、杭州、深圳密集开火,把ChatGPT之后的压力翻译成本土发布会、行业客户和监管边界。与此同时,全球牌桌也在移动。ChatGPT和GPT-4已经把“智能”做成了网页、API和企业采购清单上的新名词。接下来的问题不再只是“谁能追上OpenAI”,而是“谁能把大模型变成自己的形态”。
2023年5月10日,Google I/O大会上,Sundar Pichai在开场不久说:“AI is having a very busy year.”——AI正经历非常忙碌的一年。[1]
这句话像一句朴素的天气预报,也像对整个行业的提醒。对研究团队来说,“忙碌”意味着模型报告、评测表格、训练语料、GPU集群和安全论文同时增加;对产品部门来说,“忙碌”意味着每一个已有入口都要重新解释:搜索不只是搜索,邮件不只是邮件,文档不只是文档,手机系统也不只是系统。过去需要在实验室展示的模型能力,开始被塞进Gmail、Docs、Search、Android和企业云服务。
Google的处境尤其复杂。它不是缺少AI研究积累。Transformer、TPU、DeepMind、Google Brain和一系列机器学习基础设施,长期构成Google在AI时代的技术资产。但ChatGPT的爆发证明,技术资产不自动变成产品心智。OpenAI把聊天框推到公众面前,用户用键盘和手指完成了市场教育。Google则必须回答另一个难题:一家掌握搜索、广告、浏览器、邮箱、地图、移动操作系统、办公套件和云计算的公司,怎样把生成式AI塞回自己的帝国机器,而不把机器本身拆坏。
Pichai在I/O上的答案,是把AI放进几乎所有核心产品叙事。Google当天发布的官方材料集中介绍了PaLM 2、Bard、Search Generative Experience、Workspace中的生成式AI功能,以及Android等产品中的AI更新。[2] 这不是单点发布,而是一张分发地图。OpenAI证明大模型可以成为独立入口;Google则试图证明,大模型也可以成为既有入口里的发动机。
这种打法有强大的优势,也有沉重的包袱。Alphabet 2022年年报显示,Google Search & other在2022年的收入为1624.50亿美元,Google advertising整体收入为2244.73亿美元。[3] 这组数字不是财报背景音,而是Google每一次生成式搜索实验脚下的地板。若AI答案直接满足用户,网页点击、广告展示、内容生态和商业分成都会被重新分配。创业公司可以把“颠覆搜索”写进融资故事;Google不能轻易把自己的现金牛改造成实验动物。
于是,2023年的Google I/O带着一种特殊的紧张。它看起来是追赶者的发布会,但台上站着的仍是互联网时代最强的分发机器之一。它必须追赶ChatGPT带来的产品心智,又不能把自己叙述成简单的追随者;它必须展示激进,同时让广告客户、云客户、开发者、内容网站和监管者相信,这种激进仍在可控范围内。
这也是2023年大模型战争后半场的共同气质。OpenAI仍是中心参照物,但追赶者们不再排队模仿同一个聊天框。Google把模型嵌入搜索和办公;Anthropic把安全与长上下文变成商业语言;Meta把权重开放给开发者;Inflection把AI塑造成个人助理;Mistral用欧洲创业公司的体量打出开放和效率牌。每家公司都承认同一个参照系,同时试图把比赛搬到自己的地盘。
王座没有倒下,但它开始装上轮子。
二、Google把模型塞回帝国机器
PaLM 2是Google在2023年5月递出的核心技术名片。
Google在《PaLM 2 Technical Report》中称,PaLM 2在多语言、推理和代码能力上相比PaLM有所改进;报告还提到,PaLM 2的训练语料包含多种自然语言和编程语言,并在多语言评估中涉及一百多种语言。[4] 这里需要谨慎:这不是一个可以简单翻译成“全面超过GPT-4”的结论。它更像Google向市场展示的一组能力坐标:Google仍然有基础模型研发能力,而且这些能力可以被部署到庞大的产品体系中。
I/O期间,Bard也被推向更大范围。Google官方博客称,Bard向180多个国家和地区开放,并增加日语、韩语等支持,同时计划接入更多视觉和工具能力。[5] Bard的意义不只在用户范围。它原本在ChatGPT的阴影中登场,承担着“Google版聊天机器人”的外部期待;到I/O时,Google努力把它放回更大的平台叙事里:Bard不是全部,而是Google模型能力的一种可见形态。
真正牵动Google商业神经的,是Search Generative Experience。Google在官方博客中介绍,新的生成式搜索体验可以帮助用户理解主题、发现不同视角,并继续追问。[6] 在演示逻辑里,用户不必只面对一串蓝色链接,而可以先看到AI生成的概览,再沿着链接和后续问题深入探索。这像搜索的自然演进,也像搜索广告商业模式需要重新谈判的开端。
荒诞感就藏在这里。过去二十多年,搜索引擎训练用户在关键词、链接和网页之间移动;生成式AI突然告诉用户,可以先不要移动,先让模型把网页世界摘要成答案。对用户,这是便利;对网站,这是流量问题;对广告系统,这是展示位置和商业意图捕捉问题;对Google,这是左手创造未来、右手保护利润表的问题。
在个体层面,这种变化并不抽象。一个依赖搜索流量的小型内容网站经营者,看到生成式摘要时,关心的不是“模型是否代表下一代信息入口”这样的大词,而是读者还会不会点进网页。一个在企业里负责知识管理的产品经理,关心的也不是PaLM 2在所有评测中的位置,而是能不能把公司文档、权限系统和审计流程接到AI功能里。大模型发布会说的是未来,落到每个岗位上,变成了点击、权限、账单和KPI。
Google的优势仍不能被低估。它有全球级用户入口,有云,有浏览器,有Android,有Workspace,有YouTube,有多语言服务经验和基础设施。大模型竞赛如果只看一次聊天产品的声量,Google显得迟缓;如果看十年尺度的分发和计算,Google仍是少数能把模型能力铺进十亿级产品的公司。
I/O上的产品线展示,正是这种战略的体现。Gmail可以帮用户写邮件,Docs可以生成草稿,Slides可以生成图像,Sheets可以辅助分析,Meet可以处理会议内容,Search可以生成概览。AI在这里不一定要成为一个有名字的“机器人”,它可以像拼写检查、自动补全和推荐算法一样,隐入软件日常动作。
但这种隐入也带来一个问题:当AI成为所有产品的功能,用户到底为谁付费?为模型能力付费,还是为办公套件付费?为搜索体验付费,还是继续由广告买单?OpenAI当时的路线相对清楚:ChatGPT订阅、API调用和企业服务。Google的路线更像一场大型内科手术:新器官必须接入旧血管,不能让病人死在手术台上。
Google给王座装上的第一只轮子,是分发。它告诉行业:模型能力固然重要,但谁能把模型放进用户已经每天打开的产品,谁就有资格重新定义比赛。
三、Claude 2:安全从道德姿态变成采购语言
如果说Google的问题是怎样把AI接入庞大的既有商业机器,Anthropic的问题则是怎样把“安全”做成一种市场能够理解的产品能力。
2023年7月11日,Anthropic发布Claude 2。官方博客开头写道:“Claude 2 has improved performance, longer responses, and can be accessed via API as well as a new public-facing beta website, claude.ai.”——Claude 2性能提升、回复更长,并可通过API以及新的公开测试网站claude.ai访问。[7]
这是一句标准产品发布语言,背后却有清楚的商业判断:企业客户不只需要模型聪明,还需要模型可控、可接入、可采购。Claude 2没有把自己包装成最会出圈的聊天机器人,而是把长上下文、代码能力、考试表现和安全训练方法放在一起,形成面向开发者和企业的叙事。
长上下文是Claude 2最容易被市场记住的指标。Anthropic在发布博客中写道:“Users can input up to 100K tokens in each prompt…”——用户每次提示最多可以输入10万tokens。[7] 对普通用户来说,10万tokens像一个技术单位;对律师、咨询顾问、金融分析师、工程团队和企业知识管理部门来说,它意味着可以把过去需要拆分、复制、重组的大段材料一次性交给模型处理。
这不只是炫技。一个律师助理处理几十页合同,一个投资分析师整理年报,一个工程师让模型阅读更长代码片段,他们遇到的第一道门槛往往不是模型会不会说话,而是上下文窗口够不够长。窗口太短,用户就要手工切块;切块之后,模型容易丢失前后关系;丢失关系之后,AI又变回一个需要人不断照看的工具。长上下文没有消灭幻觉,也不保证推理正确,但它改变了许多白领工作的交互成本。
Anthropic还公布了若干评测结果。公司称,Claude 2在美国律师资格考试多选部分得分76.5%,高于Claude 1.3的73.0%;在Codex HumanEval代码测试中得分71.2%,高于Claude 1.3的56.0%。[7] 这些数字不能直接等同于真实工作能力,也不能证明模型在所有任务中可靠。它们的作用更具体:让客户、媒体和投资人看到,Claude并不只是在谈安全,它也在能力竞赛中继续前进。
Anthropic的特殊性来自它对安全路线的持续强调。2022年,Anthropic研究人员发表“Constitutional AI: Harmlessness from AI Feedback”,提出用一组原则引导模型进行自我批评、自我修订,并使用AI反馈训练模型减少有害输出。[8] 这种方法后来被概括为“Constitutional AI”。它的行业意义,不在于公开证明大模型安全问题已经被解决——没有公开材料能支持这样的绝对判断——而在于把安全从发布会上的免责声明,放进模型训练和产品定位之中。
Dario Amodei是这一路线的代表人物之一。公开资料显示,他曾在OpenAI担任研究领导职务,后来参与创立Anthropic。[9] 这段履历常被写成OpenAI阵营分化的故事。但若只把它写成个人离合,就会错过更重要的产业事实:2023年以后,大模型竞争不只发生在能力榜单上,也发生在安全叙事、企业信任和监管适配上。
企业采购AI时的问题通常不浪漫。负责信息安全的人会问,数据是否进入训练;法务会问,输出错误谁负责;业务部门会问,模型是否能稳定处理内部文档;财务会问,调用成本是否可控;管理者会问,员工能否在不泄密的前提下使用。消费级热潮里,这些问题显得扫兴;采购流程里,它们是合同能否签下去的门槛。
这带来一种行业反差:OpenAI用ChatGPT让公众大规模感到“模型像人在回答”;Anthropic则努力让企业相信,模型不只是会回答,还能在规则边界内回答。前者占领心智,后者争夺信任。信任在技术狂飙时看起来慢,在企业预算里却很硬。
Claude 2给王座装上的第二只轮子,是安全与上下文。它证明追赶OpenAI不一定要用更高声量的消费者产品,也可以用更长输入、更稳健输出和更明确的安全方法,进入企业采购表。
四、Llama 2:Meta把权重变成战术
2023年7月18日,Meta和Microsoft宣布推出Llama 2。
这不是Meta第一次把大模型权重推向外部。上一章之前已经写过,LLaMA一代的非官方传播让开发者社区见识到“可下载模型”的扩散速度。Llama 2的不同在于:它不是泄露事故,而是官方发布;它不是单纯研究访问,而是带有商业使用许可的开放权重路线。Meta官方博客以“Meta and Microsoft Introduce the Next Generation of Llama”为题发布消息,并称Llama 2可免费用于研究和商业用途。[10]
Mark Zuckerberg在发布中说:“Open source drives innovation because it enables many more developers to build with new technology.”——开源推动创新,因为它让更多开发者能够基于新技术进行构建。[10] 这是Meta给出的战略解释。OpenAI把最强能力放在云端,通过API和产品收取价值;Meta则把权重交给开发者,让更多公司和个人在本地、私有云、边缘设备和特定场景中微调、量化、部署。
这里需要收窄说法。Llama 2并不是没有条件的公共财产。它使用Meta自己的许可协议,并附带可接受使用政策;对于月活用户超过一定规模的产品,许可中还有额外要求。因此,与其不加限定地称它为传统意义上的开源软件,不如说它是“开放权重加商业许可”的路线。这个差别在法务上重要,在产业上也重要:Meta既想得到开放生态的扩散速度,也保留对战略风险和超大规模竞争者的控制。
Llama 2技术论文列出了三个模型规模:7B、13B、70B;训练语料约2万亿tokens;同时发布了预训练模型和对话微调版本。[11] 这些数字在2023年的开发者社区有直接吸引力。7B和13B意味着更多人可以在相对有限的硬件上实验;70B意味着Meta保留较高能力上限;开放权重意味着研究者和创业团队可以围绕它做指令微调、检索增强、领域适配、量化压缩和部署优化。
对一个独立开发者来说,这种变化非常具体。闭源API像一条通向能力的高速公路,路况好,但收费、规则和出口都由平台决定;开放权重则像把发动机交到车库里,修理、改装、失败和责任都落到自己手上。前者让人快,后者让人有控制感。2023年的许多小团队并没有能力训练基础模型,却可以基于Llama 2做垂直微调、内部部署或成本优化。这就是开放权重的现实吸引力。
Meta的商业逻辑与Google和Anthropic都不同。Google有搜索和办公入口,要把AI吸进已有产品;Anthropic强调安全和企业可信;Meta在ChatGPT式消费者聊天心智上没有占到先手,但它拥有社交网络、广告系统、VR/AR野心和庞大工程资源。开放Llama 2,让Meta绕开“谁的聊天框最火”这个战场,直接争夺开发者生态底座。
Microsoft在这件事中的角色也带着云计算时代的荒诞感。2023年1月,Microsoft宣布与OpenAI延长合作,官方表述为多年、数十亿美元级别投资。[12] 半年后,它又与Meta合作,把Llama 2带到Azure和Windows生态。[13] 这不是简单的左右互搏,而是云厂商的现实:既可以投资闭源模型公司,也可以托管开放权重模型;既希望OpenAI成功,也希望企业客户在Azure上跑尽可能多的模型。对云来说,王座是谁的很重要,但算力账单同样重要。
Llama 2发布后,开发者社区围绕它产生大量衍生模型、量化版本和应用实验。这种扩散很难用一次发布会的掌声衡量。闭源模型的强大常常体现在排行榜和产品体验上;开放权重的强大则体现在无法完全统计的二次创新里。有人把它接入公司知识库,有人把它裁剪到消费级显卡,有人用它训练垂直领域助手,有人把它作为评测其他模型的基线。
Llama 2给王座装上的第三只轮子,是生态。它把竞争从“谁拥有最强模型”拉向“谁能成为最多应用的起点”。在这一层面,开放不是慈善,而是一种商业战略。
五、Pi:不争最强,争取贴近
同一年,另一条路线显得更柔软,也更难用传统评测衡量。
2023年5月,Inflection AI推出Pi。官方博客标题是“Meet Pi, your personal AI”。其中一句定义非常直接:“Pi stands for personal intelligence.”——Pi代表personal intelligence,个人智能。[14]
这个名字本身就在反对一种竞赛语言。它不强调“通用人工智能”的宏大,也不急着宣布超越哪个基准,而是把AI放进个人对话、陪伴、建议和日常交流里。Inflection官方介绍称,Pi被设计为一种友好、支持性的个人AI,可以进行自然流动的对话,提供友好建议和简明信息。[14] 这不是命令行文化,也不是企业API文化,而是消费互联网更熟悉的亲密界面。
Pi的路线回答了另一个问题:如果大模型最终进入每个人生活,它一定要以“工作效率工具”的姿态出现吗?ChatGPT的早期使用场景包括写代码、写邮件、总结材料、生成方案;Pi更强调对话体验本身。它试图让AI不像一个等待任务的实习生,而像一个随时可以交谈的对象。
但这里必须保持怀疑。陪伴式AI并不自动意味着更有价值,也不自动意味着更安全。温和语气可能提高用户好感,也可能掩盖错误信息;长期对话可能增强粘性,也可能带来情感依赖和隐私问题。公开材料能够确认的是,Inflection把产品定位放在“personal AI”上,并围绕对话体验建立品牌;不能据此推断用户一定会形成怎样的心理关系。
资本市场对这条路线给出了强烈回应。2023年6月29日,Inflection AI宣布完成13亿美元融资,投资方包括Microsoft、NVIDIA以及多位知名个人投资者。[15] 这一融资把Pi从一个产品实验推到大模型牌桌中央。它表明,2023年的投资人不只押注最强基础模型,也押注AI入口形态:如果未来每个人都有一个长期个人助手,那么控制这个助手的公司可能拥有新的用户关系。
Inflection的阵容也强化了这种想象。公司联合创始人包括DeepMind联合创始人Mustafa Suleyman、LinkedIn联合创始人Reid Hoffman等公开知名人物。[15] 这让Pi从一开始就不是小团队玩具,而是一张带有硅谷网络、资本和算力资源的牌。
与Google相比,Inflection没有全球搜索入口;与Meta相比,它没有开放权重生态;与Anthropic相比,它没有把安全方法作为最突出的商业标签。它押注的是另一种稀缺资产:用户愿意持续交谈的关系。大模型行业容易沉迷于参数和评测,但消费产品的历史反复证明,用户不一定总选择能力最强的工具,也会选择最顺手、最熟悉、最有情绪回报的界面。
Pi的困难也在这里。个人助理如果只会聊天,很快会被更强模型复制;如果要真正成为助手,就需要接入日历、邮箱、通讯录、支付、位置、工作流和第三方服务。那又把它带回前文已经出现的问题:工具调用、权限、安全和平台控制。一个温柔的聊天界面背后,迟早会出现冷冰冰的授权弹窗。
Pi给王座装上的第四只轮子,是产品形态。它提醒行业:大模型不一定只以“最强答案机器”的形式竞争,也可能以“最常被打开的个人界面”竞争。
六、Mistral 7B:巴黎递出的名片
2023年9月27日,Mistral AI发布Mistral 7B。
在此之前,这家法国创业公司已经引起欧洲科技圈注意。公开报道显示,Mistral AI由Arthur Mensch、Timothée Lacroix和Guillaume Lample等人创立,并在2023年完成大额种子融资。[16] 在一个由硅谷巨头、美国云厂商和GPU供应链主导的市场里,Mistral的出现带有清楚的地缘意味:欧洲不想只做监管者,也想在基础模型牌桌上拥有玩家。
Mistral 7B的发布方式简洁,甚至有点反发布会。官方博客没有铺陈宏大愿景,而是直接给出模型、性能和许可。Mistral写道:“Mistral 7B outperforms Llama 2 13B on all benchmarks we tested.”——Mistral 7B在其测试的所有基准上超过Llama 2 13B。[17] 这句话锋利,也必须按原文限定:是Mistral测试的基准,不是所有可能任务,更不是证明它全面超过更大的闭源模型。
Mistral 7B的参数规模约7.3B,并以Apache 2.0许可发布。[17][18] Apache 2.0的意义很实际:企业和开发者可以更放心地使用、修改和商用模型权重。与一些带有额外平台限制的开放许可相比,Apache 2.0更接近传统开源软件生态熟悉的法律框架。对创业公司来说,这是一种降低采用阻力的打法。
Mistral押注“小而强”。在2023年的行业叙事里,许多注意力被千亿参数、万卡集群和巨额融资吸走;Mistral提醒市场,模型能力并不只由体量决定。训练数据质量、架构选择、推理效率、上下文处理、部署成本和开发者体验,都能改变模型的实际竞争力。一个7B级模型如果足够好,可能比一个昂贵、封闭、调用成本高的大模型更适合大量垂直场景。
这条路线对欧洲尤其重要。欧洲公司在超大规模云基础设施和消费互联网入口上不占优势,如果完全复制OpenAI或Google路线,成本和分发都会吃亏。Mistral选择开放权重和高效率模型,相当于从另一个缝隙切入:先让开发者拿到可用、可改、可部署的模型,再逐步建立商业服务和企业客户。
对一个欧洲创业团队来说,这种许可和体量并不只是意识形态。它关系到能否在本地云上部署,能否向客户解释数据不必离开特定环境,能否在没有巨额API预算的情况下做原型。大模型战争在新闻标题里像巨头战争,在工程师的命令行里,常常体现为一个更朴素的问题:这模型能不能跑,成本能不能承受,法务能不能点头。
行业荒诞感再次出现:大模型竞赛看似越来越昂贵,却不断有小模型用“够好”和“便宜”打断巨头叙事。每当市场准备相信只有最大模型才能生存,就会出现一批7B、13B模型提醒大家,许多真实业务并不需要最强通用智能,只需要在特定约束下稳定、便宜、可控地完成任务。
当然,Mistral 7B也不能被神化。开放权重不等于没有成本,小模型不等于没有幻觉,基准领先不等于生产环境稳定。它的意义不在于终结大模型军备竞赛,而在于证明基础模型牌桌仍有新座位。欧洲创业公司不必等待巨头恩赐API,也可以带着自己的权重、许可和工程判断上桌。
Mistral给王座装上的第五只轮子,是效率。它让行业看到,追赶者不一定要造更大的王座,也可以把王座下面的轮子做得更轻、更便宜、更容易复制。
七、王座下面的轮子
到2023年秋天,OpenAI仍然是大模型竞赛的中心参照物。GPT-4和ChatGPT占据公众心智,开发者熟悉OpenAI API,企业客户开始围绕其能力设计流程。可是中心参照物不等于固定王座。Google、Anthropic、Meta、Inflection和Mistral从不同方向推来,王座开始移动。
Google推的是分发轮。它把PaLM 2、Bard、SGE和Workspace AI放进搜索、办公、移动系统与云服务。它的优势是入口,风险也是入口:生成式AI越强,越可能改写搜索广告和网页生态。
Anthropic推的是信任轮。Claude 2用10万tokens上下文、考试与代码评测、安全训练方法,向企业客户证明:模型不只要聪明,还要能被采购、被约束、被解释。安全在这里不只是伦理宣言,而是销售语言。
Meta推的是生态轮。Llama 2用开放权重和商业许可吸引开发者,让竞争从聊天产品转向模型底座。Meta不必让每个用户打开一个Meta聊天框,只要足够多开发者从Llama开始构建,它就能影响大模型应用的下游世界。
Inflection推的是关系轮。Pi把AI定义为personal intelligence,试图证明未来入口可能不是搜索框、代码编辑器或企业后台,而是一个用户愿意长期交谈的个人助手。它的挑战是从“会聊天”走向“能办事”,同时处理隐私、安全和权限边界。
Mistral推的是效率轮。Mistral 7B用7.3B级模型、Apache 2.0许可和强基准表现,告诉市场基础模型并非只有超大闭源路线。小而强、可商用、可部署,也是一种战略。
这些路线彼此竞争,也彼此补充。Google需要安全,Anthropic需要分发,Meta需要高质量模型,Inflection需要工具生态,Mistral需要商业化渠道。没有一家公司握有所有答案。2023年的大模型战争因此从单点爆发进入多阵营长期战:闭源API、开放权重、企业软件、搜索入口、个人助理、云平台、边缘部署,每一条路线都可能成为未来的主干,也可能只是过渡形态。
这场竞赛的关键问题也开始变化。早期问题是:谁能训练出更强模型?到2023年夏秋,问题变成:谁能以可承受成本持续训练和推理?谁能拿到高质量数据?谁能建立安全信任?谁能穿过监管边界?谁能控制分发入口?谁能让开发者和企业把自己的业务流程绑上来?
OpenAI没有被追赶者推下王座,但王座不再固定。Google把它推向搜索和办公,Anthropic把它推向安全采购,Meta把它推向开发者硬盘,Inflection把它推向个人对话,Mistral把它推向更轻的开放模型。每一只轮子都让行业少一点确定性,也多一点可能性。
这正是2023年大模型世界的开阔与紧张:领先者仍然领先,追赶者却不再只追同一条路。等模型能力逐渐趋近,真正决定胜负的可能不再是一次惊艳回答,而是分发、成本、监管、安全信任和生态控制权。王座还在,但它已经开始滑动;下一场战争,将在更大的制度、市场和社会边界中展开。
参考文献
- Google,Google I/O 2023 Keynote,2023-05-10。
- Google Blog,Making AI more helpful for everyone,2023-05-10。
- Alphabet Inc.,Form 10-K for the fiscal year ended December 31, 2022,2023-02-03。
- Google,PaLM 2 Technical Report,2023-05。
- Google Blog,Bard updates from Google I/O 2023,2023-05-10。
- Google Blog,Supercharging Search with generative AI,2023-05-10。
- Anthropic Blog,Introducing Claude 2,2023-07-11。
- Anthropic / Bai et al.,Constitutional AI: Harmlessness from AI Feedback,2022-12。
- Anthropic,Company / Team public materials,2023。
- Meta,Meta and Microsoft Introduce the Next Generation of Llama,2023-07-18。
- Meta AI,Llama 2: Open Foundation and Fine-Tuned Chat Models,2023-07。
- Microsoft,Microsoft and OpenAI extend partnership,2023-01-23。
- Microsoft,Microsoft and Meta expand their AI partnership with Llama 2 on Azure and Windows,2023-07-18。
- Inflection AI Blog,Meet Pi, your personal AI,2023-05。
- Inflection AI,Inflection AI announces $1.3 billion of funding,2023-06-29。
- Financial Times,French AI start-up Mistral raises €105mn seed funding,2023-06-13。
- Mistral AI Blog,Mistral 7B,2023-09-27。
- Mistral AI / Hugging Face,mistralai/Mistral-7B-v0.1 model card,2023。
第10章|监管者入场:听证会、禁令、罢工与风险宣言
一、罗马按下暂停键
ChatGPT爆红四个月后,最先让这个产品在一个G7国家暂时停摆的,不是竞争对手,也不是服务器账单,而是一个国家的数据保护机构。
2023年3月31日,意大利个人数据保护机构Garante在官网发布公告,题为“Artificial intelligence: stop to ChatGPT by the Italian SA”。公告称,意大利监管机构对OpenAI实施立即生效的临时限制,限制其处理意大利用户数据。[1]
一个网页公告,让当时全球最受瞩目的AI产品在意大利按下暂停键。
这件事的戏剧性,不在页面设计。监管文件没有产品发布会的灯光,没有模型演示,也没有“下一代智能”的修辞。但它拥有另一种力量:它可以把一个已经被大量用户试用、被媒体连续报道、被投资人追逐的新产品,从一个国家的普通用户面前暂时移走。
前几章已经写过,ChatGPT在2022年11月底以网页聊天机器人的形态进入公众视野;到2023年3月底,围绕它的讨论已经不再只是“会不会写诗、写代码、写邮件”。监管者提出的是另一组问题:它能不能这样收集数据?能不能这样训练模型?能不能这样面对未成年人?用户输入给系统的内容,究竟进入了怎样的处理链条?
Garante的公告列出几项核心关切。监管机构称,3月20日ChatGPT曾发生涉及用户对话和付费用户付款信息的数据泄露;用户和所有数据主体没有得到充分告知;OpenAI大规模收集和存储个人数据以训练算法,缺乏法律依据;模型生成的信息可能不准确;平台缺少验证用户年龄的机制,未成年人可能接触到与其发育程度不相称的回答。[1]
这些问题听起来像行政法课堂上的清单,却准确击中了生成式AI的底座。ChatGPT不是传统搜索框。用户把草稿、病历摘要、商业计划、程序错误、家庭烦恼、法律困惑一股脑儿输入系统;系统根据训练得到的能力给出回答,也可能继续利用用户交互改善服务。隐私、训练数据、透明度、错误信息和未成年人保护,在旧互联网时代分别属于不同部门、不同法规、不同投诉入口。大模型把它们塞进了同一个聊天窗口。
意大利监管文件的对象不只是OpenAI。它实际敲响的是欧洲隐私监管体系的门铃。欧盟有GDPR,有成员国数据保护机构,有跨境执法协作机制。过去几年,Meta、Google、Amazon等大型平台已经习惯在欧洲面对隐私合规审查。但ChatGPT带来的问题有一层新意:它不是只处理用户上传的照片、点击行为或社交关系,而是把互联网上长期存在的大规模文本、用户现场输入、模型输出和商业产品包装在一起。监管者要问的不是单一按钮是否合规,而是整套“数据—训练—生成—再使用”的机器如何被解释。
Garante给OpenAI二十天时间说明采取了哪些措施。公告还提到,如果违反GDPR相关规定,可能面临最高二千万欧元或全球年度营业额4%的罚款。[1] 这类罚款数字在科技监管新闻里并不罕见,但放在2023年春天,它有一种行业荒诞感:一边是公司和投资人讨论通用人工智能的长期命运,一边是监管文件要求它先说清楚隐私告知、法律依据和年龄门槛。
四月,暂停键又被松开。4月28日,Garante发布公告称,OpenAI采取措施后,ChatGPT在意大利恢复服务。[2] 公告列举了整改方向:OpenAI在网站上提供面向用户和非用户的信息说明;为欧洲用户提供反对其数据被用于训练算法的表格;为非用户提供反对处理其个人数据的方式;让用户可以要求更正或删除被认为不准确的信息;增加年龄确认机制,并承诺继续推进更强的年龄验证方案。[2]
这不是监管故事的结束,而是开头。ChatGPT在意大利恢复,并不意味着所有问题被终局解决。它更像一次现实世界的演练:当生成式AI产品越过实验室、越过开发者社区,进入教育、办公、创作和日常搜索时,监管者不会永远站在场外看演示。他们可以用最传统的工具——公告、命令、整改清单、罚款威胁——迫使最前沿的模型公司解释自己。
行业喜欢把2023年称为大模型元年。罗马的这个网页提醒它:元年不只有发布会,也有执法文书。
二、从隐私故障到制度问题
意大利事件发生时,ChatGPT保持着一种奇特的双重身份。它像消费者产品,任何人都可以输入问题;它又像基础设施,正在被公司接入客服、写作、编程、搜索和办公流程;同时,它还是一只黑箱,外界很难知道训练数据的精确构成、模型能力边界,以及安全措施在多大程度上有效。
这让传统监管节奏显得笨拙。药品进入市场前,有临床试验、审批、说明书和不良反应监测;汽车上路前,有碰撞测试、召回制度和道路法规;金融产品销售前,有披露义务、适当性要求和监管报送。生成式AI进入公众生活时,先出现的是一个对话框。用户体验几乎没有门槛,责任结构却没有同步生成。
意大利监管者抓住的是隐私,但隐私只是第一层。更深处的问题是:谁有权决定一个高能力AI系统何时上线?上线前要不要做第三方测试?如果系统生成错误医疗建议、泄露私人信息、帮助网络攻击、生成诽谤文本,责任由模型公司、应用开发者、部署企业还是用户承担?如果训练阶段使用了互联网上受版权保护的作品、个人信息和公共数据,许可、退出和补偿机制在哪里?
这些问题在2023年春天迅速从专业圈扩散到政治系统。美国没有像欧盟那样统一的GDPR式个人数据保护框架,但它有国会听证会,有联邦贸易委员会,有行业监管传统,也有一种经久不衰的仪式:把科技公司高管请到国会山,在摄像机前要求他们解释未来。
2023年5月16日,华盛顿,美国参议院司法委员会隐私、技术与法律小组委员会举行听证会,题为“Oversight of A.I.: Rules for Artificial Intelligence”。出席作证的三个人形成了一个小型三角:OpenAI首席执行官Sam Altman,IBM首席隐私与信任官Christina Montgomery,纽约大学教授Gary Marcus。[3]
这场听证会的开头带有2023年独有的荒诞感。根据听证会公开视频,参议员Richard Blumenthal播放了一段由AI生成的声音,模拟他的声音朗读一段由ChatGPT生成的开场白。[3] 国会大厅没有变成科幻片,但技术已经先一步模仿了主持听证的人。监管者要讨论AI,AI先帮监管者写了一段监管AI的开场。
这不是单纯噱头。它提供了一个直观的政治问题:当声音、文本、图像和身份都可以被模型合成,公众生活中的“真实”如何维持?竞选广告、诈骗电话、新闻图片、公司声明、学生论文、合同草稿,都可能被生成技术改变成本结构。过去,制造大规模伪造内容需要设备、团队和专业技能;到2023年,一个网页产品和几句提示词就可以把门槛压低。
Altman在听证会上没有选择完全对抗监管。他的书面证词写道:“regulatory intervention by governments will be critical to mitigate the risks of increasingly powerful models。”[4] 这句话在科技行业史里有一点反常。许多平台公司在早期扩张阶段倾向于把监管描述为创新的阻碍;OpenAI的CEO则在国会作证时公开说,政府监管对降低越来越强大的模型风险至关重要。
但这也不是简单的“公司请求被管”。Altman强调的是高能力模型的监管框架,包括能力阈值、许可、测试、安全标准等。[4] 他没有要求所有AI软件都进入同一套许可制度。对OpenAI而言,这种立场同时具有公共政策意义和行业竞争含义:如果监管门槛围绕最先进、最大规模、最高风险的系统建立,那么已经拥有资金、算力、人才和安全团队的公司,反而可能比后来者更容易适应。
制度问题由此浮出水面。一个行业最领先的公司要求监管,可能是真诚的风险意识,也可能在客观上推动形成更高的准入门槛;可能帮助社会建立安全底线,也可能让规则设计被少数巨头的技术路线绑定。2023年的AI治理,从一开始就带着这种双重性:人们需要公司提供信息,因为只有公司知道模型如何训练、如何部署、如何失败;人们又不能只依赖公司提供答案,因为公司本身就是被监管对象。
三、国会大厅里的三种答案
如果说Altman代表的是前沿模型公司的答案,那么Gary Marcus代表的,是另一种长期在AI领域内部存在、但在ChatGPT爆红后被更多公众听见的声音。
Marcus不是反对AI研究本身。他长期批评的是过度宣传、可靠性不足、黑箱系统和公司自我监管。在提交给参议院的书面证词中,他把问题集中在安全性、可解释性、误导性输出、偏见、操纵、网络安全和制度缺口上。[5] 对他来说,ChatGPT式系统最麻烦的地方,不是它偶尔说错,而是它可以以非常流畅、非常自信、非常低成本的方式大规模说错。一个会胡编的系统,如果只在玩具场景里回答冷知识,风险有限;如果被接入教育、法律、医疗、金融和公共管理,错误就不再只是笑话。
Marcus的主张是,不能让公司自己给自己发通行证。前沿AI系统需要独立评估、透明报告和强制性安全要求;监管机构需要技术能力,而不是等灾难发生后再追责。[5] 这与Altman的监管姿态有交集,也有冲突。双方都承认风险存在,都承认需要规则;分歧在于规则由谁设计、谁执行、信息披露到什么程度、公司商业秘密能否压倒公共安全。
IBM的Christina Montgomery给出第三种答案。她代表的不是一家以ChatGPT定义自身的公司,而是一家长期服务企业和政府客户的技术公司。Montgomery在书面证词中主张采用“precision regulation”路径,即围绕AI的具体用途和风险进行监管,而不是对所有AI技术一刀切。[6] 这条路线在企业软件世界里很有吸引力。一个用于餐厅菜单翻译的模型,与一个用于信贷审批、保险定价或招聘筛选的模型,风险显然不同。监管如果不区分场景,可能会把低风险创新拖进高成本合规泥潭;监管如果只看场景、不看基础模型能力,又可能漏掉通用系统被重新部署后的风险。
三个人同场作证,让美国国会得到了一张2023年AI治理的简化地图。
第一条路线,是前沿公司路线:承认强模型有风险,支持政府为最高能力系统建立许可、测试和审计框架。第二条路线,是批评者路线:警惕公司自我监管,要求更强的透明度、独立评估和公共机构能力。第三条路线,是产业治理路线:按用途、风险和部署场景建立规则,避免把AI作为一个抽象整体粗暴处理。
这些路线并不互相排斥。真正困难的是把它们变成法律。听证会可以制造共识,法律需要定义词语。什么叫“高能力模型”?能力阈值如何测量?谁有资格测试?模型开源后怎样监管?API服务与本地部署责任如何区分?企业客户微调模型造成损害,基础模型公司是否承担责任?监管机构如果要求披露训练数据,商业秘密、版权、隐私和国家安全怎样平衡?
国会大厅里,问题比答案跑得更快。这是2023年AI监管最稳定的图景之一:所有人都同意不能什么都不做,但任何具体方案都会立刻撞上技术、商业和法律的复合墙。
四、科学家走出实验室
5月的另一条线索,把“风险”这个词推向更冷的方向。
2023年5月1日,《纽约时报》刊出Cade Metz对Geoffrey Hinton的报道,标题是“‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead”。Hinton是深度学习的重要奠基者之一,曾与Yoshua Bengio、Yann LeCun共同获得2018年图灵奖。报道说,Hinton离开Google后公开谈论AI风险;他对《纽约时报》说:“It is hard to see how you can prevent the bad actors from using it for bad things。”[7]
这句话与国会听证会的语言不同。参议院讨论的是许可、审计、监管机构、产业标准;Hinton谈到的是更基本的滥用问题:如果技术能力扩散,如何阻止坏人用它做坏事?这个问题没有整齐的政策边界。网络钓鱼、虚假宣传、自动化诈骗、生物安全、网络攻击、舆论操纵,都可以被放进“bad things”的篮子里,而篮子没有自动封口。
Hinton的公开警示之所以引发震动,不只是因为他说了风险,而是因为说话者的身份。他不是长期站在AI产业外部的评论员,也不是以反技术立场闻名的社会活动家。他的研究参与塑造了深度学习的胜利,而深度学习又是大模型浪潮的重要基础。行业叙事里常见的“先驱”“教父”“奠基者”标签,在这里反过来增加了话语重量。
但必须区分不同类型的风险。2023年围绕AI的风险讨论,常常被压缩成一个词,好像所有担忧都指向同一个终点。事实并非如此。有人担心的是长期灭绝风险,即未来更强系统可能脱离人类控制,造成文明级灾难;有人担心的是滥用风险,即现有或近期系统被用于诈骗、攻击、造假和压迫;有人担心的是失控风险,即复杂系统在目标设定、工具使用和自主行动中出现不可预测行为;还有人更关注现实社会风险,包括劳动替代、偏见歧视、隐私侵犯、版权侵害和权力集中。
把这些风险混成一团,既方便传播,也容易误导。一个编剧担心剧本被拿去训练模型,并不等同于他在讨论人类灭绝;一个安全研究者担心模型帮助生成恶意代码,也不必然支持暂停所有AI研究;一个科学家讨论长期失控风险,也不意味着他否认眼前的版权和劳动问题。2023年的公共讨论,经常在这些层次之间跳跃,像一个同时打开十几个浏览器标签页的行业会议。
5月30日,Center for AI Safety发布了一句话声明:“Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war。”[8] 这句英文的意思是:降低AI导致灭绝的风险,应当成为全球优先事项,与流行病、核战争等社会规模风险并列。签名者包括多位AI研究者和公司负责人,Hinton、Bengio、Demis Hassabis、Sam Altman、Dario Amodei等人的名字都出现在公开页面上。[8]
一句话声明的威力,来自它的极端简洁。它没有提出监管细则,没有定义技术路线,也没有解释概率模型。它做的是议程设置:把“AI灭绝风险”从科幻小说、论坛争论和小圈子论文,推入主流媒体和公共政策语言。支持者认为,极端风险即使概率不高,只要损害足够巨大,也值得提前治理。批评者则指出,把注意力过度集中在遥远的灭绝风险上,可能稀释对现实伤害的处理:工人被替代,创作者被侵权,少数群体被偏见系统影响,用户隐私被训练管线吸走,这些问题已经发生或正在发生。
这正是本章的转折。AI风险不再是单数。它同时存在于未来灾难的想象、国家监管的文件、国会听证的证词、工会谈判的条款和法院诉状的段落里。2023年,所有这些文本开始互相挤压。
五、白宫的自愿承诺
国会听证会之后,美国行政系统也加快了动作。2023年7月21日,白宫发布事实清单,宣布七家领先AI公司作出自愿安全承诺:Amazon、Anthropic、Google、Inflection、Meta、Microsoft和OpenAI。[9]
白宫把这些承诺归入安全、保障和信任三个方向。具体包括,在系统公开发布前进行内部和外部安全测试;分享管理AI风险的信息;投资网络安全和内部威胁防护;支持第三方发现和报告漏洞;开发技术机制让用户知道内容由AI生成,例如水印;公开报告模型或系统的能力、限制以及适合和不适合的使用领域;优先研究偏见、歧视、隐私等社会风险;并开发AI帮助应对社会重大挑战。[9]
这是一种典型的软监管。它不是法律,不是罚款决定,也不是法院判决。它更像政治权力要求公司站到台前,当众承认最低限度的安全义务。对于仍在高速迭代的AI行业,这类承诺有现实功能:它可以迅速建立一套公共词汇,让不同公司至少在测试、透明、水印、风险研究等方面承认共同方向。比起等待漫长立法,白宫可以更快把企业拉进一个公开框架。
但自愿承诺的局限也同样明显。自愿意味着公司承诺做什么,也意味着边界主要由公司和政府协商形成;如果没有强制审计、法律责任和处罚机制,外部社会很难判断承诺执行到什么程度。模型测试结果公开多少?红队测试由谁做?水印能否被绕过?开源模型和闭源API是否适用同样要求?公司声称某系统“不适合”医疗或法律建议,用户仍然那样使用时,责任如何划分?
更微妙的是,这七家公司本身并不处在同一位置。OpenAI、Anthropic和Inflection直接以大模型助手为核心产品;Google、Meta、Microsoft和Amazon拥有云计算、广告、社交网络、办公软件、搜索、硬件和开发者平台。它们对监管的偏好不会完全一致。云服务商关心客户部署责任,模型公司关心训练和发布标准,平台公司关心内容分发和广告生态,开源倡导者关心权重开放是否被一刀切限制。白宫把它们放在同一张事实清单上,展示的是政治协调能力;事实清单之外,仍然是商业利益和技术路线的长期拉扯。
2023年7月的这份承诺,也说明监管者已经不满足于事后回应。意大利按下暂停键,是产品上线后的执法;参议院听证会,是立法系统收集意见;白宫自愿承诺,则是行政权力在正式硬法落地前,先把公司拉进公共安全叙事。监管还没真正成型,但公司已经被要求表态:不能只说“模型更强”,还要说“如何让它不伤人”。
行业仍在兴奋。每周都有新模型、新插件、新融资、新排行榜。怀疑也同步增长。越是强大的工具,越不能只靠演示视频证明安全;越是通用的系统,越不能只用单一行业标准解释责任。白宫的自愿承诺像一条临时护栏,能提醒车辆减速,却还不是完整的交通法。
六、罢工线上的AI
如果说Hinton和CAIS把风险推向“灭绝”“核战争”“流行病”这样的全球语言,那么好莱坞把问题拉回工资单、合同和肖像权。
2023年5月2日,美国编剧工会WGA开始罢工。罢工原因包括流媒体时代的薪酬、残余收益、编剧室规模、工作保障等,AI只是其中一项,但它很快成为最容易被公众理解的焦点之一。WGA在谈判状态说明中提出,应当规范AI在受MBA协议覆盖项目中的使用:AI不能写作或改写文学材料,AI生成材料不能作为来源材料,MBA覆盖材料不能用于训练AI。[10] 制片方联盟AMPTP没有接受这一提案,而是提出每年开会讨论技术进展。[10]
“每年开会讨论AI进展”这句话放在2023年,几乎自带行业喜剧效果。大模型产品以周为单位更新,插件生态以天为单位冒出,用户提示词以小时为单位传播;劳资谈判桌上,回应却是年度会议。幽默不在某个谈判代表身上,而在速度差本身:技术像流媒体倍速播放,合同像有线电视节目表。
编剧们的核心问题并不是“AI有没有意识”。他们问得更直接:如果制片厂用AI生成故事大纲,是否会减少编剧岗位?如果AI根据已有剧本生成草稿,编剧是在创作还是在廉价修补机器文本?如果编剧写过的材料被拿去训练系统,未来系统又被用来替代编剧,这算不算用劳动者的历史劳动削弱其未来议价能力?
7月,演员也加入罢工。SAG-AFTRA全国委员会7月13日投票,对电影电视制片公司和流媒体平台发布罢工令。[11] 这场罢工同样涉及薪酬、残余收益和工作条件,但AI问题尤其集中在数字替身、肖像和声音使用上。SAG-AFTRA在罢工期间反复强调,AI使用需要知情同意和公平补偿。[11]
同一天,《Variety》报道转述SAG-AFTRA首席谈判代表Duncan Crabtree-Ireland的说法:制片方方案会允许公司扫描背景演员,支付一天报酬后,在未来项目中使用其形象。报道同时写到,AMPTP方面对这一表述提出异议,称其AI方案包含同意要求,且对数字复制品的使用有所限制。[12] 在纪实叙事里,这种互相冲突的公开说法不能被提前改写成裁判结论。能够确认的是,AI已经成为劳资双方谈判中需要写进合同的议题。
数字替身让演员面对一种不同于传统失业的风险。机器不只是“抢走一个角色”,而是复制身体、脸、声音和动作,并把它们变成可重复调用的资产。一个演员过去出售的是某次表演、某个拍摄周期、某份合同中的劳动;AI和扫描技术让制片方可能想购买一种更持久的“可生成身份”。这正是工会必须介入的地方:在技术成为默认条款之前,把同意、补偿、用途限制和时间范围写进合同。
好莱坞罢工让AI治理从监管白皮书进入街头标语。罢工队伍不需要证明大型语言模型是否会导致人类灭绝,也不需要解释Transformer架构。他们只需要指出一个具体变化:如果创作产业的输入是作家的文本、演员的表演和艺术家的作品,输出却由平台、模型公司和制片厂集中变现,那么劳动分配规则必须重新谈判。
这条线索也让“数据”这个词恢复了人的形状。在模型论文里,数据常常以token、语料库、网页快照、参数规模出现;在工会谈判里,数据是某个编剧写过的剧本、某个演员被扫描的身体、某个画师上传的作品、某个小说家出版的书。技术系统把它们抽象为训练材料,法律和劳动关系又把它们重新具体化为权利。
七、诉状里的训练集
2023年9月,创作者的反击进入法院。
9月19日,Authors Guild及多位作家在美国纽约南区联邦地区法院起诉OpenAI及相关实体。原告包括John Grisham、Jodi Picoult、George R.R. Martin、Jonathan Franzen等作家。诉状称,OpenAI未经授权复制受版权保护的书籍,用于训练大型语言模型,并认为这些模型可以生成摘要、仿作或其他可能影响作家市场的输出。[13]
这份诉状把此前许多文化争论变成了法律问题。训练模型是否构成复制?如果构成,是否属于合理使用?模型内部是否“记住”作品?输出近似风格是否侵权?如果一本书被盗版网站收录,又被用于训练商业模型,模型公司能否以“数据来自公开网络”为由免责?作家能否要求赔偿、禁令或许可机制?
这些问题没有简单答案。美国版权法中的合理使用分析,需要考察使用目的和性质、作品性质、使用部分的数量和实质性、对潜在市场的影响等因素。AI训练方通常会强调训练是转换性使用,模型学习统计关系而不是向用户分发原书;创作者则强调,没有授权的全量复制本身就是商业系统的基础,而且模型可能替代或侵蚀衍生市场。双方都能找到法律语言,法院则必须把二十世纪形成的版权概念,放进二十一世纪的神经网络训练流程里重新解释。
诉讼的意义不只在胜负。它迫使行业从“互联网上有很多文本”这句轻飘飘的话,走向更精确的责任链条。文本是谁写的?在哪个条件下发布?是否允许抓取?是否允许商业训练?如果不允许,退出机制在哪里?如果已经训练,补偿如何计算?模型公司说不清训练集,是否还能证明自己没有侵权?如果模型能力依赖海量作品,而单个作者很难证明自己的作品对某次输出的贡献,集体诉讼、许可组织或法定机制是否会出现?
这里的荒诞感同样强烈。大模型行业一边把训练数据称为公开可得信息,一边把训练完成后的模型称为核心资产和商业机密;一边强调模型不是复制作品,只是学习语言规律,一边又用模型能模仿名家风格、生成长篇文本来展示能力。创作者看见的是另一面:自己的作品在训练前是“数据”,训练后别人的产品是“智能”。
监管者、科学家、公司和创作者,在2023年并没有使用同一种语言。监管者说合法依据、年龄验证、透明度;国会议员说许可、机构、国家竞争;科学家说灭绝风险、失控和滥用;工会说合同、同意和补偿;作家说复制、市场和版权。生成式AI把这些语言推到同一张桌上,没有哪一种能单独解决全部问题。
八、谁来负责
到2023年夏秋,AI故事已经不再属于单一主角。
OpenAI仍是焦点,但它不再只是发布产品的公司;它也是意大利监管命令中的数据控制者、参议院听证会上的证人、白宫事实清单里的承诺方、作家诉状中的被告。Sam Altman仍然是公众面孔,但他身边站着监管者、批评者、企业隐私官、科学家、工会领袖和原告律师。行业从“谁的模型更强”进入“谁有权部署、谁承担损害、谁获得收益”的阶段。
意大利按下暂停键,显示隐私监管可以直接影响产品可用性。美国参议院听证会显示,技术公司已经无法只在开发者大会上解释自己。Hinton和CAIS声明显示,AI风险进入主流科学和政策语言,即使这种语言本身充满争议。白宫自愿承诺显示,在硬法抵达前,政治权力会先要求企业公开承诺。好莱坞罢工和作家诉讼则显示,最具体的冲突往往不在未来世界,而在当下合同:谁的劳动被使用,谁的脸被扫描,谁的书被训练,谁拿到报酬。
问题没有在这一章结束。政府能否跟上模型能力迭代,仍然未知。公司自愿承诺能否变成可审计、可执行、可追责的制度,仍然未知。创作者、用户和社会受到损害时,责任链条如何建立,也仍然未知。
2023年的AI行业继续向前。模型变大,产品变多,开源权重继续扩散,企业客户继续试点,监管文件继续堆积。兴奋与怀疑并存,不是因为叙事需要平衡,而是因为事实本身如此:这项技术确实展示了罕见的能力,也确实把旧制度的缝隙照得发亮。监管者入场之后,问题从“能不能做”变成“谁来负责”。而这个问题,比任何一次演示都更难跳过。
参考文献
- Italian Garante,Artificial intelligence: stop to ChatGPT by the Italian SA,2023-03-31。
- Italian Garante,ChatGPT: OpenAI reinstates service in Italy with enhanced transparency and rights for European users and non-users,2023-04-28。
- U.S. Senate Judiciary Subcommittee on Privacy, Technology, and the Law,Oversight of A.I.: Rules for Artificial Intelligence,2023-05-16。
- Sam Altman,Testimony before the U.S. Senate Judiciary Subcommittee on Privacy, Technology, and the Law,2023-05-16。
- Gary Marcus,Written Testimony for “Oversight of A.I.: Rules for Artificial Intelligence”,2023-05-16。
- Christina Montgomery,Written Testimony for “Oversight of A.I.: Rules for Artificial Intelligence”,2023-05-16。
- The New York Times,Cade Metz,“‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead”,2023-05-01。
- Center for AI Safety,Statement on AI Risk,2023-05-30。
- The White House,FACT SHEET: Biden-Harris Administration Secures Voluntary Commitments from Leading Artificial Intelligence Companies,2023-07-21。
- Writers Guild of America,WGA Negotiations—Status as of May 1, 2023,2023-05-01。
- SAG-AFTRA,SAG-AFTRA National Board Votes Unanimously to Issue Strike Order Against Studios and Streamers,2023-07-13。
- Variety,Gene Maddaus,“SAG-AFTRA Leaders Say Studios Want to Scan Background Actors, Pay Them for One Day’s Work and Use Their Likenesses Forever”,2023-07-13。
- Authors Guild et al. v. OpenAI Inc. et al.,Complaint, U.S. District Court for the Southern District of New York,2023-09-19。
第11章|DevDay的糖衣炮弹:人人都能造一个GPT
一、刹车声没有停,发布会已经开始
2023年11月6日,OpenAI在旧金山举行首届DevDay。
舞台上的叙事非常清楚:新模型、更长上下文、更便宜的API、面向开发者的Assistants API、面向普通用户的GPTs,以及未来的GPT Store。Sam Altman走上台时,他的角色已经不再只是那位把ChatGPT推到公众面前的创业公司CEO。他站在一个正在成形的平台入口前,对开发者、企业客户、媒体和合作伙伴说明:OpenAI不只要提供一个聊天机器人,也不只要出售模型调用,它要成为应用被制造、被分发、被企业采购的基础设施。[1][2]
如果只看这一天的灯光和掌声,DevDay像是一场胜利巡游。
但这一年走到11月,舞台外的世界已经给OpenAI和整个生成式AI行业装上了许多刹车片。上一章已经写过,3月31日,意大利个人数据保护机构Garante对OpenAI处理意大利用户数据实施“立即临时限制”;5月16日,美国参议院举行关于AI规则的听证会,Altman在会上说,政府监管干预对缓解日益强大的模型风险“至关重要”;5月到9月,美国编剧工会WGA罢工,AI写作和训练材料进入谈判文本;9月,Authors Guild及多位作家在美国联邦法院起诉OpenAI,诉状指控其未经授权使用受版权保护作品训练模型;10月30日,拜登政府发布关于安全、可靠和值得信赖地开发和使用人工智能的行政命令。[3][4][5][6][7]
因此,DevDay并不是发生在技术真空中。它发生在监管者要求解释数据处理、创作者要求授权和补偿、政府要求安全承诺、企业采购部门询问法律风险之后。外部世界的关键词是审查、责任、同意、补偿和安全;OpenAI带到旧金山的关键词则是平台、工具、速度、价格和分发。
这不是一个简单的矛盾。OpenAI当然可以说,开发者需要更好的工具,企业需要可部署的产品,用户需要更低的门槛,竞争者也不会因为政策讨论而停下脚步。社会也可以反问:能力越强,部署越广,谁来负责错误、滥用、数据来源和市场冲击?
DevDay的张力正在这里。公共世界要求AI公司回答责任问题,OpenAI则把更多制造AI应用的能力交给了更多人。
它没有踩刹车。它把油门做成了API。
二、Altman报数:一个平台的三条腿
DevDay开场,Altman先报出了一组增长数字。
据OpenAI当天发布的官方材料和公开视频,OpenAI称其API已有超过200万开发者使用;超过92%的财富500强公司在使用其产品;ChatGPT每周活跃用户达到1亿。[1][2] 这三个数字放在一起,说明OpenAI已经越过了普通热门应用的边界。
消费端有ChatGPT,开发者端有API,企业端有财富500强客户。一个技术公司如果只占住其中一条线,已经足够写进融资演示稿;OpenAI在不到一年时间里把三条线同时推到了台前。
这也是ChatGPT发布以来最重要的变化之一。2022年11月底,它首先以一个网页聊天框进入公众视野。人们测试它写诗、写邮件、写代码、编故事、胡说八道,又把截图发到社交网络。那时的核心问题是:这个东西到底能做什么?到了2023年11月,OpenAI要回答的问题变了:围绕这个东西,能形成什么生态?
产品争夺用户时间,平台争夺开发者路线图。
在DevDay上,开发者不再只是API账单上的客户,而被放进OpenAI扩张叙事的中心。OpenAI要提供模型、工具调用、检索、代码执行、多模态能力、定制助手、企业保护和应用分发。过去几个月,许多创业公司围绕GPT-4写提示词、搭聊天界面、接向量数据库、做知识库、封装工作流;现在,OpenAI把其中一部分环节做成了官方功能。
行业荒诞感也从这里生出来。创业者熬夜写出的“护城河”,有时会在平台公司的下一次更新日志里变成一个按钮、一个参数,或者一个更短的产品名。没有人需要嘲笑这些创业者,因为他们做的正是平台早期需要生态来探索的事;但平台成熟后,生态里最通用的需求往往会被收回平台内部。云计算、移动操作系统、浏览器、办公软件都经历过类似过程。2023年的AI行业,只是把这一幕加速播放。
Altman在台上的身份也随之变化。他不需要像研究发布那样解释Transformer,不需要像ChatGPT刚爆红时那样证明聊天机器人有趣。他要说服台下的人:OpenAI的模型会更新,价格会下降,接口会稳定,工具会集成,企业会买单,开发者可以在上面继续投入。
这是一家平台公司的语言。它不只说“我们更聪明”,还说“你可以在这里建东西”。
三、GPT-4 Turbo:上下文窗口也是商业模型
DevDay的第一枚重弹是GPT-4 Turbo。
OpenAI宣布,GPT-4 Turbo支持128K上下文窗口,知识截止时间更新到2023年4月;相比当时的GPT-4,输入token价格便宜3倍,输出token价格便宜2倍。OpenAI当天列出的GPT-4 Turbo预览版价格为每1000个输入token 0.01美元、每1000个输出token 0.03美元。[2]
这些数字在普通用户眼里未必有戏剧性。128K上下文不像一段会说话的视频,也不像一个会唱歌的语音助手。但对开发者和企业团队来说,它直接改变应用设计。
上下文窗口是大模型应用的胃容量。胃越大,一次能喂进去的文档、对话历史、代码片段、合同、邮件线程和数据说明就越多。早期应用常常需要把长文档切块、向量化、检索、拼接,再小心塞回提示词里。128K上下文并不会消灭检索增强生成,也不会让所有工程问题自动消失;它改变的是权衡。一些过去必须靠复杂链路勉强完成的任务,现在可以用更直接的方式处理;一些因为上下文太短而体验破碎的产品,可以重新设计。
价格同样关键。大模型创业公司在2023年学会了一门新会计:每一个闪烁的“生成中”光标背后,都有token流出;token流出,就是成本流出。用户看到的是AI在思考,财务表看到的是API调用。模型更便宜,意味着免费试用可以更大胆,复杂任务可以跑更多步骤,产品毛利率可以改善,工程团队也少一些“每次点击都像刷信用卡”的紧张。
OpenAI当天还发布了JSON模式、可复现输出、函数调用改进等能力。[2] 这些功能听起来没有“通用人工智能”那样宏大,却更接近真实商业部署。企业系统喜欢结构化结果,不喜欢模型把“是”“否”“需要人工复核”写成一段抒情散文;软件系统需要可调用的函数,不需要每次靠提示词劝模型守规矩;生产环境需要可预测性,不喜欢同一个输入每天像换了不同实习生。
大模型平台化有一个朴素规律:最能让开发者继续付钱的,往往不是发布会上最像科幻片的功能,而是那些降低不确定性的工程细节。JSON模式不浪漫,但它让模型更像软件接口;函数调用不神秘,但它让模型能和数据库、日历、支付系统、CRM和代码仓库发生关系;更低价格不耀眼,但它决定一个AI应用究竟只是演示视频,还是可持续业务。
GPT-4 Turbo把OpenAI从性能竞赛推进到成本结构竞赛。开发者听到的不是单个模型升级,而是产品可能性被重新报价:更长的上下文让一些任务可做,更低的价格让一些产品可卖,更稳定的输出让一些系统可接入。
糖衣很甜:更长、更便宜、更像接口。炮弹也很清楚:如果一家应用层公司只是把GPT-4包装得更方便,OpenAI正在把“更方便”做成默认配置。
四、Brockman演示:胶水代码被平台吸收
在DevDay上,Greg Brockman承担了关键技术演示。
公开演示和OpenAI文档显示,Assistants API是这次发布的重要产品之一。它允许开发者构建具备指令、模型、工具和持久线程的AI助手,并可接入代码解释器、检索和函数调用等工具。[1][8] 这套能力的意义不在于多了一个API名字,而在于OpenAI把许多开发者过去自己拼装的应用框架,向平台内部收了一步。
2023年上半年,大模型应用开发常见的工程结构大致如此:前端做聊天界面,后端接模型API;如果要处理私有文档,就接向量数据库和检索增强生成;如果要让模型调用外部工具,就写函数调用和权限控制;如果要保存上下文,就设计对话历史和用户状态;如果要执行代码,就接沙箱环境;如果要做企业版,还要处理日志、安全、权限、审计和成本控制。
每一个环节都能长出一家创业公司,也能长出一串“AI基础设施”融资新闻。
Assistants API把其中几件事放进官方抽象:助手有instructions,线程保存对话状态,工具可以被调用,文件可以用于检索,代码解释器可以执行计算。[8] 对开发者而言,这减少了从零搭建记忆、工具、检索和执行链路的负担。对生态而言,这也意味着OpenAI不满足于只出售模型推理,它开始提供应用骨架。
这种变化有平台公司的典型味道。早期生态总是鼓励外部开发者补齐空白;当某些空白被证明足够普遍,平台就会把它们变成内置能力。智能手机系统这样做过,云计算平台这样做过,浏览器和办公套件也这样做过。OpenAI在DevDay上的动作,是大模型版本的同一件事:把“大家都要做”的部分平台化。
这会带来效率,也会带来紧张。效率在于开发者可以更快搭建产品,不必反复发明同一个轮子。紧张在于,轮子一旦成为平台标配,靠卖轮子的公司就要寻找新的价值。行业会议里常见的“生态共赢”四个字,在这种时刻总是既正确又残酷。平台确实提供土壤,也会决定哪些植物只是临时绿化。
对一个小团队来说,Assistants API可能意味着原本需要两个月搭出来的原型,现在几天就能试出第一版。对另一个已经把“企业知识库问答”做成产品的团队来说,同一项发布也可能意味着销售演示要立刻重写:客户会问,既然OpenAI官方已经提供检索、线程和工具,为什么还要买你的中间层?
这不是道德问题,而是平台经济的物理定律。平台越往下封装,应用层越要往上寻找业务场景、客户关系、行业数据、流程集成和可靠交付。仅仅懂提示词,已经不够;仅仅把模型接到聊天框,也越来越不够。
在监管者和企业安全团队眼里,这些能力还有另一层含义。工具调用意味着模型可能触达外部系统;代码执行意味着需要沙箱和权限边界;检索私有文件意味着数据治理;持久线程意味着更长的用户状态保存。发布会语言说,这是更强大的开发体验;合规清单语言说,这是新增风险面。
DevDay把两种语言叠在了一起。工程语言说:少写胶水代码,更快构建助手。治理语言说:更多工具权限,更复杂责任链条。OpenAI没有因此停下,它选择把复杂性封装成API。
五、GPTs:非程序员也被拉进生态
如果说GPT-4 Turbo和Assistants API主要面向开发者,那么GPTs把平台化推到了普通用户面前。
OpenAI在当天发布的“Introducing GPTs”中称,用户现在可以创建ChatGPT的定制版本,将指令、额外知识和任意组合的技能结合起来;创建过程不需要写代码,可以通过对话完成。[9] 这就是本章标题里的糖衣:人人都能造一个GPT。
在DevDay之前,定制一个AI助手通常需要某种技术门槛。即使不训练模型,也要写系统提示词、搭界面、上传文档、处理检索、配置权限、接API。GPTs把这件事包装进ChatGPT内部:用户用自然语言描述需求,上传知识文件,选择能力,生成一个特定用途的聊天助手。它可以是写作教练、旅行规划器、客服助手、代码帮手、课程助教,也可以是公司内部政策问答机器人。
这里改变的不只是技术门槛,还有心理门槛。过去,普通用户“使用AI”;现在,OpenAI告诉他们可以“制作AI”。这句话并不意味着每个人都在训练基础模型,也不意味着每个GPT都有独立智能。多数GPT更像指令、知识和工具的组合。但对大众传播来说,“不用写代码也能造一个ChatGPT”已经足够有力。它把平台供给者的边界向外推了一圈,让非程序员也进入生态。
OpenAI还宣布计划推出GPT Store,让用户创建的GPT可以被发现和分发。[9] 只要有商店,就会有排名、审核、变现、规则和争议。苹果App Store曾经让移动开发者获得巨大机会,也让平台审核、抽成和分发权成为长期争议;OpenAI的GPT Store在DevDay上还只是计划,但它已经把大模型生态带进熟悉的平台政治。
对用户来说,GPTs是糖衣。它降低了创造门槛,让“我想要一个专门帮我做某事的AI”变成可操作流程。对许多应用层创业公司来说,它是炮弹。不是因为GPTs会消灭所有创业公司——这种判断过于夸张,也缺乏证据——而是因为它会挤压一类轻量应用空间:那些主要依赖提示词模板、少量知识库和简单工具调用的产品,必须解释自己为什么不能被一个自定义GPT替代。
平台化最温和、也最强硬的方式,往往不是宣布“我要进入你的市场”,而是把过去需要购买的软件功能变成创建界面里的一个选项。糖衣在于用户获得便利;炮弹在于商业边界被重新划线。
GPTs还把责任问题推向更分散的场景。谁可以上传什么知识?用户创建的GPT如果给出错误建议,责任如何分配?如果某个GPT模仿特定作者、教师、医生或品牌,平台如何审核?如果商店排名奖励使用量,创建者会不会优化标题、承诺和行为来追逐流量?如果企业内部GPT接入敏感文件,访问控制和日志审计如何落地?
这些问题在DevDay当天没有完整答案。平台一旦开放,问题也不会按产品路线图排队。
OpenAI在这一天讲的是“赋能”。公共世界追问的是“约束”。两者并不必然冲突,但它们必然相遇。
六、版权盾牌:法律风险也被产品化
DevDay还有一个容易被模型更新掩盖的发布:Copyright Shield。
OpenAI在官方博客中称,将为ChatGPT Enterprise和API客户提供版权保护。如果客户因使用OpenAI产品而面临版权侵权法律索赔,OpenAI将介入并承担相关费用;这一承诺适用于ChatGPT Enterprise和开发者平台的普遍可用功能。[2] 这项承诺的出现,说明版权问题已经不只是媒体问答,而是企业采购和平台扩张中的真实障碍。
几个月前,Authors Guild及John Grisham、Jodi Picoult、George R.R. Martin等多位作家在纽约南区联邦法院起诉OpenAI。诉状指控OpenAI未经许可复制原告作品,用于训练大语言模型,并称这些模型可能生成对原作品构成威胁的衍生文本。[6] 这些指控仍需经过司法程序检验;但诉讼本身已经把大模型从发布会舞台拖进版权法的细则里:训练数据、复制行为、合理使用、市场替代和授权机制,都不再只是理论问题。
与此同时,WGA罢工让AI写作进入劳动合同。WGA公开材料中提出的AI相关立场包括:AI不能撰写或改写文学材料,不能被用作源材料,受Minimum Basic Agreement覆盖的材料不能被用于训练AI。[5] 这里的MBA是Minimum Basic Agreement,不是工商管理硕士。2023年的行业荒诞感之一,就是好莱坞合同缩写突然需要给AI行业补课。
在这样的背景下,OpenAI推出Copyright Shield,有两层含义。第一,它向企业客户释放信号:即使版权诉讼还在进行,企业也可以更有信心采购OpenAI服务。第二,它把法律风险部分平台化:客户不必单独面对所有索赔,平台愿意承担一部分防御责任。
AI行业由此出现一种新产品形态——法律风险也被打包进服务承诺。
这当然不能解决所有版权争议。Copyright Shield主要面向客户使用产品时产生的索赔,并不等于OpenAI承认训练数据侵权,也不等于作家、艺术家和媒体机构的授权诉求已经被满足。它更像平台扩张过程中的安全带:不能保证车不发生事故,但能让乘客相信,出了事不必独自面对方向盘。
过去采购软件问的是功能、稳定性、价格和安全认证;2023年的AI采购还要问,如果模型输出引发版权索赔,律师费谁出。技术发布会由此多了一种新栏目:不只发布模型能力,也发布赔付承诺。
DevDay没有让版权争议消失。相反,它证明争议已经足够重要,必须成为平台销售的一部分。
七、微软、企业客户与平台骨架
OpenAI的舞台背后,还有一副更硬的骨架:微软、云计算资源、企业客户和资本市场预期。
2023年1月,微软宣布与OpenAI进入第三阶段长期合作,称将进行一项“多年、数十亿美元”的投资,并继续作为OpenAI的独家云服务提供商,为OpenAI的工作负载提供Azure支持。[10] 对大模型公司来说,云不是普通供应商。训练和推理都需要巨量算力,GPU、网络、存储和数据中心调度决定模型能否持续迭代。微软给OpenAI提供的不只是钱,还有工业级基础设施和企业销售通道。
8月28日,OpenAI发布ChatGPT Enterprise,称其提供企业级安全和隐私、无限高速GPT-4访问、更长上下文窗口、高级数据分析能力和管理控制台;官方材料还列出Block、Canva、Carlyle、The Estée Lauder Companies、PwC、Zapier等早期使用者。[11] 这说明OpenAI并不满足于消费者订阅和开发者API。它要进入企业内部,成为知识工作、数据分析、客服、写作、编程和运营流程的一部分。
DevDay正好把这些线接起来。消费者有ChatGPT,开发者有API和Assistants API,非技术用户有GPTs,企业有ChatGPT Enterprise,微软提供云和渠道,未来还有GPT Store。平台帝国的轮廓不是一天形成的,但11月6日这一天,它被摆在同一块屏幕上。
资本市场也在给这个轮廓定价。路透社2023年9月援引《华尔街日报》报道称,OpenAI与投资者洽谈出售现有股份,估值可能达到800亿至900亿美元。[12] 这样的数字不是事实真理,而是市场在某一时点对增长、稀缺性、风险和想象力的混合报价。但它会反过来加强平台化压力:估值越高,公司越需要证明自己不只是一个热门应用,而是能承载巨大生态和收入规模的基础设施。
这也是DevDay为何关键。一个聊天机器人可以流行,一个API可以赚钱,但一个数百亿美元级估值故事需要更大的叙事。OpenAI必须让外界相信,它处在AI应用的中心位置:开发者围绕它构建,企业围绕它部署,用户围绕它创建,微软围绕它投资,政策制定者围绕它提问。
可平台越大,治理问题越难保持实验室规模。早期研究组织可以用论文、模型卡和安全评估解释自己;平台公司要面对用户投诉、版权诉讼、企业合规、开发者生态、公平竞争、数据保护、国家安全和劳动市场冲击。OpenAI在2023年的特殊之处正在于此:它既要讲使命和安全,也要讲API价格、企业合同和应用商店。
DevDay没有直接讨论公司治理结构的张力。它是一场产品发布会,不是董事会说明会。公开资料能确认的是,OpenAI在这一天把平台化路线推到最亮处。至于这种速度如何与使命、安全治理和外部问责长期共存,不是一段演示能回答的问题。
平台骨架越完整,问题也越完整。
八、盛宴前夜
DevDay的意义,不在于某一个功能,而在于它把OpenAI从“领先的大模型公司”推向“AI平台公司”。
GPT-4 Turbo回答性能、上下文和成本问题;Assistants API回答开发框架问题;GPTs回答低门槛创作问题;GPT Store计划回答分发问题;Copyright Shield回答企业法律风险问题;ChatGPT Enterprise回答组织采购问题;微软合作回答算力和渠道问题。几乎每一个阻碍大模型扩张的环节,OpenAI都给出了一个产品化答案。
这正是糖衣炮弹的完整形态。对开发者,OpenAI说:更便宜、更长、更强、更易用。对普通用户,它说:不用写代码,你也可以造一个GPT。对企业,它说:安全、隐私、管理和版权保护正在补齐。对生态,它没有直接说出口的部分是:越来越多中间层能力将被平台吸收,越来越多应用需要证明自己不是一个提示词模板。
舞台外,2023年的公共刹车并没有消失。意大利的数据保护行动证明,监管者可以让产品暂停;参议院听证会证明,AI公司必须面对制度询问;WGA和SAG-AFTRA证明,劳动者不会把AI冲击当作抽象未来;Authors Guild诉讼证明,训练数据和版权授权将进入长期司法战;白宫行政命令证明,国家机器已经开始为AI设定边界。
这不是恐慌,也不是道德审判。它更像一套社会系统的自然反应:当一种技术开始改变知识生产、劳动分配、企业流程和公共安全时,其他制度会要求它说明来源、权限、责任和补偿。AI公司喜欢说规模法则,社会也有自己的规模法则:影响越大,问责越多。
DevDay把这种矛盾推到最清楚的位置。OpenAI没有在监管、罢工和诉讼升温时放慢,反而把自己推向更大的平台舞台。它的逻辑并不难理解:技术窗口期短,竞争者在追赶,开发者需要工具,企业正在采购,资本期待增长。对于一家处在浪潮中心的公司,停止扩张本身也是一种风险。
但外部世界提出的不是“永远停止”,而是“回答问题”。数据从哪里来?用户如何同意?创作者如何获得补偿?劳动合同如何保护人的署名、表演和作品?模型错误造成损害谁负责?平台内置能力挤压生态时,边界如何划定?当模型可以调用工具、执行代码、访问文件,安全测试如何跟上?当普通用户都能造GPT,审核和分发规则如何制定?
这些问题不会因为发布会结束而退场。它们会跟着每一个API调用、每一个企业部署、每一个自定义GPT、每一个训练数据诉讼继续向前。
2023年11月6日,OpenAI在旧金山给出了一个令人兴奋的答案:人人都能造一个GPT。这个答案漂亮,也危险。它把创造力包装成聊天界面,把应用开发压缩成自然语言,把平台扩张做成开发者福利。它像糖衣,因为它降低门槛;它像炮弹,因为它重划市场。
舞台上的OpenAI正在加速。舞台外的社会正在要求刹车、审查和补偿。两股力量没有在DevDay达成和解,只是在同一天进入同一个时代。
参考文献
- OpenAI,OpenAI DevDay Keynote official video / transcript,2023-11-06。
- OpenAI,New models and developer products announced at DevDay,2023-11-06。
- Italian Garante,Artificial intelligence: stop to ChatGPT by the Italian SA,2023-03-31。
- U.S. Senate Judiciary Subcommittee on Privacy, Technology, and the Law,Oversight of A.I.: Rules for Artificial Intelligence,2023-05-16。
- Writers Guild of America,2023 MBA strike and AI-related proposals / statements,2023。
- Authors Guild et al. v. OpenAI Inc. et al.,Complaint,U.S. District Court, Southern District of New York,2023-09。
- The White House,Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence,2023-10-30。
- OpenAI Documentation,Assistants API documentation,2023。
- OpenAI,Introducing GPTs,2023-11-06。
- Microsoft,Microsoft and OpenAI extend partnership,2023-01-23。
- OpenAI,Introducing ChatGPT Enterprise,2023-08-28。
- Reuters,OpenAI seeks new valuation of up to $90 billion in sale of existing shares - WSJ,2023-09-26。
第12章|五天政变:OpenAI董事会按下红色按钮
一、不始终坦诚
“Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities.”
2023年11月17日,OpenAI在官网发布题为“OpenAI announces leadership transition”的公告。译成中文,这句话是:Altman先生的离任,是董事会经过审慎审查程序之后作出的决定;董事会认为,他在与董事会沟通时“并非始终坦诚”,妨碍了董事会履行职责。公告下一句更加直接:“The board no longer has confidence in his ability to continue leading OpenAI.”——董事会不再相信他有能力继续领导OpenAI。[1]
这就是红色按钮。
公告没有新闻发布会,没有长篇说明,也没有把冲突展开成公众能够检验的事实清单。它以公司治理文件的语气宣布:Sam Altman离任CEO和董事会成员;首席技术官Mira Murati立即担任临时CEO;Greg Brockman将辞去董事会主席职务,但保留公司总裁职位并向CEO汇报。[1]
十一天前,OpenAI刚刚举办首届DevDay。前一章已经写过,那一天的舞台属于平台化的明亮一面:OpenAI称,ChatGPT每周活跃用户达到1亿;超过200万开发者正在使用其API;超过92%的财富500强公司正在使用OpenAI产品。[2] 新模型、更长上下文、更低价格、Assistants API、GPTs和计划中的GPT Store,把这家公司从“模型供应商”继续推向“应用基础设施”。
到11月17日,舞台灯光还没有在行业记忆里熄灭,官网却换成了冷冰冰的“领导层交接”。
这家公司彼时已经不是一个只供研究人员围观的实验室。2023年10月,Reuters援引Bloomberg报道称,OpenAI正在就员工股份出售进行谈判,交易可能使公司估值达到约860亿美元。这个数字不是已完成融资公告,也不能被写成董事会行动的原因;它只是显示,在资本市场的想象里,OpenAI已经拥有接近大型平台公司的体量。[3] 同年1月,微软宣布扩大与OpenAI的长期合作,称这是一项“multi-year, multi-billion dollar investment”,并表示Azure将支持OpenAI在研究、产品和API服务中的工作负载。[4]
因此,11月17日的公告不只是一个CEO更替消息。它同时触动了几条线路:一个以使命为名拥有最高控制权的董事会,一家正在商业化加速的模型公司,一个把OpenAI能力嵌入自身云和软件产品的战略伙伴,以及数百名把职业、声誉和股权押在公司未来上的员工。
公告试图用治理语言完成权力切换。它强调,OpenAI“was deliberately structured to advance our mission: to ensure that artificial general intelligence benefits all humanity”。这延续了OpenAI长期以来关于通用人工智能造福全人类的使命表达。[1] 但到2023年11月,这个使命已经不再只写在章程和博客里。它必须穿过API账单、企业合同、云计算配额、开发者生态、员工期权和监管追问。
OpenAI公告没有披露所谓“不始终坦诚”具体指什么。正因为没有细节,这句话的爆炸半径反而扩大了。接下来几天里,它会引发创始团队公开决裂、微软出手提供退路、首席科学家反向表态、超过700名员工联名逼宫,以及Altman回归CEO职位。
DevDay看起来像OpenAI成为平台公司的加冕礼。十一天后,它成了五天政变前最后一次完整的公开胜利。
二、公告没有收住风暴
公告发布后,Sam Altman在X上写下一段简短回应。他说:“i loved my time at openai. it was transformative for me personally, and hopefully the world a little bit. most of all i loved working with such talented people. will have more to say about what’s next later.”他没有在这条帖子里解释董事会指控,也没有公开反击,只说自己热爱在OpenAI的时光,之后会谈下一步。[5]
真正把公告撕开一道口子的,是Greg Brockman。
按照OpenAI公告,Brockman只是辞去董事会主席职务,仍保留公司总裁职位。[1] 这像是一种降温安排:CEO离任,技术和运营核心继续留在公司,临时CEO接管,董事会启动搜索程序。若公告能按字面执行,这会是一场震动巨大的高层调整,但未必演变成全面危机。
但Brockman随后公开表示辞职。他在X上发布自己发给OpenAI团队的信息,其中一句是:“based on today’s news, i quit.”——基于今天的消息,我辞职。[6]
11月18日,Brockman又在X上发布长帖。他写道:“Sam and I are shocked and saddened by what the board did today.”——Sam和我对董事会今天所做的事感到震惊和难过。随后,他给出自己所知的时间线:Altman在周五中午参加Google Meet,除Brockman外的董事会成员都在场;Ilya Sutskever告诉Altman他将被解雇,消息很快发布。Brockman称,自己随后收到Ilya短信和Google Meet链接,被告知将被移出董事会,但对公司仍然重要,并会保留职位;几乎同时,OpenAI发布了博客公告。[7]
这些说法来自Brockman单方面公开叙述。OpenAI公告可以交叉确认的是:Altman离任,Brockman不再担任董事会主席,Murati担任临时CEO。[1] 但Brockman长帖改变了公众理解事件的方式。它让“领导层交接”变成了一场没有被核心创始人接受的董事会行动。
OpenAI原本或许可以把事件包装成治理程序:董事会审查、CEO离任、临时CEO接管、公司继续运行。但Brockman辞职之后,问题迅速变成:如果CEO和总裁同时离场,OpenAI的研究、产品、开发者关系、企业客户和微软合作如何稳定?
这不是传统公司里一次安静的人事变动。OpenAI出售的不是一套已经成熟多年、可由维护团队按版本号继续发货的软件,而是一种仍在快速迭代的模型能力。企业客户购买API,开发者构建应用,微软把OpenAI能力嵌入Azure、Copilot和更广的产品路线。这里的稳定性不只来自合同,也来自对关键团队持续迭代能力的信任。
公告发布时,OpenAI董事会名单也被摆到公众面前。公告称,董事会由OpenAI首席科学家Ilya Sutskever,以及独立董事Adam D’Angelo、Tasha McCauley、Helen Toner组成;Brockman将辞去主席职务。[1] 这个名单很短,短到与OpenAI当时的全球影响力形成反差。
一个声称每周服务1亿ChatGPT用户、拥有超过200万API开发者、进入超过92%财富500强公司的组织,其最高治理权力集中在这样一个小董事会手中。[2] 从制度设计看,这正是OpenAI与普通创业公司的不同;从危机传播看,这也让公众更难理解:为什么一个产品和资本都处于高点的公司,会在DevDay之后不到两周突然按下CEO罢免键?
没有人需要虚构沉默的会议室。公开文件本身已经足够冷。
三、微软不在董事会,却在现实里
微软没有OpenAI董事会投票权。至少在11月17日的公告里,它不是董事会成员,也不是作出罢免决定的主体。[1] 但OpenAI危机一开始,微软就无法只是旁观者。
2023年1月,微软公开宣布扩大与OpenAI的合作。官方声明称,这是双方合作的第三阶段,将通过多年、数十亿美元投资,加速AI突破,并使双方能够独立商业化由先进AI产生的技术。[4] 对OpenAI来说,微软提供的不只是资金。Azure是训练和部署大模型所需的基础设施,也是OpenAI API商业化的重要通道。对微软来说,OpenAI则是其重塑搜索、Office、开发工具和云服务叙事的关键伙伴。
11月17日,Satya Nadella在X上发帖稳定局面。他写道,微软与OpenAI有长期协议,“with full access to everything we need to deliver on our innovation agenda and an exciting product roadmap”;微软仍致力于与OpenAI、Mira和团队合作。[8] 这段表态有两层意思。第一层给客户看:微软的AI产品路线不会因为OpenAI CEO被罢免而立刻断电。第二层给OpenAI董事会看:微软承认现实发生了变化,但它也在公开确认自己拥有继续创新所需的访问权和协议保障。
这里出现了平台时代的荒诞感:一家公司的董事会可以罢免CEO,却不能单方面罢免生态系统对CEO、团队和路线图的依赖。
这不是因为董事会没有形式权力。相反,OpenAI的特殊结构恰恰是为了让使命约束资本。2019年,OpenAI在宣布成立OpenAI LP时解释,它需要吸引资本和人才,但仍希望保持使命优先;OpenAI LP被描述为“capped-profit”公司,由OpenAI非营利组织控制。[9] 这个设计试图回答一个问题:如果通用人工智能真有巨大社会影响,能否避免被单纯利润最大化逻辑支配?
2023年11月,这个问题换了一种问法:当使命优先的结构控制着一家准平台级商业公司,它是否能承受商业化速度带来的反冲?
前一章的DevDay已经显示,OpenAI不只是在卖模型调用。它在把应用开发的一部分骨架纳入平台,把“创建助手”的门槛降到普通用户面前。[2] 对外部开发者来说,这意味着更多能力可以直接调用;对许多创业公司来说,这也意味着产品里的某些“核心功能”可能很快变成平台默认能力。开发者在兴奋中拿到新工具,小团队则要重新判断自己的护城河到底是在数据、工作流、客户关系,还是仅仅在一层即将被平台吸收的封装。
董事会可以从使命和信任角度采取行动,公众可以从监管角度担心风险,创业者可以从竞争角度担心被吞没。但微软、企业客户和开发者已经在以另一种方式投票:他们把流程、产品、预算和路线图接到了OpenAI能力上。
因此,Nadella的第一条表态不是替某个人举行加冕,而是替一张现实网络站台。这个网络不在OpenAI董事会名单上,却会在接下来几天里成为决定局势的关键力量。
四、周末里的第二个临时CEO
11月17日公告任命Mira Murati为临时CEO。[1] Murati此前是OpenAI首席技术官,在ChatGPT、DALL·E等产品公开化过程中频繁代表公司发声。公告称,她领导公司的研究、产品和安全职能,因此“exceptionally qualified”担任临时CEO。[1] 但这项任命没有为危机争取到足够时间。
周末里,媒体不断报道谈判、劝返和内部压力。公开材料能确认的是:到11月20日,局面已经再次翻转。Satya Nadella在X上发布一条更具决定性的消息。他先表示,微软仍致力于与OpenAI合作,并期待认识Emmett Shear和OpenAI的新领导团队;随后写道:“Sam Altman and Greg Brockman, together with colleagues, will be joining Microsoft to lead a new advanced AI research team.”——Sam Altman和Greg Brockman将与同事一起加入微软,领导一个新的高级AI研究团队。[10]
这句话的威力,不在于微软又多了一个研究团队。它等于向OpenAI所有员工、客户和董事会同时打开一扇门:如果OpenAI留不住Altman和Brockman,微软可以接住他们;如果更多员工离开,微软也可能接住他们;如果客户担心OpenAI失稳,微软仍能把“先进AI”故事继续讲下去。
同一天,Emmett Shear公开确认自己接受OpenAI临时CEO职位。Shear是Twitch联合创始人,曾长期担任Twitch CEO。他在X上写道:“Today I got a call inviting me to consider a once-in-a-lifetime opportunity: to become interim CEO of @OpenAI.”他还说,自己接受这份工作,是因为相信OpenAI是当下最重要的公司之一。[11]
更关键的是,Shear没有把董事会行动包装成已经被充分解释的正常程序。他公开写道:“The process and communications around Sam’s removal has been handled very badly, which has seriously damaged our trust.”——围绕Sam被免职的流程和沟通处理得非常糟糕,严重损害了信任。[11] 他提出未来30天的计划,包括聘请独立调查员梳理导致当前局面的完整过程并形成报告,继续与员工、合作伙伴、投资者和客户沟通,改革管理和领导团队。[11]
Shear还在同一组公开表态中写道,在接受职位前,他核查了变动背后的理由;董事会“did not remove Sam over any specific disagreement on safety”,即并非因为某个具体的安全分歧而罢免Sam。[11] 这句话很重要。它提醒外界,不能把这场危机简单写成“安全派大战商业派”的现成剧本。公开记录没有给出足够事实支持这种单线解释。
但OpenAI危机的速度已经超过普通危机管理手册。Shear的出现让局势短暂复杂化:公司先有Murati临时接任,又在数日内更换为Shear;微软同时宣布将接纳Altman和Brockman;董事会仍未公开说明“不始终坦诚”的具体事项;员工正在迅速组织公开信。
在许多行业里,更换临时CEO是一种稳定信号。在2023年11月的OpenAI,它更像一个提示:权力中枢还没有找到能被公司内部、合作伙伴和外部生态共同接受的解释。
这个周末没有公开的一手会议记录能让外界复原所有谈判细节。公开世界看到的是几段文本:OpenAI公告、Brockman时间线、Nadella表态、Shear接任声明。每一段都试图定义现实,但没有一段能单独控制现实。
五、Ilya的反向声明
Ilya Sutskever是这场危机中最特殊的人之一。
他不是外部董事,也不是财务投资人。他是OpenAI联合创始人、首席科学家,也是GPT系列背后最重要的研究人物之一。11月17日的OpenAI公告显示,Altman被罢免后,董事会成员包括Ilya Sutskever和三名独立董事。[1] Brockman在11月18日公开时间线中也称,是Ilya通知Altman被解雇,并通知自己被移出董事会。[7]
因此,当Sutskever在11月20日公开反向表态时,危机进入情绪和制度的双重转折点。
他在X上写道:“I deeply regret my participation in the board’s actions. I never intended to harm OpenAI. I love everything we’ve built together and I will do everything I can to reunite the company.”中文意思是:我深深后悔参与董事会的行动。我从未打算伤害OpenAI。我热爱我们共同建立的一切,并将尽我所能让公司重新团结。[12]
这不是匿名爆料,也不是媒体转述。它来自董事会行动参与者本人的公开账号。Sutskever没有在这条帖子里披露董事会罢免Altman的具体原因,也没有解释自己为何改变立场。但“deeply regret”已经足够改变局势。董事会行动原本还可能被外界理解为一项内部治理判断;首席科学家的公开后悔,让这种叙事失去稳定支点。
同一天,员工公开信把危机推向峰值。Wired刊出了OpenAI员工致董事会信件全文。信中写道:“Your actions have made it obvious that you are incapable of overseeing OpenAI.”——你们的行动已经清楚表明,你们没有能力监督OpenAI。[13]
公开信要求董事会辞职,并恢复Sam Altman和Greg Brockman的职位。信中还说,微软已经保证,如果员工选择加入Sam Altman和Greg Brockman领导的新子公司,将为所有OpenAI员工提供职位。Wired报道称,超过700名OpenAI员工签署了这封信;报道同时称,OpenAI当时约有770名员工,这意味着签名者占公司绝大多数。[13]
这封信把董事会行动变成了一次反向公投。OpenAI的治理结构赋予董事会控制权,但公司真正运行所依赖的人力资本、模型知识、产品节奏和客户关系,并不自动随董事会命令移动。员工信的荒诞之处在于,它用近乎集体辞职威胁的方式,反击一个理论上代表使命监督的董事会。
更荒诞的是,信件的压力点不是“我们要去竞争对手那里”,而是“我们可以去微软那里”。微软是OpenAI最大战略伙伴,不是普通猎头公司。董事会如果坚持原决定,可能面对的不是几个高管离职,而是OpenAI核心团队被合作伙伴整体吸走的风险。公司外壳、模型资产、合同义务和治理使命仍在,但推动它前进的人员网络可能断裂。
这不是一个简单的“员工支持明星CEO”的故事。员工有专业判断,也有经济利益;他们可能真诚相信Altman回归最有利于公司使命,也可能同时担心公司价值和职业道路受损。微软有商业利益。Altman也不是抽象符号,而是OpenAI商业化和平台化的代表人物。安全使命、资本激励、组织忠诚和个人职业命运交织在一起,任何单线解释都太轻。
但公开信至少证明一件事:董事会虽然按下红色按钮,却没有说服被它治理的组织。
六、权力回流
11月20日之后,OpenAI危机已经不再像一场公司内部风波。它变成了一次围绕超级模型公司控制权的公开压力测试。
一边是董事会形式上的权力。OpenAI的特殊结构使董事会能够以使命为名采取剧烈行动。公告已经说明,董事会认为Altman“不始终坦诚”,并且“不再有信心”让他继续领导公司。[1] 如果仅从文本看,董事会完成了罢免、任命临时CEO、调整董事会主席的治理动作。
另一边是现实系统的权力。Brockman辞职,Altman获得公开支持,微软提供高级AI研究团队位置,Sutskever后悔参与董事会行动,超过700名员工威胁离职。客户和开发者虽然没有以同样集中方式发声,但他们的存在构成背景压力:OpenAI不是一家可以停机整顿数月的研究小组,而是一个被大量产品和业务流程调用的AI基础设施供应商。
美国西海岸时间11月21日晚,OpenAI在X上宣布:“We have reached an agreement in principle for Sam Altman to return to OpenAI as CEO with a new initial board of Bret Taylor (Chair), Larry Summers, and Adam D’Angelo.”——OpenAI已原则上达成协议,Sam Altman将回归担任CEO,新初始董事会包括Bret Taylor担任主席,以及Larry Summers、Adam D’Angelo。[14]
按美国西海岸时间计算,从17日公告到21日晚原则性协议,红色按钮被按下,又被现实压力弹回,只用了五天。
这份原则性协议没有把所有问题一次性解决。它首先解决的是权力真空:Altman回归,董事会重组,OpenAI恢复一个能被员工、微软和市场理解的领导结构。新初始董事会中,Bret Taylor曾担任Salesforce联席CEO和Twitter董事会主席;Larry Summers曾任美国财政部长、哈佛大学校长;Adam D’Angelo则是Quora CEO,也是原董事会成员之一。[14]
11月29日,OpenAI在博客发布“Sam Altman returns as CEO, OpenAI has a new initial board”。文章确认Altman回归CEO,Greg Brockman恢复OpenAI总裁职务,新初始董事会成立。博客中还提到,微软将作为无投票权观察员加入董事会。[15]
“无投票权观察员”是一个很硅谷、也很现实的安排。它没有把微软变成OpenAI的正式控制者,却承认微软不能再被排除在关键治理信息之外。对一家以非营利使命为顶层结构的AI公司来说,这个安排本身就是时代脚注:最先进模型的治理,已经无法只在使命宣言和董事会小圈子里完成;云基础设施、商业化渠道和全球客户关系,都会要求一个座位,哪怕那个座位没有投票权。
Brockman在危机初期用“based on today’s news, i quit”表示离开。[6] 到OpenAI后续公告确认他恢复总裁职位,短短十余天内,他的状态从被移出董事会主席、辞职,又回到公司核心。[15] Murati和Shear先后短暂处在临时CEO位置上,成为这场治理风暴中两个过渡节点。Murati承接公告后的第一波冲击,Shear承接董事会试图维持决定后的第二波冲击;最终,两人都没有成为新秩序的中心。
OpenAI的故事在这里没有变成传统意义上的胜利游行。Altman回来了,Brockman回来了,员工没有大规模迁往微软,新董事会出现了。但最初那句“不始终坦诚”仍然悬在公开记录里。董事会没有在11月17日公告中披露更多事实,回归协议也没有立即给出完整解释。
五天政变结束了,案卷没有合上。
七、不是结案,是新问题的开头
如果把这五天写成“Altman胜利,董事会失败”,故事会很顺滑,也会太廉价。
公开事实显示,董事会确实失去了对局势的控制。它罢免CEO,却没有稳住总裁;任命临时CEO,却很快出现第二位临时CEO;试图以使命和信任为理由完成治理动作,却遭遇首席科学家公开后悔、绝大多数员工联名反对、微软提供组织退路。最终,Altman回归,新初始董事会成立。[12][13][14][15]
但这并不自动证明董事会提出的所有担忧都不存在。OpenAI没有在11月17日公告中公开细节,外界无法仅凭公告判断“不始终坦诚”所指为何;同样,外界也不能因为员工和微软支持Altman,就推定高速商业化没有治理风险。纪实叙事不能用阵营热闹替代证据。
真正被这五天暴露出来的,是一个更大的制度问题:谁能控制超级模型公司?
传统创业公司有一套熟悉答案。创始人、董事会、投资者、员工和客户之间,通过股权、合同、市场和法律相互制衡。传统非营利组织也有一套熟悉答案。董事会代表使命,管理层执行,捐赠者和公众构成外部监督。但OpenAI把两种结构叠在一起:上层是确保AGI造福全人类的非营利使命,下层是需要巨额资本、顶级人才、云计算资源和商业收入支撑的AI平台。
这种结构在纸面上优雅,在高速扩张时充满张力。
DevDay展示的是商业化压力的强度:模型能力继续变强,调用价格下降,应用层基础设施开始成形,普通用户也被邀请进入“造助手”的流程。[2] 这些产品对开发者是糖衣,对部分创业公司可能是炮弹,对OpenAI治理结构则是持续加压。
董事会危机发生在这样一个节点上,带有强烈反衬。11月6日,OpenAI向世界展示平台速度;11月17日,董事会用最剧烈方式证明,公司治理结构无法无声承载这种速度。前者说:我们可以把AI能力交给更多人。后者问:谁来决定这种能力以什么节奏、由谁、在什么约束下交出去?
微软的角色同样留下问题。微软在危机中稳定合作、提供退路,并最终获得无投票权观察员席位。[8][10][15] 这对OpenAI短期稳定有利,也让外界更清楚地看到:最先进AI公司的治理不可能脱离算力和商业伙伴。可是,如果外部监管者想约束这种公司,监管对象究竟是谁?是非营利董事会,是营利子公司,是模型提供商,是云平台,还是把模型嵌入业务流程的下游企业?
员工公开信也留下问题。超过700名员工联名要求董事会辞职,这展示了组织内部对董事会行动的不信任。[13] 但员工同样不是抽象的公共利益代表。他们有专业判断,也有经济利益;他们可能真诚相信Altman回归最有利于使命,也可能同时担心公司价值和职业道路受损。现代AI公司的人才密度如此之高,以至于“员工集体行动”本身就成了一种治理权力。
五天政变最冷峻的地方在于:所有人都可以说自己在保护OpenAI。
董事会可以说自己保护使命。Altman支持者可以说自己保护公司执行力。员工可以说自己保护多年工作成果。微软可以说自己保护客户和产品路线图。监管者可以说自己保护公众。每一种说法都有公开材料能支撑一部分,也都有自身利益阴影。
危机暂时结束后,OpenAI不再只是实验室,也不再只是创业公司。它变成了一个必须同时向员工、微软、监管者、客户、开发者和公众解释自己的权力中心。它仍然讲述“确保AGI造福全人类”的使命,也仍然销售API、发布产品、扩展平台、承受估值想象。
红色按钮被按下的五天,证明OpenAI董事会拥有形式上的最高权力;Altman回归的结局,又证明形式权力不足以单独统治一个被全球生态绑定的AI平台。
这不是结案陈词,而是下一轮问题的开头:当模型能力继续增强,商业化继续提速,外部监管仍在摸索,内部董事会、员工和战略伙伴之间的权力边界,还会不会再次被逼到断裂处?
五天政变结束了。但OpenAI从此必须带着这道裂缝继续奔跑。
参考文献
- OpenAI Blog,“OpenAI announces leadership transition”,2023-11-17。
- OpenAI Blog,“New models and developer products announced at DevDay”,2023-11-06。
- Reuters,“OpenAI in talks to sell shares at $86 billion valuation - Bloomberg News”,2023-10-18。
- Microsoft Official Blog,“Microsoft and OpenAI extend partnership”,2023-01-23。
- Sam Altman X/Twitter,post beginning “i loved my time at openai…”,2023-11-17。
- Greg Brockman X/Twitter,resignation post including “based on today’s news, i quit”,2023-11-17。
- Greg Brockman X/Twitter,thread beginning “Sam and I are shocked and saddened by what the board did today”,2023-11-18。
- Satya Nadella X/Twitter,post on Microsoft’s long-term agreement with OpenAI,2023-11-17。
- OpenAI Blog,“OpenAI LP”,2019-03-11。
- Satya Nadella X/Twitter,post announcing Sam Altman and Greg Brockman joining Microsoft to lead a new advanced AI research team,2023-11-20。
- Emmett Shear X/Twitter,post beginning “Today I got a call inviting me to consider a once-in-a-lifetime opportunity…”,2023-11-20。
- Ilya Sutskever X/Twitter,post beginning “I deeply regret my participation in the board’s actions…”,2023-11-20。
- Wired,“OpenAI Staff Threaten to Quit Unless Board Resigns”,2023-11-20。
- OpenAI X/Twitter,post beginning “We have reached an agreement in principle for Sam Altman to return to OpenAI as CEO…”,2023-11-22。
- OpenAI Blog,“Sam Altman returns as CEO, OpenAI has a new initial board”,2023-11-29。
第13章|新董事会与旧问题:非营利理想如何管理千亿公司
一、原则上
“We have reached an agreement in principle for Sam Altman to return to OpenAI as CEO with a new initial board of Bret Taylor (Chair), Larry Summers, and Adam D’Angelo.”
2023年11月22日前后,OpenAI用这一句极其克制的话,为上一章所写的五天风暴画下公开分隔线:公司“原则上达成协议”,Sam Altman将回归CEO职位,新的初始董事会由Bret Taylor担任主席,Larry Summers加入,Adam D’Angelo留任。[1]
这不是胜利宣言,也不是忏悔书。它甚至不是一个完整句式上的终局承诺。关键词是“agreement in principle”——原则上。后面还有一句同样重要:“We are collaborating to figure out the details.”公司仍在合作敲定细节。[1]
前五天里,董事会解任CEO、总裁Greg Brockman离开、微软公开表示愿意接纳Altman和Brockman、员工联名要求董事会辞职,开发者和企业客户追问API、合同和产品路线图是否会改变。到了11月22日,官方语言忽然从硅谷连续剧切回法律备忘录:原则、初始、细节。
这种反差正是本章的入口。人物回来了,制度问题没有回来;或者更准确地说,制度问题一直在那里,只是风暴把它照得更亮。
Sam Altman随后在X上写道:“i love openai, and everything i’ve done over the past few days has been in service of keeping this team and its mission together.”他爱OpenAI,过去几天做的一切都是为了让团队和使命保持在一起。[2] 微软CEO Satya Nadella也在X上写:“We are encouraged by the changes to the OpenAI board.”接着他说:“We believe this is a first essential step on a path to more stable, well-informed, and effective governance.”微软受到董事会变化的鼓舞,并认为这是通向更稳定、更知情、更有效治理的第一步。[3]
这几句话共同构成危机后的第一版秩序:Altman回任CEO,新董事会启动,微软认可治理变化,员工、客户、开发者和合作伙伴至少得到一个可以继续运转的信号。
可是,“new initial board”里的“initial”不该被滑过去。它说明这不是最终答案,而是临时桥梁。桥的一端,是OpenAI从创立以来反复强调的公益使命;另一端,是ChatGPT之后迅速膨胀的商业现实。桥下流过的,不是抽象价值观,而是云计算账单、企业合同、模型安全评估、员工期权、监管关注、微软合作和公众期待。
到2023年底,OpenAI已经不是一家可以只靠研究文化和创始人威望运转的实验室。它的产品被个人用户用来写邮件、改代码、做作业、准备演示;被创业公司接进客服、搜索、办公和数据分析工具;被大型企业放入采购流程、信息安全审查和合规评估。对于这些人来说,董事会风暴不只是硅谷新闻。它可能意味着供应商风险、路线图风险、合同风险,甚至是“明天早上自动化流程还会不会正常调用API”的风险。
因此,这一章不写“国王归来”。它写的是一个更硬的问题:一个以造福全人类为目标的非营利组织,如何监督一家估值被媒体报道为数百亿美元、服务全球用户、与微软深度绑定的AI公司?
这不是修辞题。2023年11月以后,它成了OpenAI每天都要回答的公司治理题。
二、三人支架
危机后的初始董事会只有三个人:Bret Taylor、Larry Summers、Adam D’Angelo。[1][4]
这个组合很容易被写成“豪华阵容”,但更准确的说法是事故后的临时支架。Bret Taylor担任主席。他曾任Salesforce联席CEO,也曾在Twitter出售给Elon Musk的过程中担任Twitter董事会主席。Larry Summers曾任美国财政部长、哈佛大学校长,长期参与经济政策与公共治理讨论。Adam D’Angelo是Quora CEO,也是危机前董事会中留任的成员。
三个人对应三种信号:成熟科技公司治理经验,宏观经济与公共政策视角,以及旧董事会连续性。
其中最微妙的是Adam D’Angelo的留任。上一章已经写过五天风暴的公开过程,这里不再重走时间线。值得停顿的是:OpenAI没有把危机叙事切成“旧董事会全部失败、新管理层完全胜利”的整齐两段。D’Angelo既是危机前董事会的一员,又是危机后初始董事会的一员。这种安排不适合爽文,却符合制度修复的需要。机构不能只靠清场获得治理能力;它还需要过程记录、信息延续和可审查的责任链。
OpenAI在11月29日发布的博客中确认,Altman回任CEO,Mira Murati回任CTO,Greg Brockman回到公司担任总裁;新初始董事会由Taylor、Summers和D’Angelo组成。[4] 同一篇公告还披露,微软将以无投票权观察员身份加入董事会。[4]
这篇公告把“人事复位”推进为“治理重建”。董事会不再只是三位名字的排列。它必须处理几个棘手问题:此前董事会为什么认为Altman不适合继续领导?新董事会如何重新获得员工、客户、合作伙伴和监管者信任?未来董事会应当如何组成,才能既不是创始人的橡皮图章,也不是缺乏运营信息的道德陪审团?
OpenAI危机的行业荒诞感也在这里出现:一家声称要处理人类级智能风险的公司,首先要处理董事会构成、信息权、利益冲突政策和外部律师调查。人类尚未确认AGI何时到来,公司法已经先到了。
在普通创业公司里,董事会和CEO冲突并不罕见。资本市场有自己的语言:业绩、融资、估值、控制权、股东利益。但OpenAI不是普通创业公司。它的顶层是非营利组织,使命不是股东利润最大化;它的商业实体又承担着平台公司职责,面对消费者、开发者、企业客户和云计算伙伴。董事会既要能对CEO说“不”,又不能因为信息不足或继任安排不足,让公司在一个周末里陷入运营震荡。
这条线太细,细到五天内就可能断裂。
所以,Taylor、Summers和D’Angelo的三人初始董事会不是结局,而是抢修队。它的首要任务不是立刻写出完整历史解释,而是防止公司继续塌方。对于一家AI平台公司来说,治理危机不会停在新闻版面;它会迅速传导为客户风险、员工风险、监管风险和竞争风险。
11月22日的“agreement in principle”,像一次紧急制动后的手动复位。机器重新通电,但报警灯并不一定已经全部熄灭。
三、旁听席上的微软
微软得到的不是投票权。
OpenAI在11月29日博客中写道:“Microsoft will join the Board as a non-voting observer.”微软将作为无投票权观察员加入董事会。[4] The Verge随后以“Microsoft gets a non-voting board seat at OpenAI”为题报道了这一安排。[5]
这句话需要拆开看。无投票权观察员通常意味着可以列席董事会会议、获得更多治理和战略信息、了解讨论过程;但它不能像正式董事那样投票,不能以董事身份决定CEO任免,也不能直接通过董事表决推动重大事项。它不是方向盘,却是副驾驶座;不是控制权,却是信息权。
把这件事写成“微软接管OpenAI”,过于省事,也不准确。公开安排保留了一条形式边界:OpenAI董事会仍由OpenAI任命的董事组成,微软没有投票权。可是,把这件事写成“微软只是旁观”,同样低估了商业现实。旁听者不按表决器,却能听到会议;不能把手伸进投票箱,却能更早知道投票箱旁边发生了什么。
这正是AI产业治理的灰色地带:法律权力和商业依赖不总是同一件事。
微软与OpenAI的关系早已不是普通合作。2023年1月,微软宣布与OpenAI扩展伙伴关系,官方表述是“multiyear, multibillion dollar investment”——多年、数十亿美元投资;微软还表示,Azure将继续作为OpenAI的独家云提供方,支撑OpenAI API、产品和研究工作负载。[6] 至于外界常说的“约100亿美元”,应写成媒体报道口径,而不是微软公告中的条款。[7]
风暴发生后,微软最需要的未必是投票权,而是可预期性。Nadella那句“more stable, well-informed, and effective governance”非常直白:稳定、知情、有效。[3] 对微软这样的合作伙伴来说,OpenAI可以继续强调独立使命,但不能让一个全球AI基础设施供应商的领导层在周末里像实验功能一样被打开、关闭、再恢复。
这里的行业荒诞感并不来自个体,而来自制度本身:一家非营利使命驱动的AI研究机构,最后需要用董事会观察员席位安抚一家全球软件巨头;而这家软件巨头没有投票权,却掌握云、资本、企业分发和客户入口。
这不自动构成阴谋。它更像现代AI公司的物理定律。大模型不只需要论文、理想和安全原则,还需要数据中心、电力、GPU、网络、安全合规、客户支持、销售团队和现金流。OpenAI可以在章程里写下公益使命,但模型训练和推理服务仍然要在物理世界里结账。
对企业客户来说,这种绑定有两面。一面是安心:微软的基础设施、企业渠道和合规体系,能让OpenAI产品更容易进入大型组织。另一面是集中风险:当一个AI供应商同时是热门模型入口、开发者平台和云生态核心能力时,它的治理震荡会沿着供应链扩散。采购经理、CISO、法务团队和应用开发者不一定关心董事会哲学,但他们关心供应商是否稳定,数据处理承诺是否持续,明年的预算是否押错了船。
微软的旁听席因此不是危机的唯一答案,而是一枚制度温度计。温度显示:OpenAI已经热到必须让最大商业伙伴坐得更近一点。
四、Lightcap的排雷表
董事会风暴最先冲击的,不只是硅谷社交媒体,而是OpenAI的运营系统。
企业客户不会只问“谁是CEO”。它们会问:合同是否继续有效?API服务是否稳定?数据安全承诺是否改变?产品路线图是否延迟?企业版功能、合规支持、价格和服务级别是否还按原计划推进?在消费互联网里,用户可以一边吃瓜一边刷新页面;在企业软件里,采购部门和安全团队很少把“供应商正在经历治理危机”当作可爱的产品彩蛋。
这时,COO Brad Lightcap进入公开报道视野。
据Axios报道,2023年11月18日,Lightcap在内部备忘录中表示,董事会决定“was not made in response to malfeasance or anything related to our financial, business, safety, or security/privacy practices”。也就是说,据Axios转述,Lightcap称董事会行动并非因为不当行为,也并非源自财务、业务、安全或安全/隐私实践方面的问题。[8] Axios还报道称,他把事件描述为Sam与董事会之间的沟通破裂。[8]
这不是最终调查报告,也不是法院事实认定。它的重要性在于危机早期的排雷顺序。
第一颗雷,是财务:公司是否出现账目或经营问题?第二颗雷,是客户:是否对客户、投资者或合作伙伴作出有问题的陈述?第三颗雷,是安全与隐私:是否存在足以改变产品信任基础的实践问题?第四颗雷,是传统公司治理意义上的不当行为。
Lightcap据报道排除的,正是这些最容易引发客户恐慌的类别。[8] 对OpenAI来说,这种排除本身就是运营动作。它告诉员工:不要把这场风暴理解成公司基本业务已经失控。它告诉客户:不要立刻假设合同、数据安全和隐私承诺已经失效。它也告诉合作伙伴:危机首先是治理危机,而不是业务爆炸。
这里可以看到“时代中的个体”如何被卷入。不是每个人都有董事会席位,也不是每个人能在X上发出改变局势的帖子。更多人处在流程里:企业客户经理要给客户回电话;安全团队要回答供应商风险问卷;开发者关系团队要安抚担心API中断的创业者;财务和采购团队要判断合同是否继续推进;普通员工要在外部新闻持续更新时维持产品运行。
他们的名字多数不会出现在公告里,但AI基础设施的稳定正靠这些流程维持。模型能力可以写在发布会上,组织连续性却体现在工单、合同、状态页、客服回复和安全审查材料里。
ChatGPT之后,OpenAI已经不能只以研究机构方式处理信任。信任不再只来自模型能力,也来自组织可预期性。一个模型可以在基准测试中超过前代,但如果企业客户担心供应商下周再次更换领导层,技术进步就会被采购风险折价。
Lightcap的角色因此不需要戏剧化。他不是这场风暴中声音最大的名字,却代表公司机器继续运转的那部分工作。董事会与CEO冲突可以在公共叙事里变成宫斗,但企业客户的问题通常朴素得多:下个月账单谁负责?安全审查材料还算数吗?路线图还会兑现吗?开发者接入的接口会不会突然改规则?
OpenAI危机后真正需要修复的,正是这种朴素信任。
五、公益帽子与商业发动机
要理解这场危机为什么超出普通创业公司内斗,必须回到OpenAI给自己的制度承诺。
OpenAI Charter写道:“OpenAI’s mission is to ensure that artificial general intelligence benefits all of humanity.”OpenAI的使命,是确保通用人工智能造福全人类。[9] 这句话在前文已经出现过。放到本章,它不再只是理想宣言,而是治理结构的压力来源。
2019年,OpenAI宣布成立OpenAI LP,采用所谓“capped-profit”结构。OpenAI当时解释说,为实现使命需要更强融资能力,但传统非营利或传统营利结构都不足以平衡使命与资本,于是创建一个由非营利组织控制的有限盈利实体;投资者和员工可以获得有上限的回报,超过上限的收益将归于非营利组织,用于OpenAI使命。[10]
纸面上,这个设计很漂亮:让资本进入,但不给资本无限索取权;让公司商业化,但让非营利使命保留最终控制权。它像给火箭发动机戴上一顶公益帽子。帽子上写着“造福全人类”,发动机下面喷出的则是资本、算力、产品、客户、竞争和估值压力。
问题在于,2023年的发动机已经不是实验室级别。
2023年11月6日,OpenAI首届DevDay上,Altman披露,ChatGPT约有1亿周活跃用户;超过200万开发者使用OpenAI平台;超过92%的财富500强公司使用OpenAI产品。[11] 这些数字把OpenAI推入另一个物种:它是消费级产品平台,是开发者基础设施,是企业AI供应商,也是微软AI战略中的关键能力来源。
再看资本侧。微软官方说法是多年、数十亿美元投资。[6] 2024年2月,《纽约时报》报道称,OpenAI完成一项交易,公司估值约800亿美元。[12] 这不是OpenAI官方估值,必须写成媒体报道;但即使只作为市场信号,也足以说明:OpenAI已经进入数百亿美元估值区间,按人民币折算是数千亿元量级。
于是,治理悖论浮出水面。
非营利董事会的职责,是守住使命,不以股东利润最大化为最终目标。商业实体的日常现实,是服务客户、支付算力、留住人才、推出产品、面对竞争、维持伙伴关系和市场信心。科学家关心模型能力跃迁和长期风险;销售团队关心续约和采购周期;微软关心产品集成和云使用;员工关心组织稳定和股权价值;监管者关心隐私、安全与社会影响;公众则会问:如果这个技术真的影响所有人,为什么“所有人”没有直接座位?
OpenAI的制度创新本来试图回答这个问题。它说:由非营利母体代表使命,控制有限盈利公司。可是,五天风暴证明,代表使命并不等于自动获得治理能力。董事会如果缺乏足够信息,可能无法有效监督管理层;管理层如果掌握过多组织资源,董事会又可能变成装饰。使命需要权力,权力需要信息,信息需要信任。信任一旦断裂,使命语言就会变成危机公告里的背景布。
这不是OpenAI独有的道德失败,而是AI时代公司制度的压力测试。传统科技公司通常说“先增长,再治理”;OpenAI说的是“从一开始就以全人类利益为目标”。这句话更高,也更重。它让公司在商业成功之后必须面对反问:如果你真的变得重要,原来的治理结构还够用吗?
六、三万份文件后的收尾
2024年3月8日,OpenAI发布公告,宣布董事会新增三名成员:Sue Desmond-Hellmann、Nicole Seligman、Fidji Simo;同时,Sam Altman重新加入董事会。[13] 这一天,11月那场风暴被正式放进一套法律审查语言里。
OpenAI称,董事会特别委员会聘请WilmerHale进行审查。公告说,审查包括与OpenAI前董事会成员、OpenAI高管、前董事会顾问以及其他相关证人进行数十次访谈,审阅超过三万份文件,并评估多项公司行动。[13] 对一家经历公开治理危机的公司来说,“超过三万份文件”是一个安抚性数字:它告诉外界,事情不再只是社交媒体碎片、员工联名信和匿名爆料,而是进入律师事务所、访谈记录和文件审阅的世界。
但法律语言也有边界。OpenAI公布的是审查结果摘要,不是完整调查报告。公众能看到结论,不能看到全部证据链。这一点很重要。它让公司获得一个可公开引用的收尾版本,也让外界保留继续怀疑的空间。
公告中最关键的一句是:“The review concluded there was a significant breakdown in trust between the prior Board and Sam and Greg.”审查结论认为,前董事会与Sam、Greg之间存在重大信任破裂。[13]
更关键的是另一句:“The prior Board’s decision did not arise out of concerns regarding product safety or security, the pace of development, OpenAI’s finances, or its statements to investors, customers, or business partners.”前董事会的决定并非源自对产品安全或安全性、发展速度、OpenAI财务状况,或OpenAI向投资者、客户、商业伙伴所作陈述的担忧。[13]
这句话几乎是对外界简化叙事的一次纠偏。危机发生后,许多评论急于把它写成“安全派反商业派”的决战:一边是担心AGI失控的理想主义董事,一边是追求产品速度和商业扩张的CEO。这个叙事有吸引力,因为它整齐,符合AI时代最流行的道德剧模板。但OpenAI在2024年3月公告中给出的版本更难处理:不是产品安全,不是发展速度,不是财务,不是客户或投资者陈述,而是信任破裂。
信任破裂听上去更软,实际上更硬。产品安全问题可以交给评估流程,财务问题可以交给审计,客户陈述可以交给合同和监管。信任问题则关系到董事会是否相信CEO提供的信息足以让它履行职责,CEO是否相信董事会能够理解公司运营复杂性,双方是否共享同一套危机判断。它没有一个简单仪表盘,却足以让董事会按下解任按钮。
OpenAI公告还写道,WilmerHale认为前董事会在其广泛自由裁量权内可以解任Altman,但也认为他的行为并不要求必须被解任。[13] 这是一种典型的法律收束:承认董事会有权做那件事,同时说明那件事不是唯一必要结果。它既没有把前董事会写成非法叛乱,也没有把Altman写成完全不受约束的胜利者。
Bret Taylor在公告中代表董事会说:“We have unanimously concluded that Sam and Greg are the right leaders for OpenAI.”董事会一致认为,Sam和Greg是OpenAI合适的领导者。[13] Reuters同日报道也概括称,OpenAI表示,在调查之后Altman将重返董事会。[14]
至此,五天风暴获得官方结尾:Altman不仅回任CEO,还回到董事会;Greg Brockman继续在领导层中;董事会扩容;WilmerHale审查给出摘要;“重大信任破裂”成为最正式的解释。
可是,这个结尾仍然不是答案。它解释了董事会危机不是什么,却没有完全解释它究竟是什么。不是产品安全,不是发展速度,不是财务,不是客户或投资者陈述。那么,究竟是什么样的信息不对称、沟通失灵和权力关系,足以让一个非营利董事会在没有准备好继任秩序的情况下解任一家全球AI公司CEO?
OpenAI没有在公告中把这个问题完全交给公众。它用法律语言把门合上了一半,也留下了一条缝。
七、没有席位的人类
3月8日之后,OpenAI的新董事会看起来更像一家成熟科技公司的董事会。
Sue Desmond-Hellmann曾任盖茨基金会CEO,带来公共卫生、慈善和大型机构治理经验。Nicole Seligman曾任Sony高管和总法律顾问,带来法律、合规和跨国公司治理经验。Fidji Simo是Instacart CEO兼董事长,带来消费平台和运营经验。Altman回到董事会,则使管理层与董事会之间的关系重新被制度化。[13]
从名单上看,OpenAI在补课:补企业治理,补法律合规,补全球机构经验,补消费平台运营经验。这个方向并不神秘。经历11月风暴后,OpenAI需要的不只是会谈AGI风险的人,也需要能读懂商业组织、客户信任、公共影响和法律责任的人。
但旧问题没有因此消失。
科学家关心安全和长期风险。他们会问,模型能力评估是否足够,部署速度是否过快,商业压力是否会侵蚀谨慎原则。
董事关心使命和控制权。他们会问,非营利母体如何真正监督有限盈利公司,董事会如何获得足够信息,如何避免再次出现信任断裂。
投资者与合作伙伴关心资本回报与稳定。微软这样的伙伴会问,治理是否可预测,产品路线是否连续,云和企业客户承诺是否可靠。
员工和客户关心产品路线与组织连续性。员工需要知道谁在领导公司,客户需要知道服务是否稳定,开发者需要知道平台规则会不会突然改变。
公众关心的东西最宽,却没有直接席位。OpenAI的使命指向“全人类”,但“全人类”不是一个可以按时参加董事会会议、阅读材料、提出反对意见并投票的法人。它不能像微软那样获得观察员席位,不能像员工那样发联名信,不能像客户那样暂停采购,不能像投资者那样通过交易表达估值。公众只能通过监管、媒体、学术批评、用户选择和政治过程间接进入房间。
这就是OpenAI治理悖论最尖锐的部分:使命指向最大范围的人类共同体,制度却仍然必须通过有限数量的董事、合同、投资、雇佣关系和公司法来执行。
OpenAI没有现成模板。传统非营利组织通常不会运营一个估值数百亿美元、拥有上亿周活跃用户、深度嵌入全球云计算平台的商业产品。传统科技公司也很少把“造福全人类”写成高于股东回报的核心治理承诺。OpenAI把两种制度拼在一起,先获得了速度,后遭遇了张力。
兴奋与怀疑必须同时保留。
兴奋在于,这家公司确实推动了AI从实验室走向大众,迫使世界提前讨论通用人工智能、安全、生产力和监管。怀疑在于,当一个组织变得如此重要,它不能只靠个人魅力、使命口号和危机后的临时董事会来证明自己值得信任。
2023年11月22日,“agreement in principle”让OpenAI从悬崖边退了一步。2024年3月8日,WilmerHale审查摘要和董事会扩容让它获得一个制度化收尾。但真正的悬案才刚刚开始:非营利理想能否持续约束商业火箭?董事会能否既理解技术风险,又理解公司运营?微软这样的伙伴能否提供稳定,而不吞没独立性?公众能否在没有直接席位的情况下,仍然影响一家声称服务全人类的公司?
当OpenAI忙于修补董事会时,Google、Anthropic、Mistral、xAI和更多后来者并没有等待。裂缝之后,产品竞赛没有减速,反而加速。治理问题还在桌上,模型发布会已经重新排队入场。
参考文献
- OpenAI,X帖文“We have reached an agreement in principle for Sam Altman to return to OpenAI as CEO…”,2023-11-22。
- Sam Altman,X帖文“i love openai, and everything i’ve done over the past few days…”,2023-11-22。
- Satya Nadella,X帖文“We are encouraged by the changes to the OpenAI board…”,2023-11-22。
- OpenAI Blog,“Sam Altman returns as CEO, OpenAI has a new initial board”,2023-11-29。
- The Verge,“Microsoft gets a non-voting board seat at OpenAI”,2023-11-29。
- Microsoft,“Microsoft and OpenAI extend partnership”,2023-01-23。
- Reuters,“Microsoft to invest $10 billion in ChatGPT creator OpenAI, Semafor reports”,2023-01-10。
- Axios,“OpenAI COO: Sam Altman ouster not over ‘malfeasance’ or safety”,2023-11-18。
- OpenAI,“OpenAI Charter”,2018-04-09。
- OpenAI Blog,“OpenAI LP”,2019-03-11。
- OpenAI,OpenAI DevDay Opening Keynote,2023-11-06。
- The New York Times,“OpenAI Completes Deal That Values Company at $80 Billion”,2024-02-16。
- OpenAI Blog,“OpenAI announces new members to board of directors”,2024-03-08。
- Reuters,“OpenAI says Sam Altman to return to board after investigation”,2024-03-08。
第14章|Gemini、Sora、Claude 3:裂缝之后的产品冲刺
一、一分钟的世界
2024年2月15日,OpenAI没有宣布一款所有人都能立刻打开使用的消费产品。它发布的是Sora的技术预览。
官方页面上的样例像一组未来影视广告样片:霓虹街道、潮湿路面、行人、服装褶皱、雪地里的猛犸象、海浪中的纸船、金矿小镇、太空人。文字提示词被送进系统,屏幕上出现接近一分钟的视频。OpenAI在页面上写道:“Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.”它又写了另一句更大的表述:“We’re teaching AI to understand and simulate the physical world in motion.”[1]
第二句话需要谨慎理解。它不是一个已经被外部验证的结论,不能直接改写成“Sora已经拥有世界模型”。按照OpenAI自己的说法,这是公司正在“教”AI理解并模拟运动中的物理世界。2024年2月的Sora也不是面向大众的正式上线产品。OpenAI称,它正在向红队人员开放,以评估危害或风险;也向部分视觉艺术家、设计师和电影制作人开放,以获得反馈。[1]
但在这个行业里,一次技术预览已经足够改变天气。
如前章所述,OpenAI刚刚结束董事会危机后的止血阶段。公司治理仍在被外部追问,非营利使命、商业扩张、微软关系和董事会监督并没有因为一次人事回归而自动获得答案。可是外部竞争没有等这些答案出现。
从2023年12月到2024年3月,前沿AI竞赛突然冲进更嘈杂、更昂贵、也更难校验的地带。Google发布Gemini,强调“原生多模态”;Mistral推出Mixtral,继续用开放权重和工程效率挑战大厂叙事;xAI用Grok把实时信息和产品人格包装成卖点;OpenAI用Sora重新夺回全球注意力;Anthropic发布Claude 3,把自己推回第一梯队讨论。
这几个月的产品冲刺有三层变化。
第一,AI从“会写”扩展到“会看、会听、会画、会拍”。聊天框仍然存在,但它不再是唯一舞台。模型开始被描述为能够处理文本、图像、音频、视频、代码和更长上下文的通用系统。
第二,产品发布越来越像大片预告片。技术报告、排行榜、官方博客、短视频样例、社交平台转发、媒体复盘,共同组成一种新的科技工业仪式。发布不只是说明“我们做到了什么”,也在制造另一个问题:哪些已经可用,哪些只是可以被展示?
第三,演示真实性、偏见、安全和平台责任开始成为产品本身的一部分。一个聊天机器人答错问题,可能只是截图传播;一个图像模型生成历史人物错误图像,会迅速变成文化和政治争议;一个视频模型看起来足够逼真,影视行业、广告公司、设计师、选举监管者和版权律师都会同时抬头。
这一轮冲刺里,兴奋和怀疑几乎同时出现。每一段样例视频都在告诉人们:能力边界正在移动。每一条免责声明又在提醒人们:边界移动并不等于可靠交付。
二、Google重新发声
时间倒回两个月。
2023年12月6日,Google发布Gemini。官方博客标题把它称为“our largest and most capable AI model”。Google CEO Sundar Pichai在文中说:“Gemini is the most capable and general model we’ve ever built.”Google DeepMind CEO Demis Hassabis也站在发布叙事中心,代表这家拥有搜索、广告、Android、云计算、TPU、DeepMind和长期基础研究积累的公司重新发声。[2]
这不是一次孤立发布,而是Google在Bard受挫阴影之后的一次体系性反击。Bard早期演示失误已在前文详述。这里需要保留的只是结论:对Google而言,2023年的问题并不是“有没有AI技术”,而是如何把技术可信、稳定、可规模化地变成产品。Reuters当时报道过Alphabet股价在Bard广告出错后大幅下跌,但市场反应不能简化为单一技术错误的机械结果;它更像外界对Google能否在ChatGPT压力下保持节奏的一次集中投票。[3]
Gemini发布时,Google强调三档模型:Ultra、Pro、Nano。Ultra面向最复杂任务,Pro面向广泛规模化应用,Nano则面向设备端任务。[2] 这套命名不是论文语言,而是产品货架语言。Google不是只拿出一个模型,而是在告诉开发者、企业客户、手机用户和内部产品线:从数据中心到手机端,都可以有不同规模的Gemini。
发布材料中最重要的词是“multimodal”。Google写道:“Gemini was built from the ground up to be multimodal.”[2] 技术报告也把Gemini描述为一系列多模态模型,能够处理文本、图像、音频和视频等输入。[4] 这句话的行业含义在于,Google试图把Gemini区别于那种“先做文本模型,再外挂图像识别或语音模块”的拼接路线。所谓“原生多模态”,在Google的叙事里,是把不同模态从一开始纳入同一系统能力的训练和推理框架。
Google还用基准测试为Gemini Ultra加冕。技术报告称,Gemini Ultra在MMLU上达到90.0%,并称超过人类专家基准。[4] MMLU覆盖数学、历史、法律、医学、伦理等多个学科,是大模型时代最常被引用的综合知识测试之一。90.0这个数字非常适合传播:它看起来像体育比分,领先一分也像领先一个身位。
但这类表格必须带着限制阅读。MMLU、GSM8K、HumanEval这些名字在2023年以后变成AI行业的军备公报。每家公司都在表格里插旗,每个小数点都可能被剪进发布幻灯片。问题是,真实用户不会只问标准化选择题,也不会总是按照评测格式提供干净输入。一个模型在排行榜上表现强劲,并不保证它在医疗建议、法律文件、客服流程、儿童教育、企业数据处理和公共事件解释中同样可靠。
Google的处境也因此更复杂。OpenAI可以用创业公司的速度冲锋,Google则带着搜索商业模式、广告客户、Android生态、全球监管档案和品牌信誉。它拥有庞大技术资产,却也必须证明这些资产能够以可信方式进入普通人的手机、浏览器、文档和搜索框。巨轮可以加速,只是每一次转向都伴随更大的噪音。
三、演示与真实交互之间
Gemini发布当天,最吸引外界目光的不是技术报告中的表格,而是一段演示视频。
视频里,模型似乎能够看见桌面上的图画、物体和手势,并用自然语言连续回应。它识别画出来的鸭子,理解纸团和杯子的变化,辨认手势游戏,像一个耐心的多模态助手一样参与互动。对于习惯了聊天框的人来说,这段视频给出的想象很直接:AI终于不只是读字,它开始“看见”世界。
随后,外界注意到视频说明中的一句话:“For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity.”[5]
这句话不长,却足够让媒体开始复盘。Bloomberg和The Verge等媒体报道指出,这段演示并不是实时语音连续交互的原始记录,而是经过剪辑和压缩;Google方面也说明,演示使用了静态图像帧和文本提示,延迟被缩短,输出被压缩。[6][7]
这里不必把问题写成简单的“造假”。更准确的说法是:营销演示与真实交互之间存在距离,而这个距离在多模态时代变得更敏感。
在文本模型时代,公司可以贴出提示词和回答。观众仍要警惕样例挑选、系统提示、失败案例隐藏和评测设置,但交互形式相对清楚。到了多模态模型,演示视频本身带有电影语法:镜头切换、节奏压缩、字幕选择、输出删减、延迟隐藏。一个模型如果需要等待十几秒才能回答,和视频里几乎即时回应,给用户的感受完全不同;一个模型如果需要精心挑选输入,和看起来随手理解现实桌面,也不是同一种产品状态。
AI行业在2023年以后形成了一种奇特景观:公司发布模型时既要像科学家一样给出技术报告,又要像电影公司一样剪预告片,还要像药企一样写安全说明,最后再像消费电子公司一样解释价格、地区和功能限制。每个角色都有必要,每个角色之间又互相拉扯。
对开发者来说,这种距离会变成集成风险。一个小团队看到演示视频,可能会立刻设想把多模态能力接入教育、客服、设计、工业巡检或医疗辅助流程。但真正采购API或接入产品时,他们需要知道延迟、失败率、输入格式、价格、数据政策和限制条件。演示里的“几乎无缝”如果在生产环境中变成“不稳定、慢、贵、偶尔答非所问”,商业计划就会从兴奋变成工单。
Google的尴尬正在于此。它不是没有技术。Gemini技术报告列出了大量评测,Google DeepMind也有长期多模态研究积累。真正的问题是,当一个模型被推到大众传播现场,它必须同时经受研究共同体、开发者、用户、媒体、资本市场和监管者的审视。技术表格说“能力到了”,演示视频说“未来近了”,用户会问:“我现在打开产品,也能这样吗?”
前沿模型竞争已经不只是论文竞争,而是可信产品化的竞争。谁能把能力稳定、透明、可解释地交到用户手里,谁才拥有下一轮平台入口。
四、从Bard到Gemini:产品化带来的社会错误
2024年2月8日,Google把Bard更名为Gemini,并推出Gemini应用和Gemini Advanced。[8]
这一步的信号很清楚。Google不再让“Bard”作为一个带着早期尴尬记忆的聊天机器人品牌继续站在前台,而是把消费端入口、订阅服务和最强模型命名统一到Gemini之下。Gemini Advanced接入Ultra 1.0,通过Google One AI Premium计划提供,在美国价格为每月19.99美元。[8] 这几乎是在正面回应ChatGPT Plus:前沿模型不只是云API,也是一种每月订阅的消费品。
Google还推出Android上的Gemini应用,并把iOS用户导向Google App中的Gemini入口。[8] 对一家控制Android生态、拥有Gmail、Docs、YouTube、Chrome、搜索和地图的公司来说,移动入口是它区别于OpenAI的重要资产。OpenAI拥有ChatGPT的品牌和开发者生态;Google拥有用户日常生活和办公流程中的大量入口。理论上,Gemini可以被放进用户工作的每一道缝隙。
但产品化带来的不是只有增长曲线,还有社会错误。
2024年2月,Gemini的图像生成功能因人物图像问题引发争议。用户在社交平台上展示一些历史人物或历史场景的生成结果,批评模型在种族、性别呈现和历史准确性上出现错误。争议迅速扩大。2月22日,Google Communications在X上发布声明:“We’re already working to address recent issues with Gemini’s image generation feature. While we do this, we’re going to pause the image generation of people and will re-release an improved version soon.”[9]
第二天,Google高级副总裁Prabhakar Raghavan发表文章,标题直接承认:“Gemini image generation got it wrong. We’ll do better.”他解释说,Google为了避免模型陷入暴力或不公正的刻板印象,对系统进行了调校;但在一些情况下,调校产生了过度补偿,在另一些情况下又过于保守,导致某些提示被拒绝或生成不准确结果。[10] Reuters等媒体也报道了Google暂停人物图像生成的决定。[11]
这次事故说明,AI安全不只是科幻电影里的灾难风险,也不是论文里抽象的“对齐”概念。它包括偏见、历史准确性、文化代表、平台责任,以及一个模型在大规模消费产品中如何处理复杂社会语境。
在企业演示里,“减少偏见”是一条漂亮原则;在真实产品里,它会变成无数具体问题:当用户要求生成历史人物,模型应该怎样同时处理史实和多样性目标?当用户要求生成极端政治或战争相关场景,系统应该如何避免美化暴力,同时又不扭曲历史?当不同国家、族群和政治阵营对“准确”和“冒犯”的定义不同,平台如何制定统一规则?
这些问题没有简单答案。荒诞之处在于,大模型公司一边被批评“不够安全”,一边又会因为安全调校过度而被批评“改写现实”。一个图像生成按钮背后,站着训练数据、后处理过滤、系统提示、红队测试、法律审查、政策团队和公关团队。用户看到的是一张错误图片,公司要处理的是模型、产品、文化和政治同时失控的连锁反应。
对普通用户来说,这类事件也改变了他们理解AI的方式。早期聊天机器人答错事实,许多人把它当成“幻觉”。图像模型生成历史错误,则更像平台对公共记忆的可视化改写。模型越多模态,错误越可见;错误越可见,社会后果越快到来。
Gemini暂停人物图像生成因此成为一个标志:前沿AI产品的失败不再只表现为“答错一道题”。它可能表现为一个平台对历史和社会身份的错误编码。
五、侧翼:Mixtral与Grok
聚光灯下是Google和OpenAI,侧翼战线也没有停止。
2023年12月11日,法国公司Mistral AI发布“Mixtral of experts”。Mistral称,Mixtral是一个稀疏专家混合模型,总参数约46.7B,但每个token只使用约12.9B参数。[12] 简单说,它不像每次生成都动用全部参数,而是在每一层通过路由机制选择部分“专家”参与计算。行业喜欢这种结构,因为它提供了一种工程诱惑:模型可以拥有较大的总容量,运行时又不必每次支付完整大模型的计算成本。
Mistral还称,Mixtral在多项评测中匹配或超过Llama 2 70B和GPT-3.5。[12] 这类表述同样需要带着限制阅读。不同评测集、不同提示方式、不同推理设置都会影响结果。Mixtral的意义不只在分数,而在于它代表欧洲创业公司在大厂竞争之外寻找空间:开放权重、开发者友好、成本效率、企业可部署。
对许多小团队和企业技术负责人来说,这不是抽象路线之争。闭源API通常意味着快速接入、能力强、维护省心,但也意味着数据、价格、速率限制和供应商策略都握在别人手里。开放权重模型则把一部分控制权还给部署方:可以在本地或私有云运行,可以围绕行业数据微调,可以根据成本和延迟重新设计架构。当然,它也把运维、安全和评估负担一并交给了使用者。所谓“自由”,经常附带一张GPU账单。
更早一些,2023年11月4日,Elon Musk创办的xAI宣布Grok。官方博客写道:“Grok has real-time knowledge of the world via the 𝕏 platform.”它还写道:“Grok is an AI modeled after the Hitchhiker’s Guide to the Galaxy.”[13] 这两句话几乎把产品定位说完了:实时信息,加上带有反主流、幽默和“叛逆”色彩的人格包装。
Grok的切入点并不是立刻在所有基准测试上证明自己超过GPT-4,而是把X平台的数据流和Musk式品牌风格结合起来。ChatGPT早期的一个弱点是知识截止日期和实时信息不足;浏览、搜索增强和插件生态后来试图弥补这一点。Grok则从一开始就把“via the 𝕏 platform”写进卖点。
这个行业有时像严肃科学竞赛,有时又像角色扮演游戏:一个模型要稳重,一个模型要安全,一个模型要会写代码,一个模型要能处理长文档,还有一个模型要告诉用户它继承了《银河系漫游指南》的精神。幽默不是来自某个个体,而是来自产业本身的荒诞组合:数十亿美元训练出的系统,最后也要在市场上回答一个老问题——你到底有什么性格?
这不是插曲。它说明前沿AI竞争正在分层。
最顶层是OpenAI、Google、Anthropic争夺通用能力和平台入口。中间层是Mistral这类公司用开放权重、成本效率和区域产业政策打开空间。另一路是xAI把实时社交数据和强个性产品化。模型不再只是“谁更聪明”的单轴竞赛,而是能力、成本、速度、开放程度、数据来源、品牌人格和监管适配的组合竞赛。
OpenAI董事会危机给外界留下一个信号:最领先的公司也会出现治理裂缝。对竞争者来说,这不是坐等它倒下的理由,而是加速抢窗口的理由。
六、Sora刷屏
然后,Sora来了。
2024年2月15日,OpenAI发布Sora技术预览。它没有开放给所有ChatGPT用户,也没有宣布明确的消费订阅价格。它展示的是一组足够震动视觉行业的样例,并把技术叙事放在“视频生成”和“物理世界模拟”之间。[1]
OpenAI的公开页面同时写了能力和限制。能力部分最容易传播:最长约一分钟视频,保持视觉质量,并遵循用户提示。[1] 限制部分同样重要,却更容易在转发中被省略。OpenAI承认,Sora可能难以准确模拟复杂场景的物理规律,也可能不理解具体因果关系。例如,一个人咬一口饼干后,饼干上可能不会正确出现咬痕;模型还可能混淆左右,或在时间推进中处理细节出错。[1]
这正是Sora的复杂性:它足够惊人,也明显不可靠。
对影视、广告、游戏概念设计和短视频创作者来说,Sora给出的不是“明天全行业失业”的确定结论,而是一种足够有说服力的替代性想象。过去,文字生成图像已经改变概念设计、分镜草图、海报试稿和视觉探索流程。视频生成进一步触及运动、镜头、角色一致性和场景连续性。即使它还不能稳定生产完整电影,也足以让广告公司和创意团队重新计算试错成本。
在传统流程中,一个一分钟视频可能需要脚本、分镜、美术、拍摄、灯光、演员、后期、特效和审批。AI视频模型把其中一部分流程压缩为提示词、生成、筛选和再生成。压缩并不等于消灭。真实商业项目仍然需要版权清晰、风格可控、角色一致、画面可修、声音可配、交付格式稳定。只是当早期样例已经能让行业人士停下来观看,变化就已经开始。
独立创作者的位置尤其微妙。过去,他们缺少摄影棚、演员、后期团队和特效预算;生成视频让“先做出一个可看的概念片”变得更可想象。但另一面也同样清楚:如果平台访问被少数公司控制,如果生成成本高昂,如果版权和训练数据争议长期不清,小创作者可能只是从一种门槛走向另一种门槛。摄影棚租金变成算力租金,道具预算变成订阅和积分,制片流程变成提示词和审核队列。门变窄了,门牌换了。
Sora也把真实性问题推向更高层。文本可以被反驳,图片可以被检索,视频长期被普通人视为更强证据。深度伪造并不是Sora才带来的问题,但高质量文本生成视频会降低制造逼真场景的门槛。OpenAI因此强调红队测试,特别关注错误信息、仇恨内容和偏见等风险,并表示会构建检测工具,在既有图像生成安全方法基础上处理输入提示和输出内容。[1]
这里的行业荒诞感很强:公司一边发布足以震动世界的生成视频样例,一边告诉世界它正在努力识别这些视频是不是自己生成的。技术像发动机,安全像刹车,市场像油门,监管像交警,而用户已经在路边举起手机拍摄。
Sora让OpenAI重新占据注意力中心。几个月前,它因董事会风波被讨论为治理案例;几个月后,它又把公众讨论拉回“这家公司到底还能做出什么”。这就是前沿AI公司的特殊权力:一次组织危机可以暴露制度问题,一次产品展示又能迅速重写叙事。
但Sora也显示了新的约束。视频比文本昂贵得多。它需要更多数据、更大算力、更复杂的训练和推理系统,也带来更重的版权、安全和滥用压力。Sora不是终点,它是下一轮资源竞赛的预告片。
七、Claude 3回到牌桌中央
2024年3月4日,Anthropic发布Claude 3模型家族:Opus、Sonnet、Haiku。[14]
命名看起来像诗集,商业逻辑却很清楚。Opus是最强模型,面向高复杂度任务;Sonnet在能力和速度之间折中;Haiku强调快速和低成本。Anthropic没有只发布“一个最强模型”,而是发布一套可销售、可部署、可按场景选择的模型组合。
前沿模型竞争到这个阶段,单点冠军固然重要,但企业客户更关心另一组问题:延迟多少?价格多少?上下文多长?能否稳定调用?数据政策如何?安全机制是否可信?能否进入现有工作流?一个企业采购负责人不会只看宣传片,也不会只看MMLU。他们还要面对预算表、合规审查、供应商风险、内部培训和系统集成。
Anthropic在博客中写道:“The Claude 3 models set new industry benchmarks across a wide range of cognitive tasks.”[14] 它公布的评测表显示,Claude 3 Opus在MMLU、GSM8K、HumanEval等任务上表现强劲。例如,Anthropic公布Claude 3 Opus在MMLU上为86.8%,在GSM8K上为95.0%,在HumanEval上为84.9%。[14] 这些数字使Claude 3重新进入与GPT-4、Gemini Ultra并列讨论的前沿模型阵营。
仍然要重复那句扫兴但必要的话:benchmark不是现实世界。它们是路标,不是目的地。一个企业采购模型,不会只看MMLU;一个程序员使用模型,也不会只问HumanEval;一个法务部门更不会因为GSM8K分数高就放心上传合同。评测提供可比较窗口,但真实竞争发生在更复杂的场景中:长文档处理、代码库理解、多轮对话、工具调用、幻觉控制、隐私承诺、可用性和成本。
Claude 3的发布同时延续了Anthropic的安全叙事。Anthropic从成立以来就把“安全”“可靠”“企业可信”放在品牌中心。它不像OpenAI那样拥有ChatGPT的全民级声量,也不像Google那样拥有搜索和Android入口,但它在企业市场、云合作和安全形象上找到了位置。OpenAI危机之后,许多企业客户更清楚地看到,依赖单一前沿模型供应商存在组织风险。Claude 3发布的时间点,正好踩在这个机会窗口上。
Anthropic的竞争策略因此有两层。
第一层是技术追赶。Claude 3 Opus的评测分数告诉市场,Anthropic不是“安全但慢半拍”的替代品,而是能进入第一梯队的前沿模型开发者。
第二层是商业可信度。Sonnet和Haiku告诉客户,Anthropic不只提供最高端模型,也提供速度和成本选项。对企业来说,最贵最强的模型未必适合所有任务。客服摘要、内部搜索、低风险文案、代码辅助、合规审查,可能需要不同级别的模型。把模型家族做成梯队,本质上是在把AI能力变成云服务货架。
这也是2024年前沿模型竞争的新常态:公司不再只炫耀“我有一个大脑”,而要证明“我有一套供应链”。模型、API、价格、上下文、安全文档、区域合规、企业合同、云合作伙伴、监控工具,共同构成产品。
Claude 3证明,OpenAI并没有因为ChatGPT先发优势而锁死赛道。Google没有退出,Anthropic没有掉队,Mistral在侧翼加速,xAI用平台数据切入。裂缝之后,竞争不是降温,而是扩散。
八、下一种硬约束
从Gemini到Sora,再到Claude 3,这一轮产品冲刺看起来像模型能力的胜利。
它当然是。Gemini把Google的多模态资产重新包装成体系性反击;Sora把文本生成视频推到大众想象中心;Claude 3让Anthropic回到第一梯队;Mixtral提醒大厂,开放权重和成本效率仍有市场;Grok则证明,实时数据和产品人格也可以成为竞争武器。
但把镜头再拉远,另一条底线浮现出来:算力。
多模态模型要处理文本、图像、音频、视频,训练数据更重,推理成本更高。视频模型尤其昂贵,因为它不仅要生成每一帧,还要维持时间连续性、运动一致性和视觉质量。模型家族分成Ultra、Pro、Nano,或Opus、Sonnet、Haiku,不只是产品命名,也是在算力约束下做出的商业分层。最强模型负责标杆,较小模型负责规模化,端侧模型负责延迟、隐私和成本。
这解释了为什么前沿AI竞赛很快会从模型发布转向芯片、数据中心、电力、供应链和出口管制。一个公司可以在博客里写“原生多模态”,可以在视频里展示一分钟世界,也可以在表格里把MMLU提高几个百分点;但如果没有足够GPU、网络、内存、数据中心和电力合同,它就无法把这些能力稳定交付给数亿用户。
对行业里的个体而言,算力不是抽象名词。创作者会在等待名单和生成额度里感到它;创业团队会在API账单里感到它;企业客户会在采购合同和延迟指标里感到它;研究者会在能否复现实验里感到它。所谓“智能涌动”,到这一刻已经不只是算法故事,也是资源故事。
2023年底到2024年初的这段时间,AI行业像一条刚换上新发动机的高速列车。车厢里坐着搜索公司、创业公司、云厂商、电影制作人、广告公司、监管机构、版权律师、大学研究者和普通用户。窗外的景色从聊天框变成图像,再变成视频。每一站都有掌声,也有警报。
OpenAI的治理危机没有让行业停下来反思很久。相反,它像一次提醒:如果领先者会摔倒,后面的人就更要加速。Google用Gemini证明自己仍在牌桌上;OpenAI用Sora证明自己仍能制造震撼;Anthropic用Claude 3证明第一梯队不是单人游戏。
下一章,故事将离开发布页和演示视频,进入更硬的世界:H100、数据中心、出口管制、欧洲AI Act,以及那句越来越常见、也越来越需要精确定义的比喻——算力成为新石油。
参考文献
- OpenAI Blog,“Creating video from text”,2024-02-15。
- Google Blog,“Introducing Gemini: our largest and most capable AI model”,2023-12-06。
- Reuters,“Alphabet shares dive after Google AI chatbot Bard flubs answer in ad”,2023-02-08。
- Google,“Gemini: A Family of Highly Capable Multimodal Models”,Technical Report,2023。
- Google DeepMind YouTube,“Hands-on with Gemini: Interacting with multimodal AI”,2023-12-06。
- Bloomberg,“Google’s Gemini AI Demo Was Impressive, But It Wasn’t Real”,2023-12-07。
- The Verge,“Google’s Gemini AI demo wasn’t as real as it seemed”,2023-12-07。
- Google Blog,“Bard becomes Gemini: Try Ultra 1.0 and a new mobile app today”,2024-02-08。
- Google Communications,X statement on pausing Gemini image generation of people,2024-02-22。
- Google Blog,“Gemini image generation got it wrong. We’ll do better”,2024-02-23。
- Reuters,“Google pauses Gemini AI image generation of people after inaccuracies”,2024-02-22。
- Mistral AI Blog,“Mixtral of experts”,2023-12-11。
- xAI Blog,“Announcing Grok!”,2023-11-04。
- Anthropic Blog,“Introducing the next generation of Claude”,2024-03-04。
第15章|H100、出口管制与AI法案:算力成为新石油
一、184亿美元的地基
2024年2月21日,NVIDIA公布2024财年第四财季财报。这个“2024财年”不是日历年,而是截至2024年1月末的会计年度。公告里有三组数字:第四财季总收入221亿美元,同比增长265%;数据中心业务收入184亿美元,同比增长409%;2024财年全年收入609亿美元,同比增长126%。[1]
这些数字比发布会舞台上的任何形容词都更直接。生成式AI的前台是聊天窗口、图片、视频、代码补全和办公插件;后台首先是GPU、网络、软件栈、服务器、数据中心和供电能力。到2024年初,大模型公司的产品冲刺已经让公众看见能力边界被不断推远,而NVIDIA的财报让行业看见另一件事:不管前台谁赢得掌声,底层“卖铲子”的人先收到了钱。
Jensen Huang在这份财报公告中说:“Accelerated computing and generative AI have hit the tipping point.”他接着说:“Demand is surging worldwide across companies, industries and nations.”[1]加速计算和生成式AI到达临界点,需求在公司、行业和国家之间全球性激增。这个句子的最后一个词很重:nations。AI不再只是公司之间的应用竞赛,也进入了国家能力和产业政策的词典。
半年前,2023年8月23日,NVIDIA的另一份财报已经给出预告。2024财年第二财季,公司总收入135.1亿美元,同比增长101%;数据中心业务收入103.2亿美元,同比增长171%。Huang在公告中说:“A new computing era has begun.”后一句是:“Companies worldwide are transitioning from general-purpose to accelerated computing and generative AI.”[2]
这不是一家芯片公司偶然撞上热点。它更像一条工业链突然被照亮。
第14章写到Gemini、Sora、Claude 3时,公众看到的是多模态能力、视频生成和更强模型的连续发布。但所有这些产品背后,都有一个更冷硬的问题:训练要算力,推理也要算力;模型越大、上下文越长、输出越复杂、用户越多,算力账单越像一面墙。用户在网页上输入一句话,得到一段文本或一段视频,表面上像软件魔法,底层却是数据中心把电力、芯片时间和网络带宽转换成token、像素和动作建议。
软件业喜欢说“云端”,仿佛计算天然漂浮在空气里。生成式AI把云端重新砸回地面:砸到晶圆厂、先进封装、高带宽内存、光模块、机柜、变电站、冷却系统、融资合同和出口许可证上。大模型时代的荒诞感也在这里出现:一家公司对外说要“让每个人拥有智能助理”,对内最紧急的问题可能是下个月能不能排到更多GPU;一个创业团队在路演材料里写“重塑知识工作”,账本上最重的项目却是云算力;一名独立开发者调用API时看见的是每百万token价格,但这串价格背后,是全球半导体供应链的折旧与拥堵。
Huang因此被频繁称作AI淘金热里的“卖铲人”。淘金者可能发财,也可能空手而归;卖铲子、卖运输、卖营地服务的人先收到现金。2023年至2024年,模型公司争夺榜单、用户、开发者和媒体头条,NVIDIA则用财报证明:淘金队伍越长,铲子的议价权越强。
本章要写的,正是产品冲刺背后的真正战场:H100、出口管制、替代芯片、云平台、电力、资本和AI法案。AI看起来像软件革命,底层却越来越像重工业。
二、H100不是一张卡
H100在2023年成为大模型行业的硬通货,并不是因为它是一件神话道具。NVIDIA公开资料显示,H100 Tensor Core GPU基于Hopper架构,面向AI训练、推理和高性能计算;它与高带宽显存、Transformer Engine、NVLink、NVSwitch、CUDA软件生态和数据中心部署方案共同构成一套系统。[3]
这里的关键词不是“GPU”,而是“系统”。
大模型训练的核心工作,是在大量数据上反复更新参数。推理阶段,则是在用户输入之后生成下一个token、下一段代码、下一张图像或下一帧视频。训练需要大规模并行计算;推理需要低延迟、高吞吐和可持续的单位成本。一个模型如果只在论文里演示,算力压力是一种研究问题;一旦变成每天被数百万用户调用的产品,算力压力就变成运营问题、财务问题和供应链问题。
单张H100不能自动训练出前沿模型。真正稀缺的是成千上万张GPU能否稳定联网运行;是高速互联能否减少通信瓶颈;是显存能否容纳模型和上下文;是软件栈能否把研究代码变成可重复的训练任务;是云平台能否把硬件抽象成可购买、可调度、可计费的资源;也是基础设施团队能否让训练任务连续运行数周,而不被网络、散热、电力、存储和调度故障拖垮。
行业里常说“有多少卡”,听起来像仓库清点。实际含义复杂得多:这些卡在哪里,能否上架,是否配套高速网络,能否获得电力,是否已有客户预订,是否有工程团队会用,能否跑通框架和算子,故障后多久恢复。AI行业前台的语言是“智能涌现”,后台的语言是“利用率”“显存占用”“队列长度”“机柜功率密度”和“交付周期”。
对大公司来说,H100是扩大模型边界的工具。对小团队来说,它常常先以另一种形式出现:云服务控制台上的GPU实例、排队等待的配额申请、按小时滚动的费用、以及一旦实验失败就无法收回的成本。云厂商把昂贵硬件租成了可变成本,这降低了创业门槛;但大模型训练和高并发推理又把门槛重新抬高。一个团队可以不用购买整机,也可以在账单里体验到重工业。
这就是大模型时代的门票变化。论文、人才和数据仍然重要,但算力决定了试错频率。谁能负担一次失败训练,谁才有资格尝试更大的模型;谁能把推理成本压下来,谁才有可能把AI嵌进搜索、办公软件、客服、编程工具和视频生成。能力竞赛与成本竞赛变成同一件事。
三、云端的军备竞赛
H100从零部件变成战略资源,是因为它同时牵动三类玩家。
第一类是云厂商。微软Azure、Google Cloud、AWS、Oracle等平台要为模型公司、企业客户和内部产品提供AI基础设施。云厂商卖的不再只是CPU虚拟机、数据库和对象存储,而是“能不能训练和部署大模型”的承诺。AWS在2023年7月宣布,搭载NVIDIA H100 Tensor Core GPU的Amazon EC2 P5实例一般可用,并称这些实例面向大语言模型、扩散模型和高性能计算等工作负载。[4]这种公告不是普通产品更新,它是云平台向客户展示:自己有能力把AI热潮变成可租用的基础设施。
第二类是基础模型公司。OpenAI、Anthropic、Google DeepMind、Meta、Mistral等公司的路线各不相同,有的闭源,有的开源,有的主攻API,有的强调消费入口,但它们都绕不开训练和推理算力。模型越受欢迎,推理开销越大;产品越深入工作流,稳定性和延迟要求越高。一次发布会的刷屏,可能意味着第二天开始就要面对限流、扩容、成本优化和客户服务。
第三类是创业公司和研究团队。它们未必有能力从零训练最前沿基础模型,却需要租用GPU做微调、评测、数据合成、检索增强、推理部署和产品试验。大模型产业链因此形成一种不平等的开放:理论上,云服务让更多团队接触到高端算力;现实中,谁拿得到足够配额、谁能承担连续实验的费用、谁有工程能力把算力跑满,仍然决定了机会大小。
公开报道中的H100价格也强化了这种稀缺感。CNBC在2023年5月报道称,NVIDIA的AI芯片在eBay等渠道上出现高价转售,部分H100相关商品价格超过4万美元。[5]这类报道不能等同于NVIDIA官方定价,也不能代表所有成交价;不同采购规模、配置、渠道和供需环境会造成巨大差异。但它足以说明一点:高端AI加速器已经不再是普通IT采购目录里的可替换零件,而是会影响企业战略节奏的资源。
更重要的是,芯片本身只是开始。GPU要进入服务器,服务器要进入机柜,机柜要连接网络,网络要接入数据中心,数据中心要有电力、冷却、运维和土地,还要有足够多客户消化昂贵产能。前台像互联网,后台像制造业;宣传语像消费软件,资产负债表像半导体、电力和地产的混合体。
这给时代中的个体留下了新的坐标。程序员感受到的是代码补全更快了,创作者感受到的是视频生成更惊艳了,企业员工感受到的是会议纪要和合同摘要更方便了;但在这些体验之前,采购经理要签长期合约,基础设施工程师要提高集群利用率,财务团队要评估毛利率,数据中心附近的社区要面对用电、用水和建设审批。AI不是只发生在屏幕上,它也发生在机房和电网里。
四、出口许可证里的国家安全
2023年10月17日,美国商务部工业与安全局发布新闻稿,标题写得很清楚:“Commerce Strengthens Restrictions on Advanced Computing Semiconductors, Semiconductor Manufacturing Equipment, and Supercomputing Items to Countries of Concern”。[6]这不是一条普通市场新闻,而是一份国家安全文件。
BIS规则文本围绕先进计算芯片、半导体制造设备、超级计算终端用途以及相关目的地和实体展开,使用了总处理性能、性能密度等技术参数,并通过许可证要求限制特定先进计算能力的出口、再出口和境内转移。[7]政策逻辑不能简化成一句口号。美国政府的公开理由是,先进计算芯片和超级计算能力可能被用于军事、情报和先进AI能力,因此需要纳入出口管制框架。
据BIS新闻稿转述,美国商务部长Gina Raimondo表示,更新规则旨在提高出口管制有效性,防止先进芯片被用于可能危及美国国家安全的军事和AI能力。[6]这句话的关键不在情绪,而在制度化:AI芯片从商业供应链项目,进入国家安全治理。
NVIDIA随后在提交给美国证券交易委员会的Form 8-K文件中披露,新规则影响A100、A800、H100、H800、L40、L40S等产品,以及包含这些产品的部分系统。[8]这组名字本身就揭示了规则演进的背景。2022年美国已对部分先进计算芯片实施出口管制;此后,面向中国市场的降规产品出现。到2023年10月,规则进一步调整,试图减少通过规格修改绕开限制的空间。
这对中国大模型团队的影响不是抽象的。
第一,高端GPU获取更受约束。训练前沿模型需要大量稳定算力,如果顶级芯片采购和云端获取受限,模型迭代节奏会改变。第二,工程路线被迫更重视效率。量化、蒸馏、稀疏化、混合专家模型、推理优化、国产算力适配、异构集群调度,不再只是论文里的优化方向,而是现实约束下的生存技术。第三,开源协作和模型复用价值上升。当从零训练超大模型的成本和不确定性提高,基于开源权重做领域微调、小模型和垂直应用,就更接近许多团队的实际能力。第四,国产芯片和软件生态被推到前台,但硬件、编译器、算子库、框架适配、稳定性和开发者习惯都需要时间积累。
这不是“某一方必胜”或“某一方必败”的故事。出口管制改变的是约束条件。创新不会停止,但会改道。美国试图通过控制先进算力扩散来维护国家安全优势;中国企业和研究机构则必须在受限供应、国产替代、工程优化和合规之间重新设计路线。
芯片在这里呈现出石油般的属性:它不是唯一资源,却能决定工业速度;它不直接等于智能,却决定谁能更频繁地试错;它不是战争本身,却会进入国家安全文件和许可证流程。
五、第二供应商的意义
NVIDIA的强势催生了一个朴素愿望:没有一家云厂商、模型公司或国家,愿意把AI时代的关键产能完全押在单一供应商身上。
2023年12月6日,AMD在Advancing AI活动上发布Instinct MI300系列,其中MI300X面向生成式AI和高性能计算市场。AMD公开材料称,MI300X配备192GB HBM3内存,强调大显存对大模型推理和训练的价值。[9]同场活动中,AMD还给出公司预测:数据中心AI加速器市场到2027年可能达到约4000亿美元。[10]这个数字是AMD的公司预测,不是独立事实;但它说明AMD进入这场竞争时,看到的不是边缘机会,而是一个可能重塑半导体格局的巨大市场。
Lisa Su的战略意义,不在于发布会参数表上某一项指标是否压过H100,而在于“第二供应商”本身。
在企业采购里,第二供应商意味着谈判空间;在云平台里,第二供应商意味着供应安全;在模型公司里,第二供应商意味着可以在软件迁移痛苦和长期锁定风险之间重新权衡;在国家产业政策里,第二供应商意味着技术路线不被一家公司完全锁定。AMD的挑战不只靠硬件,还要靠ROCm软件生态、框架支持、客户迁移、开发者习惯和云厂商部署。AI芯片竞争从来不是单卡峰值性能的擂台赛,而是“芯片—网络—软件—云服务—开发者生态”的持久战。
与此同时,云厂商也在推进自研芯片。2023年11月,微软公布Azure Maia 100 AI Accelerator和Azure Cobalt CPU,说明它不想只做NVIDIA GPU的采购经理。[11]AWS在re:Invent 2023发布Trainium2,继续强化自研训练芯片路线。[12]Google更早建立TPU体系,并在云服务中持续推出TPU实例。[13]
这些路线各有局限。自研芯片要面对软件生态、客户迁移、性能稳定性和量产节奏;外部GPU则要面对供需紧张、高昂成本和供应风险。但方向很清楚:云平台和模型公司都在降低对单一加速器供应链的依赖。
AI行业嘴上谈AGI,采购部门谈供应风险;研究论文写模型结构,基础设施团队写集群拓扑;发布会讲“下一代智能”,供应链会议讲封装产能和交付周期。技术史在这里显得很诚实:再宏大的智能叙事,也要先过物料清单。
六、资本、电力和数万亿美元传闻
当算力变成门票,钱就会涌向更底层。
2024年2月,《华尔街日报》报道,Sam Altman曾寻求筹集巨额资金,以重塑芯片和AI业务;相关设想规模可能达到5万亿至7万亿美元级别。[14]这里必须写成“据报道”,也必须强调它不是OpenAI官方宣布的已完成融资计划。它更像一个信号:模型公司已经意识到,仅仅租用现有云资源,可能无法满足未来模型和产品的算力需求。
5万亿至7万亿美元这个量级带有强烈的行业荒诞感。它超过普通科技融资的想象范围,也接近主权基金、国家产业政策和全球基础设施重构的语境。即使把它理解为长期、全球性、产业链级别的设想,而不是一张即刻到账的支票,它仍然说明AI算力问题已经越过传统创业融资边界。这里需要的是晶圆制造、先进封装、HBM供应、服务器制造、数据中心建设、电力接入、冷却系统、网络设备和长期客户合同。
大模型公司的商业画面因此变得分裂:一边是网页上的每月订阅和API调用,一边是可能以千亿甚至万亿美元计的基础设施设想;一边是用户输入提示词生成文本和视频,另一边是半导体产业链为更多矩阵乘法扩产。
算力背后还有电力。国际能源署在《Electricity 2024》中指出,数据中心、AI和加密货币相关电力需求未来几年可能显著上升;报告估计,这类用电需求可能从2022年的约460太瓦时,增加到2026年最高超过1000太瓦时,约相当于日本一国用电规模。[15]这些预测带有情景假设,不应被机械理解为确定结果。但它提醒行业:AI不只吃数据,也吃电。
数据中心的用电和冷却问题,让“云端”这个词再次暴露其物理性。一个地区能不能部署大规模AI集群,不只看有没有土地和税收优惠,还要看电网容量、可再生能源、供水、散热、许可审批和社区接受度。对模型公司来说,这是基础设施;对地方政府来说,这是投资和就业;对附近居民来说,可能是施工、用水、噪音、税收和电网升级。AI在宏观叙事里叫“生产力革命”,在地方议程里则会变成一座数据中心的选址文件。
算力像石油,但又不完全像石油。石油被燃烧后消失,算力可以反复出租;石油是能源本身,GPU是把电力转换成计算的机器;石油的地理分布由地下矿藏决定,算力的分布则由半导体制造、资本开支、软件生态和政策边界共同决定。因此,“算力成为新石油”不是一句万能口号,而是一种结构性比喻:谁能组织起足够便宜、足够稳定、足够合规的计算,谁就能更快训练、部署和迭代AI系统。
七、法律也成为基础设施
2024年3月13日,欧洲议会通过AI Act。投票结果是523票赞成、46票反对、49票弃权。[16]如果说H100代表AI的物理底座,AI Act则代表另一种底座:法律和制度。
欧洲议会新闻稿中,联合报告员Brando Benifei说:“We finally have the world’s first binding law on artificial intelligence.”同一份新闻稿还写道:“The regulation aims to protect fundamental rights, democracy, the rule of law and environmental sustainability from high-risk AI, while boosting innovation and establishing Europe as a leader in the field.”[16]
这两句话把欧盟路径说得很清楚:AI不是先进入社会、出问题以后再修补;AI系统本身要被放进风险分类、透明度义务、禁止性实践、高风险用途监管和通用AI模型规则之中。欧盟委员会对AI Act的说明中,也将其概括为基于风险的方法:不可接受风险用途被禁止,高风险系统承担更严格义务,有限风险系统强调透明度,通用AI模型面对相应要求。[17]
对模型公司来说,这意味着竞争不再只是“谁先发布”。一个模型能不能进入医疗、金融、教育、招聘、执法、公共服务等场景,不只取决于准确率和成本,还取决于数据治理、可解释性、偏见评估、安全测试、用户告知、责任划分和监管审查。演示视频可以只展示最惊艳样例;现实社会要处理误伤、歧视、版权、隐私、劳动影响和环境成本。
对个体来说,法律基础设施并不抽象。求职者面对自动筛选系统,学生面对AI辅助评分,病人面对临床辅助工具,创作者面对训练数据和生成内容争议,普通用户面对深度伪造和聊天机器人建议。这些场景里,模型能力越强,问题越不能只交给产品经理的“用户体验优化”。制度要回答的是:谁知道系统在使用AI,谁能质疑结果,谁承担责任,谁能获得救济。
美国没有采取与欧盟完全相同的立法路径,但治理也在推进。2023年7月,白宫宣布多家AI公司作出自愿安全承诺;2023年10月30日,拜登签署关于安全、可靠、可信AI开发和使用的行政令,要求围绕安全测试、国家安全、隐私、公平、消费者保护、劳动力影响和政府使用等方面采取行动。[18][19]此外,美国还通过国会听证、联邦机构执法、标准制定和行业承诺推进治理。
把芯片管制和AI立法放在一起看,AI竞争的边界就更清楚了。出口管制管的是“谁能获得训练和部署前沿模型所需的关键算力”;AI Act这类制度管的是“训练出的系统如何进入社会”。前者决定能力形成的速度和分布,后者决定能力扩散的合法路径和社会成本。一个是物理瓶颈,一个是制度瓶颈;一个写在商务部规则和许可证里,一个写在议会投票和监管义务里。
监管不会让技术停止,正如稀缺芯片也不会让创新停止。它们改变的是路径、成本和责任。企业会为了合规调整产品设计,为了出口限制调整供应链,为了推理成本调整模型大小,为了能源约束调整数据中心选址。AI行业从“能不能做出来”,进入“能不能买到算力、能不能跑得起、能不能合法部署、能不能被社会接受”的阶段。
八、从聊天窗口到工业底座
回看前三卷,AI故事的画面不断下沉。
ChatGPT让公众第一次在浏览器里直接触摸大模型;GPT-4让行业相信能力出现跃迁,也让黑箱、幻觉和安全评估成为无法绕开的议题;如第12章和第13章所述,OpenAI五天风暴把公司治理裂缝暴露在全世界面前;到2024年初,Gemini、Sora、Claude 3继续把产品能力往前推,视频、多模态和更强模型让公众再次感到震动。
到这一章,所有炫目的产品终于落到工业底座上。
决定AI未来的,不只是Sam Altman、Sundar Pichai、Dario Amodei或任何一位模型公司CEO。还有Jensen Huang和NVIDIA的供货能力,Lisa Su和AMD的替代路线,云厂商的自研芯片,制造与封装环节,高带宽内存供应商,数据中心运营商,电网公司,资本市场,美国商务部,欧洲议会,以及每一个将AI系统放进真实社会的监管机构。
这并不削弱AI革命的兴奋感。相反,它让兴奋变得更真实。一个能写、能看、能生成视频、能调用工具的系统,如果真要成为新的社会基础设施,就必然会牵动旧世界最坚硬的部分:芯片、土地、电力、法律、国家边界和公共责任。AI不是漂浮在云上的魔法,它是高度组织化的工业能力。
怀疑也必须保留。算力增长是否能持续转化为能力增长,仍是开放问题;高昂成本能否被商业收入覆盖,仍需财报检验;出口管制会带来怎样的技术绕行和产业重组,仍在演化;AI Act能否在保护权利与促进创新之间取得平衡,也要看执行细节。新石油可以推动工业,也可能制造依赖、泡沫和冲突。
第15章收束的不是AI故事,而是它的第一阶段幻觉:以为模型公司发布产品,就是全部战场。
ChatGPT让公众看见AI,GPT-4让行业相信能力跃迁,OpenAI风暴让人看见治理裂缝,而H100和AI Act告诉读者:决定AI未来的,不只是模型,也包括芯片制造商、云平台、能源系统、监管者和国家。
当每家公司都想发布Sora、Devin和更强Agent时,它们真正争夺的第一资源,不是用户注意力,而是算力。
参考文献
- NVIDIA,“NVIDIA Announces Financial Results for Fourth Quarter and Fiscal 2024”,2024-02-21。
- NVIDIA,“NVIDIA Announces Financial Results for Second Quarter Fiscal 2024”,2023-08-23。
- NVIDIA,“NVIDIA H100 Tensor Core GPU Architecture Whitepaper”,2022。
- Amazon Web Services,“Amazon EC2 P5 Instances powered by NVIDIA H100 Tensor Core GPUs are now generally available”,2023-07-26。
- CNBC,Kif Leswing,“Nvidia’s A.I. chips are selling for more than $40,000 on eBay”,2023-05-26。
- U.S. Bureau of Industry and Security,“Commerce Strengthens Restrictions on Advanced Computing Semiconductors, Semiconductor Manufacturing Equipment, and Supercomputing Items to Countries of Concern”,2023-10-17。
- Federal Register,“Implementation of Additional Export Controls: Certain Advanced Computing Items; Supercomputer and Semiconductor End Use; Updates and Corrections”,2023-10-25。
- NVIDIA,Form 8-K Current Report,2023-10-17。
- AMD,“AMD Launches Instinct MI300 Series Accelerators, Delivering Leadership Performance for Generative AI and HPC”,2023-12-06。
- AMD,“AMD Advancing AI 2023”,2023-12-06。
- Microsoft,“Microsoft unveils custom-designed Azure chips”,2023-11-15。
- Amazon Web Services,“AWS announces next generation AWS-designed chips”,2023-11-28。
- Google Cloud,“Cloud TPU v5e is now generally available”,2023-08-29。
- The Wall Street Journal,“Sam Altman Seeks Trillions of Dollars to Reshape Business of Chips and AI”,2024-02-08。
- International Energy Agency,“Electricity 2024”,2024-01。
- European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024-03-13。
- European Commission,“AI Act”,2024。
- The White House,“FACT SHEET: Biden-Harris Administration Secures Voluntary Commitments from Leading Artificial Intelligence Companies to Manage the Risks Posed by AI”,2023-07-21。
- The White House,“Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence”,2023-10-30。
第16章|从 Sora 到 Devin:AI 开始闯入现实世界
一、东京街头的访问权限
一个女人走在东京街头。提示词说,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色手袋,戴着太阳镜,抹着红色口红。街道两侧是温暖发光的霓虹灯和会动的城市招牌,潮湿路面反射着彩色灯光,许多行人在周围走动。镜头跟随她向前,像一部都市电影的开场。
女人不存在,街道不存在,摄影机也不存在。它们出现在OpenAI于2024年2月15日发布的Sora技术预览页面上。[1]
如前章所述,Sora不是一次面向所有用户开放的产品上线。OpenAI页面的标题是“Sora: Creating video from text”。公司给出的定义很简短:“Sora is an AI model that can create realistic and imaginative scenes from text instructions.”它还写道,Sora可以生成最长一分钟的视频,同时保持视觉质量并遵循用户提示。[1] 在当时的访问范围上,OpenAI也写得清楚:Sora正在提供给红队测试者,用于评估潜在危害或风险;公司也让一部分视觉艺术家、设计师和电影制作者接触模型,以获得反馈。[1]
这便形成了2024年春天AI行业的一种典型荒诞:最让行业震动的工具,绝大多数人不能使用;最像现实世界的影像,来自一个尚未公开接受现实世界检验的系统。
OpenAI在同一页上给Sora安排了更大的技术叙事:“We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.”[1] 这句话后来被不断压缩成“世界模型”。严格说,OpenAI没有证明Sora已经拥有一个完备的世界模型,它说的是正在教AI理解并模拟运动中的物理世界。这个限定很重要。2024年的行业传播常常把方向说成终点,把演示说成产品,把一组精选样片说成稳定能力。
OpenAI的技术报告标题更进一步:“Video generation models as world simulators”。报告称,视频和图像可以被压缩到潜在空间,再切分成“spacetime patches”,让模型在统一的数据表示上训练。[2] 它还写道:“Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.”[2] 这句话的关键词同样不是“已经建成”,而是“promising path”。道路显得诱人,但路面还没有铺完。
OpenAI也列出局限。Sora可能难以准确模拟复杂场景中的物理规律,可能不理解特定因果关系;例如,一个人咬一口饼干后,饼干上可能不会留下咬痕。模型也可能混淆左右方向,或难以精确描述随时间展开的事件。[1] 这些失败样例没有削弱Sora的传播效果,反而暴露出视频生成比文本生成更残酷的一面:文字幻觉可以藏在知识细节里,视觉幻觉会直接出现在腿、手、光影、轨迹和物体交互上。一个系统可以生成猛犸象穿过雪原,却可能无法稳定处理一块饼干的缺口。这不是对模型的嘲笑,而是现实世界的考试题过于具体。
Sora发布后,Sam Altman在X上向网友征集提示词,并展示部分生成结果。[3] 这种互动把技术预览变成了社交媒体上的即兴秀。网友给出离奇场景,模型返回可观看的视频片段;未来被压缩成几十秒,适合转发,也适合投射想象。失败样本、提示词筛选、生成次数和人工选择则留在屏幕之外。
Sora带来的变化,不只是“文生视频更好看了”。它把AI从聊天框推向镜头,从回答问题推向构造场景。过去一年里,人们问模型能否写邮件、总结文件、解释代码;到了2024年2月,问题开始变成:模型能否生成空间、运动和看似服从物理规律的连续世界。这个问题一旦出现,影视、广告、游戏、教育、机器人训练、仿真系统和法律行业都会听见敲门声。
二、创作者先被请进去
3月,OpenAI发布“Sora: first impressions”,展示一批视觉艺术家、设计师、创意导演和电影制作者接触Sora后的作品与反馈。[4] 这一步比技术报告更接近产业现场。视频生成模型如果要进入现实工作流,评审者不会只问“像不像”,还会问“能不能改”“能不能控”“能不能交付”“能不能署名”“能不能过法务”。
OpenAI页面上的早期作品带有明显的概念实验性质。它们不是传统意义上的完整院线电影,也不是经过大规模商业验收的生产流程,而是用Sora探索短片、动画、视觉拼贴和概念影像。对创作者来说,价值首先出现在“前期想象”这一层。过去,一个镜头要变成可看的画面,需要摄影棚、外景、演员、灯光、美术、道具、绿幕、后期和预算;现在,至少在概念阶段,提示词可以先把画面召唤出来。
这对独立创作者尤其敏感。影视行业常说创意无价,但把创意拍出来很贵。Sora让这句话出现裂缝:昂贵的部分没有消失,却可能被提前、压缩、替代或重新分配。一个没有大预算的导演,可以更快做出视觉提案;一个设计师,可以把抽象情绪变成动态参考;一个广告团队,可以在客户会议前生成多种风格方向。工具还没有普及,工作方式已经被想象重新报价。
但“first impressions”这个标题也带着保留。第一印象不是长期合同,样片不是流水线。影视制作要求角色一致、服装连续、镜头可控、版权清晰、修改可追踪、客户可验收。Sora页面展示的是模型能力的高光时刻,而不是一个完整剧组在交片 deadline 前与模型反复拉扯的过程。现实中的创作者很快会遇到更细的问题:同一个角色能否跨镜头稳定保持?一个品牌logo能否被正确呈现?一个客户要求“这里再克制一点”,提示词怎样转化成可控修改?如果画面像某个艺术家的风格,权利边界在哪里?
2024年春天,创作者被请进样片房,也被请进了一场尚未写完合同的实验。对他们而言,Sora不是单纯的敌人或朋友,而是一种改变谈判位置的工具。能使用它的人可能获得新的表达杠杆;不能使用它的人会担心市场价格被别人压低;作品曾经出现在互联网上的人,还会追问自己的影像是否已经成为训练数据的一部分。
这使Sora不同于一款普通创意软件。Photoshop、Premiere、After Effects改变了制作流程,但它们通常不需要吞下整个公共视觉文化作为训练基础。生成式视频模型把“工具”和“素材库”的边界搅在一起:它像工具一样接受指令,又像某种浓缩的视觉记忆库一样输出画面。创作者第一次看到Sora时,看到的不只是一台机器,也看到自己行业过去几十年积累的影像语言正在被机器重新组合。
三、好莱坞门口的价格表
Sora真正进入影视圈公共讨论,是因为一个很具体的产业动作。
2024年2月,《好莱坞报道者》采访Tyler Perry时写道,Perry在看到Sora能力后,将亚特兰大工作室一项约8亿美元的扩建计划暂时搁置。[5] 报道标题引用他的担忧:“Jobs Are Going to Be Lost”。这里必须谨慎:一项扩建计划被搁置,不能简单归结为Sora单一因素造成的产业转折;但Perry的公开表态说明,Sora技术预览已经足以影响一位大型影视从业者对未来投资的判断。
这个判断背后不是抽象的“AI替代人类”,而是工作岗位的分解。摄影棚扩建意味着建筑、布景、灯光、道具、运输、安保、群演、后期和周边服务。生成视频如果在某些场景中减少外景拍摄、布景搭建或初步特效需求,影响不会均匀落在“影视行业”四个字上,而会落到不同工种、不同城市、不同合同周期上。技术演示越惊艳,越容易让资本提前调整预算;而预算调整往往比产品成熟更早触及劳动者。
3月,彭博社报道称,OpenAI计划在洛杉矶与电影制片厂、高管和人才经纪机构会面,展示Sora并鼓励影视行业采用这项技术。[6] 这不是技术公司第一次进入好莱坞,也不是好莱坞第一次面对新技术。有声电影、电视、录像带、数字摄影、CGI、虚拟制作和流媒体都曾改变这个行业。生成式AI的不同之处在于,它同时触碰了成本、版权、工会、肖像、表演和风格。
好莱坞在2023年刚刚经历编剧和演员罢工,AI相关条款已经进入劳资谈判。Sora出现后,争议从文本、剧本和声音扩展到镜头与影像。一个制片厂可能希望用AI降低概念设计成本;一个演员可能担心自己的形象被复制;一个导演可能希望快速生成分镜;一个视觉特效从业者可能担心初级任务被压价;一个版权律师则会要求确认训练数据、输出归属和侵权责任。行业没有被分成整齐的两边,每个人的位置都可能随项目、合同和预算变化。
训练数据问题让这种复杂性更尖锐。OpenAI在Sora技术预览和技术报告中没有公开完整训练数据清单。[1][2] 对模型公司而言,训练数据细节涉及竞争、安全和商业秘密;对创作者而言,它涉及作品是否被未经许可地用于训练。2023年12月,《纽约时报》在美国纽约南区联邦地区法院起诉Microsoft和OpenAI,诉状主张被告未经许可使用该报受版权保护的内容训练模型,并在输出中复制或近似复制时报内容。[7] 这仍是诉讼中的主张,不是法院结论。但它已经把生成式AI的版权冲突推到公共记录里。
到了Sora,版权争议不再只是“文章是否被模型学习”。它变成了镜头运动、构图、灯光、角色风格、动画语言和影像资料是否被学习。影视公司一方面担心自己的素材被训练,另一方面又可能希望使用模型降低新项目成本;创作者一方面担心工作被替代,另一方面也可能希望借助工具扩大表达范围。行业荒诞感正在这里出现:同一个人可以反对未经授权的数据训练,同时要求团队尽快研究AI预演流程;同一家公司可以主张保护片库版权,同时评估用生成视频压缩制作成本。
Sora敲开好莱坞大门时,门后不是简单的欢迎或抵制,而是一张价格表、一份工会协议、一堆授权合同和一群等待下一份工作的个体。
四、终端里出现“第一位AI软件工程师”
Sora发布后不到一个月,AI行业的镜头从东京街头切到代码仓库。
2024年3月12日,Cognition发布Devin。公司官网文章标题写道:“Introducing Devin, the first AI software engineer”。[8] 在叙述中必须保留这个归属:这是Cognition对Devin的称呼,不是行业共识,也不是经过法律、组织和劳动市场共同承认的职业身份。
Devin演示的吸引力来自界面变化。过去一年,许多人已经习惯让ChatGPT解释报错、写函数、补全脚本,GitHub Copilot也早已进入程序员日常。但Cognition展示的不是一个只在聊天框里回答问题的系统,而是一个拥有命令行、代码编辑器和浏览器的代理。它接收任务,制定计划,查阅文档,读代码,运行命令,观察错误,修改文件,再次测试,最后汇报结果。[8]
这套流程击中的不是编程竞赛的炫技,而是软件工程中最普通、也最消耗时间的劳动:进入一个陌生项目,理解环境,安装依赖,复现问题,搜索资料,试错,修复,再把结果交给别人审查。一个能在这些步骤之间来回移动的系统,看起来就不再像“问答工具”,而像一个开始占用工单的工作角色。
Cognition在发布文中称,Devin可以学习不熟悉的技术,可以端到端构建和部署应用,可以自主发现并修复bug,也可以为成熟生产代码库贡献修复。[8] 公司还引用SWE-bench成绩。SWE-bench是一个基于真实GitHub issue和对应pull request构建的软件工程基准,要求系统根据问题描述修改代码库并通过测试。[9] Cognition称,Devin在该基准上无辅助解决了13.86%的问题,超过此前1.96%的最好成绩。[8]
这个数字需要放在正确位置。13.86%不是“AI软件工程师已经取代程序员”的证据。它说明,在一类公开基准任务中,代理式系统相对前代方法取得了明显进展。SWE-bench比许多传统编程题更接近真实工程,因为它要求系统进入已有代码库,而不只是写一个孤立函数。但它仍然是基准,不是公司生产环境。真实工程还包括权限、遗留系统、模糊需求、上线窗口、监控告警、合规审查、客户沟通、跨团队协调和长期维护。
Devin带来的传播力量不依赖这些限定。人们看到的是AI自己打开浏览器、自己读文档、自己在终端里失败、自己修复失败。失败在这里反而增加了真实感,因为软件工程本来就是与报错、依赖和环境配置长期相处的职业。一个从来不报错的演示像魔术;一个会报错再修的演示更像劳动。
这正是Agent叙事在2024年春天获得商业重量的原因。AI不再只是回答者,而被包装成执行者。副驾驶默认有人类坐在驾驶位上;代理则暗示它可以领取任务、使用工具、推进流程并交付结果。资本市场需要ChatGPT之后的新故事,企业客户需要把生成式AI从演示间带进损益表,创业公司需要证明自己不是大模型API外面的一层薄壳。Devin提供了一个极易传播的符号:AI员工。
但软件工程师恰好是最熟悉演示的人群之一。他们知道demo可以精心选择,知道脚手架可以藏起来,知道“能跑一次”和“每天可靠运行”之间有一条长路。Cognition把Devin带进这个职业,也把它带进了一种会逐帧审讯演示视频的文化。
五、工程师反向审讯
Devin发布后,开发者社区的反应并不只有惊叹。Hacker News上关于Cognition发布帖的讨论迅速展开,许多评论围绕演示任务选择、可复现性、SWE-bench含义、真实生产环境复杂度、可用性和“AI software engineer”称呼本身展开。[10] 社区讨论不能单独证明Devin真实能力如何,却能证明一件事:Agent热潮第一次遭遇了工程师文化的公开审查。
随后,一些技术内容创作者开始复盘Devin公开视频。YouTube频道Internet of Bugs在2024年4月发布视频,对演示流程提出质疑,讨论任务是否被精心挑选、宣传口号是否被视频充分支持等问题。[11] 这些复盘同样不能被写成“Devin被证伪”。公开视频和社区分析不足以替代独立、大规模、可复现的产品评测。更准确的说法是:Devin让行业看见了一个诱人的代理形象,也让开发者社区开始要求证据的颗粒度。
审讯首先针对“演示”和“产品”的距离。Cognition发布时,Devin并未向所有公众开放,而是提供早期访问申请。[8] 外界看到的是公司选择展示的任务,而不是开放用户在各种混乱项目中反复测试后的稳定表现。Sora也是如此。2024年春天最具冲击力的两个AI故事,都不是完全公开可用的成熟产品,而是受控展示。技术公司有权这样发布,观察者也有理由把“可展示能力”和“可依赖能力”分开。
第二层审讯针对“基准”和“工作”的距离。SWE-bench的重要性在于它把AI带进真实代码库问题,但真实工程不是只有issue和测试。一个企业项目里,问题描述可能来自客户一句含糊抱怨;复现环境可能需要内部权限;修复方案可能涉及安全、法务、性能和商业优先级;上线后还要面对监控、回滚和责任追踪。一个代理能在开源仓库任务上取得进步,并不意味着它能在银行核心系统、医疗软件或大型电商平台中自主行动。
第三层审讯针对“自主”这个词。Devin演示中的系统会计划、使用工具并反馈进度,但任务由人类定义,结果仍需人类审查。[8] 从组织意义上看,这更像自动化程度更高的工程助手,而不是能承担责任的员工。员工会签署合同,接受管理,承担纪律和法律后果;AI系统不会。客户采购时最终要问的不是标题是否响亮,而是:代码出错谁负责?漏洞进入生产环境谁承担?凭证泄露怎么办?生成代码是否引入许可证风险?AI提交的补丁由谁审查?审查者如果过度信任,又算谁的责任?
这里的个体不是抽象的“程序员群体”。它可以是维护开源项目的志愿者,突然收到一批由AI生成的pull request;可以是创业公司的两名工程师,面对投资人要求“用Agent提高研发效率”;可以是大公司里的值班工程师,在凌晨三点处理一个自动化修改引发的告警;也可以是刚入行的初级开发者,发现过去用于练手的修bug、写脚本、补测试任务正在被工具重新定价。公开材料不能替这些人编造具体经历,但行业变化的压力会沿着这些岗位传导。
工程师的怀疑并不等同于保守。相反,它可能是Agent进入现实世界前必须经历的测试。聊天机器人可以用“回答仅供参考”缓冲责任;代码代理一旦修改仓库,就会触碰测试、依赖、漏洞、许可证、性能和线上稳定性。它不只是生成文本,而是在生产系统里留下diff。diff可以被git记录,也可以把值班手机叫醒。
Sora和Devin在这里形成呼应。视频模型的错误会出现在画面里,代码代理的错误会出现在运行结果里。它们都比聊天框更接近现实,也都更难用“模型偶尔会犯错”轻轻带过。AI开始做事,责任密度也随之上升。
六、规则坐上主席台
Devin发布第二天,欧洲议会把另一种力量推到桌面上。
2024年3月13日,欧洲议会通过《人工智能法案》。欧洲议会新闻稿称,议员以523票赞成、46票反对、49票弃权通过这项法律。[12] 前一章已经写过AI Act在算力和产业政策背景中的位置;放在本章,它更像是对Sora和Devin的提醒:AI一旦进入现实世界,就不再只是模型公司、开发者和投资人的内部游戏。
AI Act采用风险分级思路。新闻稿列出,法案禁止若干被视为不可接受风险的AI用途,包括基于敏感特征的生物识别分类、无目标抓取互联网或监控录像中的人脸图像来建立面部识别数据库、工作场所和学校中的情绪识别、社会评分,以及仅基于画像或个人特征的某些预测性警务等。[12] 对高风险AI系统,法案要求风险管理、数据治理、技术文档、记录保存、透明度、人类监督、准确性和网络安全等义务;对通用人工智能模型,也设置透明度和相关要求。[12]
这些法律语言放回Sora和Devin身上,突然不再抽象。生成视频涉及深伪、身份冒充、误导性内容、色情滥用、版权和来源标识;代码代理涉及安全漏洞、关键系统、权限管理、自动化决策和责任归属。过去,AI公司可以主要围绕能力讲故事;一旦产品进入工作流,就必须谈审计、投诉、日志、可解释记录和事故处理。
OpenAI在Sora页面中提到红队测试、检测分类器和内容来源标准等措施。[1] Cognition在Devin发布时采用早期访问方式,而不是立即全面开放。[8] 这些做法可以被理解为公司知道风险存在。但公司自我约束与法律义务不是同一回事。前者由公司设置边界,后者由公共制度设定底线。现实世界不是一个无限沙盒,尤其当AI系统开始影响就业、教育、公共服务、执法、媒体和基础设施时。
AI Act不会自动解决所有问题。企业会担心合规成本,开源社区会追问义务边界,监管者还要制定执行细则,成员国还要建立监督机制。但时间点本身已经说明:当AI行业把“real-world interaction”写进路线图,现实世界也会把风险分级、透明度和责任写进AI路线图。
七、开源权重从另一边拆墙
监管从一侧施压,开源权重从另一侧改变竞争结构。
2024年4月18日,Meta发布Llama 3,推出8B和70B参数规模的预训练与指令微调模型。[13] Meta称,Llama 3相较Llama 2有显著提升,并向开发者开放模型权重。这里也需要限定:Llama系列不是无条件的公共领域软件,它带有Meta自己的许可条款;但在产业竞争中,开放权重已经足以降低许多团队进入应用层创新的门槛。
Meta披露,Llama 3使用超过15万亿token训练,训练数据规模约为Llama 2的七倍,其中代码数据约为Llama 2的四倍;它还采用了128K词表的tokenizer,并改进了后训练流程。[13] 这些细节说明,开放权重并不意味着低成本童话。前沿模型仍然需要数据、算力和工程系统支撑。Stanford HAI的《AI Index Report 2024》估算,GPT-4训练成本约为7800万美元,Gemini Ultra约为1.91亿美元;报告还显示,2023年生成式AI相关私人投资达到252亿美元,接近前一年的八倍。[14]
这些数字给2024年春天的热潮加上了另一层背景。Sora是闭源技术预览,Devin是早期访问的代理产品,Llama 3则把可下载、可部署、可微调的权重交给更广泛的开发者、研究者和企业。三者不是同一种产品,却共同推动AI离开聊天框:一个进入视频和视觉世界,一个进入终端和代码仓库,一个进入更多人的本地机器、云实例和企业内网。
开放权重对闭源神话的压力在于,它削弱了“只有少数实验室能定义未来”的叙事。一个企业可以不完全等待某个封闭API的路线图,而是在开放模型基础上做私有部署、行业微调和安全控制。一个创业团队可以把Agent框架接在开放模型上,围绕具体工作流优化。一个研究团队可以更系统地评估模型偏见、安全和能力边界。闭源前沿模型仍然强大,但它们不再独占想象力。
这对Sora和Devin代表的方向同样重要。未来的视频生成工具可能调用闭源模型,也可能建立在开放多模态模型之上;未来的代码代理可能使用商业API,也可能使用企业私有部署的大模型。监管要求可审计,企业要求数据不外流,安全团队要求权限可控,开发者要求可调试和可替换,这些现实条件都会让开放权重变得更有吸引力。
于是,2024年春天的AI竞争不再只是模型参数和榜单成绩的竞赛。它变成了一场夹击:监管要求模型公司解释责任,开放权重要求闭源公司解释不可替代性。前者问“你凭什么这样进入社会”,后者问“开发者为什么必须等你”。
八、谁能可靠地做事
从Sora到Devin,AI行业在2024年春天越过了一条心理边界。
Sora把AI推向镜头。它让不存在的东京街头变成全球讨论的样片,让创作者看到低成本视觉想象力,也让影视行业看到版权、劳动、深伪和生产流程的重估。它把“模拟运动中的物理世界”写进技术叙事,但它公开承认的失败也提醒外界:世界不是只靠像素就能彻底理解。
Devin把AI推向终端和代码仓库。Cognition称它为“第一位AI软件工程师”,并用演示展示一个会查文档、运行命令、修改代码、修复错误的代理。它让Agent叙事第一次获得大众传播中的具体形象,也让开发者社区立刻开始审讯:演示是否可复现,基准是否等同真实工作,自主性的边界在哪里,出错谁负责。
同一时期,欧洲议会通过AI Act,Meta发布Llama 3。一个来自制度,一个来自开放权重。它们共同说明,AI进入现实世界后,不可能只按照模型公司自己的节奏前进。法律会要求风险分级和透明度,企业会要求安全和责任,开发者会要求可控和可复现,开源生态会不断降低后来者进入牌桌的门槛。
兴奋没有消失。Sora的样例仍像未来电影的预告片;Devin的演示仍让人第一次直观看见“AI同事”的轮廓。怀疑也没有消失。技术预览不是普及产品,演示视频不是长期可靠性,基准成绩不是组织责任,开放权重也不是免费奇迹。
2024年春天,AI行业终于不满足于聊天框。它开始走向摄像机、时间线、终端、代码仓库、工作流、版权合同和法律条文。也正是在这个时刻,一个更困难的问题浮出水面:谁能让AI真正可靠地做事,并且为它做的事负责?
这个问题不会停在影视和软件行业。它很快会进入企业采购、安全审计、办公系统、客服流程、云平台和资本市场。AI不再只是回答者,它开始申请权限。现实世界的门开了一条缝,门后站着的不是一个单独的模型,而是一整套组织、制度和责任。
参考文献
- OpenAI,“Sora: Creating video from text”,2024.02.15。
- OpenAI,“Video generation models as world simulators”,2024.02。
- Sam Altman,X/Twitter posts soliciting Sora prompts after Sora announcement,2024.02.15。
- OpenAI,“Sora: first impressions”,2024.03。
- The Hollywood Reporter,“Tyler Perry Puts $800M Studio Expansion on Hold After Seeing OpenAI’s Sora: ‘Jobs Are Going to Be Lost’”,2024.02.22。
- Bloomberg,“OpenAI Courts Hollywood in Meetings With Film Studios, Directors”,2024.03.22。
- U.S. District Court, Southern District of New York,“The New York Times Company v. Microsoft Corporation, OpenAI, Inc. et al., Complaint”,2023.12.27。
- Cognition,“Introducing Devin, the first AI software engineer”,2024.03.12。
- SWE-bench,“SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”,2023。
- Hacker News,“Introducing Devin, the first AI software engineer”,2024.03.12。
- Internet of Bugs,“Devin: The AI Software Engineer is a Lie”,2024.04。
- European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024.03.13。
- Meta AI,“Introducing Meta Llama 3”,2024.04.18。
- Stanford HAI,“AI Index Report 2024”,2024.04。
第17章|GPT-4o 正面迎敌:多模态战争的五月
一、春天把聊天框挤窄了
2024年5月到来时,生成式AI行业已经不愿再被一个网页输入框概括。
前几章写过,2月的Sora把文本生成视频推到公众视野。OpenAI当时把它描述为一种可以从文本指令生成现实感和想象力场景的AI模型,并说明发布时只向红队测试者以及部分视觉艺术家、设计师、电影制作者开放。[1] 这不是一次普通消费产品上线,却足以改变行业叙事:如果模型可以生成连续画面,它就不只是“写作助手”,而开始触碰视觉世界。
3月,Cognition发布Devin,把另一个更日常、更昂贵的场景推到台前:软件工程。Cognition在公告中称Devin为“the first AI software engineer”,并称它能使用开发者工具、规划和执行复杂工程任务;公司还称Devin在SWE-bench上端到端解决13.86%的issue,此前最佳结果为1.96%。[2] 这里必须保留主语:这是Cognition自己的披露,不是行业公认的职业认证,也不是对真实公司生产环境的全面评估。可即便如此,Devin仍然提醒了程序员、创业者和工程经理一件事:AI正在从补全一行代码,走向接管一段工作流。
同一季节,监管和开源也在改变空气密度。3月13日,欧洲议会以523票赞成、46票反对、49票弃权通过《人工智能法案》。欧洲议会新闻稿中,Brando Benifei说:“We finally have the world’s first binding law on artificial intelligence…” Dragos Tudorache则说:“The EU has delivered.”[3] 4月18日,Meta发布Llama 3,推出8B和70B两个版本,并称400B以上模型仍在训练中;Meta还披露,Llama 3使用超过15T tokens训练数据,是Llama 2数据集的7倍以上。[4]
这几条线不必在本章重新展开。它们共同构成5月的背景:视频生成、工程代理、开源追赶、监管落地、算力成本,都在把问题从“模型会不会聊天”推向“模型能不能进入现实流程”。
Stanford HAI在《AI Index Report 2024》中估算,GPT-4训练成本约7800万美元,Gemini Ultra约1.91亿美元。[5] 这些不是公司财务报表,也不应被误读为完整研发成本,但它们足以说明行业荒诞感:用户在手机上免费问一句“帮我总结这封邮件”,后台可能对应着上亿美元级别的模型训练、芯片采购、数据中心租赁、电力调度和云服务折扣谈判。
于是5月的竞争不再只是榜单上的分数。它变成更贴近身体的东西:谁能占据人的耳朵、眼睛、摄像头、屏幕和说话时的停顿。
5月13日,OpenAI先出手。一天后,Google在I/O大会上用整个生态回应。
二、五月十三日:GPT-4o把机器放进对话间隙
2024年5月13日,OpenAI举行Spring Update。Mira Murati在直播中介绍新模型GPT-4o。OpenAI发布页面给出了核心定义:“GPT-4o (‘o’ for ‘omni’) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.”[6]
“o”代表omni。这个命名并不谦虚,但它抓住了当时真正的变化:文字、音频、图像、视频不再只是几个分散插件,而被包装成一个更自然的人机交互界面。
OpenAI同时公布了一组对语音产品很关键的数字:GPT-4o对音频输入的响应最快可达232毫秒,平均约320毫秒,接近人类对话反应时间;在API中,GPT-4o比GPT-4 Turbo更快,价格便宜50%。[6] 对聊天机器人来说,几秒延迟可以被用户忍受;对语音助手来说,延迟就是产品性格。慢半拍可能显得礼貌,慢五拍就像系统卡死。低延迟不是装饰,它决定用户是否愿意用说话取代打字。
OpenAI在同一篇文章中解释,过去的Voice Mode使用三个模型串联:一个模型把音频转成文本,GPT-3.5或GPT-4处理文本,再由第三个模型把文本转成音频。这种链路会损失语气、多人说话、背景噪声,也难以输出笑声、歌唱和情绪。GPT-4o则被描述为一个端到端跨文本、视觉和音频训练的新模型,输入和输出由同一个神经网络处理。[6]
这听起来像工程说明,却改变了界面。聊天框时代,用户先把世界翻译成文字,再等待模型生成文字。GPT-4o展示的是另一种回路:人说话,机器接话;人把镜头对准纸面,机器看题;人打断,机器停下或改变语气。
直播演示中,OpenAI研究负责人Mark Chen与GPT-4o语音互动,要求它改变说话方式、用不同情绪讲故事,并在演示中打断它。Barret Zoph则展示了模型通过摄像头看数学题、以辅导方式引导解题的过程。[7] 这些桥段很容易传播,因为它们不需要观众理解Transformer架构,也不需要解释训练数据规模。观众只要听到那个声音被打断后继续回应,就能感到界面发生了变化。
行业的幽默感也在这里出现。过去十多年,语音助手常被嘲笑为只能设闹钟、查天气、误听歌名。到了2024年5月,发布会上的AI已经能配合人类表演故事节奏,还能被要求“更戏剧化”。这不是科幻突然成真,而是产品经理终于把“人类会随时插话”这件小事当成核心指标。
不过,演示不是产品全量上线。OpenAI在发布中说明,GPT-4o的能力会逐步推出;文本和图像能力面向免费用户开放,Plus用户有更高消息限制;新的语音模式将先以alpha形式向Plus用户推出。[6] 这条边界很重要。5月13日展示的不是“所有用户已经拥有直播中的完整体验”,而是OpenAI向外界展示下一代ChatGPT入口。
对一个准备在通勤路上用语音问问题的普通用户来说,真正决定体验的不是发布会掌声,而是耳机连接、网络延迟、口音识别、环境噪声和隐私权限。对一个想用它教孩子数学题的家长来说,问题也不只是“它会不会说话”,而是它是否会在关键步骤上犯错、是否会鼓励孩子依赖答案、是否能在错误时承认不确定。
GPT-4o的意义不在于它让AI第一次能说话。意义在于,它让主流观众第一次直观看到:AI可能不再是一个网页标签页,而是一个随时插入现实对话的对象。
三、自然交互的魔力,也是一种风险
OpenAI Spring Update最有效的部分,不是参数表,而是“在场感”。
Mira Murati在直播中强调更自然的人机交互,Mark Chen和Barret Zoph的演示则把这种自然感拆成几个动作:说话、打断、看图、改变语气、辅导解题。[7] 在屏幕另一端,观众看到的不是一个模型,而像是一个角色化的接口。它有声音,有节奏,有反应速度,甚至在被打断时显得更像“会听”。
这正是多模态产品的力量,也正是它的危险。
文本模型出错时,用户看到的是一段文字。语音模型用自然声线说出错误答案时,错误会带上确定、亲密和权威的质感。一个答案是否可信,不只取决于内容,还取决于声音、停顿、语气和界面设计。人类很难完全把“听起来像懂的人”和“确实正确”分开。
OpenAI在GPT-4o发布页面中也列出安全边界,说明音频输出最初会限制在预设声音中,并继续评估音频、视觉等能力带来的新风险。[6] 这不是安全部门写在页脚的套话,而是多模态产品化的核心。会看、会听、会说的系统一旦进入教育、医疗咨询、客服、儿童陪伴、面试训练、车载系统和办公会议,风险就不再只是“文本幻觉”。它会涉及隐私、身份、情绪依赖、误导性权威、录音留存和对真人声音的模拟边界。
对企业采购者来说,GPT-4o带来的问题也更实际。过去部署文本助手,可以从知识库权限、审计日志、回答准确率开始评估。实时语音和视觉入口加入后,评估对象变成麦克风、摄像头、屏幕共享、员工对话、会议内容和客户身份。公司要问的不只是模型能力,还要问数据流向、保存期限、权限隔离和误触触发。
这就是2024年春天的双重表情。行业确实有理由兴奋:AI终于开始靠近人类最自然的交互方式。行业也必须保持怀疑:越自然的界面,越容易让用户高估系统可靠性。
OpenAI在5月13日抢到的是情绪高地。它让“下一代AI助手”从抽象概念变成一段可转发的视频。可第二天登场的Google不打算只用一个演示回应一个演示。它带来的不是单点爆破,而是一整套入口。
四、五月十四日:Google用生态系统迎敌
2024年5月14日,Google I/O举行。Sundar Pichai在主题演讲中登场,Google围绕Gemini密集发布更新:Gemini 1.5 Pro、Gemini 1.5 Flash、Project Astra、Veo、Imagen 3、AI Overviews,以及Workspace、Android、Photos、开发者工具等产品线的AI能力。[8][9]
这不是“Google模仿OpenAI”的简单故事。OpenAI前一天展示的是一个高度集中的爆款体验;Google展示的是巨型生态系统如何把AI铺进默认入口。搜索、Gmail、Docs、Photos、Android、Chrome、YouTube、Cloud,这些不是孤立应用,而是许多人每天工作和生活的底层路径。
Google在I/O上继续强调Gemini 1.5 Pro的长上下文能力,并推出Gemini 1.5 Flash,称其针对高频、大规模、低延迟任务进行了优化。[9] 这种叙事没有GPT-4o实时语音那么适合社交平台剪辑,但对开发者和企业很实际。一个模型是否便宜、是否稳定、是否能处理长文档、是否能嵌入现有流程,往往比它在发布会上是否会开玩笑更影响采购决策。
搜索是最敏感的战场。Google宣布AI Overviews将在美国向所有用户推出,并计划在年底前覆盖超过10亿人。[10] 这一步把生成式AI推进Google最核心的入口。过去,搜索引擎主要返回链接;AI Overviews则把答案摘要放在更前面。它可能让用户少点几次网页,也可能改变网站流量、广告分发、来源归属和内容生态激励。
对一个网站编辑、一位独立博主或一家靠搜索流量生存的小公司来说,这不是抽象的“技术升级”。如果用户在搜索结果页已经读完AI摘要,是否还会点击原网页?如果AI摘要出错,责任如何分配?如果内容生产者的文章被用于回答,却失去访问量,商业循环是否还能维持?这些问题在I/O发布会的节奏里不会停留太久,但它们会在随后每一次搜索改版中出现。
Google还把Gemini推进Workspace。邮件总结、文档生成、表格分析、会议整理,这些功能在舞台上看起来没有实时语音惊艳,却更贴近办公室预算。行业里有一条朴素规律:最会传播的演示赢得注意力,最无聊的流程赢得合同。一个能每周节省员工几小时重复劳动的AI,未必能登上热搜,却可能进入采购清单。
Android同样关键。手机比网页更接近身体。它有摄像头、麦克风、位置、联系人、相册、日历、支付和通知。谁把AI变成手机系统的一层,谁就更接近下一代个人助手。OpenAI拥有ChatGPT品牌和产品速度;Google拥有Android和默认服务。5月的竞争因此不只是模型能力,而是默认入口之争。
五、Astra与Veo:Google也要眼睛和摄像机
在Google I/O的众多更新中,Project Astra最接近GPT-4o带来的直观冲击。Google DeepMind把Project Astra描述为面向未来AI助手的项目。官方演示中,用户拿着手机摄像头在办公环境里移动,系统识别物体、解释代码、辨认发声设备,并在被问到眼镜在哪里时,回忆起刚才画面中眼镜出现的位置。[11]
这段演示的重点不是“识别物体”。图像识别早已不是新闻。真正的变化在于连续感知、短期记忆和实时对话被放在一起。AI不是处理一张静态图片,而是跟随用户视角移动,把视频和语音组合成一段事件时间线,再用于回答后续问题。Google DeepMind在文章中说,其原型代理会持续编码视频帧,把视频和语音输入结合成事件时间线,并缓存信息以便高效调用。[11]
这就是多模态战争更深的一层:AI要从“处理文件”走向“感知环境”。一旦摄像头成为AI的眼睛,手机镜头就不只是拍照工具,而变成现实世界入口。它可以帮助用户找东西、读说明书、识别屏幕内容、辅助学习、协助维修、解释陌生环境。它也可能收集更敏感的上下文:家里的摆设、办公室白板、孩子的脸、桌上的病历、会议室里的文件。
Project Astra把Google多年来积累的资产重新串起来:Android、Lens、Photos、搜索、地图、YouTube、DeepMind模型研究和云端基础设施。OpenAI用GPT-4o证明AI可以像对话对象;Google用Astra证明AI助手也可以嵌入现实感知和移动系统。
同一天,Google DeepMind发布Veo,称其为“our most capable video generation model”。Google介绍说,Veo可以生成超过一分钟的1080p视频,并理解延时摄影、航拍等电影化提示词。[12] 在2月Sora引发巨大讨论之后,Veo明确表明:Google不会把文本生成视频的叙事交给OpenAI独占。
视频生成的表面战场是创意工具。导演可以做预演,广告团队可以生成样片,设计师可以快速试镜头,普通用户可以把一句话变成短片。深层战场则是世界建模。一个视频模型如果能稳定生成符合物理直觉、角色一致、镜头可控的动态场景,它的价值可能延伸到游戏、机器人、自动驾驶仿真、教育内容和虚拟训练环境。
但这里仍需谨慎。公开视频样例通常经过挑选。提示词、失败率、生成成本、版权授权、人物一致性、后期编辑、商业使用限制,往往不会在一段宣传片里完整呈现。生成一段惊艳视频,与支撑一个可靠的影视生产流程,是两件不同的事。
5月的Google没有只回答“我们也有聊天模型”。它回答的是:我们也要AI的眼睛、耳朵、摄像机和默认入口。
六、Sky:当AI太像一个具体的人
GPT-4o发布后,技术讨论很快被另一个话题打断:声音。
5月13日,Sam Altman在X上发布了一个极短的帖子:“her”。[13] 这个词被许多用户和媒体联想到2013年电影《Her》。在那部电影里,Scarlett Johansson为人工智能操作系统Samantha配音。GPT-4o发布后,ChatGPT语音之一Sky被不少人认为与Johansson的声音相似。
这件事把多模态竞争中最尖锐的问题拉到台前:声音不是皮肤,声音就是界面。对一个主打实时语音、陪伴感和自然对话的AI来说,声线会直接塑造用户对系统人格的理解。
OpenAI随后暂停使用Sky声音,并发布文章说明语音选择过程。OpenAI在文中写道:“We believe that AI voices should not deliberately mimic a celebrity’s distinctive voice—Sky’s voice is not an imitation of Scarlett Johansson but belongs to a different professional actress using her own natural speaking voice.”[14] 这句话需要逐字保留其边界:OpenAI称AI声音不应故意模仿名人的独特声音;OpenAI称Sky不是对Scarlett Johansson的模仿,而是另一位专业演员使用自己的自然声音。
5月20日,Scarlett Johansson通过媒体发表声明。据Variety刊发的声明,Johansson称Sam Altman曾在2023年9月邀请她为ChatGPT语音系统配音,她出于个人原因拒绝;她还称,在GPT-4o演示发布前两天,Altman再次联系她的经纪人;当她听到发布后的声音时,她感到“shocked, angered and in disbelief”。[15]
这里不能替任何一方下法律结论。公开材料呈现的是双方声明:OpenAI否认Sky模仿Johansson,并暂停该声音;Johansson方面称自己曾拒绝合作邀请,并公开表达震惊和不满。事件的戏剧性来自这些公开说法之间的张力,而不是外界对任何一方动机的猜测。
Sky争议的重要性也不只在名人。它触及配音演员、歌手、主播、客服、教师和普通用户的共同问题:在AI可以合成自然声音之后,谁有权决定一个声音被如何使用?相似到什么程度构成问题?同意如何记录?训练数据如何授权?平台如何标识合成媒体?如果用户把一个AI声音误认为某个真人,责任边界在哪里?
生成式AI公司希望系统更像人,因为像人意味着低摩擦、易接受、有陪伴感。可系统一旦太像某个具体的人,商业魔法就会碰到同意、身份和表演权利。行业荒诞感在这里格外清楚:产品越成功地消除机器感,越需要向社会证明它没有未经授权地复制一个真人。
GPT-4o让“声音”从功能设置变成平台政治。它不再只是用户选择男声女声的问题,而是AI公司如何处理人格联想、公众信任和个人权利的问题。
七、入口之争比参数更近
5月13日和5月14日只隔一天,却像两种AI未来路线并排展开。
OpenAI的路线是集中爆发。GPT-4o把实时语音、视觉输入和低延迟对话压进一个强烈演示,让ChatGPT从聊天框走向实时交互对象。它的优势是产品感、速度和公众注意力。它的弱点也清楚:演示能力要变成稳定、便宜、安全、合规的大规模产品,还要经过真实用户、复杂环境和长期负载的检验。
Google的路线是体系推进。I/O展示的不是一个孤立模型,而是搜索、手机、邮箱、文档、相册、开发者工具和云服务的共同改造。它的优势是入口、分发和生态;它的风险也更重。搜索摘要给错答案、AI改变网站流量、移动系统收集更多上下文,都不是小功能问题,而会牵动信息生态和商业模式。
这场战争的焦点正在从“谁的模型参数更大”转向“谁掌握用户面对世界时的第一层界面”。参数仍然重要,训练成本仍然重要,算力仍然重要。Stanford HAI对GPT-4和Gemini Ultra训练成本的估算提醒人们,大模型竞赛背后仍是资本密集型工业。[5] 但用户不会每天打开参数表。用户会打开手机、戴上耳机、进入浏览器、拍一张照片、共享一块屏幕、问一句话。
GPT-4o和Project Astra的共同点,是它们都试图缩短人类意图到机器行动之间的距离。过去,用户要把现实世界转译成文字:描述图片、粘贴代码、总结会议、解释场景。现在,AI公司希望用户直接把摄像头、麦克风和屏幕交给模型。
这是一种效率提升,也是一种权力转移。谁处理这些感官输入,谁就可能理解用户的环境、任务、习惯和脆弱时刻。AI入口越自然,数据边界、同意机制和默认设置越需要被重新讨论。
2024年春天的狂飙因此带着双重面孔。Sora让人看到视频生成的想象力,Devin让软件工程自动化进入公众叙事,Llama 3证明开放模型仍在逼近闭源前沿,欧盟AI Act把监管写入制度现实。到了5月,GPT-4o让AI在大众演示中像一个可以插话的对象,Google I/O则用整个生态回应:搜索巨人不会把眼睛、耳朵和摄像头让出去。
故事没有在5月结束。它只是换了战场。
当AI会看、会听、会说,下一场竞争就不再只是模型榜单之争,而是入口之争、默认设置之争、操作系统之争。谁能成为用户面对世界时的第一层界面,谁就握住了下一代智能平台的门票。
参考文献
- OpenAI,“Sora: Creating video from text”,2024.02.15。
- Cognition,“Introducing Devin, the first AI software engineer”,2024.03.12。
- European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024.03.13。
- Meta AI,“Introducing Meta Llama 3”,2024.04.18。
- Stanford HAI,“AI Index Report 2024”,2024.04。
- OpenAI,“Hello GPT-4o”,2024.05.13。
- OpenAI,“Spring Update livestream”,2024.05.13。
- Google,“Google I/O 2024 Keynote”,2024.05.14。
- Google, The Keyword,“100 things we announced at I/O 2024”,2024.05.14。
- Google, The Keyword,“Generative AI in Search: Let Google do the searching for you”,2024.05.14。
- Google DeepMind,“Project Astra: our vision for the future of AI assistants”,2024.05.14。
- Google DeepMind,“Veo: our most capable generative video model”,2024.05.14。
- Sam Altman,X/Twitter post,“her”,2024.05.13。
- OpenAI,“How the voices for ChatGPT were chosen”,2024.05.19。
- Variety,“Scarlett Johansson Says OpenAI Ripped Off Her Voice for ChatGPT After She Declined to Work With Company”,2024.05.20。
第18章|苹果入场:AI 被塞进十亿部手机
一、迟到者的命名权
2024年5月,模型公司已经把人工智能的感官打开。
前一章写过,OpenAI在5月13日发布GPT-4o,把实时语音、视觉和文本放进同一场演示;Google在5月14日的I/O上展示Gemini从搜索、邮箱、照片、Android到云服务的体系能力。[1][2] 那一周的行业情绪很像一次入口争夺战的开场:AI不再只是在网页聊天框里回答问题,它开始争夺麦克风、摄像头、屏幕、文件和日常动作。
不到一个月后,迟到者出现了。
2024年6月10日,Apple Park,WWDC 2024。苹果没有先公布一个叫“AppleGPT”的聊天机器人,也没有在开场用参数规模或榜单成绩争夺注意力。Tim Cook在苹果的年度开发者大会上宣布Apple Intelligence。这个名字带着苹果一贯的品牌秩序感:不是人工智能的通用缩写AI,而是把AI重新写成Apple Intelligence。[3]
苹果新闻稿的标题把它称作“the personal intelligence system that puts powerful generative models at the core of iPhone, iPad, and Mac”——“一套个人智能系统,将强大的生成式模型置于iPhone、iPad和Mac的核心”。[4] 在同一份公告中,Tim Cook说:“Apple Intelligence will transform what users can do with our products — and what our products can do for our users.”——“Apple Intelligence将改变用户能用我们的产品做什么,也改变我们的产品能为用户做什么。”他还说:“This is AI as only Apple can deliver it.”——“这是只有苹果才能提供的AI。”[4]
这句话当然有发布会语言的自信。苹果从iPod、iPhone到Apple Watch,长期擅长把复杂技术重新包装成消费者可以理解的日常动作。可是2024年6月的这次命名,不只是营销。它把前一年半以来由模型公司主导的叙事,拉回到苹果最熟悉的地盘:设备、系统、权限、芯片、隐私和生态分发。
OpenAI可以让模型听见人声、看见图像;Google可以把Gemini铺进搜索和Workspace;苹果控制的是承载这些感官入口的东西。麦克风在哪个App里被调用,摄像头何时被打开,通知如何显示,邮件怎样被摘要,照片能否被检索,Siri能不能跨App行动——这些不是单纯的模型能力问题,而是操作系统问题。
因此,苹果的迟到显得有些反常。它不是最早点燃生成式AI热潮的公司,也没有在2023年推出一个轰动全球的聊天机器人。可是它一旦正式入场,战场就不再只看谁的模型更会说话。AI开始被放进手机和电脑的系统路线图里,放进用户每天解锁、滑动、拍照、打字、收消息和开会的界面里。
2024年6月,苹果终于说出了AI。它说出的方式是:个人。
二、不是聊天框,是系统能力
Craig Federighi出现在WWDC主题演讲中时,苹果的软件叙事开始展开。
Apple Intelligence不是一个独立目的地。它没有被设计成用户每天主动打开的新网站,也不是把一个聊天机器人图标放到桌面上。苹果展示的路径更分散:写作工具嵌入Mail、Notes、Pages和第三方App;邮件可以显示摘要和优先信息;通知可以被归纳;用户可以生成图像和Genmoji;Siri获得新的界面和语言理解能力,能够接受打字输入,也能在苹果承诺的功能节奏中逐步利用个人上下文完成更多任务。[3][4]
苹果在介绍中写道:“It draws on your personal context to give you intelligence that’s most helpful and relevant for you.”——“它会利用你的个人上下文,为你提供最有帮助、最相关的智能。”[4]
这句话是Apple Intelligence的核心,也是它最敏感的部分。
“个人上下文”不是抽象名词。它可能是邮件里的航班时间,短信里的地址,日历上的会议,备忘录里的清单,相册中的人物和地点,也可能是屏幕上正在显示的内容。对模型公司来说,这些信息是让AI更有用的燃料;对操作系统公司来说,它们同时也是权限、合规和信任的边界。
这让普通用户的位置发生了变化。过去,用户使用聊天机器人时,通常要把问题主动复制到输入框里。复制多少,意味着交出多少。Apple Intelligence的方向则相反:让AI出现在用户已经工作的地方。用户写邮件时,它在那里;用户清理通知时,它在那里;用户想让Siri帮忙时,它在那里;用户编辑文本、生成图片、整理信息时,它也在那里。
这听起来更自然,也更难管理。一个打开网页的AI工具,边界相对清晰;一个系统级AI,边界会散落在邮件、相册、日历、文件、输入法、通知中心和语音助手里。便利性不是免费获得的,它会把用户带到一个新的交换面前:为了少复制、少搜索、少切换App,用户是否愿意让系统理解更多个人数据?
苹果的回答不是“我们也有一个聊天框”,而是“聊天框不是唯一入口”。这是它与OpenAI和Google的差异。OpenAI在5月展示的是一把尖刀:实时、多模态、拟人化。Google展示的是一张大网:模型、搜索、Android、Workspace和云服务。苹果展示的是道路本身:用户不必去找AI,AI被分布到系统路径中。
这一点对开发者同样重要。WWDC本来就是开发者大会,坐在屏幕前观看主题演讲的不只是消费者,还有大量iOS、iPadOS和macOS开发者。对他们来说,Apple Intelligence意味着新的系统能力,也意味着新的约束。第三方App可以受益于系统写作工具和平台能力,但真正决定体验入口、权限提示和默认交互方式的,仍然是苹果。
AI行业在这里出现了一种熟悉的荒诞感:创业公司用巨大模型告诉世界“未来已经来了”,手机厂商则用系统弹窗决定未来能不能读取一张照片。
三、十亿级生态,与有限首发
“AI被塞进十亿部手机”是一种趋势判断,不是一个发布当天已经完成的事实。
苹果的生态规模足够巨大。2024年2月,苹果在2024财年第一财季电话会上披露,全球活跃设备安装基数已经超过22亿台。Tim Cook说:“We are pleased to announce that our installed base of active devices has now surpassed 2.2 billion, reaching an all-time high across all products and geographic segments.”——苹果活跃设备安装基数超过22亿,并在所有产品和地区创下历史新高。[5]
这组数字说明的是分发能力,不是Apple Intelligence的即时覆盖范围。苹果拥有硬件、系统、芯片、App Store、开发者生态、支付关系和长期用户习惯。一个新AI功能如果进入iOS、iPadOS和macOS的系统更新,它不需要从零开始教育用户访问一个新网站。它可以被放进用户已经熟悉的动作里。
但事实限定必须放在同等重要的位置。苹果在6月10日公告中写明,Apple Intelligence将在2024年秋季以beta形式开始提供,初期为美国英语;首批支持设备包括iPhone 15 Pro、iPhone 15 Pro Max,以及搭载M1或更新芯片的iPad和Mac。[4]
这意味着两件事。
第一,发布当天并不是所有iPhone都获得Apple Intelligence。许多仍在正常使用的iPhone不在首批名单中,普通iPhone 15也不在首批支持范围内。对拿着旧款iPhone的用户来说,发布会之后的第一项现实动作,不是体验“个人智能”,而是查看自己的设备是否符合条件。
第二,生成式AI进入手机系统,不只是安装一个App的问题。它需要端侧算力、内存、神经网络加速器、电池管理、散热控制,也需要系统级权限、隐私架构和云端补位。AI公司可以在数据中心里追求更大模型;手机厂商必须回答另一个问题:这项能力能不能每天稳定运行在一块薄薄的玻璃和金属里?
这也是苹果首批支持设备名单的意义。它让AI竞争从模型榜单延伸到芯片周期。M1之后的iPad和Mac、A17 Pro所在的iPhone 15 Pro系列,成为Apple Intelligence第一阶段的硬件门槛。过去,用户更换手机的理由可能是相机、屏幕、电池和外观;现在,AI能力也可能成为新的升级理由。
这对个人并不总是浪漫的。发布会上的“个人智能”落到现实里,可能变成一张设备兼容列表、一套语言限制、一个beta标签,以及一次是否换机的消费决策。AI被塞进手机之前,先被塞进了硬件分层和产品周期。
苹果并没有掩饰这种分阶段。它的入场方式很克制:不宣布所有功能立刻可用,不声称所有设备马上覆盖,也不把自家模型描述成行业终点。它真正宣布的是方向:生成式AI将成为iPhone、iPad和Mac系统的一部分,而不是系统之外的附加玩具。
四、Private Cloud Compute:隐私作为架构
苹果知道,系统级AI必须先回答一个问题:数据去哪儿?
Apple Intelligence的许多任务可以在设备端处理,但苹果没有假装所有请求都能留在本地。更复杂的请求需要更大模型和更多计算资源。于是,苹果提出Private Cloud Compute,把一部分AI计算放到运行Apple silicon的服务器上,并把这套云端能力包装成隐私架构的一部分。[6]
苹果在安全研究博客中写道:“Your data is never stored or made accessible to Apple, and is used only to fulfill your request.”——“你的数据绝不会被存储,也不会被苹果访问,只会用于完成你的请求。”[6] 苹果还称,Private Cloud Compute使用Apple silicon服务器;服务器软件将可供独立专家检查;设备只会把请求发送到可以被公开验证、运行相应软件的服务器。[6]
这是苹果式的防御,也是一种营销。
说它是防御,是因为苹果无法回避云端AI的信任问题。只要请求离开设备,用户、企业客户、监管者和安全研究者都会追问:发送了哪些数据?谁可以访问?是否保存?能否被审计?第三方模型是否参与?如果发生攻击,责任如何界定?
说它是营销,是因为苹果长期把隐私作为品牌资产。AI越接近个人数据,隐私越不能只是广告语。苹果需要把“相信我们”改写成“看我们的架构”。端侧优先、Apple silicon服务器、最小化发送、不可存储、可验证软件,这些技术描述共同构成了Apple Intelligence的信任叙事。
但这不意味着风险消失。系统级AI面对的攻击面比聊天机器人更复杂:恶意文档可能诱导模型泄露信息,网页内容可能进行提示注入,跨App动作可能触发错误权限,云端实现也可能存在漏洞。Private Cloud Compute是苹果对云端AI不信任问题的制度化回应,不是魔法盾牌。
同一时期,微软Recall的风波给整个行业提供了反面压力。Recall最初作为Copilot+ PCs的重要功能之一,试图让电脑帮助用户找回过去看过的内容。它的方向与“个人上下文”高度一致:系统越记得用户做过什么,AI越能帮用户回到过去的工作状态。可是这个设想也迅速引发隐私与安全质疑,焦点集中在屏幕快照、敏感数据和本地存储的访问风险上。
微软在2024年6月7日宣布调整Recall,把它改为选择加入,并增加Windows Hello等安全要求。[7] 6月13日,微软进一步宣布:“Recall will shift from a preview experience broadly available for Copilot+ PCs on June 18, 2024, to a preview available first in the Windows Insider Program…”——“Recall将从原定于2024年6月18日面向Copilot+ PC广泛提供的预览体验,调整为先在Windows Insider Program中提供的预览。”[8]
苹果和微软面对的是同一个悖论:AI越懂你,越有用;AI越懂你,越可怕。行业荒诞感正在于此。产品经理希望AI记住一切,安全工程师必须证明这些记忆不会被别人拿走。用户希望系统少问几次,监管者和企业IT部门则希望系统每一次都说清楚。
苹果在发布Apple Intelligence时把Private Cloud Compute放到核心叙事中,说明它很清楚这场竞争不只发生在模型能力上。2024年的AI入口战争,隐私已经不是后勤部门的补丁,而是发布会正片的一部分。
五、ChatGPT 从门外进入 Siri
苹果没有把全部赌注押在自研模型上。
WWDC 2024上,苹果宣布与OpenAI合作,把ChatGPT接入Siri和系统写作工具。OpenAI在公告中写道:“Apple is integrating ChatGPT into experiences within iOS, iPadOS, and macOS…”——“苹果正在将ChatGPT集成进iOS、iPadOS和macOS的体验中。”OpenAI还称,这一集成由GPT-4o提供支持,用户无需创建账号即可访问;ChatGPT订阅用户可以连接账号使用付费功能。[9]
这一步把入口战争的结构暴露得很清楚。
对OpenAI来说,苹果给了它一个消费级系统入口。ChatGPT已经拥有巨大的独立产品影响力,但独立App和网页仍然要求用户主动打开。进入Siri和写作工具之后,ChatGPT有机会出现在系统流程内部:当Siri遇到适合外部模型的请求,当用户在写作工具中需要更强生成能力,ChatGPT可以被调用。
对苹果来说,OpenAI不是新主人,而是外部扩展。苹果在公告中强调,用户向ChatGPT发送任何问题以及相关文档或照片之前,都会被询问确认:“Users are asked before any questions are sent to ChatGPT, along with any documents or photos…”[4] 苹果还称,用户的IP地址会被隐藏,OpenAI不会存储未登录用户的请求;如果用户连接ChatGPT账号,则适用OpenAI的数据使用政策。[4]
这个设计很苹果:把外部模型接进来,但放在门禁之后;承认OpenAI的能力,但把调用动作放进苹果定义的系统界面;给用户无需账号的入口,又保留账号连接和订阅能力。它既是合作,也是控制。
这同样说明苹果入场的边界。苹果拥有设备、系统和芯片,却仍然在2024年6月选择接入OpenAI。这不是苹果放弃自研,而是承认当时最前沿大模型能力仍有外部依赖。模型公司和操作系统公司开始互相需要:OpenAI需要苹果的入口,苹果需要OpenAI的能力,双方都需要把数据流向解释清楚。
这里出现了一个更深的权力问题。如果ChatGPT可以被接入Siri,其他模型将来是否也可以?苹果会不会成为消费级AI的调度层?同一个用户请求,系统可以判断由端侧模型处理、由Private Cloud Compute处理,还是交给外部模型处理。这个判断一旦发生在操作系统层,苹果就不只是硬件公司,也不只是App平台,它会成为AI能力进入个人生活的闸门。
对独立开发者来说,这种闸门既诱人也危险。诱人之处在于,系统级AI能力可能让小团队用更少工程量获得写作、摘要、图像和语义理解能力。危险之处在于,入口越系统化,平台规则越重要。开发者能用什么能力、在什么场景触发、如何向用户解释权限,最终仍取决于苹果制定的边界。
OpenAI进入了Siri。可是Siri不属于OpenAI。
六、Musk 的警报,和企业管理员的问题
争议很快出现。
2024年6月10日,Elon Musk在X上写道:“If Apple integrates OpenAI at the OS level, then Apple devices will be banned at my companies. That is an unacceptable security violation.”——“如果苹果在操作系统层面集成OpenAI,那么苹果设备将在我的公司被禁用。这是不可接受的安全违规。”他还发帖称,访客必须在门口交出苹果设备,设备会被存放在法拉第笼里。[10]
这些表述带有Musk一贯的高强度传播风格。它不等同于法律结论,也不改变苹果公告中关于用户确认和隐私限制的具体说明。但它击中了Apple Intelligence发布后最敏感的公共疑问:系统层AI到底会把什么数据发给谁?
这不能只看成个人口水战。Musk与OpenAI有长期历史,xAI也在构建自己的模型产品;OpenAI与苹果合作,可能获得更大消费入口;微软既是OpenAI的重要合作伙伴,又在Windows和Copilot+ PCs上推进系统级AI;Google拥有Android和Gemini;苹果拥有iOS、iPadOS、macOS和硬件生态。几家公司围绕模型、系统、云、芯片、数据和入口形成交错关系,任何一次合作都会被竞争者放大成安全、商业和阵营问题。
对企业IT管理员而言,这种争议不是发布会段子。公司设备里有邮件、文档、客户资料、源代码、合同、会议记录和身份凭证。过去,管理者主要关心App安装、移动设备管理、数据加密和网络访问;现在,他们还要理解AI请求的路径:哪些任务在设备端处理,哪些请求进入苹果私有云,哪些内容会在用户确认后发给ChatGPT,登录账号与未登录状态的数据政策有什么不同。
这也是微软Recall风波引起广泛关注的原因。它让企业和个人用户提前看见一个场景:当AI功能默认靠近屏幕、文件和历史活动时,哪怕意图是帮助用户找回信息,也必须面对安全审查。苹果在WWDC上选择反复解释Private Cloud Compute和ChatGPT确认机制,正是因为它不能假设用户会天然接受“更聪明的系统”。
Musk的警报在传播上极端,但背后的问题并不极端。AI进入操作系统后,安全边界不再是“不要把机密复制进聊天框”这么简单。因为用户可能不再复制,系统本身就在旁边。它能总结邮件,理解通知,生成回复,查看屏幕内容,并在未来执行跨App动作。便利性把风险从用户主动输入,推向系统默认可见的上下文。
苹果的回答是分层:设备端处理优先,复杂请求进入Private Cloud Compute,外部ChatGPT调用前询问用户。这个答案比简单地把聊天机器人接进系统更完整,也更符合苹果长期的隐私品牌。但它仍然需要在真实使用中接受检验。发布会能说明设计目标,不能替代安全研究、企业部署、监管审查和用户长期经验。
AI行业在这一刻从炫技进入治理。一个语音演示可以让观众兴奋,一个隐私弹窗却决定企业是否敢开功能。前者让AI像科幻电影,后者让AI像采购审批表。两者都是真实的2024年。
七、战场进入手机
苹果不是第一个冲进生成式AI热潮的公司。它没有发布ChatGPT,没有发布GPT-4,没有发布Sora,也没有像Google那样在I/O上展示覆盖搜索、邮箱、相册、Android和云服务的AI矩阵。到2024年6月,它甚至不是最激进的大模型叙事者。
但它拥有另一种稀缺资源:用户日常生活的承载层。
手机不是普通终端。它知道用户的位置、照片、通知、联系人、支付、身份验证、日程和声音。电脑也不只是生产工具,它承载文档、网页、代码、会议和企业系统。当AI进入这些设备,竞争就不再只是“哪个模型回答更好”,而是“谁有权在什么条件下理解你的生活”。
Apple Intelligence首发范围有限,beta节奏谨慎,初期语言和设备门槛都很明确。不能把2024年6月10日写成“所有iPhone突然拥有AI”的神话。更准确的说法是:苹果把生成式AI正式放进了iPhone、iPad和Mac的系统路线图,并把行业竞争从云端模型推进到端侧芯片、系统权限、隐私架构和生态合作。
这件事的象征意义大于即时覆盖率。
OpenAI在5月展示了实时多模态的尖刀,Google在5月展示了Gemini体系的大网。苹果在6月展示的是入口本身:一套个人智能系统,可以在设备端运行,可以在私有云补位,可以在必要时调用ChatGPT,可以被嵌入用户每天触摸的界面。它不是把AI放在远处让人访问,而是把AI放进用户已经拥有的设备里。
这让下一阶段的矛盾更加清晰。AI越靠近个人,就越有用;AI越有用,就越需要权限;权限越深,信任成本越高。模型能力仍然重要,但入口、芯片、隐私、操作系统和监管开始同样重要。
2024年6月,迟到的苹果改变了战场形状。AI战争不再只是云端模型公司的速度竞赛,也不再只是发布会上谁的演示更像科幻电影。它进入了手机、电脑和操作系统,进入了通知中心、邮件、照片、Siri和写作工具。
当AI进入操作系统,问题不再只是“哪个模型回答得更好”,而是:谁有权读取你的屏幕、邮件、照片、日程和声音。
苹果给出了自己的答案。行业还远没有给出最后判决。
参考文献
- OpenAI,“Hello GPT-4o”,2024.05.13。
- Google,“Google I/O 2024 Keynote”,2024.05.14。
- Apple,“WWDC 2024 Keynote”,2024.06.10。
- Apple,“Introducing Apple Intelligence, the personal intelligence system that puts powerful generative models at the core of iPhone, iPad, and Mac”,2024.06.10。
- Apple,“Q1 2024 Earnings Call”,2024.02.01。
- Apple Security Research,“Private Cloud Compute: A new frontier for AI privacy in the cloud”,2024.06.10。
- Microsoft,“Update on the Recall preview feature for Copilot+ PCs”,2024.06.07。
- Microsoft,“Update on the Recall preview feature for Copilot+ PCs”,2024.06.13。
- OpenAI,“OpenAI and Apple announce partnership”,2024.06.10。
- Elon Musk,X posts on Apple and OpenAI integration,2024.06.10。
第19章|Claude 3.5 与 Llama 3.1:闭源天花板,开源地板
一、不是最大,却最顺手
2024年6月20日,人工智能行业又迎来一个模型发布日期。到这一年夏天,发布会、基准测试表格、演示视频和“重新定义”式标题已经过于密集,行业从兴奋中学会了疲劳。真正引人注意的,不再只是“最大参数”或“最贵旗舰”,而是一个更朴素的问题:这个模型能不能被人反复用在工作里。
Anthropic在官网发布Claude 3.5 Sonnet。官方博客开头写道:“Claude 3.5 Sonnet raises the industry bar for intelligence, outperforming competitor models and Claude 3 Opus on a wide range of evaluations, with the speed and cost of our mid-tier model, Claude 3 Sonnet.”按中文转述,就是Claude 3.5 Sonnet在一系列评测中超过竞争模型和Claude 3 Opus,同时保持中档模型Claude 3 Sonnet的速度与成本结构。[1]
这句话里藏着2024年模型战争的一个新方向:强模型不只要强,还要顺手。
3月,Anthropic发布Claude 3系列时,Opus是旗舰,Sonnet是中档,Haiku是轻量级。按照传统科技产品叙事,旗舰应当代表最高体验。但三个多月后,Claude 3.5 Sonnet把这种层级关系打乱了。Anthropic称,Claude 3.5 Sonnet“operates at twice the speed of Claude 3 Opus”,即速度为Claude 3 Opus的两倍;发布时API价格为每百万输入tokens 3美元、每百万输出tokens 15美元;上下文窗口为200K tokens。[1][2]
这组数字对普通消费者未必有戏剧性。可对企业用户、独立开发者和产品经理来说,它们像报价单上的小型地震。一个模型能力提升、延迟降低、成本可试算、上下文足够长,意味着它可以吞下长文档、代码片段、合同、日志、客服记录和内部知识库片段。过去一年,许多AI产品的困境不是模型完全不能用,而是“效果好但太贵”“演示惊艳但上线不稳”“能答问题却很难进入流程”。Claude 3.5 Sonnet的吸引力恰好在这里:它没有把所有指标推到宇宙尽头,而是把能力、速度和价格调到一个更像生产工具的位置。
Anthropic在发布页列出官方评测表,把Claude 3.5 Sonnet与Claude 3 Opus、GPT-4o、Gemini 1.5 Pro等模型放在一起比较,项目包括MMLU、GPQA、MATH、HumanEval等。更接近日常工程的一项,是Anthropic自己的代理式编码评测:公司称Claude 3.5 Sonnet解决了64%的问题,Claude 3 Opus为38%。这些任务要求模型修复开源代码库中的bug或增加功能,评估方式比单纯代码补全更接近软件工程工作。[1] 但这里也必须保留限制:这是Anthropic发布材料中的评测,不等同于所有企业代码库、所有语言、所有工程环境下的通用结论。
模型公司在榜单上相互超越,已经成了2024年的行业天气预报。今天这家超过,明天那家刷新。Claude 3.5 Sonnet的发布之所以像一个转折点,是因为它没有只停在榜单。Anthropic同时把它放到Claude.ai、Claude iOS应用、Anthropic API、Amazon Bedrock和Google Cloud Vertex AI等渠道上。[1] 这意味着它不是一个孤立模型,而是一组分发路径:个人用户可以在网页里试,企业可以从云平台采购,开发者可以用API接入,安全团队可以把它放进既有权限体系里评估。
这也是Anthropic与前文写到的OpenAI多模态路线、苹果设备路线之间的差异。OpenAI在5月把实时语音和视觉推到前台,苹果在6月把AI塞进设备和操作系统;Anthropic则更强调可靠、长上下文、企业可用性和一种不那么喧哗的生产力。它不是不炫技,而是把炫技包装成工作流。
2024年的AI使用者已经被训练得挑剔。一个模型会写诗,不足以让企业掏钱;会总结PDF,也不足以让开发团队迁移流程;会生成代码,如果不能解释、修改、迭代,最后仍会变成昂贵的自动补全文本框。Claude 3.5 Sonnet击中的,是一个更实际的问题:能不能把一件事交给它反复改。
答案还不是完全肯定。但比几个月前更接近肯定。
二、聊天框旁边多出了一张桌子
同一天,Anthropic推出了一个名字不像模型、却可能比模型更改变体感的功能:Artifacts。
在过去的聊天机器人界面里,AI的回答大多以一段段文本形式堆在对话历史中。用户让它写代码,它就在气泡里吐出代码;让它写网页,它给一段HTML;让它写方案,它给Markdown;让它做小游戏,它把文件压成一段回答。用户真正要使用这些成果,还要复制、粘贴、保存、运行、报错,再回到对话里请求修改。聊天框像一个很聪明的同事,但它的桌面永远隔着一层玻璃。
Artifacts改变的是这层玻璃。
Anthropic官方说明中,Artifacts会出现在用户与Claude的对话旁边,使用户可以查看、编辑并继续构建Claude生成的内容。它可以承载代码片段、文本文件、网站设计、SVG图形、图表、交互式组件等对象。[3] Claude 3.5 Sonnet发布博客也把Artifacts列为新的Claude.ai体验:当用户要求Claude生成代码、网页、文档或设计时,相关成果可以在独立窗口中打开,并随着对话继续迭代。[1]
这不是复杂到难以理解的创新。相反,它几乎简单得让人疑惑:为什么聊天机器人一开始不是这样?
在官方演示和产品说明所描述的使用方式中,用户可以要求Claude生成一个交互式网页。过去,聊天框返回HTML、CSS和JavaScript;现在,右侧打开一个可预览的窗口。用户继续要求修改颜色、布局、文案、组件,Claude更新右侧对象。成果不再只是“回答”,而变成一个可见、可编辑、可反复加工的工作件。
这一步的意义在于,AI产品从“对话”向“协作界面”移动。聊天本身不是终点,聊天是操作对象的方式。文本框不再是最后交付物,而更像控制台。
行业荒诞感也在这里出现:2023年,大量AI应用创业公司把“在聊天框里生成一段东西”包装成产品;到2024年,基础模型公司开始把这些产品外壳吸回模型界面。网页生成器、文案编辑器、简单数据图表、前端组件草稿、小游戏原型——它们都可能变成Claude右侧窗口里的一个Artifact。许多AI创业公司终于发现,最大的竞争对手不一定是同类创业者,而是模型供应商突然在聊天框旁边加了一张桌子。
但Artifacts还不是完整的软件开发环境。它可以快速生成原型,却不能替代复杂项目中的版本控制、权限管理、测试体系、依赖管理、部署流程和长期状态维护。它能帮助用户更快看见结果,也能让非技术用户参与修改;但从“一个可运行的网页片段”到“一个长期运营的产品”,中间仍隔着工程组织、代码审查、监控告警和安全合规。
这正是它的真实位置:不是终结开发流程,而是把早期构思、草稿、演示和小型工具制作的门槛降下来。
Claude 3.5 Sonnet与Artifacts放在一起看,就不再是一次单纯模型升级。Anthropic在做一件更有野心的事:把强模型嵌入一个可操作界面,让用户在对话中逐步塑造结果。模型能力是发动机,Artifacts是方向盘和工作台。发动机再强,如果用户每次都要跳车搬货,效率仍会损失;工作台出现后,模型的“可用感”被放大。
这也是闭源模型在2024年夏天展示出的第一种优势:它们不只卖智能,还卖完成度。模型、界面、账户体系、企业权限、API、云渠道和安全叙事被打包在一起。对用户来说,这比单个榜单分数更现实。
三、闭源模型的后台:云、芯片与账单
Claude 3.5 Sonnet发布时,前台是模型和界面,后台是更重的东西:云计算、专用芯片、资本投入和分发渠道。
三个月前,2024年3月27日,Amazon宣布完成对Anthropic总计40亿美元投资。Amazon在新闻稿中表示,这是其对Anthropic投资计划的最后一笔追加投资;Anthropic选择AWS作为主要云服务提供商,并将使用AWS Trainium和Inferentia芯片来构建、训练和部署未来模型。[4]
这条新闻没有模型演示那样的视觉效果,却更接近基础设施层面的现实。训练前沿模型需要巨额算力,推理服务需要稳定云平台,企业客户采购需要合规渠道。模型公司可以在博客里谈智能边界,但账单最终会落到GPU、网络、存储、电力、机房和云合同上。
AWS在这场绑定中得到的也不只是潜在财务回报。Claude模型进入Amazon Bedrock,意味着AWS企业客户可以在同一平台调用Anthropic模型,与其他模型一起被纳入企业云采购和权限体系。[4][5] 对云厂商来说,基础模型是留住企业工作负载的新入口;对模型公司来说,云厂商是算力来源、销售渠道和企业信任背书。
到2024年,前沿模型公司的命运越来越难脱离云厂商。外界看到的是聊天机器人回答问题,内部持续燃烧的却是资本密集型工业系统。闭源模型的“天花板”并不只由算法决定。它由数据处理能力、训练稳定性、芯片供应、推理优化、产品渠道、安全评估和商业合同共同决定。
Claude 3.5 Sonnet的价格因此值得注意。每百万输入tokens 3美元、输出tokens 15美元,放在前沿模型区间里具有竞争力。[1][2] 它不是免费,也不是廉价玩具;它是一种企业可试算的成本。一个模型如果只在少数演示中表现惊艳,却让每次调用都像打开水龙头放美元,它很难成为大规模应用的默认组件。
Anthropic选择Sonnet而不是Opus作为这次跃迁的主角,恰好说明了行业重心的变化。企业不总是需要最强模型,它们需要“足够强、足够快、足够稳定、足够便宜”的模型。生产力工具的胜利经常不是由最高峰决定,而是由可重复使用的高原决定。
这就是闭源路线的第一层逻辑:把能力上限握在自己手里,同时用产品和渠道把高能力变成标准化服务。用户买到的不只是模型输出,而是一整套责任边界。出了问题,可以找供应商;要扩容,可以找云;要合规,可以走企业合同;要接入内部系统,可以用API。
当然,这也带来另一面。企业越依赖闭源模型,就越依赖供应商的定价、路线图、可用区域、审核政策和服务稳定性。模型能力越强,锁定也越深。AI行业喜欢谈“智能”,采购部门最后问的却常常是:如果价格上涨怎么办?如果模型下架怎么办?如果数据不能出域怎么办?如果监管要求本地部署怎么办?
这些问题,为几周后Meta的出场铺好了地面。
四、扎克伯格写下一篇产业宣言
2024年4月18日,Meta发布Llama 3首批模型,包括8B和70B两个规模。Meta在博客中写道:“With Llama 3, we set out to build the best open models that are on par with the best proprietary models available today.”——通过Llama 3,Meta的目标是构建能够与当时最好的专有模型相匹敌的开放模型。官方材料称,Llama 3使用超过15万亿tokens训练,训练数据集规模是Llama 2的七倍以上,代码数据量是Llama 2的四倍以上。[6]
如果故事到这里为止,Llama 3只是又一次开放权重模型升级。但7月23日,Meta把这件事推到更大的叙事里。
那天,Meta发布Llama 3.1。模型家族包括8B、70B和405B,其中405B是重点:一个4050亿参数级别的开放权重模型,被放进前沿模型竞争的话语场。Meta官方材料称,Llama 3.1支持128K上下文长度,并改进多语言能力、工具使用能力和整体模型质量。[7]
同一天,Mark Zuckerberg发表文章,标题像一句宣言而不是技术博客:“Open Source AI Is the Path Forward.”——“开源AI是前进之路。”文章中他写道:“I believe that open source is necessary for a positive AI future.”——“我相信,开源对于一个积极的AI未来是必要的。”[8]
这篇文章需要两种读法。
第一种读法是价值观文本。Zuckerberg强调开放模型有利于开发者定制、检查、部署,有助于让更多人分享AI带来的机会,而不是让少数公司控制关键技术。对许多研究者、创业者和产业政策制定者来说,这一论点有吸引力。闭源模型的能力很强,但用户无法完全理解其训练过程、权重结构和安全边界。开放权重模型至少给了外部世界一种可下载、可微调、可本地部署的可能性。
第二种读法是商业防御。Meta不是慈善组织。它拥有Facebook、Instagram、WhatsApp、Messenger和庞大广告系统,它不靠出售模型API作为核心收入。对Meta来说,降低前沿AI能力的获取成本,有助于削弱闭源模型供应商对应用生态的收费权和控制权。如果AI入口未来被少数闭源模型公司、移动操作系统或云平台控制,Meta这样的应用巨头会面临新的平台依赖。开放Llama权重,可以让开发者、企业和研究机构围绕Meta的模型栈生长,形成事实标准。
互联网历史上,开放经常既是理想主义,也是商业策略。Linux让云计算公司省下操作系统许可,也让它们拥有更强基础设施控制力;Android的开放策略帮助Google扩散移动生态,同时保住搜索和服务入口。Llama路线与这些历史并不完全相同,但相似处在于:开放底层能力,可以换取生态规模和议程设置权。
但Meta的开放并不是无限制开放。Llama模型使用Meta自己的许可协议,商业使用存在条件,特定大规模平台需要额外许可。[9] 因此,严格说,它更准确的说法是“开放权重”或“可获取权重”,而不是传统开源软件意义上的完全开放。这个细节很重要。行业里常把Llama称为开源模型,是因为权重可下载、可研究、可微调;但它并不等同于没有许可边界的公共物品。
即便如此,Llama 3.1 405B的出现仍是2024年的关键事件。此前,开放权重模型往往被视为“追赶者”:更便宜、更可控,但能力距离最强闭源模型有差距。Llama 3.1试图改变这个叙事。Meta在官方材料中把405B与GPT-4o、Claude 3.5 Sonnet、Gemini等模型比较,并展示多项评测结果。[7] 本章不把这些表格简化成“谁全面战胜谁”的结论,因为评测项目、提示方式、模型版本和真实业务场景之间始终有距离。它们更适合作为一个信号:开放权重模型开始进入前沿讨论,而不再只在低成本替代品位置上徘徊。
五、405B不是终点,是地板上升的证据
Llama 3.1 405B的数字很醒目,但它的行业意义不只在“405B”。
参数规模曾是大模型时代最容易传播的指标。GPT-3的175B参数让世界记住了规模法则;后来,模型公司逐渐不再公布参数,竞争焦点转向能力、推理效率、上下文、多模态、工具调用和产品体验。Meta重新把405B放到台前,有一种反向透明感:它告诉外界,这个前沿开放权重模型大到什么程度,也让外界可以围绕它构建压缩、蒸馏和小模型训练流程。
Meta发布Llama 3.1时,不只给出405B,还同时给出8B和70B。这种组合比单一巨型模型更接近现实生态。405B负责充当前沿能力参考,70B适合许多服务器端任务,8B则进入低成本服务、边缘实验和教学研究场景。一个生态如果只有巨型模型,就像只有洲际飞机没有卡车和自行车;它能跨洋,却很难抵达每个仓库门口。
128K上下文长度也值得放进这个框架里。[7] 长上下文不是万灵药,它不保证模型真正理解所有内容,也会带来检索、注意力衰减和成本问题。但它让开放权重模型可以处理更长文档、更复杂代码、更大批量对话记录,缩小与闭源模型在企业应用场景中的体验差距。
Llama 3.1的另一个影响,是改变了“应用创业者该依赖谁”的计算。2023年,许多AI应用默认调用少数闭源API,后来又把Anthropic、Google、Mistral等供应商加入候选清单。闭源API的好处是快、强、省工程;坏处是成本和控制权。开放权重模型成熟后,创业公司可以采用混合架构:关键任务调用最强闭源模型,常规任务使用开放模型;敏感数据留在私有部署,通用推理交给云API;用大模型生成高质量数据,再蒸馏到更小模型上。
这种分层使模型市场不再像一场单榜冠军赛,而像电力系统。最高端模型相当于大型电站,成本高、能力强、稳定供应;开放权重模型像分布式能源,性能未必总是最高,但覆盖面广、可定制、可本地化。应用开发者真正关心的不是信仰哪一路,而是在每个任务上选择合适的成本、延迟、隐私和质量组合。
这里也有一个经常被“开源万岁”口号遮住的现实:405B模型巨大,部署并不便宜。开放权重不是免费午餐,它更像是把餐厅厨房开放给顾客:你可以自己做,但你需要厨师、炉灶、采购和消防许可。许多企业下载得起权重,却未必跑得起服务;许多开发者可以本地试验8B或70B,却不可能轻松运营405B级别模型。开源地板在抬升,但地板下面仍然是硬件、运维和电费。
然而,开放权重把另一件事变得清楚:应用层不再必须等待闭源模型公司恩赐。开发者可以微调,企业可以私有部署,国家和地区可以围绕本地语言、本地数据、本地合规建立模型栈。闭源模型继续抬高天花板,开放权重开始抬高地板。
Meta的策略因此具有攻击性。它没有直接向OpenAI和Anthropic出售相同产品,却在削弱闭源API的稀缺性。如果开放权重模型足够好,闭源公司就必须证明自己的溢价:更强推理,更好的多模态,更可靠的工具使用,更低幻觉率,更完善的安全承诺,更易用的企业产品。
这就是本章标题中的“地板”。Llama 3.1不是把开放模型推到绝对顶点,而是把更多人可触及的基础能力抬高。当地板上升,许多原本需要昂贵闭源模型才能做的应用,会被拖入更便宜、更开放、更分散的竞争区间。闭源天花板仍在上方,但地板离它越来越近。
六、巴黎的融资与欧洲的焦虑
美国西海岸的模型公司继续发布,Meta把开放权重推上前沿战场,欧洲也在寻找自己的位置。
2024年6月,Mistral AI宣布完成6亿欧元B轮融资。公司新闻稿称,本轮融资由General Catalyst领投,包含股权和债务融资;Mistral称这笔资金将支持公司推进前沿AI,并把技术带给更多用户。[10] 路透社报道称,这笔融资使Mistral AI估值达到约58亿欧元。[11] 估值数字来自媒体报道,不是本章把它写成公司新闻稿中的官方披露。
Mistral的故事带有明显欧洲色彩。公司总部位于巴黎,创始人包括Arthur Mensch、Timothée Lacroix和Guillaume Lample。它从一开始就把开放模型、高效模型和欧洲基础模型公司放在同一个叙事里。2023年和2024年,Mistral陆续发布Mistral 7B、Mixtral等模型,并推出商业API和Le Chat等产品。它既不像OpenAI那样全力推进闭源旗舰,也不像Meta那样拥有庞大社交广告现金流;它必须在开放、商业化和欧洲政策期待之间保持平衡。
6亿欧元融资的象征意义不亚于财务意义。欧洲一边推动AI监管,一边也不愿在基础模型上完全依赖美国公司。布鲁塞尔讨论风险分类、透明义务和通用AI模型规则;巴黎则希望证明欧洲不只是监管者,也能成为模型生产者。对欧洲产业政策来说,Mistral像一个罕见样本:本土团队,本土资本与国际资本共同支持,产品面向全球开发者,同时承担“欧洲AI主权”的叙事重量。
这种叙事当然有压力。基础模型是资本密集、人才密集、算力密集的行业。欧洲拥有优秀研究人员和工程师,却在超大规模云基础设施、GPU供给和消费级平台入口上弱于美国巨头。Mistral要面对的不是一家对手,而是一整套生态差距:美国模型公司背后往往站着云平台、芯片供应链、企业销售渠道和全球开发者网络。
因此,Mistral的开放策略既是理念,也是现实选择。通过发布高效开放模型,它可以更快获得开发者关注;通过商业API和企业产品,它可以建立收入;通过欧洲身份,它可以获得政策与资本支持。高效模型尤其重要,因为不是所有客户都能承担最大模型的推理成本。一个较小但足够强的模型,部署在企业私有环境里,可能比最强闭源模型更符合预算、隐私和延迟要求。
欧洲的个体也在这条缝隙中出现:巴黎的创业团队、柏林的中型制造企业、阿姆斯特丹的研究小组、布鲁塞尔附近负责合规的律师和政策人员。他们未必关心每一项基准测试谁高0.5分,却关心模型能否在本地合规框架下部署,能否支持欧洲语言,能否不把关键业务完全交给太平洋彼岸的API。对他们来说,开放模型不是抽象理念,而是采购单、合规审查表和工程排期里的选项。
Mistral融资说明,AI竞赛已经不只是模型榜单,而是资本市场、监管制度、云基础设施和地缘产业政策的交汇点。欧洲不想只负责给美国模型写合规条款。这种愿望不保证成功,但它解释了为什么一个成立时间不长的巴黎公司能获得如此高估值,也解释了为什么“开放”在欧洲语境中常常带着产业主权的回声。
七、天花板仍高,地板正在抬升
到2024年夏天,AI模型竞争开始呈现清晰分层。
最上层是闭源前沿模型。OpenAI、Anthropic、Google等公司继续定义能力天花板:更强推理、更自然多模态、更长上下文、更复杂工具使用、更高产品完成度。Claude 3.5 Sonnet证明,闭源竞争不只比参数,也比体验组合。速度、价格、Artifacts、企业渠道和安全叙事叠加在一起,使一个模型从“能回答问题”变成“能进入工作流”。
中间层是开放权重和高效模型。Meta用Llama 3.1 405B告诉行业,开放模型不再只是追赶者;Mistral则说明,较小、更高效、可部署的模型同样有商业空间。它们未必总在所有评测上压过闭源旗舰,却能降低AI应用的基础门槛,让更多开发者和企业拥有选择权。
底层是云、芯片和资本。Amazon完成对Anthropic的40亿美元投资,说明前沿模型公司很难脱离云厂商独自生长。AWS Trainium、Inferentia、Bedrock这些名字不像Claude、Llama那样容易传播,却决定了模型能不能被训练、推理、销售和集成。[4][5] 在公众视野里,AI是一个聊天框;在产业结构里,AI是一张由数据中心、芯片供应链、云合同、许可证和开发者生态组成的网。
“闭源天花板,开源地板”不是一句道德判断。闭源并不天然邪恶,开源也不天然纯洁。闭源模型可以提供更高质量、更强安全控制和更完整服务;开放权重可以带来透明、可定制、可本地部署和生态扩散。两者的冲突不是谁代表光明,而是谁在不同层级掌握控制权。
对应用创业者来说,2024年夏天之后的问题变得更复杂,也更有利。过去,他们可能只问:哪家模型最强?现在,他们要问:哪个任务需要最强模型?哪个任务可以用开放模型?数据能不能出云?延迟预算是多少?推理成本占收入比例多少?用户是否愿意为更强智能付费?如果模型供应商调整价格,产品还能不能成立?
对国家和大型企业来说,问题更尖锐。如果Llama、Mistral等开放模型足够好,是否还必须把关键系统建立在少数美国闭源API之上?如果本地部署可行,隐私、监管和主权的权衡会不会改变?如果闭源模型始终领先一代,又有多少场景愿意为了控制权牺牲最高能力?
Claude 3.5 Sonnet给出了闭源路线的答案:把模型做强,把界面做顺,把企业使用路径铺好。Llama 3.1给出了开放路线的答案:把权重放出去,让生态自己生长,让更多人站在更高的地板上。Mistral给出了欧洲答案:在监管与技术之间争取一块自己的基础模型土地。Amazon则给出了基础设施答案:无论前台是谁,后台都需要云和芯片。
这场竞赛的兴奋之处在于,能力还在上升;它的可疑之处在于,成本、权力和依赖也在上升。每一次模型发布都像未来提前到来,每一张云账单又提醒人们,未来并不免费。
2024年的夏天,AI行业没有得出最终答案。它只是把问题摆得更清楚:闭源模型继续冲击天花板,开放权重不断抬高地板。当天花板与地板之间的距离缩小时,中间所有应用、公司和国家战略都会重新定价。
下一场风暴,将不只发生在模型榜单上。Agent泡沫、监管压力、芯片约束和商业化焦虑,会把“更聪明的模型”拖回现实世界的成本表里。
参考文献
- Anthropic,“Claude 3.5 Sonnet”,2024-06-20。
- Anthropic Docs,“Pricing”,2024。
- Anthropic,“Artifacts: a new way to use Claude”,2024。
- Amazon,“Amazon completes $4 billion investment in Anthropic”,2024-03-27。
- Amazon Web Services,“Amazon Bedrock”,2024。
- Meta,“Introducing Meta Llama 3”,2024-04-18。
- Meta,“Introducing Llama 3.1: Our most capable models to date”,2024-07-23。
- Mark Zuckerberg,“Open Source AI Is the Path Forward”,2024-07-23。
- Meta,“Llama 3.1 Community License Agreement”,2024。
- Mistral AI,“Mistral AI raises €600 million in Series B”,2024-06。
- Reuters,“French AI startup Mistral AI raises 600 million euros at 5.8 billion euro valuation”,2024-06。
第20章|Agent 泡沫与监管铁门:狂飙后的第一脚刹车
一、回到山中
2024年8月2日,Character.AI 的公告没有使用戏剧化标题。它只叫《An update from Character.AI》。
公告说,Character.AI 已经与 Google 达成一项非独家授权协议,Google 将获得 Character.AI 当前大语言模型技术的访问权;同时,联合创始人 Noam Shazeer、Daniel De Freitas 以及部分团队成员将加入 Google。[1] 公告还说,Character.AI 将继续运营,继续服务用户,Dominic Perella 将担任临时 CEO。[1]
如果只看字面,这不是一次传统收购。Character.AI 没有宣布被 Google 买下,也没有宣布产品关闭。可在2024年夏天的硅谷,这种交易的行业含义并不需要太多翻译。路透社在同日报道中写道,Google 聘用了 Character.AI 的创始人并签署授权协议;报道还把这件事放在大型科技公司与 AI 创业公司之间新型交易的语境中。[2]
这是一种很符合生成式 AI 时代的安排。它不像旧时代并购那样干净利落:一家公司、一个价格、一份收购公告、一轮反垄断审查。它更像一条绕行路线:模型技术授权给大厂,创始团队进入大厂,原公司继续存在,用户继续聊天,投资人和监管者则需要重新理解这到底算什么。
Noam Shazeer 的名字,让这件事格外像一个回环。
2017年,他是 Google 论文《Attention Is All You Need》的共同作者之一。这篇论文提出 Transformer 架构,后来成为大语言模型繁荣的技术底座。[3] 那时,Transformer 还不是资本市场的咒语,也不是创业公司路演材料里的必备词。它是一篇机器翻译论文,是 Google 内部长期研究积累的一部分。
几年后,Shazeer 离开 Google,与 Daniel De Freitas 创办 Character.AI。它没有从企业办公、搜索或编程助手切入,而是从“人格化聊天”切入:用户可以创建角色,可以和虚构人物、历史人物、情感陪伴型机器人聊天。它不是最严肃的 AI 产品,却极早证明了一件事:大模型不只用于回答问题,也能制造关系感、陪伴感和连续互动。
这类产品的增长故事曾经非常迷人。一个聊天框、一批角色、一群用户,似乎就能绕开传统社交网络的沉重资产。但到2024年,模型创业公司的账本越来越难写。训练成本、推理成本、内容安全、应用商店分发、用户留存、订阅转化,每一项都不再是幻灯片角落里的“小字风险”。
Character.AI 的公告没有说“失败”。事实上,它仍然继续运营。可这则公告像一声刹车声:一个曾经试图在大厂之外建立人格化 AI 平台的明星创业公司,最终把当前模型技术授权给 Google,并让创始人回到 Google。
这不是 AI 熄火。它更像高烧中第一次摸到体温计。
二、反向收购时代
2024年夏天,Character.AI 不是孤例。
3月,Microsoft 宣布 Mustafa Suleyman 和 Karén Simonyan 加入公司,Suleyman 担任 Microsoft AI 的 CEO,负责 Copilot 等消费级 AI 产品。[4] Suleyman 此前是 Inflection AI 的联合创始人。随后,Inflection AI 宣布战略转向,强调其企业 API 和 AI Studio,并称 Inflection-2.5 将托管在 Microsoft Azure 上。[5]
6月,Adept 宣布与 Amazon 达成协议。Adept 的联合创始人 David Luan 和部分团队成员加入 Amazon,Adept 则与 Amazon 建立技术授权安排,并继续运营。[6]
到8月,Character.AI 与 Google 的协议让这个模式更加清晰:不是所有 AI 创业公司都会以传统方式被收购,也不是所有明星团队都会独立走到上市。大厂不一定需要吞下整个公司,创业公司也不一定能承受独自烧穿所有阶段的成本。双方在监管、资本和速度之间,找到了一种更复杂的中间地带。
媒体常用“reverse acquihire”或类似说法描述这种现象。旧式 acquihire 是大公司买下创业公司,主要为了团队;新的版本更绕:团队进入大公司,技术通过授权进入大公司,创业公司留下产品、部分团队和继续运营的公司主体。行业荒诞感正在这里出现——AI 公司一边宣称要重塑世界,一边发现最现实的增长路径可能是把最强的人和模型送回云计算巨头。
这不难理解。
大模型创业的第一阶段,叙事中心是“能力”:谁的模型更聪明,谁的聊天更自然,谁的上下文更长,谁能写代码、看图片、听声音。第二阶段,问题变成“单位经济”:每一次用户对话都要消耗算力,每一次图片生成都要付出推理成本,每一次产品爆红都可能带来服务器账单的爆红。
再往后,问题是分发。Google 有搜索、Android、Workspace、YouTube 和云。Microsoft 有 Windows、Office、GitHub、Azure 和企业销售渠道。Amazon 有 AWS 和电商基础设施。Apple 有设备、操作系统和应用生态。相比之下,许多模型创业公司的分发方式仍然是网页、App、API 文档、Discord、社交媒体热度和一轮又一轮产品猎奇。
这不是说创业公司没有机会。Anthropic、Mistral、Perplexity、ElevenLabs、Runway 等公司都在不同方向上寻找独立空间。可 Character.AI 事件提醒行业:在基础模型时代,独立性本身有成本。模型越强,成本越像重力;产品越大,合规、分发和商业化越像空气阻力。
对创始人来说,这种选择不只是公司叙事的改变。它也改变团队内部的生活秩序:一部分人进入大厂体系,另一部分人继续维护原有产品;研究路线、产品节奏、基础设施预算和用户承诺,都要重新排序。对用户来说,聊天窗口可能还在那里,但它背后的公司命运已经发生迁移。
2023年,硅谷喜欢说“护城河不存在”。到2024年夏天,另一句话开始变得刺耳:护城河也许不是模型参数,而是数据中心、电力合同、分发入口、法务团队和现金流。
三、Grok 的斜线进攻
同一个8月,AI 产品并没有降温。
xAI 发布 Grok-2 Beta。官方博客开头写道:“We are excited to release an early preview of Grok-2…”——“我们很高兴发布 Grok-2 的早期预览版。”[7] xAI 称,Grok-2 相比 Grok-1.5 在聊天、编码和推理方面取得显著提升,并同时推出较小版本 Grok-2 mini。[7]
Grok-2 的特殊之处,不只在模型本身,而在它所绑定的平台。它不是一个孤立网页里的聊天机器人。它被放进 X,放进 Elon Musk 控制的实时社交网络。对 xAI 来说,这是一条与 OpenAI、Anthropic、Google 不完全相同的路线:别人强调通用助手、企业 API、安全边界、办公集成;Grok 强调实时信息、社交语境、个人化语气,以及更鲜明的产品人格。
xAI 在发布中列出了内部评测和外部比较,并提到 Grok-2 曾以匿名模型形式出现在 Chatbot Arena 上。[7][8] 这类榜单有价值,但也需要谨慎阅读。Arena 反映的是用户偏好投票,不等同于所有任务上的绝对能力;排名会随时间、样本和模型更新而变化。2024年的模型公司都学会了展示排行榜截图,读者也逐渐学会了问一句:这是哪一天、哪个任务、哪个版本、哪个测试集?
Grok-2 更大的争议来自产品气质。
当 OpenAI、Anthropic 把“安全”“对齐”“政策边界”写进产品说明时,Musk 试图用另一种方式切入。他长期批评大型 AI 公司过度审查,xAI 的品牌也更强调“求真”一类表达。到了 Grok-2,X 平台上的用户很快把注意力转向图像生成与内容边界。The Verge 在8月报道,Grok 的新图像生成功能被用户用于生成政治人物、名人和受版权保护角色相关图像,文章强调其限制相对宽松。[9]
这里不能把“少限制”简单等同于“更真实”,也不能把“更安全”简单等同于“更无聊”。行业的荒诞在于:用户常常一边抱怨模型被阉割,一边在模型失控时要求平台负责;平台一边宣传自由表达,一边必须面对选举、名誉权、版权、儿童安全和品牌广告主。
Grok-2 说明,模型产品还有很多差异化空间。AI 不是只有一种语气,也不是只有一种价值排序。可是它也说明,当模型与社交平台结合,风险不再停留在实验室。一个模型回答错题,只是一次糟糕体验;一个模型在社交平台上生成、传播、再被截图扩散,问题会立刻进入公共信息空间。
对普通用户来说,这是一个新玩具。对平台运营者来说,这是内容治理的新变量。对广告主来说,这是品牌安全的新风险。对监管者来说,这是合成内容、政治传播和平台责任的老问题换了一台更快的发动机。
2024年夏天的产品经理们因此面对一个奇怪的等式:模型越有性格,传播越强;传播越强,治理越难;治理越严,性格又可能被磨平。
这不是技术白皮书里的难题。这是产品发布后的日常。
四、商业摄影的幽灵
如果说 Grok-2 代表文字、社交和实时信息的斜线进攻,Midjourney v6 系列则代表另一条更安静但更刺眼的路线:图像生成正在逼近商业摄影。
Midjourney v6 在2023年底进入 alpha。官方公告称,v6 带来更强的提示词跟随能力、更长提示词理解、更好的连贯性和模型知识,并改善图像提示与文字绘制等能力。[10] 到2024年7月,Midjourney 发布 v6.1。官方说明称,v6.1 带来更好的图像连贯性、更高质量、更准确的小细节、更好的纹理和皮肤表现,并提到标准图像任务大约快25%。[11]
对普通用户来说,这些更新可能只是“更好看”。对设计师、广告公司、电商商家、摄影师、图库公司和版权方来说,这些词要重得多。
“更好的小细节”意味着产品图里的边缘、手指、材质和光影更少穿帮。“更快”意味着创意探索的单位成本下降。“更连贯”意味着系列广告、人物设定和风格延展更接近可交付物。早期 AI 图像常被嘲笑为“六根手指的梦境”,到了 v6 系列,笑话还在,但笑声开始变短。
图像模型带来的行业荒诞感非常具体。过去,商业摄影需要摄影棚、灯光、布景、模特、修图、授权、场地、保险和排期。现在,一段提示词可以在几十秒内生成一张“像是已经拍完”的图。它不一定能直接替代高端摄影,也不一定能满足品牌法务审查,但它足以改变草图、提案、分镜、情绪板和低成本广告素材的生产方式。
对创作者来说,变化首先落在报价单和工作流上。一个独立设计师可能不需要理解扩散模型的数学细节,却会发现客户把“先用 AI 出几版看看”变成默认要求。一个摄影师不必相信 AI 会立刻替代棚拍,却会遇到预算更紧、周期更短、样片更多的项目。创意行业的个人劳动被卷入模型速度,并不需要通过宏大宣言发生;它常常先发生在一句“这个能不能今天下班前再出十版”。
与此同时,版权问题没有因为图像变美而消失。
视觉艺术家对生成式 AI 公司的诉讼在美国持续推进。2024年8月,美国加州北区联邦法院在 Andersen v. Stability AI 等案件中处理了针对 Stability AI、Midjourney、DeviantArt 等被告的部分动议,案件围绕训练数据、生成图像与版权侵权等问题展开。[12] 这些法律争议不只针对 Midjourney,也不只针对某一个模型。它们提出的是整个图像生成产业都绕不开的问题:模型训练时看过什么?输出与原作之间的关系如何判断?风格能否被保护?平台是否需要为用户生成内容承担责任?
广告行业的风险更现实。一个品牌可以喜欢 AI 图像的效率,却不一定愿意承担训练数据争议、肖像权争议、商标误用和舆论反噬。AI 图片越像商业摄影,越会进入商业摄影的责任体系。过去那种“只是玩玩”的免责空间正在缩小。
Midjourney 的进步因此有两面。它证明生成式 AI 的产品体验仍在快速提升,也证明技术越接近生产,越会撞上生产世界的规则。摄影棚可以被提示词部分替代,但合同、授权、审稿、品牌安全和责任链条不会自动消失。
AI 公司喜欢说“降低创作门槛”。这句话没有错。只是门槛降低后,门口的人更多,门后的纠纷也更多。
五、布鲁塞尔的铁门
就在 Character.AI 公告前一天,另一件事发生在大西洋彼岸。
2024年8月1日,欧盟委员会发布消息:“The AI Act enters into force.”——“《人工智能法案》正式生效。”[13] 这句话的语气比任何模型发布都冷静,却改变了 AI 行业的地形。
AI Act 不是一个简单的“允许”或“禁止”文件。它采用风险分类方法:某些 AI 实践被禁止,高风险系统承担更严格义务,通用 AI 模型也被纳入治理框架。欧盟委员会称,该法案旨在促进欧盟负责任的 AI 开发与部署。[13]
它的时间表也不是同一天全部落地。根据欧盟委员会说明,禁止类 AI 实践相关规则通常在生效后6个月适用;通用 AI 模型相关规则在约12个月后适用;大多数义务约在24个月后适用;部分高风险系统相关义务适用时间更晚。[13] 换句话说,2024年8月1日不是铁门完全关闭的一天,而是铁门开始落下的一天。
罚款上限让这道门有了重量。AI Act 官方文本规定,对被禁止 AI 实践等严重违规,罚款最高可达3500万欧元或企业上一财政年度全球年营业额的7%,以较高者为准。[14] 对大型科技公司而言,“全球营业额7%”不是象征性数字。它足以进入董事会、法务部和产品路线图。
Margrethe Vestager 并不需要出现在8月1日的某个现场,她早已代表了欧洲数字监管路线的一部分。2020年,欧盟发布人工智能白皮书时,她在公开发言中把欧盟立场概括为:在数字时代,信任不是可有可无的附属品。[15] 到2024年,这句话变得更加具体。
对模型公司来说,“信任”不再只是网页上的安全承诺,而可能变成文档义务、风险管理、数据治理、透明度报告、版权摘要、模型评估、事件通报和外部审计。硅谷发布会里的关键词是“更快”“更强”“实时”“多模态”;布鲁塞尔文件里的关键词是“风险”“义务”“合规”“罚款”“分阶段实施”。
两种语言并不天然敌对。欧洲也希望发展 AI,欧盟文件反复强调创新、竞争力和负责任部署。[13] 可两种语言的节奏完全不同。模型公司按周更新,监管制度按年实施;创业公司按融资周期讲故事,法律按责任链条问问题。
这道门最先改变的,往往不是 CEO 的演讲,而是公司里不太上镜的人:法务、政策、安全评估、数据治理、采购合规、产品文档团队。他们需要把一个模型从“可以发布”翻译成“可以在欧洲市场持续运营”。他们处理的不是科幻,而是表格、记录、流程、版本、供应商条款和事故响应预案。
这就是2024年夏天的现实刹车:不是不许开车,而是前方开始出现限速、收费站、年检和事故责任认定。
六、黄仁勋的账本
如果监管是制度边界,NVIDIA 的财报就是物理边界。
2024年8月28日,NVIDIA 发布2025财年第二季度业绩。总收入300亿美元,同比增长122%;数据中心收入263亿美元,同比增长154%。[16] 这些数字让“AI 热潮”从产品叙事落到了财务报表上。全世界都在谈模型,NVIDIA 的报表提醒市场:模型不是漂浮在云端的魔法,它运行在 GPU、HBM、高速互联、机柜、散热系统、数据中心和电力合同之上。
黄仁勋在财报新闻稿中说:“Hopper demand remains strong, and the anticipation for Blackwell is incredible.”——“Hopper 的需求仍然强劲,市场对 Blackwell 的期待令人难以置信。”[16]
这句话几乎是2024年 AI 基础设施的缩写。Hopper 是正在交付的现实,Blackwell 是被等待的未来。模型公司、云厂商、企业客户和资本市场都在看同一件事:下一代芯片能不能按时、按量、按成本进入数据中心。
NVIDIA 在2024年3月发布 Blackwell 平台,称其面向新一代 AI 计算需求,并强调性能、互联和能效提升。[17] 到8月财报季,市场关注的不只是发布会参数,而是供应链交付。AI 行业的浪漫词汇在这里被翻译成硬件词汇:封装、良率、HBM 供应、网络交换、液冷、机柜密度、能耗。
这也是为什么 NVIDIA 的财报变成了 AI 行业的温度计。OpenAI、Anthropic、Google、Meta、xAI、Microsoft、Amazon、Oracle,以及一长串模型和云公司,都在同一条供应链上排队。训练更大模型需要更多算力,服务更多用户需要更多推理算力,做多模态和视频生成又进一步推高需求。
对采购经理和基础设施团队来说,AI 革命不是一句“模型能力涌现”,而是一份交付排期、一张机柜布局图、一组功耗曲线和一份云账单。对创业公司来说,GPU 不只是技术资源,也是融资故事里的隐性股东:它不出现在 cap table 上,却决定 burn rate 的速度。
2024年的一个行业悖论是:AI 公司向用户展示的是“无形智能”,向供应商购买的却是最有形的工业产品。聊天框看起来轻盈,背后是巨大的资本开支。一个回答像一句话,一次训练像一座工厂。用户看到的是模型“秒回”,CFO 看到的是折旧、能耗和毛利率。
当模型能力飞快提升时,算力瓶颈会被短暂忽略;当所有公司都想把 AI 塞进搜索、办公、社交、手机、客服、编程和广告系统时,瓶颈就回来了。它不一定表现为“没有芯片”,也可能表现为芯片太贵、部署太慢、电力不足、网络不够、推理成本压不下来。
黄仁勋的账本让行业兴奋,也让行业清醒。兴奋的是,AI 需求真实到足以改写半导体公司的收入曲线;清醒的是,如果一家芯片公司的财报能牵动整个模型世界,那么所谓“智能爆炸”至少还要经过供应链排产表。
七、Agent 的泡沫边缘
2024年夏末,“Agent”成了另一个高频词。
它比“聊天机器人”更宏大。聊天机器人回答问题,Agent 要执行任务;聊天机器人给建议,Agent 要打开网页、填写表格、调用工具、写代码、订机票、查库存、发邮件、改 CRM、跑数据分析。它承诺把模型从“会说”推向“会做”。
这个方向并非空穴来风。前文已经写过,2024年春天的 Devin 演示把“AI 软件工程师”的想象推到台前;之后,函数调用、工具使用、长上下文、多模态理解、代码能力也在持续进步。企业确实需要能够处理流程的 AI 系统,而不是只会生成漂亮段落的文本机器。问题在于,“能演示”和“能可靠执行”之间隔着一条很长的河。
公开基准已经提示了难度。WebArena 论文构建了一个用于评估自主智能体的真实网页环境,任务涉及购物、论坛、GitLab、内容管理等场景。论文报告中,基于当时模型构建的智能体成功率仍显著低于人类基线。[18] OSWorld 则把评估环境推进到真实计算机操作系统,测试多模态智能体完成桌面任务的能力;论文同样显示,当时模型智能体与人类操作水平之间仍有明显差距。[19]
这些结果解释了为什么 Agent 在2024年同时像机会和泡沫。
机会在于,每个企业流程都有自动化空间。泡沫在于,演示视频里的 Agent 常常走在铺好的红地毯上:账号已经登录,网页结构没有变化,异常情况没有发生,权限边界没有触发,用户目标也足够清晰。真实世界则喜欢制造相反条件:网页改版、验证码、权限不足、字段歧义、系统超时、数据不一致、用户半途改变主意。
Agent 的可靠性问题不像聊天机器人答错一道常识题那么轻。一个文本回答错了,可以重问;一个 Agent 发错邮件、下错订单、删错文件、改错数据库,责任就不再是“模型幻觉”四个字能概括。企业客户会问:谁批准的?谁记录的?谁回滚?谁负责?日志在哪里?审计怎么做?权限如何最小化?如果它调用了第三方工具,事故链条怎么算?
因此,2024年夏末的 AI 行业出现了四道门槛。
第一道是成本。模型训练、推理、存储、带宽和工程维护都要钱,免费增长无法无限持续。Character.AI 的回流故事提醒人们,用户热情不等于商业闭环。
第二道是可靠性。Agent 要进入工作流,就必须从“多数时候看起来可用”走向“关键步骤可验证、可回滚、可审计”。这不是单靠更大模型就能解决的工程问题。
第三道是监管。AI Act 生效后,模型公司不能只按发布节奏生活。风险分类、透明度义务、版权和安全评估会逐渐进入产品周期。
第四道是分发。最强模型如果没有入口,仍要向拥有操作系统、办公套件、云平台、搜索、社交网络和企业销售渠道的大厂借路。Grok 绑定 X,Apple 把 AI 塞进设备,Microsoft 把 Copilot 放进 Office,Google 把 Gemini 放进搜索与 Workspace,都是对同一个问题的回答:模型要到用户面前,必须穿过分发之门。
这就是第20章的现实刹车。
2024年夏末,AI 没有熄火。相反,模型世界看起来更繁荣了:Grok-2 发布,Midjourney 图像更逼真,NVIDIA 收入暴涨,开源与闭源继续竞速,Agent 创业公司仍在路演材料里画出自动化未来。
可是繁荣背后,压力已经同时出现。创业公司被算力和分发吸回大厂;监管铁门开始落下;芯片、HBM、数据中心和电力成为资本市场的共同语言;Agent 从演示走向生产时,可靠性问题暴露出坚硬边界。
狂飙不是终点,而是筛选机制。能留下来的,不是发布会里最像科幻的产品,而是能跨过成本、可靠性、监管和分发四道门槛的系统。
当监管铁门落下、创业公司回流大厂、芯片成为资本市场温度计时,模型公司开始寻找新的能力曲线——推理模型、慢思考,以及 Agent 的操作系统化。
参考文献
- Character.AI, “An update from Character.AI”, 2024.08.02。
- Reuters, “Google hires founders of AI startup Character.AI, signs licensing deal”, 2024.08.02。
- Ashish Vaswani et al., “Attention Is All You Need”, NeurIPS, 2017。
- Microsoft, “Microsoft hires Mustafa Suleyman and Karén Simonyan to lead Microsoft AI”, 2024.03.19。
- Inflection AI, “The new Inflection”, 2024.03.19。
- Adept, “Update on Adept’s strategic partnership with Amazon”, 2024.06.28。
- xAI, “Grok-2 Beta Release”, 2024.08.13。
- LMSYS / Chatbot Arena, “Chatbot Arena Leaderboard”, 2024。
- The Verge, “Grok’s new AI image generator will make anything”, 2024.08.14。
- Midjourney, “V6 Alpha release notes / announcements”, 2023.12。
- Midjourney, “V6.1 release notes / announcements”, 2024.07.30。
- United States District Court, Northern District of California, “Andersen et al. v. Stability AI Ltd. et al., Order on Motions to Dismiss”, 2024.08.12。
- European Commission, “AI Act enters into force”, 2024.08.01。
- European Union, “Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence”, Official Journal of the European Union, 2024.07.12。
- European Commission, “Remarks by Executive Vice-President Vestager on the White Paper on Artificial Intelligence”, 2020.02.19。
- NVIDIA, “NVIDIA Announces Financial Results for Second Quarter Fiscal 2025”, 2024.08.28。
- NVIDIA, “NVIDIA Blackwell Platform Arrives to Power a New Era of Computing”, 2024.03.18。
- Shuyan Zhou et al., “WebArena: A Realistic Web Environment for Building Autonomous Agents”, arXiv, 2023。
- Tianbao Xie et al., “OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments”, arXiv, 2024。
第21章|草莓时刻:o1 让模型开始“慢思考”
一、等待成为功能
在过去一年里,人工智能公司一直训练用户相信一件事:越快越好。
2024年5月,GPT-4o 把这种信念推到台前。OpenAI 把它描述为能够跨音频、视觉和文本实时推理的新旗舰模型;前文已经写过,那次发布的关键词不是长篇论文式回答,而是听见、看见、打断、接话。模型的价值第一次如此直接地表现为反应速度:等待越短,机器越像一个在场的助手。[1]
四个月后,同一家公司推出了另一种体验。
2024年9月12日,OpenAI 发布 o1-preview 和 o1-mini。官方博客开头写道:“We’ve developed a new series of AI models designed to spend more time thinking before they respond.”——“我们开发了一个新的 AI 模型系列,设计目标是在回答前花更多时间思考。”紧接着,OpenAI 又写道:“They can reason through complex tasks and solve harder problems than previous models in science, coding, and math.”——“它们能够推理复杂任务,并在科学、编程和数学中解决比以往模型更难的问题。”[2]
这两句话改变了发布节奏。GPT-4o 的叙事是实时,o1 的叙事是延迟;GPT-4o 让模型更会接话,o1 让模型更愿意停下来做题。过去,等待常常意味着服务器繁忙、模型笨重、体验退步。o1 发布后,等待被重新包装成一种能力:模型在回答前多花时间,可能不是失败,而是产品设计的一部分。
这不是一个小小的交互差异。对一个在网页端使用 ChatGPT 的学生、程序员或研究助理来说,过去的聊天框像即时通信软件:问题发出后,答案最好立刻出现。o1 把这种节奏拧慢。用户不是看见一个模型“手速更快”,而是看见平台告诉他:有些问题,机器也需要多算一会儿。
OpenAI 没有把 o1-preview 描述成已经替代 GPT-4o 的通用助手。相反,官方博客强调,它还是早期模型,尚不具备 ChatGPT 中许多实用功能,例如浏览网页、上传文件和图像等。[2] 这种克制本身值得注意。2023年的模型发布常常喜欢用“通用”“全能”“涌现”去覆盖缺陷;到2024年秋天,行业已经被成本、监管、可靠性和用户疲劳打磨得更谨慎。OpenAI 需要告诉用户:这个模型不是更快的聊天机器人,它更像一条新曲线的样品。
这条曲线的价格也写在产品限额里。发布时,ChatGPT Plus 和 Team 用户可以使用 o1-preview 与 o1-mini,但有周度消息限制。OpenAI 在发布博客中写明,o1-preview 每周 30 条消息,o1-mini 每周 50 条消息,并表示正在努力提高这些限制。[2] 这不是无关紧要的产品细节。它提醒用户,所谓“多想一会儿”不是修辞,而是计算资源。模型在回答阶段花更多算力,平台就必须用限额、价格和队列来管理需求。
o1-mini 的存在也说明了这一点。OpenAI 称,o1-mini 比 o1-preview 便宜 80%,适合需要推理但不需要广泛世界知识的应用。[2] 在一个习惯把“旗舰模型”当作唯一主角的行业里,小模型忽然又获得了战略意义。它不是为了和最大模型比百科知识,而是为了把一部分推理能力压到更低成本。
从这一刻开始,模型竞赛不再只有一个方向:预训练时更大、更久、更多数据。o1 把另一条轴摆到桌面上——推理时计算。模型不仅可以在训练阶段变聪明,也可以在回答问题时多花算力,像考试前打草稿一样,把答案推到更远的地方。
行业刚刚经历前一章所写的那脚刹车:Agent 演示的脆弱性、监管铁门的落下、资本对成本的追问。o1 没有让行业回到2023年的轻狂。它更像在刹车后的低速档里重新给油:不再承诺马上自动完成一切,而是先让模型在难题前多停顿几秒。
二、草莓不是招牌
o1 发布前,行业已经给这条路线取过一个更好传播的名字:Strawberry,草莓。
2024年7月12日,Reuters 报道称,OpenAI 正在推进一个代号为 “Strawberry” 的项目,目标与增强模型推理能力有关。报道说,Reuters 根据知情人士和其看到的内部文件了解到,该项目旨在让 AI 不只是生成问题答案,还能提前规划,并更可靠地自主浏览互联网执行 OpenAI 所称的“deep research”任务。[3]
这类报道在2024年的 AI 行业有一种特殊作用。它不等同于官方确认,却会迅速变成产业叙事的燃料。新闻标题、社交媒体帖子、开发者论坛和投资人简报会把一个内部代号压缩成一句话:OpenAI 在做会推理的东西。等到9月 o1-preview 和 o1-mini 正式发布,外界很自然地把 o1 与 Strawberry 联系起来。
但在这里必须划一道线:Strawberry 是媒体报道中的代号,不是 OpenAI 在9月12日官方博客中使用的产品名。OpenAI 正式发布的是 o1-preview 和 o1-mini;官方材料谈的是“spend more time thinking before they respond”,谈的是科学、编程和数学任务中的复杂推理能力。[2] 至于 Strawberry 项目内部如何组织、经历了哪些实验、与 o1 有怎样的对应关系,公开信源不足以把每个细节写成确定事实。
这并不削弱“草莓时刻”的象征意义。相反,它暴露了2024年模型竞赛的叙事机制:当技术公司不完全公开路线图,媒体报道、基准测试和产品限额就会一起填补空白。行业需要一个名字来称呼这种转向。实时多模态、长上下文、开源大模型、编程助手都已经有了自己的市场标签;到了 o1,外界需要一个词来描述“模型开始慢下来”的反直觉变化。
“草莓”正好承担了这个角色。它有内部代号的神秘感,也有消费产品的轻盈感。一个听起来像冰淇淋口味的词,被用来谈论推理、规划、强化学习和昂贵算力。行业幽默常常来自这种错位:一个可能影响软件工程、科研助理和自动化代理的技术路线,先以水果名在市场里流通。
不过,o1 的真正重点不在名字。重点在于 OpenAI 把“回答前多想一会儿”公开变成产品主张。这意味着,行业开始严肃讨论一个问题:如果继续扩大预训练模型的边际收益变得昂贵而不稳定,那么在推理阶段投入更多计算,会不会成为下一条曲线?
这也是许多普通使用者第一次以产品体验的方式碰到“推理时计算”这个概念。过去,计算发生在看不见的数据中心训练阶段;用户只在新闻里听说 GPU、集群、电力和参数规模。o1 把一部分计算重新带回每一次对话:用户提出难题,模型多等一会儿,平台扣掉一条更稀缺的额度。算力不再只是财报和基础设施新闻里的名词,它变成聊天框里的等待。
三、推理时计算上桌
OpenAI 在《Learning to Reason with LLMs》中给出了 o1 叙事的技术骨架:通过强化学习训练模型进行复杂推理,并让模型在回答之前产生更长的内部思考过程。[4] 这不是第一次有人讨论思维链,也不是第一次有人让模型分步骤解题。但 o1 的不同之处在于,OpenAI 把它作为一个独立产品系列推向用户,而不是作为提示词技巧或论文实验。
官方数据也围绕这个方向展开。
OpenAI 称,在一项与国际数学奥林匹克竞赛资格考试相关的测试中,GPT-4o 正确解出约 13% 的题目,而其推理模型达到约 83%。[4] 这句话需要小心阅读。它不是说 o1 正式参加了国际数学奥林匹克并获得某种名次,也不是说数学竞赛被模型“解决”了;它说明,在 OpenAI 所报告的特定测试设置中,推理时计算显著改变了模型解难题的表现。
在竞争编程方面,OpenAI 称 o1 在 Codeforces 题目上达到约第 89 百分位。[2] 在科学推理方面,官方材料称其在物理、生物、化学等博士级问题基准上超过以往模型,并在 GPQA 等评测中表现突出。[4][5] 这些数字共同服务于一个结论:o1 的卖点不是闲聊,而是难题;不是广泛知识覆盖,而是在已有知识和题目条件之间做更长的推理。
这里仍要保持怀疑。基准测试不是现实世界的同义词。数学题、竞赛编程题和科学问答有明确答案、评分标准和题目边界;真实工作中的任务常常缺少这些边界。一个模型能在题目集上多解出许多题,并不自动等于它能可靠管理项目、替代研究员,或在复杂业务流程里承担责任。2024年的行业已经被太多演示教育过:能完成一段任务,不等于能稳定完成一类工作。
但 o1 的确改变了能力讨论的重心。传统用户体验通常把推理看作一次性输出:用户问,模型答,越快越好。o1 则把回答过程拉长。对平台而言,这意味着每个高难问题可能消耗更多推理阶段算力;对开发者而言,这意味着“模型价格”不只由输入输出 token 决定,还由模型在看不见的中间过程里花了多少计算决定。
这对小团队尤其具体。一个大公司可以把 o1 当作高价值任务的专家接口,把它放在代码审查、数学建模、科研辅助、复杂客服升级等环节;一个独立开发者或小型创业团队则要在每次调用前计算成本。到底是让 o1-preview 慢慢推理,还是让 o1-mini 解决足够明确的编程问题,或者干脆先用便宜模型筛一遍?模型能力越强,账单越像产品经理和工程师共同面对的设计约束。
因此,o1-mini 并不是附属品。OpenAI 在发布中强调它比 o1-preview 便宜 80%。[2] 这暴露了推理模型商业化的第一道门槛:如果每一次“慢思考”都太贵,它只能停留在考试、研究和高价值编程任务中;如果能够把部分推理能力做成更便宜的小模型,它才可能进入日常开发、自动化脚本和企业流程。
这也是2024年秋天的行业背景。上一阶段,许多自动化演示看起来流畅,落到真实工作流却暴露出脆弱性。o1 给出的回答不是“让代理立刻接管所有工作”,而是更保守也更深的路线:先让模型在复杂任务上少犯一些错,先把难题多推几步。
它像一声起跑枪,却不是烟花。烟花的价值在于瞬间照亮天空;起跑枪的价值在于让所有人知道,比赛换了赛道。
四、看不见的思维链
o1 的核心争议,正好藏在它最吸引人的地方:它会“想”,但用户不能完整看见它怎么想。
长期以来,思维链提示被开发者视为提高模型推理能力的办法。让模型“逐步思考”,常常能改善数学题、逻辑题和代码题表现。于是,当 OpenAI 发布一个主打推理的新系列,很多用户自然希望看到完整的推理过程:模型列出了哪些假设,尝试过哪些路径,在哪里回溯,为什么放弃某个答案。
OpenAI 选择了另一种做法。它不向用户展示原始 chain-of-thought,而是提供摘要式解释。官方在《Learning to Reason with LLMs》中写道:“We believe that a hidden chain of thought presents a unique opportunity for monitoring models.”——“我们认为,隐藏的思维链为监控模型提供了独特机会。”[4]
这句话把透明度问题翻转了。通常,人们会认为,公开模型推理过程更透明;OpenAI 的论点则是,隐藏的原始思维链可以成为一种安全监控通道。如果模型的内部推理过程不被直接展示给用户,也不被训练成迎合用户偏好的表演文本,安全团队就可能在其中观察到模型是否出现规避规则、计划不当行为、试图操纵用户等迹象。[4]
这种说法有其安全逻辑。完整思维链可能暴露模型如何绕过限制、如何构造攻击步骤、如何把危险任务拆解成可执行计划。对于具备更强推理能力的模型,公开每一步推理也可能给越狱者提供更详细的攻击面。OpenAI o1 System Card 披露的评估覆盖越狱、违规内容、网络安全、生物风险、说服、自治能力等方向,反映出 OpenAI 并没有把“会推理”只当作性能问题。[5]
但另一边的质疑也合理。开发者调试复杂系统时,需要知道模型为什么失败;科学用户希望理解答案可靠性;企业用户要审计模型输出;研究者则关心模型推理能力到底来自真实的结构化推导,还是来自更复杂的模式匹配。摘要式解释可以帮助用户理解答案,却不等于完整可审计记录。
这对个体使用者不是抽象争论。一个程序员把 o1 用在难以复现的 bug 上,如果模型给出正确修复,摘要足够;如果修复失败,摘要可能不足以帮助他判断模型在哪一步偏离。一个研究生把模型用于推导证明,如果答案看似优雅却有隐藏漏洞,他需要的不只是“我先分析了条件,再得出结论”。一个企业安全负责人要审计模型参与的流程,他关心的不只是最终输出,还包括模型是否在中间步骤尝试访问不该访问的信息。
于是,o1 把一个老问题推到更尖锐的位置:能力越强,越需要解释;越需要解释,越可能暴露新的风险。过去的聊天模型即使胡说八道,伤害通常表现为错误答案。推理模型一旦被接入代码、科学分析、金融流程和自动化工具,错误就可能沿着任务链扩散。用户想看更多,安全团队想藏更多,这不是简单的公关矛盾,而是模型产品化的结构性冲突。
行业荒诞感也在这里出现:AI 公司告诉用户,模型正在更认真地思考;同时又告诉用户,真正的草稿纸不能给你看。用户得到的是答案和摘要,平台保留的是原始推理轨迹。一个以“思考”为卖点的产品,必须把部分“思考”锁起来,才能被认为更安全。
五、开放权重把地板铺到边缘
o1 发布不到两周后,另一条路线从 Meta 的发布中继续推进。
2024年9月25日,Meta 发布 Llama 3.2,官方标题是“Llama 3.2: Revolutionizing edge AI and vision with open, customizable models”——“Llama 3.2:用开放、可定制模型革新边缘 AI 与视觉。”[6] 这次发布包括 1B、3B 轻量文本模型,以及 11B、90B 视觉模型。[6][7]
如果把它和前文写过的 Llama 3.1 405B 放在一起看,Meta 的策略就更清楚。405B 是开放权重路线向前沿能力发起的上限挑战:开放模型也可以很大,也可以进入顶级评测的比较表。Llama 3.2 的 1B 和 3B 则是另一种基础设施:它们不是为了在所有 benchmark 上争第一,而是为了降低部署门槛。
这条路线与 o1 的“慢思考”形成鲜明对照。o1 把更多计算放在回答阶段,依赖云端平台、限额和价格体系;Llama 3.2 的轻量模型则把模型推向本地应用、私有环境和边缘设备。企业不一定愿意把所有数据送进闭源 API;开发者也不一定每次都需要最强模型。一个能在本地运行的小模型,可能比远处的旗舰模型更适合低延迟、隐私敏感、成本受限的任务。
这对许多使用者是非常具体的选择。医院、律所、制造企业、政府承包商和教育机构中的 IT 人员,常常不是在“最强模型排行榜”上做决定,而是在数据边界、合规要求、预算上限、网络环境和维护能力之间做决定。一个小模型是否足够好,可能比一个旗舰模型是否聪明得令人震惊更重要。对他们来说,所谓“智能涌动”不是模型在榜单上又上升了几分,而是某个原本不能接入云端 API 的内部流程,终于可以在本地试运行。
Llama 3.2 的视觉模型也有象征意义。Meta 称 11B 和 90B 视觉模型支持图像理解等多模态任务,这是 Llama 系列向视觉能力扩展的重要一步。[6][7] 在2024年的模型竞争中,多模态已经不再是少数闭源模型的展示项目。开放权重生态也开始把视觉、轻量化和可定制性结合起来。
这不是说开放路线没有代价。模型越容易被下载、微调、量化、嵌入设备,责任越分散。闭源 API 至少还有一个中心化的阀门;开放模型的优势恰恰在于阀门更少。发布方、应用开发者、模型托管平台、微调者、企业部署者和最终用户之间的责任边界会变得更复杂。
但 Meta 的路线说明,2024年秋天的“新曲线”并不只有 o1 一种。OpenAI 把复杂推理推向更深的推理时计算;Meta 把模型能力铺向更广的部署地板。一个追求更会想,一个追求到处跑。它们都在回答同一个压力:当训练更大模型越来越昂贵,行业还能在哪里继续前进?
六、Claude 开始动鼠标
10月22日,Anthropic 给出了第三种答案。
这一天,Anthropic 发布升级版 Claude 3.5 Sonnet,宣布 Claude 3.5 Haiku,并推出 Computer Use beta。官方博客写道:“developers can direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking buttons, and typing text.”——“开发者可以指示 Claude 像人一样使用电脑——看屏幕、移动光标、点击按钮、输入文字。”[8]
这句话把 Agent 叙事从“写计划”推向“操作界面”。
在此之前,很多 Agent 产品的工作方式主要停留在语言层:模型拆解任务,生成步骤,调用工具,等待外部系统执行。Computer Use 则让模型面对普通软件界面。它不只是输出“请点击下一步”,而是可以在开发者提供的环境中观察屏幕截图,决定移动光标,点击按钮,输入文本。[8][9]
Anthropic 并没有把这项能力包装成已经成熟的通用代理。官方材料明确称其处于 beta 阶段,并提醒该能力仍然实验性强、容易出错,需要开发者在受控环境中使用,限制权限并保持监督。[8][9] 这种谨慎不是装饰。让模型操作电脑意味着错误不再只停留在文本里。它可能点错按钮、提交错误表单、误删文件、访问不该访问的页面,或者在复杂网页中被提示注入误导。
同一篇发布博客给出了新版 Claude 3.5 Sonnet 的软件工程成绩:Anthropic 称其在 SWE-bench Verified 上达到 49.0%,此前 Claude 3.5 Sonnet 为 33.4%。[8] 这是一个重要数字,因为 SWE-bench Verified 评估的是模型解决真实软件仓库问题的能力,而不是只写一段孤立代码。软件工程任务天然需要理解上下文、定位错误、修改文件、运行测试。它与 Computer Use 的方向相互呼应:模型不只是回答代码问题,而是更接近参与工作流。
在 Computer Use 官方材料中,Anthropic 还提到 Claude 在 OSWorld 上的表现:在截图条件下达到 14.9%,高于下一最佳系统约 7.8%,但仍远低于人类约 70%—75% 的水平。[9] 这个差距比宣传语更有解释力。它说明模型已经能在某些界面操作任务中超过其他系统,却离稳定替代人类还很远。Agent 的未来看起来更近了,但坑也被量化了。
对企业里的普通员工和 IT 管理者来说,“模型会动鼠标”既诱人又麻烦。诱人之处在于,大量数字工作仍然活在旧软件、网页后台、表单系统和内部工具里,根本没有优雅的 API。麻烦之处在于,光标一旦移动,权限、审计、回滚、责任和培训都要跟上。过去,模型给出一段错误建议,用户可以不采纳;现在,模型可能真的点击“提交”。
Anthropic 的路线与 OpenAI 的 o1 形成分叉。o1 让模型在难题前停下来思考,Computer Use 让模型在屏幕前开始行动。一个强调内部推理,一个强调外部操作。前者的风险是看不见的思维链和复杂任务中的错误自信;后者的风险是看得见的光标和真实系统中的误操作。
如果说 GPT-4o 把模型带进实时对话,o1 把模型带进慢思考,那么 Claude Computer Use 则把模型带到了操作系统门口。门还没有完全打开,但光标已经动了。
七、第二轴竞争确立
到2024年秋天,模型行业的竞争图景变得更立体。
第一条轴仍然存在:更大规模、更强预训练、更多数据、更长上下文、更高 benchmark。没有公司会轻易放弃这条路。前沿模型的能力上限仍然决定市场声望、融资叙事和生态吸引力。
但第二条轴已经确立:使用时更深。
OpenAI 的 o1-preview 和 o1-mini 把推理时计算推到产品层。模型不只是在训练时吸收世界,也在回答时花更多计算探索解法。它可能更慢、更贵、更受限,却在数学、编程和科学问题上显示出新的能力曲线。
Meta 的 Llama 3.2 把开放权重部署继续向边缘和视觉扩展。它说明能力不只属于云端旗舰模型,也可以通过小模型、视觉模型和可定制生态进入本地环境。开放路线的战略价值不只是“便宜替代”,而是让模型嵌入更多无法或不愿依赖闭源 API 的场景。
Anthropic 的 Computer Use beta 则让 Agent 从语言规划走向界面操作。它没有宣告通用代理已经实现,反而用 OSWorld 的数字提醒行业:模型能动鼠标,不等于能可靠工作。但它改变了想象边界。过去,模型输出的是句子;现在,它开始输出点击。
三条路线都带着兴奋,也都带着怀疑。
慢思考需要更多算力,也需要解释机制。隐藏思维链可能帮助安全监控,却削弱用户审计。界面操作让模型更像代理,也让错误进入真实系统。边缘部署降低成本、保护隐私,却让治理更分散。2024年夏天监管和成本带来的刹车,并没有让行业停下;它迫使行业寻找更深、更窄、更具体的新曲线。
o1 的意义不在于一次发布击败所有模型。它的意义在于把一个问题摆到所有公司面前:如果训练更大不再足够,能不能让模型在使用时想得更久?这听起来像一句朴素建议,却改变了模型经济学。算力不再只堆在训练中心,也被切进每一次复杂回答;智能不再只表现为秒回,也可以表现为愿意等待。
这一章的尾声不是胜利,而是责任问题的前奏。当模型会慢思考、会看屏幕、会移动光标、能在本地运行,错误也会拥有更多形态。它可以是一个错误证明,一段错误代码,一次错误点击,一个被微调后无法追踪的本地模型。到那时,人们不能只问模型有多聪明,还要问:它的行为算谁的行为?它的草稿纸归谁保管?它点下去的按钮,责任由谁承担?
草莓时刻没有让行业恢复2023年的轻狂。它带来的更像重新加速后的低沉轰鸣。模型没有变得无所不能,但它们开始在回答前停顿,在屏幕上移动,在设备边缘铺开。人工智能的下一阶段,不再只是更快说出答案,而是更深地介入过程。那既是新的能力,也是新的麻烦。
参考文献
- OpenAI,Hello GPT-4o,2024.05.13。
- OpenAI,Introducing OpenAI o1-preview,2024.09.12。
- Reuters,Exclusive: OpenAI working on new reasoning technology under code name ‘Strawberry’,2024.07.12。
- OpenAI,Learning to Reason with LLMs,2024.09。
- OpenAI,OpenAI o1 System Card,2024。
- Meta,Llama 3.2: Revolutionizing edge AI and vision with open, customizable models,2024.09.25。
- Meta,Llama 3.2 Model Card,2024.09。
- Anthropic,Claude 3.5 Sonnet, Claude 3.5 Haiku, and computer use,2024.10.22。
- Anthropic,Computer use beta,2024。
第22章|非营利的裂缝:OpenAI 转型、马斯克诉讼与版权围城
一、浏览器里的聊天框,背后的机器
2024年秋天,许多用户仍然是从一个最普通的入口遇见 OpenAI:浏览器里的 ChatGPT,手机上的应用图标,或者某个办公软件、编程工具、客服后台里悄悄嵌进去的一行“AI”按钮。
表面上,它像一个产品。输入问题,等待回答,复制结果,继续工作。可是到了这一年9月至12月,越来越多的人开始意识到:这个聊天框并不只是一个网页。它背后有非营利董事会、营利实体、投资协议、云计算合同、版权诉讼、创始人纠纷、模型授权、监管审查,以及一条条随时可能改变的服务条款。用户看到的是回答速度,开发者看到的是 API 延迟;真正决定这套系统能不能继续运转的,却是公司法、版权法、资本市场和云基础设施。
OpenAI 自己在2024年10月2日的融资公告中给出过一个规模感:每周有超过2.5亿人使用 ChatGPT。[1] 这个数字让“公司治理”从一种内部事务变成公共依赖。一个普通用户当然不会每天阅读 Delaware Public Benefit Corporation 的法律说明,也不会研究 OpenAI 非营利母体与营利子公司的控制关系。可是如果这个工具已经进入学习、写作、编程、客服、咨询、翻译和企业流程,那么提供者的组织结构就不再是遥远的工商登记信息。它开始像电力公司的调度、银行的清算系统、云服务商的可用区一样,变成用户风险的一部分。
同一周,OpenAI 在 DevDay 2024 发布 Realtime API 等面向开发者的新能力,继续把模型推向应用层。[2] 这类发布会通常以演示开场:语音对话、低延迟响应、函数调用、实时交互。台上展示的是技术的顺滑,台下真实存在的是另一张表格:如果供应商重组,合同主体是否改变;如果版权诉讼败诉,某些训练或输出能力是否受限;如果投资协议改变控制权,路线图是否改写;如果云伙伴政策变化,成本是否上升;如果监管要求新增披露,产品是否延期。
这不是说每一个聊天请求都会被诉讼文件拦住。行业的荒诞感恰恰在于,大多数时候,一切仍然顺滑。用户照常提问,开发者照常调用,企业照常采购。可是在顺滑的表面之下,私人的制度设计已经成为公共依赖的组成部分。2024年秋冬,OpenAI 的非营利裂缝不再只是硅谷一家公司怎样安排董事会的故事。它开始提醒所有依赖 AI 基础设施的人:浏览器里的机器人并不住在浏览器里。
二、一只非营利的手和一台营利机器
要理解这条裂缝,必须先把 OpenAI 官方描述过的结构讲清楚,但不必把章程重新背诵一遍。
OpenAI 的使命表述长期围绕一个核心句子展开:确保通用人工智能造福全人类。[3] 2019年3月,OpenAI 宣布设立 OpenAI LP,解释理由是建设前沿 AI 需要的资本和人才远超传统非营利模式所能承受,因此建立一种“capped-profit”结构:允许投资和员工激励,但投资回报设上限,并由非营利实体控制。[4] 这是一种硅谷式混合装置:一边向资本市场承认“训练模型很贵”,一边向公共使命承诺“资本不能无限主宰”。
OpenAI 官方结构说明中反复强调,非营利组织及其董事会承担监督使命的角色,营利实体则承担融资、雇佣、产品化和运营功能。[3] 中性地说,这套设计试图同时满足三个目标:筹钱,留住人才,保留使命约束。怀疑地说,这套设计也把三种张力装进了同一个壳:投资人希望可预期回报,员工希望股权价值,公众希望安全与公共利益优先。
2023年11月的五天董事会危机已经足够著名,本章不再重走那条时间线;只需记住一点:那次事件让外界第一次如此直接地看到,OpenAI 的董事会结构会影响全球用户对一个 AI 产品的连续性预期。2024年3月,OpenAI 宣布新增 Sue Desmond-Hellmann、Nicole Seligman、Fidji Simo 三名董事,并让 Sam Altman 重返董事会;公司同时公开转述 WilmerHale 对2023年事件的审查摘要,称审查包括三万多份文件和多次访谈,并将危机归因于前董事会与 Altman 之间关系和信任破裂,而不是某个具体产品安全、财务或客户陈述问题。[5]
这份说明的作用,是给治理危机装上一个正式句号。但正式句号不是问题的终点。它只是把问题从“那五天发生了什么”转移到“这种结构能否长期承受资本密集型基础设施的压力”。在2024年秋冬,这个问题重新出现,而且更接近公司法和融资条款,而不是董事会新闻。
因为 OpenAI 此时已经不是一家只向研究同行展示论文的实验室。它有数以亿计的用户,有企业客户,有开发者生态,有与 Microsoft 的深度合作,有不断增长的算力需求。一个非营利母体控制营利实体的制度实验,在早期可以被看作理想主义者的组织创新;当它成为全球 AI 基础设施的一部分时,它就变成了公共风险管理问题。
三、九月以后,结构改革不再是内部话题
2024年9月25日,路透社援引知情人士报道称,OpenAI 正计划把核心业务重组为更传统的营利性公益公司结构,非营利组织仍将存在并持有权益,但控制方式可能发生变化。[6] 这类报道没有法院判决那样的确定性,必须按报道转述处理。可是它之所以引发广泛关注,正是因为它触碰了 OpenAI 结构中最敏感的部位:非营利控制到底还能控制什么。
一周后,10月2日,OpenAI 官方宣布完成66亿美元融资,投后估值达到1570亿美元。[1] 路透社同日报道称,这轮融资得到多方投资者支持,并把这笔融资放在 OpenAI 需要持续扩大算力和产品能力的背景下理解。[7] 66亿美元不是普通创业公司的一轮“增长资金”。它更像一张基础设施账单的预付款:GPU、数据中心、电力、网络、研究员、企业销售、安全测试、合规团队、法律费用,都会从“模型能力”这个词背后伸手要钱。
这正是 OpenAI 制度矛盾变得用户可见的原因。前沿模型竞争已经资本密集到一个程度:如果不打开更大融资通道,可能在算力和人才上落后;如果打开更大融资通道,组织就更像一家传统高估值科技公司;如果坚持非营利强控制,投资人会担心治理不确定性;如果削弱非营利控制,公众和早期支持者会追问使命约束是否被稀释。
12月27日,OpenAI 发布《Why OpenAI’s structure must evolve to advance our mission》。这一次,不再是“知情人士称”,而是公司自己的公开说明。OpenAI 表示,为推进使命,需要让结构演进;计划将现有营利实体转变为 Delaware Public Benefit Corporation,即特拉华州公益公司;非营利组织将持有该 PBC 的股份,并由独立财务顾问协助确定公平估值。[8]
PBC 是一个重要但容易被神化的词。它不是“公益”的自动保证书。它的意义在于,公司法框架允许企业在股东利益之外考虑公共利益和利益相关方。但它不能自动回答所有冲突:当公共利益与融资速度冲突时,谁让步?当安全部署节奏与收入目标冲突时,董事会怎样投票?当版权方要求授权费用、用户要求更低价格、投资人要求增长时,公共利益如何量化?
OpenAI 在12月说明中的核心叙事是:结构变化不是背离使命,而是为了给使命获得足够资源。怀疑者看到的则是另一面:当使命越来越依赖估值、股权和资本市场,使命本身也会受到估值和资本市场的牵引。两种判断都不能只靠口号解决。它们必须落到合同、董事会权限、投资人权利、监管披露、版权授权和用户保障上。
于是,2024年秋冬的 OpenAI 不再只是“非营利还是营利”的概念题。它变成一组操作性问题:如果一个小公司把客户服务建在 OpenAI API 上,OpenAI 的结构改革会不会影响长期价格?如果一家学校把教学辅助流程接入 ChatGPT,版权诉讼会不会改变可用内容?如果一家企业把内部知识库接入模型,未来控制权和数据政策是否稳定?这些问题没有发布会演示那么激动人心,却比演示更接近依赖者的日常。
四、案卷里的创始故事
OpenAI 的结构争议,在2024年还被另一条线推高:Elon Musk 的诉讼。
这里必须先把法律措辞钉牢。Musk 的诉状提出的是指控和主张,不是法院确认的事实。OpenAI 的博客和法庭回应是被告方立场,也不是法院最终裁判。2024年围绕 OpenAI 的公共叙事,很大一部分正是在“诉称”和“回应”之间形成的。
2024年8月5日,Musk 在加州北区联邦法院起诉 OpenAI、Sam Altman、Greg Brockman 等被告。[9] 诉状主张,Musk 参与创立和资助 OpenAI,是基于一个围绕安全、公益和开放原则的创立承诺;诉状还称,OpenAI 后来的商业化路线、闭源模型策略以及与 Microsoft 的关系,背离了这些承诺。[9] 到11月14日,Musk 提交第一份修订诉状,进一步把 Microsoft 置于争议中心,并加入围绕 OpenAI—Microsoft 关系的反垄断等主张。[10]
这些主张之所以会引起行业关注,不仅因为 Musk 是 OpenAI 早期参与者,也因为他后来创办了 xAI,成为同一赛道的竞争者。这个身份组合让诉讼天然复杂:案卷中既有创始承诺和公益叙事,也有控制权、竞争关系和市场结构。法律上,法院需要判断具体请求是否成立;叙事上,公众看到的是 OpenAI 早期“为了人类”的语言,如何在2024年的融资、云合约和产品收入中被重新解释。
OpenAI 的回应同样明确。2024年3月,OpenAI 发布《OpenAI and Elon Musk》,公开多封早期邮件,并称 Musk 当年也认为 OpenAI 需要远超最初想象的资金;OpenAI 还称,Musk 曾提出或支持更偏营利化、与 Tesla 更紧密结合等方向。[11] 12月13日,OpenAI 又发布《Elon Musk wanted an OpenAI for-profit》,继续以邮件和时间线回应 Musk 的诉讼叙事,核心立场是:Musk 现在攻击的营利化方向,并非他早年完全反对的东西;OpenAI 认为他的诉讼试图改写历史。[12]
把两边放在一起看,荒诞感不是来自某个人,而是来自行业结构本身。一个以公共使命起家的 AI 组织,后来需要由联邦诉状、博客邮件截图、反垄断主张和公司重组公告来解释“使命”怎样和资本、控制权、云服务、模型开放性共存。旧时代的创业争议常常围绕股份、创始人头衔和董事席位;AI 时代的创始争议还要加上训练数据、模型权重、公共安全和“全人类利益”。
这类诉讼即使短期内不改变产品,也会改变产品风险。企业采购部门会问:如果诉讼影响合作关系怎么办?开发者会问:如果法院要求限制某种商业安排怎么办?投资人会问:如果结构改革被拖延怎么办?用户一般不会阅读修订诉状,但他们会感受到价格、可用性、功能路线和服务稳定性的变化。法律文件从后台走向前台,正是基础设施化的标志。
五、版权围城:新闻业开始给训练数据标价
另一条围城来自版权。
2023年12月27日,《纽约时报》在纽约南区联邦法院起诉 Microsoft 和 OpenAI。[13] 诉状指称,被告未经授权使用《纽约时报》大量受版权保护内容训练大语言模型,并通过 ChatGPT、Bing Chat 等产品生成或展示与时报内容高度相似的输出,造成侵权和竞争损害。[13] 这些仍然是原告主张,不是法院裁判。但它击中了生成式 AI 的核心供应链:训练数据。
OpenAI 在2024年1月8日发布《OpenAI and journalism》回应,表示支持新闻业和出版生态,主张使用公开可得互联网材料训练模型属于合理使用;同时称模型逐字或近似复现训练材料的“regurgitation”是罕见问题,并表示正在减少这类现象。[14] 2月,OpenAI 相关被告在法庭文件中请求驳回《纽约时报》部分诉求,继续围绕合理使用、损害认定和具体法律请求展开抗辩。[15] Microsoft 也在同一案件中提交动议,要求驳回部分诉求,并从技术创新与版权边界角度提出抗辩。[16]
这场诉讼让新闻业和 AI 公司之间的分歧清楚浮出水面。新闻机构的逻辑是:记者采访、编辑核查、律师审稿、摄影制图、订阅系统和新闻品牌共同构成了昂贵的信息生产机器;如果 AI 公司把这些内容吸收进模型,再通过聊天框和搜索摘要把答案交给用户,原始新闻机构可能失去流量、订阅和议价能力。AI 公司的逻辑则是:模型训练是一种转换性学习,模型不是简单数据库;同时,复现问题可以通过技术手段降低,授权合作也可以并行推进。
到2024年秋天,这个争议已经从法庭扩散成商业谈判。10月8日,OpenAI 与 Hearst 宣布战略内容合作,OpenAI 产品将整合来自 Hearst 旗下报纸和杂志的内容,并提供归属和链接。[17] 更早一些,OpenAI 也已与其他出版机构达成内容授权合作。诉讼和授权并行,说明市场还没有稳定价格。有人选择起诉,有人选择授权,有人继续观望;这不是新闻业立场混乱,而是整个内容供应链正在重新估价。
版权围城改变了 OpenAI 的公共身份。一个研究实验室可以把互联网文本看作学习材料;一个估值千亿美元、面向全球收费、嵌入 Microsoft 产品体系的模型平台,则更难只用研究公益来解释数据来源。商业化越成功,内容生产者越会问:既然模型可以收费,为什么训练燃料不收费?模型越通用,出版机构越担心:如果答案直接出现在聊天框里,谁还回到原始报道?
这也是治理问题的第二层。第一层是“谁控制 OpenAI”。第二层是“OpenAI 使用的公共知识和专业内容由谁生产、谁付费、谁获益”。当 AI 成为信息入口,版权就不只是作者和公司之间的私权纠纷。它会影响新闻业的收入结构、用户获取信息的路径,以及公共知识生产能否继续维持。
六、一个开发小队的风险登记簿
最能说明变化的,不一定是某个会议室里的台词。公开信源很少记录一个小团队在白板前怎样讨论供应商风险;非虚构写作也不能替他们补上心理活动。更可靠的证据,反而写在开发工具和基础设施选择里。
2024年,越来越多 AI 应用不是直接把自己和某一个模型提供商焊死,而是在代码里放入“provider”抽象层。LangChain 在2024年发布 v0.2 时强调核心包更加“integration-agnostic”,也就是尽量不默认绑定具体模型、向量数据库或工具提供商。[18] 这种技术选择表面上是软件工程洁癖,实质上是风险管理:今天用 OpenAI,明天可能切 Anthropic、Google、Mistral、本地模型或多模型路由;今天担心延迟,明天担心价格,后天担心诉讼、条款和数据政策。
对一个只有几名工程师的小团队来说,OpenAI 的治理新闻可能不会以“伦理辩论”的形式出现,而会进入更平凡的清单:
第一,供应商连续性。OpenAI 若调整结构、融资条款或控制方式,路线图和资源分配可能变化。小团队未必能影响这些变化,但会承受接口、价格和模型可用性的后果。
第二,法律暴露。若版权诉讼导致某些训练、检索、输出或内容展示方式需要调整,依赖模型生成内容的产品就要重新评估合规文案、用户条款和赔偿责任。
第三,商业依赖。Microsoft 是 OpenAI 的重要合作伙伴和云基础设施力量。对开发者来说,这种深度合作既带来稳定算力和企业分发,也带来平台集中风险。一个创业产品如果同时依赖 OpenAI 模型、Azure 云资源和 Microsoft 企业生态,技术架构图看起来很漂亮,供应商集中度也很漂亮,漂亮到风险经理会多看两眼。
第四,运营可用性。2024年12月11日,OpenAI 状态页记录了 ChatGPT、API 和 Sora 不可用的事件。[19] 这类故障不是本章讨论的法律争议,却能让依赖者迅速理解“AI 基础设施”四个字的含义:当提供商异常,客户自己的产品也会异常。既然一次服务中断可以立刻传导,那么结构重组、诉讼限制、版权授权和云合作变化也可能以更慢但更深的方式传导。
这就是个人影响的真实形态。它通常不会表现为用户突然研究公司法,而是表现为工程师多写一个适配层,产品经理增加一个替代模型选项,销售合同里加入供应商变更条款,企业采购要求提供数据使用说明,法务要求确认生成内容的版权风险。AI 产品越像水电煤,用户越会关心水电煤公司是谁、受谁控制、账单怎样算、出了事谁负责。
2024年以前,许多开发者把模型供应商看成技术选择:哪家更便宜,哪家更快,哪家上下文更长,哪家函数调用更稳。2024年秋冬以后,供应商选择开始像制度选择:哪家治理结构更清楚,哪家诉讼风险可控,哪家版权授权更稳,哪家云依赖更透明,哪家条款变化更可预期。一个小团队的代码仓库里,provider abstraction 成了这个时代最朴素的政治经济学。
七、裂缝成为系统的一部分
到2024年底,OpenAI 的非营利裂缝已经不是一场偶发董事会风波的余震。它变成了生成式 AI 行业公共依赖的样本。
结构改革说明,前沿模型竞争已经昂贵到需要新的资本容器。66亿美元融资和1570亿美元估值说明,这不再是实验室预算,而是基础设施竞赛。Musk 诉讼说明,创始承诺、控制权、开放性和商业化路线会在案卷中重新争夺解释权。版权诉讼说明,训练数据不是“互联网上有就能用”的技术细节,而是新闻业、出版业和平台经济重新分账的核心。Microsoft 的角色说明,模型公司很难脱离云巨头和软件分发体系单独存在。
这些线索合在一起,指向一个更大的事实:当 AI 模型成为通用工具,提供者的私人制度安排就会变成公共风险。
谁控制模型,不再只是董事会名单问题,还包括谁提供算力、谁提供资金、谁拥有企业入口、谁掌握分发渠道。谁分享收益,不再只是投资人和员工的股权问题,还包括新闻机构、作家、图片机构、代码社区和互联网内容生产者是否获得许可费或议价权。谁承担风险,也不再只是安全团队和法务团队的问题,而会落到学校、企业、开发者、读者、作者和普通用户身上。
OpenAI 的故事之所以重要,不是因为它独自拥有这些矛盾,而是因为它把矛盾集中得足够醒目。公益使命与资本扩张,非营利控制与投资人预期,研究理想与产品收入,开放知识与版权许可,独立治理与云平台依赖,全都在同一家公司身上相遇。
更荒诞也更真实的是,裂缝没有让系统停止运行。相反,系统一边裂开,一边融资,一边发布 API,一边签内容合作,一边应诉,一边重组,一边服务每周数以亿计的用户。裂缝不是系统崩溃的声音,裂缝成了系统运行时发出的声音。
2024年秋冬,用户和开发者开始学会一件事:AI 风险不只在模型回答里,也在模型背后的制度里。聊天框看似轻盈,背后却压着公司法、版权法、云合同和资本市场。私人机构设计,已经成为公共依赖的一部分。
参考文献
- OpenAI,New funding to scale the benefits of AI,2024.10.02。
- OpenAI,Introducing the Realtime API,2024.10.01。
- OpenAI,Our structure,访问日期2024.12。
- OpenAI,Introducing OpenAI LP,2019.03.11。
- OpenAI,OpenAI announces new members to board of directors,2024.03.08。
- Reuters,OpenAI plans to restructure core business into for-profit benefit corporation, sources say,2024.09.25。
- Reuters,OpenAI raises $6.6 billion in funds at $157 billion valuation,2024.10.02。
- OpenAI,Why OpenAI’s structure must evolve to advance our mission,2024.12.27。
- Musk v. Altman et al.,Complaint,U.S. District Court, Northern District of California,2024.08.05。
- Musk v. Altman et al.,First Amended Complaint,U.S. District Court, Northern District of California,2024.11.14。
- OpenAI,OpenAI and Elon Musk,2024.03.05。
- OpenAI,Elon Musk wanted an OpenAI for-profit,2024.12.13。
- The New York Times Company v. Microsoft Corporation et al.,Complaint,U.S. District Court, Southern District of New York,2023.12.27。
- OpenAI,OpenAI and journalism,2024.01.08。
- The New York Times Company v. Microsoft Corporation et al.,OpenAI Defendants’ Memorandum of Law in Support of Motion to Dismiss,2024.02.26。
- The New York Times Company v. Microsoft Corporation et al.,Microsoft Corporation’s Memorandum of Law in Support of Motion to Dismiss,2024.02.26。
- OpenAI,Hearst and OpenAI announce strategic content partnership,2024.10.08。
- LangChain,LangChain v0.2 is out,2024.05.15。
- OpenAI Status,ChatGPT, API, and Sora unavailable incident,2024.12.11。
第23章|十二月密集发布:Sora 上线,Gemini 2.0 与 o3 预告
一、日历变成瓶颈
2024年12月,人工智能行业的用户第一次如此频繁地遇到一种新型困惑:这到底是演示、预览、等待名单,还是已经可以买来用的产品?
过去,发布会通常有清晰层级。论文是论文,演示是演示,beta 是 beta,正式产品是正式产品。到了这一年年底,边界开始变得拥挤。一个页面写着“available”,另一个帮助文档列出地区限制;直播里模型解题像开闸放水,用户入口却只开放给安全测试者;博客标题宣布“新模型”,开发者文档又说明某些输出能力只给早期合作方;社交媒体上满屏都是生成视频,欧洲、英国和瑞士的用户却在可用性说明里被画进括号。
发布密度本身成了新闻。
OpenAI 在12月推出“12 Days of OpenAI”,从12月5日起连续十二个工作日进行直播和产品公告。[1] 这不是一次普通年度更新,而像一台精心设计的叙事机器:第一天是 o1 和 ChatGPT Pro,随后是 Sora、Canvas、Apple Intelligence 中的 ChatGPT 集成、Projects、搜索、开发者工具、电话和 WhatsApp 入口,最后以 o3 和 o3-mini 的预告收束。[1][2]
密集发布带来的效果很直接。技术圈每天都有新链接可点,媒体每天都有新标题可写,用户每天都要重新判断自己的账号、地区、订阅等级和等待资格。一个人早上看到 Sora 视频,下午打开 sora.com,晚上又看到 Gemini 2.0 Flash 的开发者文档,第二天再看到 o3 的 ARC-AGI 成绩截图。产品像潮水一样涌来,可真正的问题并不是“有没有发布”,而是“谁能用、怎么用、能用到什么程度”。
这就是2024年12月与此前几轮 AI 发布的不同之处。它不只是 demo parade,不只是一次次能力展示。它更像一场产品访问权的压力测试。
OpenAI 和 Google 都在争夺未来一年的开场白。OpenAI 用连续十二天把自己重新放回舞台中央。Google 在12月11日发布 Gemini 2.0,把新模型放进“agentic era”——代理时代——的叙事中。[3] 两家公司展示的方向不同:OpenAI 把视频生成和推理模型推到前台,Google 把多模态、工具使用和浏览器代理放进同一个框架。但用户面前的实际问题相似:公告说得越大,入口就越重要;能力越像魔法,条款、队列、水印、地区和订阅层级就越像魔法背后的栅栏。
这是一种很符合生成式 AI 时代的荒诞感。公司发布“让机器思考”“让模型看见世界”“让浏览器自己干活”的系统,用户却首先要研究的是:自己是不是 Plus,够不够 Pro,所在国家有没有开放,生成额度还剩多少,上传人物会不会被拒,模型是实验版还是正式版,演示里的能力是不是已经进了 API。
未来被宣布得很宏大,入口却像机场安检一样具体。
二、Sora:玻璃打开了一半
12月9日,OpenAI 发布《Sora is here》,宣布 Sora 向 ChatGPT Plus 和 Pro 用户开放。[4] 这一天的重点不再是重新解释 Sora 在2月技术预览中为何令人震动;前文已经写过那次预览如何让文本到视频从概念进入公众视野。本章只保留一个回声:2024年初,Sora 是隔着玻璃的展示品;2024年12月,它变成一个有网址、有订阅、有额度、有地区限制的产品入口。
产品化的第一层边界,是谁能进去。
OpenAI 的发布说明写得很清楚:Sora 作为独立产品在 sora.com 上线,纳入 ChatGPT Plus 和 Pro 订阅,不额外收费。[4] 这意味着免费用户并没有因为看见发布就自动获得视频生成能力。Sora 也不是面向所有 ChatGPT 可用地区同步开放。OpenAI 帮助中心和发布说明显示,发布时 Sora 在许多 ChatGPT 可用国家开放,但不包括英国、瑞士和欧洲经济区;用户还必须满足年龄要求。[4][5]
产品化的第二层边界,是能生成多少、生成多长、生成多清楚。
OpenAI 在发布中说明,Plus 订阅包括每月生成一定数量视频的能力,典型限制是最多50个480p视频,或更少数量的720p视频;Pro 用户获得约10倍使用量、更高分辨率、更长时长和更多并发生成。[4][5] 帮助文档进一步把体验拆成额度、分辨率、时长、并发、下载和水印等具体项目。[5] 一段“文字变视频”的魔法,落到产品表格里,就是 480p、720p、1080p、5秒、20秒、并发数量和优先额度。
产品化的第三层边界,是内容政策。
OpenAI 在 Sora 系统卡和发布说明中写入多项安全措施:生成视频包含可见水印,并嵌入 C2PA 元数据;公司在上线时限制涉及人物上传的功能,以降低未经授权肖像、深伪和滥用风险;同时继续使用内容审核、来源标记和滥用监测。[4][6] 这些措施并不是发布会装饰。视频生成模型进入的是一种比文本更容易制造“证据感”的媒介。一个看起来像手机实拍的视频,可以用于广告样片,也可以用于冒充新闻现场、伪造公众人物言行、骚扰个人或制造诈骗素材。
于是,Sora 的上线同时带来两种现实。
第一种现实是创作者获得了以前难以想象的视觉草图工具。OpenAI 在产品中提供 prompt 生成、图片或视频输入、remix、re-cut、storyboard、loop、blend 等功能。[4] 对广告、短片、游戏概念、教育视频和社交媒体创作来说,这些功能可能改变试错成本。一个小团队过去需要摄影、棚拍、后期或外包视觉特效才能验证的镜头,现在可以先用提示词和参考素材生成粗样。它未必替代最终制作,却可能替代一部分提案、分镜、概念验证和风格探索。
第二种现实是创作者必须先学会一套新的平台规则。视频能不能生成,取决于订阅等级;能不能下载无水印版本,取决于计划和设置;能不能上传人物,取决于政策开放范围;能不能在某地使用,取决于监管与地区支持;能不能稳定排队生成,取决于需求与基础设施。
上线后不久,需求本身就成了边界。The Verge 报道,Sora 发布后因访问量过高,OpenAI 一度暂停或限制新的账号创建,并转述 Sam Altman 关于需求被严重低估的说法。[7] 这类情节在 AI 产品史中反复出现:公司宣布一个能力,用户蜂拥而至,然后产品团队不得不用排队、暂停注册和额度控制来把兴奋重新压回服务器能够承受的形状。
对文本模型来说,排队已经令人不耐烦;对视频模型来说,排队还意味着另一种成本结构。生成视频比生成文字更重,既占用更多算力,也占用更多存储和审核资源。Sora 的产品限制不是任意设置的门槛,它们是视频生成进入消费市场后必须外化的基础设施现实。
三、一个创作者看到入口,也看到栅栏
12月9日,科技视频创作者 Marques Brownlee 在 YouTube 发布《I Tried Sora. It’s… something》,展示自己对 Sora 的测试。[8] 这个场景很适合放在十二月的中心:一个以影像制作、镜头语言、设备测试和后期流程为职业基础的创作者,公开试用一个能够生成视频片段的模型。对观众来说,屏幕上出现的是“AI 视频终于可以看见了”;对创作者行业来说,屏幕背后则是一个更复杂的问题:这种能力将怎样进入真实工作流?
Brownlee 不是普通排队用户。他作为知名创作者获得测试和展示机会,本身就说明 Sora 的上线并非简单地从实验室直接流向全体公众,而是经过创作者展示、平台发布、订阅分层和政策控制。普通用户同一天进入产品入口时,遇到的不是同一条无障碍通道,而是 OpenAI 帮助中心中列明的条件:ChatGPT Plus 或 Pro、支持地区、年龄要求、视频额度、分辨率限制、时长限制、人物上传限制、内容政策和水印规则。[4][5][6]
这不只是 Sora 的问题,而是2024年12月 AI 产品形态的缩影。
一个自由职业视频剪辑师、广告分镜师、游戏概念设计师或社交媒体运营者,看到 Sora 的上线消息,可能会先问三个非常实际的问题。第一,自己所在地区能不能开;第二,20美元 Plus 是否够用,还是必须考虑200美元 Pro;第三,生成出来的素材能不能交付给客户或发布到平台。前两个问题由 OpenAI 的订阅表和可用性说明回答,第三个问题还要穿过客户合同、平台 AI 内容标注政策、版权风险和肖像授权。
AI 公司常把产品描述为“降低创作门槛”。这句话并不虚假,但它在现实中会变成另一组门槛的迁移。过去的门槛是摄像机、灯光、场地、演员、剪辑软件和预算;新门槛是账号权限、生成额度、提示词技巧、内容审核、输出水印、平台披露、训练数据争议和客户是否接受 AI 素材。
水印尤其体现了这种迁移。OpenAI 把 Sora 生成视频默认加上可见水印,并嵌入 C2PA 元数据。[4][6] 对公共信任来说,这是必要的来源标记;对商业交付来说,它又成为工作流变量。一个创作者如果只是内部试片,可以接受水印;如果要向客户交付无水印版本,就要看订阅等级和下载规则;如果平台要求标注 AI 内容,即便去掉可见水印,也仍然需要遵守平台政策和法律要求。技术能力把视频做出来,治理机制则决定视频如何流通。
人物限制同样如此。OpenAI 在上线时限制人物上传,是为了降低深伪和未经授权肖像风险。[4][6] 这项限制对于社会安全有明确理由,却也意味着许多最有商业价值的使用场景——演员预演、品牌代言人、个人形象视频、客户肖像广告——不能简单地被“文本到视频”四个字概括。一个功能越强,越需要在最敏感的用例上先踩刹车。
因此,Sora 上线后的真正故事不是“视频生成终于来了”这么简单。它是一个创作者第一次看见强大系统变成网页入口,同时也看见入口旁边竖起的一串栅栏。栅栏并不总是坏事。没有水印、限制和审核,视频生成很快会撞上诈骗、深伪和政治传播的高压线。但栅栏也决定了谁能先使用、谁能大规模使用、谁能把它变成收入,谁只能继续观看别人上传的样片。
十二月的产品瓶颈,在这里变得非常具体:能力上线,不等于能力平等可用。
四、Gemini 2.0:Google 把“会用工具”放到标题里
两天后,Google 给出另一种回答。
2024年12月11日,Google 发布《Gemini 2.0: our new AI model for the agentic era》。这篇官方博客把 Gemini 2.0 放进“代理时代”的框架:模型不只是回答问题,还要理解多模态输入、调用工具、与现实软件协同工作。[3] Google 写到 Gemini 2.0 在多模态、原生工具使用、图像和音频输出等方面推进,并将逐步进入 Google 产品和开发者平台。[3]
但这一发布同样必须拆成“实际可用”和“展示方向”两部分。
实际首先交到用户和开发者手里的,是 Gemini 2.0 Flash 的实验版本。Google 表示,Gemini 2.0 Flash Experimental 面向开发者在 Gemini API、Google AI Studio 和 Vertex AI 中开放;Gemini 应用用户也可以在桌面和移动网页端的模型下拉菜单中选择 2.0 Flash Experimental,移动应用将逐步跟进。[3][9] 这不是整个 Gemini 2.0 家族的全面量产,也不是所有演示能力同时进入日常产品,而是一个实验模型先行进入开发者和部分用户入口。
开发者文档进一步说明了边界。Gemini 2.0 Flash 支持多模态输入和文本输出,并通过 API 提供工具使用能力;Google 还推出 Multimodal Live API,用于实时音视频输入和低延迟交互;但部分原生图像生成和可控文本转语音等能力,在发布时更多处于早期访问或预览阶段,并非所有开发者都可在生产环境中稳定调用。[9][10]
这就是 Gemini 2.0 的关键:Google 宣布的是方向,实际发货的是一组分层入口。
Google 的优势在于,它不只是模型公司。它拥有 Search、Chrome、Android、YouTube、Gmail、Docs、Sheets、Calendar、Maps、Lens 和 Google Cloud。所谓 agentic era,如果只在聊天框里发生,Google 的优势没有完全展开;如果 AI 要看屏幕、调工具、填网页、整理日程、搜索信息、处理代码、读取图片,Google 的资产就重新变成地形。
因此,Gemini 2.0 的发布不应被简化成“又一个模型”。它更像 Google 对下一阶段竞争的定义:模型能力要与工具、权限、设备、浏览器和办公软件结合。聊天机器人告诉用户怎么做,代理系统则试图在用户授权下帮用户做。
可是,“帮用户做”比“回答用户”更危险。
模型回答错一段解释,用户可以忽略、纠正或重新提问。模型如果点错按钮、发错邮件、提交错表单、购买错商品,错误就进入现实流程。代理能力越强,产品团队越要回答身份认证、权限范围、撤销机制、审计记录、隐私泄露和责任归属。Gemini 2.0 的方向令人兴奋,正因为它指向 AI 从内容层进入操作层;它也令人警惕,正因为操作层没有演示视频那么宽容。
Google 在12月没有假装所有问题都已经解决。它把更激进的代理能力放进实验项目和受限测试中:Project Astra、Project Mariner、Jules。这些项目展示方向,也保留了预览、实验和可信测试者的边界。[3][11][12]
在十二月的拥挤发布日历里,Google 的信息其实很清楚:Gemini 2.0 Flash Experimental 已经开放给开发者和部分应用用户;真正完整的代理生态,还在分阶段进入产品。
五、Astra、Mariner 与浏览器里的苦工
Project Astra 是 Google 对“通用 AI 助手”的持续实验。Google DeepMind 在12月更新中把 Astra 与 Gemini 2.0 联系起来,强调实时多模态理解、语音交互、视觉输入、上下文记忆以及与 Google Search、Lens、Maps 等工具结合的可能性。[11] 这个方向很容易被一句“AI 助手”概括,但它真正触及的是设备、传感器和权限。
早期语音助手曾经许诺改变人机交互,最后大量停留在闹钟、天气、音乐和智能家居控制。Gemini 2.0 叙事下的 Astra 试图把助手重新带回一个更激进的位置:它可以看见摄像头画面,听见用户问题,结合视觉和语言给出回应,并在未来与工具链衔接。[11]
这条路线的吸引力显而易见。一个能看、能听、能记住上下文、能调用地图和搜索的助手,比一个只接收文字输入的聊天框更接近日常工作。它可以帮人识别设备、解释环境、查找物品、理解屏幕、陪同完成任务。可它也更接近隐私边界。文本框只知道用户输入了什么;摄像头和麦克风入口则可能知道用户身处何地、看见什么、与谁交谈、桌上有什么文件。助手越像助手,治理问题就越像个人空间的门锁。
Project Mariner 则把代理想象放进浏览器。Google DeepMind 将 Mariner 描述为一种研究原型,能够理解浏览器屏幕上的信息,包括像素和网页元素,并通过实验性 Chrome 扩展执行任务。[12] Google 公布过 Mariner 在 WebVoyager 等网页任务基准上的表现,用来说明模型在端到端网页操作上的进展。[12]
浏览器代理是十二月最具行业荒诞感的场景之一。
互联网三十年把大量生活和工作压进网页:订机票、报销、购物、银行、政务表格、学校系统、客户后台、企业软件。人类为了适应这些系统,学会了忍受弹窗、验证码、分页、隐藏按钮、下拉菜单、模糊错误提示和“请刷新后重试”。如今 AI 公司开始训练模型替人类忍受网页。技术前沿的一部分商业价值,竟然来自数字社会早已制造出的界面折磨。
这并不是嘲讽某个设计者。它只是说明 Agent 为什么诱人:大量日常工作不是缺少知识,而是被流程磨损。一个浏览器代理如果足够可靠,就可能替用户比较商品、填写表单、整理订单、处理后台、跨网站收集信息。它不是回答“该怎么做”,而是直接进入“我替你做”。
但浏览器不是安全实验室。网页上有广告、弹窗、钓鱼页面、恶意提示、误导性按钮和隐藏指令。一个会读网页并执行操作的模型,可能被网页内容诱导。过去网络安全问的是“用户会不会被骗”;代理时代还要问“模型会不会被骗,然后替用户点击”。这就是为什么 Mariner 在12月仍是研究原型和受限测试,而不是所有 Chrome 用户都能立即交给它银行卡和政务账号。[12]
Jules 则把代理放进代码工作流。Google 在 Gemini 2.0 发布中把 Jules 描述为实验性代码代理,可以帮助开发者处理 bug、生成计划并执行修改。[3] 编程是代理系统的理想试验场之一:任务有文件、测试、日志、版本控制和回滚机制,比开放网页更容易建立边界。但编程也足够复杂,能暴露模型在长上下文、工具调用、规划和错误修复上的真实能力。
Astra、Mariner、Jules 共同说明一件事:Gemini 2.0 的产品发布不是单点能力,而是 Google 试图把模型接入工具世界。可是,接入工具世界的每一步,都必须回答访问权问题。谁能试用?通过哪个入口?是不是可信测试者?能不能进入生产?有没有权限限制?能不能撤销操作?有没有审计记录?
十二月的关键词不是“模型已经无所不能”。关键词是:模型开始靠近真实软件,而真实软件不会因为发布会漂亮就降低复杂度。
六、o3:基准点燃,入口仍在门外
12月20日,OpenAI 在“12 Days of OpenAI”的最后一天展示 o3 和 o3-mini。[13] 这场发布与 Sora 不同。Sora 至少已经向 Plus 和 Pro 用户开放;o3 和 o3-mini 在12月主要是预告、演示和安全测试开放,不是普通用户当天就能在 ChatGPT 里随意选择的日常产品。
OpenAI 在直播和相关说明中将 o3、o3-mini 描述为下一代推理模型,并开放外部安全测试申请。[13] 按发布时信息,o3-mini 预计先于 o3 面向更广用户推出,完整 o3 仍需后续发布和评估。[13][14] 这一区别非常重要。十二月大量传播的不是“用户已经在用 o3 工作”,而是“OpenAI 展示了 o3 在若干困难基准上的结果,并开始安全评估流程”。
最引人注意的是基准。
OpenAI 在发布中展示了 o3 在数学、编程和科学问答等任务上的结果。[13] 更大的公共震动来自 ARC-AGI。ARC Prize 团队在12月20日发布说明,称 OpenAI o3 在 ARC-AGI-1 上取得突破性成绩:低计算设置下为75.7%,高计算设置下为87.5%。[15] 这个数字迅速传播,因为 ARC-AGI 长期被视为考察抽象推理和少样本归纳能力的困难基准之一。
但是这里必须把兴奋和怀疑同时写下。
ARC Prize 团队自己也强调,ARC-AGI 不是 AGI 的充分测试,通过或接近通过该基准并不等于实现通用人工智能。[15] 基准是信号,不是终局裁判。一个系统在某个测试上出现跃迁,说明能力边界发生变化,却不能自动证明它在开放世界中具有同等可靠性。AI 史上反复出现这样的循环:某个测试曾被视为遥远门槛,模型跨过之后,人们发现智能还有更多层面没有被测试覆盖。
o3 的基准还必须放在访问和计算条件中理解。ARC Prize 报告区分了低计算和高计算设置。[15] 这意味着成绩并不是单一“模型分数”那么简单,而与测试时计算资源有关。推理模型越依赖在回答前进行更多搜索、验证和尝试,能力就越可能与成本、延迟和计算预算捆绑。用户看到的是一个分数,产品团队看到的是每次调用背后的算力账单。
这也是 o3 与 ChatGPT Pro 同月出现的制度意义。12月5日,OpenAI 发布 ChatGPT Pro,每月200美元,面向需要更高计算能力访问的用户,并提供 o1 pro mode 等功能。[2] 这个价格在消费软件语境中并不轻巧,却符合推理模型的成本逻辑:如果“更聪明”意味着每次回答消耗更多测试时计算,那么订阅层级和调用限制就会自然变成产品形态的一部分。
o3 因此不是一个简单的排行榜事件。它更像前沿模型商业结构的一次预告。模型不只是在训练阶段烧钱,也可能在推理阶段继续烧钱。越难的问题,越可能需要更长等待、更高费用和更严格的使用限制。所谓“慢思考”从9月 o1 的产品概念,走到12月 o3 的基准震动,已经变成一条清晰路线:模型可以在困难任务上花更多计算,换取更好结果;但这些结果何时、以什么价格、向哪些用户开放,是另一个问题。
这也是为什么不能把 o3 与 Sora、Gemini 2.0简单并排成一个“谁更强”的榜单。Sora 的关键是视频能力进入付费用户入口;Gemini 2.0 的关键是实验模型和代理工具链开始分层开放;o3 的关键是推理能力被展示,但仍处在安全测试和未来发布阶段。三者都重要,却处在不同访问状态。
十二月最容易误读的地方,正是把“看见演示”误当成“拿到产品”。
七、年底的门槛
到2024年最后一周,行业并没有进入一个清爽的新阶段。它进入的是一个门槛更多、能力更强、说明文档更长的阶段。
Sora 让视频生成第一次以明确产品形态进入 ChatGPT Plus 和 Pro 用户手中,却同时带着地区限制、年龄要求、额度、分辨率、时长、并发、水印、人物上传限制和内容政策。[4][5][6] 对创作者来说,这既是新工具,也是新合规表格。
Gemini 2.0 让 Google 把竞争从聊天框拉向工具、浏览器、设备和多模态交互,但真正开放的是 Gemini 2.0 Flash Experimental、开发者 API、Google AI Studio、Vertex AI 和部分 Gemini 应用入口;Astra、Mariner、Jules 仍然以原型、实验和可信测试者形式推进。[3][9][11][12] 对开发者和企业来说,这既是路线图,也是等待名单。
o3 让推理模型的基准讨论重新升温,尤其是 ARC-AGI 的成绩让技术圈看到新的能力跃迁;但它在12月不是一般可用产品,而是预告、演示和安全评估对象。[13][15] 对学生、研究者、程序员和知识工作者来说,这既是未来能力的信号,也是一个暂时不能稳定纳入日常流程的系统。
这就是十二月的真实冲突:公告越壮观,访问问题越突出。
AI 公司正在把模型推向三个方向。第一,生成内容,从文字、图片走向视频。第二,执行任务,从聊天建议走向浏览器、代码和工具调用。第三,增强推理,从快速回答走向测试时计算和更复杂解题。每条路线都令人兴奋,因为它们确实扩展了机器能做的事;每条路线也令人怀疑,因为它们把成本、权限、责任和不平等访问一起带进产品。
普通用户感受到的不是抽象技术曲线,而是很具体的摩擦。看见别人生成 Sora 视频,自己所在地区可能不能登录。读到 Gemini 2.0 的“agentic era”,自己能用到的也许只是实验版 Flash。刷到 o3 的基准截图,却不能把 o3 直接放进今天的作业、代码库或研究流程。发布会把未来提前摆上屏幕,产品入口却把未来按订阅、地区、队列和安全评估切成小块。
行业的幽默也在这里。2024年12月,人工智能公司宣布机器将理解世界、生成电影、操作网页、解决抽象推理题;用户的第一步却是刷新页面、查看帮助中心、比较套餐、等待开放、确认水印、阅读地区限制。这不是技术失败,而是技术进入社会后的正常形状。越强的系统,越不可能以“所有人立刻无限使用”的形式出现。
OpenAI 在十二天里夺回了注意力。Google 用 Gemini 2.0 把代理路线重新锚定到自己的生态。ARC-AGI 的数字让 o3 成为年底最热的推理话题之一。但2024年的结尾不是一个干净的胜利场景。它更像一座拥挤大厅:大屏幕上播放未来,入口处排着队,工作人员不断解释哪些门已经开、哪些门只给测试者、哪些门暂时不对某些地区开放。
2025年的人工智能竞争,已经不只是“谁的模型更强”。它会越来越多地变成:谁能把强大模型稳定交付给足够多的人,谁能控制成本,谁能处理水印和版权,谁能让代理安全行动,谁能让基准成绩变成可靠产品。
十二月给出的答案不是终局。它只说明一件事:能力已经冲到门口,门还没有完全打开。
参考文献
- OpenAI,12 Days of OpenAI livestreams,2024.12。
- OpenAI,Introducing ChatGPT Pro,2024.12.05。
- Google,Gemini 2.0: our new AI model for the agentic era,2024.12.11。
- OpenAI,Sora is here,2024.12.09。
- OpenAI Help Center,Sora availability, pricing, and limits,2024.12。
- OpenAI,Sora System Card,2024.12.09。
- The Verge,OpenAI’s Sora video generator is launching today,2024.12.09。
- Marques Brownlee,I Tried Sora. It’s… something,2024.12.09。
- Google Developers Blog,Gemini 2.0 Flash is now available,2024.12.11。
- Google AI for Developers,Gemini API docs: Gemini 2.0 Flash / Multimodal Live API,2024.12。
- Google DeepMind,Project Astra: updates on our universal AI assistant,2024.12.11。
- Google DeepMind,Project Mariner: exploring the future of human-agent interaction,2024.12.11。
- OpenAI,Introducing OpenAI o3 and o3-mini / 12 Days of OpenAI Day 12,2024.12.20。
- The Verge,OpenAI announces o3 and o3-mini,2024.12.20。
- ARC Prize,OpenAI o3 breakthrough high score on ARC-AGI,2024.12.20。
第24章|DeepSeek 冲击波:低成本推理模型改写全球想象
一、一个数字跑在脚注前面
2025年1月27日,华尔街的交易屏幕替人工智能行业写出了一行过于醒目的脚注。
据路透社当天报道,NVIDIA 股价下跌约17%,市值蒸发约5930亿美元,被报道为美国上市公司历史上最大的单日市值损失之一;同一轮抛售波及多家与人工智能算力叙事绑定的科技公司。[1] 新闻标题里有 DeepSeek,交易员屏幕上有 NVIDIA,社交媒体上则有一个比技术报告传播得更快的数字:557.6万美元。
这个数字来自 DeepSeek-V3 技术报告。它很短,适合截图,适合被放进标题,适合在大模型行业过去两年的昂贵叙事里制造一声脆响。过去,市场熟悉的故事是另一种单位:数万张 GPU、数百亿美元资本开支、数据中心、电力合同、先进封装、云厂商库存,以及几乎被神圣化的“规模定律”。突然,一家中国团队的技术报告说,一个强模型的训练计算成本估算可以写成几百万美元。于是,数字离开论文表格,穿过技术社区、财经媒体、政策讨论和散户论坛,一路跑得比脚注还快。
但本章必须先把脚注追上。
DeepSeek 没有公开证明“只花557.6万美元就从零建成一家前沿大模型公司”。它公开披露的是 DeepSeek-V3 在特定口径下的训练计算成本估算:约2.788M H800 GPU hours,按每 H800 GPU hour 2美元估算,合计约557.6万美元。[2] 这不是公司总成本,不是全部研发成本,不是从无到有的模型成本,也不是长期提供 API 服务的推理成本。它不包含团队薪酬、数据处理、架构探索、失败实验、集群折旧、工程工具链、安全评估、产品运营、带宽与服务可用性等项目。
这条澄清并不会削弱 DeepSeek 的冲击。恰恰相反,它让冲击更真实。一个神话很容易被另一个神话取代:昨天的神话是“只有无限资本才能接近前沿”,今天的神话则可能变成“前沿智能已经便宜到像下载软件”。DeepSeek 真正击中的,是两者之间更复杂的地带:如果训练效率、架构选择和后训练方法能够大幅改变单位能力成本,那么过去两年被视作自然规律的资本密集路线,就必须重新接受审计。
人工智能行业在这一天表现出一种熟悉的荒诞感:一串来自论文成本表的会计数字,被当成了技术革命、商业模式威胁、地缘政治信号和股票估值因子。每一种解释都抓住了一部分事实,也都容易把其余部分挤到页脚里。
DeepSeek 重要,不是因为它让算力不重要;而是因为它证明,算力重要到必须被更精细地计算。
二、V3 报告到底说了什么
DeepSeek-V3 的技术报告最早在2024年12月底进入公开视野,随后在2025年1月成为全球争论的底稿。报告摘要开头写道:“We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token.”——DeepSeek-V3 是一个 MoE 语言模型,总参数6710亿,每个 token 激活约370亿参数。[2]
这句话里有三个关键词:MoE、671B、37B activated。
普通读者更容易记住671B,因为它足够大。工程师更关心37B activated,因为它说明每次生成并不调用全部6710亿参数。MoE,即 Mixture-of-Experts,把模型内部拆成多个“专家”,每个 token 只路由到部分专家。这个架构的经济学含义很直接:参数总量可以很大,但每次推理或训练更新激活的计算量可以被控制。DeepSeek-V3 还采用了 Multi-head Latent Attention、DeepSeekMoE、FP8 混合精度训练、多 token 预测目标等设计。[2] 这些名词没有发布会口号好懂,却与成本曲线有关。
报告称,DeepSeek-V3 在14.8万亿 token 上进行预训练,并经历监督微调和强化学习阶段。[2] 它披露的训练资源口径也很明确:使用2048块 NVIDIA H800 GPU;完整训练消耗约2.788M H800 GPU hours;按每 H800 GPU hour 2美元估算,总训练成本约557.6万美元。[2]
真正应该被记住的是这句话的限定条件。
第一,这是训练计算成本估算,不是全部模型成本。
第二,这是按照 H800 GPU 小时价格计算的账面口径,不等于购买集群、搭建机房或长期运维的资本成本。
第三,它主要描述已选定路线后的训练消耗,不覆盖此前探索过程中失败或被放弃的实验。
第四,它不说明未来每一次回答用户问题的推理成本。
第五,它不能直接与闭源公司外界猜测的全部研发投入相比较。
如果把大模型公司比作一家餐厅,训练计算成本更像某一批菜品在灶台上消耗的燃气费;总模型成本还包括厨师、菜单研发、试菜失败、厨房租金、供应链、卫生许可、前厅服务和长期品牌。DeepSeek 披露的数字令人惊讶,是因为这笔“燃气费”比外界预期低得多;但把它说成整家餐厅的全部开张成本,就把技术报告改写成了段子。
这并不是吹毛求疵。2025年1月,行业最需要区分四类成本。
第一类是训练 compute cost,即模型训练阶段消耗多少 GPU 小时、TPU 小时或其他加速器时间。DeepSeek-V3 报告里的557.6万美元属于这一类。[2]
第二类是 total model cost,即为了做出这个模型的综合成本。它包括研究、人员、数据、失败实验、硬件、软件、基础设施、安全、合规和机会成本。多数公司不会完整披露这一项,外界只能估算。
第三类是 inference cost,即模型上线后回答用户问题的成本。推理模型尤其复杂,因为“思考更久”通常意味着生成更多中间 token、占用更长时间、使用更多显存与调度资源。训练只发生少数几次,推理则可能发生数十亿次。
第四类是 market mythology,即资本市场愿意相信的成本故事。它不完全等于技术事实,却会影响估值、融资、采购和战略。DeepSeek 的数字击穿的,正是第四类故事。
V3 报告的价值,不在于给行业一个可以复读的便宜口号,而在于迫使行业承认:成本不是一个单数名词。
三、R1:推理模型走出闭源神殿
如果 V3 让外界重新计算训练效率,那么2025年1月20日发布的 DeepSeek-R1 则让另一个问题浮出水面:推理能力是否一定属于闭源前沿实验室?
DeepSeek 在 GitHub 发布 DeepSeek-R1,并开放模型权重与推理模型系列说明。[3] R1 的技术论文题为《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。论文摘要写道:“DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning.”[4] 这句话的意思是,DeepSeek-R1-Zero 在不以监督微调作为预备步骤的情况下,通过大规模强化学习展现出推理能力。
论文随后也写明问题:“However, DeepSeek-R1-Zero encounters challenges such as endless repetition, poor readability, and language mixing.”[4] 因此,DeepSeek-R1 并不是把 R1-Zero 直接扔给用户,而是在后续训练流程中加入冷启动数据、多阶段训练等步骤,以改善可读性、稳定性和整体表现。[4]
这段技术路线在2025年初有特殊含义。此前几个月,OpenAI 的 o1 系列已经把“慢思考”推到前台,前文已经写过,模型开始被训练为在复杂数学、代码和科学任务上花更多时间推理。推理模型曾经看起来像闭源巨头的专属舞台:需要最强基座模型、昂贵后训练流程、复杂安全评估和产品层调度。DeepSeek-R1 的开放权重,让这个舞台突然多出一扇侧门。
DeepSeek 在 R1 论文和仓库中给出了一组基准测试结果。论文报告称,DeepSeek-R1 在 AIME 2024 上 pass@1 为79.8%,在 MATH-500 上为97.3%,Codeforces rating 为2029,并在若干推理、数学、代码任务上接近或超过当时若干公开对照模型。[4] 这些数字解释了为什么 R1 会迅速进入全球讨论:它不是一个只会聊天的开放模型,而是在一些被视作“推理能力测试场”的任务上打进了前沿讨论区。
但 benchmark 不是现实世界的缩略图。
数学竞赛题、代码题、选择题和问答题可以测量模型能力的一部分,却不能完整覆盖真实企业环境中的长链任务、工具调用、权限控制、事实一致性、多轮协作、延迟、成本、鲁棒性和安全边界。不同模型在测试时使用的采样设置、提示词、思考 token、工具可用性与评测管线也可能不同。R1 论文自己的限制部分也提到,多轮、函数调用、复杂角色扮演、结构化输出、语言混合与软件工程类任务仍存在限制或需要进一步改进。[4]
换句话说,R1 没有把“推理模型”变成已经彻底解决的商品;它把“强推理能力只能在闭源 API 里出现”的想象打松了。
开源权重的影响在这里尤其关键。DeepSeek-R1 仓库列出了不同规模的蒸馏模型,包括基于 Qwen 与 Llama 系列的 1.5B、7B、8B、14B、32B、70B 等版本,并说明 DeepSeek-R1 系列支持商业使用和衍生工作,具体蒸馏模型还需遵守其底座模型相应许可证。[3] 这意味着开发者不必只在一个远程聊天框里体验推理能力;他们可以下载、部署、量化、蒸馏、集成,或者把模型放进自己的评测管线里。
闭源模型像一座开放大厅的建筑。用户能在前台办业务,开发者能读 API 文档,媒体能参观样板间,但墙后图纸仍由业主持有。开放权重模型并不等于整座建筑透明——训练数据、完整实验过程、内部调参仍可能不可见——但它至少把材料交到更多人手里。材料一旦流动,宣传部门就会自动外包给开发者社区。
这就是 R1 的第二层冲击:它让推理能力不再只是一项产品功能,也变成了一种可搬运的工程材料。
四、价格表比口号更冷静
DeepSeek 冲击波的另一端,不在论文里,而在价格表上。
DeepSeek API 文档把 V3 对应的服务入口称为 deepseek-chat,把 R1 对应的服务入口称为 deepseek-reasoner,并以每百万 token 为单位列示输入与输出价格;价格结构还区分缓存命中输入、缓存未命中输入和输出 token。[5] 这种写法很会破除神话:训练成本再耀眼,开发者最终面对的账单仍然是 token、延迟、吞吐、上下文长度、缓存命中率和输出长度。
推理模型尤其容易制造成本错觉。普通聊天模型回答一个短问题,也许几百个 token 就结束;推理模型为了求解数学题、写代码或规划任务,可能生成更长的推理轨迹或内部思考过程。即使单 token 价格下降,任务总 token 数也可能上升。便宜的模型如果让使用次数增长十倍,总账单也可能并不下降。人工智能行业的会计学经常像魔术:单价下降,支出上升,所有人都声称自己是效率的受益者。
DeepSeek 的 API 价格仍然重要,因为它给市场提供了一个新锚点。过去,很多小团队在做推理类产品时只能面对两个选择:调用昂贵闭源模型,或者使用能力明显不足的开放模型。R1 之后,选择菜单变长了。团队可以调用 DeepSeek 的推理 API,可以下载开放权重模型自己部署,可以使用较小蒸馏模型服务低风险任务,也可以把闭源模型留给最关键环节,把开放模型用于预处理、草稿生成、测试或内部工具。
这不是“每家公司都能训练一个 R1”。那仍然需要顶级研究与工程能力。真正改变的是应用层预算表。
一个小型开发团队如果要做数学解题助手、代码审查工具、数据分析代理或客服自动化,过去常常把“模型能力”视作黑箱订阅费。R1 之后,他们至少可以开始拆账:哪些任务需要最高质量?哪些任务可以用蒸馏模型?哪些环节必须低延迟?哪些请求可以缓存?哪些输入会反复出现?哪些输出过长导致费用失控?哪些数据因为隐私要求必须本地部署?哪些功能只是演示热闹,实际没有用户愿意付费?
这些问题比“557.6万美元”更接近产品现实。
云采购方也被迫学习同一套区别。训练成本、推理成本和真实部署成本不是一回事。一个模型的论文训练成本低,不代表企业用它就一定便宜;一个 API 单价低,也不代表安全、合规、监控、评测、故障恢复和数据治理免费;一个开放权重模型能下载,也不代表部署团队不需要 GPU、推理框架、运维经验和安全测试。
DeepSeek 使小团队兴奋,也使采购表格变厚。行业荒诞之处在于:每当 AI 变得“更容易使用”,真正负责任的使用清单通常会更长。
五、红色交易日与谨慎归因
DeepSeek 的市场场景必须只讲一次,因为它太容易被讲成寓言。
2025年1月27日,路透社报道 NVIDIA 股价下跌约17%,市值蒸发约5930亿美元;报道将抛售与 DeepSeek 引发的低成本 AI 能力担忧联系在一起,同时也把它放在更广泛的科技股回调和 AI 估值压力中讨论。[1] 这是一个真实事件,却不是一个可以被压缩成“DeepSeek 导致 NVIDIA 崩盘”的单因果故事。
资本市场从不只交易技术事实。它交易预期、仓位、估值、流动性、风险偏好、利率环境、季度业绩、行业叙事和新闻标题。DeepSeek 是那一天最醒目的触发因素之一,因为它挑战了一个关键假设:前沿模型能力是否必然需要不断扩大训练算力和资本开支?如果算法效率提高,单位能力所需计算量下降,最昂贵 GPU 的长期需求曲线会不会变化?
这个问题足以引发重估。过去两年,NVIDIA 被视为 AI 淘金热里卖铲子的人。只要模型规模继续扩大,云厂商继续囤卡,AI 应用继续吞吐算力,NVIDIA 的位置就像产业瓶颈。DeepSeek 的出现没有立刻证明瓶颈消失,却让市场看到瓶颈可能有旁路:更高效的架构、更便宜的后训练、更开放的模型、更低的应用层调用成本。
但另一种解释同样有历史依据:效率提升不一定减少总需求。照明更便宜后,人类照亮了更多街道;计算更便宜后,软件吞掉了更多计算;带宽更便宜后,视频填满了网络。AI 也可能如此。推理模型越便宜,越多应用会把推理嵌进工作流;每个文档、每段代码、每个客服请求、每个数据报表都可能调用模型。单位成本下降,需求总量可能扩大。
据 CNBC 报道,NVIDIA 对 DeepSeek 的回应强调其是一次“excellent AI advancement”,并将其与测试时计算扩展联系起来;报道转述的 NVIDIA 立场还强调,推理仍需要大量 NVIDIA GPU 和高性能网络。[6] 这并不意外。对于 NVIDIA 来说,最稳固的叙事不只是“训练更贵”,而是“AI 使用无处不在,每一次生成、规划、搜索和工具调用都需要计算”。
因此,1月27日的红色屏幕不是技术判决书,而是预期审计表。它说明市场曾经把 AI 成本曲线讲得太直,把算力需求讲得太单向,把少数公司的优势讲得太稳。DeepSeek 让投资者重新给这些假设加上概率和折扣。
那一天以后,NVIDIA 仍然是 AI 硬件生态核心公司之一,GPU 仍然重要,先进制程、内存带宽、网络和软件生态仍然重要。DeepSeek 没有取消这些现实。它取消的是一种懒惰的确定性:只要堆更多卡,护城河就会永远加深。
六、地缘政治里的效率变量
DeepSeek 之所以在华尔街之外也引发震动,是因为它发生在一个敏感背景下:中国公司在先进 AI 芯片获取上受到美国出口管制限制,而美国政策与产业叙事长期把前沿 AI 能力与高端芯片、超大训练集群和少数科技巨头绑定在一起。
据 AP、路透社等媒体在1月下旬的报道,DeepSeek 的崛起引发美国科技界和政策圈关注,原因之一正是它似乎在受限硬件环境下实现了强模型表现,并对美国维持 AI 领先地位的假设提出挑战。[7][8] 这里的“似乎”必须保留。DeepSeek-V3 技术报告明确提到使用 NVIDIA H800 GPU。[2] H800 是为符合早期出口管制要求而面向中国市场推出的芯片,性能配置受到限制,但仍属于 NVIDIA 生态中的高端加速器。DeepSeek 并不是在没有先进硬件的真空里训练模型。
更准确的说法是:DeepSeek 打乱了关于“集中度”的想象。
过去几年,前沿 AI 被越来越多地描述为极少数美国公司、极少数云平台、极少数芯片供应链节点才能参与的游戏。这种描述有事实基础。训练前沿模型需要巨额资本、顶尖人才、稳定集群、海量数据和工程经验;不是任何团队租几张卡就能进入。可是 DeepSeek 提供了一个反例的轮廓:一个中国团队在硬件受限、资本环境不同、国际供应链紧张的条件下,仍然通过架构与工程效率进入前沿讨论区。
这并不等于“出口管制无效”。限制高端芯片获取会增加训练成本、延缓集群扩张、压缩实验空间。DeepSeek 的存在也不证明中国公司可以不受任何硬件约束。相反,它说明芯片仍然关键,以至于约束会迫使团队把每块芯片用得更极致。政策限制改变了创新的成本函数,却不会自动决定创新的结果。
地缘政治讨论最容易把工程成果改写成国家寓言。DeepSeek 被一些评论称为“Sputnik moment”,这类比喻抓住了震动感,却容易遮蔽现代 AI 的混合结构。DeepSeek 的模型建立在全球深度学习研究、开源框架、NVIDIA CUDA 生态、公开论文、工程社区经验和中国本土人才体系之上。现代 AI 不是某个国家独奏,而是全球化技术栈在地缘摩擦中的重新组合。
这正是它令人不安的地方。美国政策制定者担忧的不是一个聊天机器人突然会做数学题,而是前沿能力可能不像预期那样只集中在资本、芯片和云平台最密集的地方。中国公司看到的也不是“芯片不重要”,而是效率路线可以成为在约束中竞争的变量。其他国家、初创公司和开源社区看到的则是另一层信号:如果能力扩散速度快于监管、资本和安全机制调整速度,AI 版图会比原先更碎片化。
DeepSeek 没有给出中美 AI 竞争的结论。它只是让旧结论不够用了。
七、小团队重新计算能做什么
DeepSeek 冲击波最终落到一个更小的场景里:开发者打开 GitHub、Hugging Face 或 API 文档,重新估算自己的产品能不能做。
R1 仓库列出完整模型与多个蒸馏模型,尺寸从十亿级到七百亿级不等。[3] 这对大公司来说是模型组合,对小团队来说是预算梯子。1.5B、7B、14B、32B、70B 这些数字不只是参数规模,也对应不同硬件门槛、延迟、质量和部署方式。有人可以在本地或小型服务器上测试较小蒸馏模型;有人可以把较大模型部署在云 GPU 上;有人可以只调用 API,把运维麻烦交给服务商。选择变多,本身就是成本下降的一种表现。
这种变化不会让创业变得轻松。真正上线产品仍然要面对用户留存、场景选择、数据权限、质量评测、错误责任和付费转化。模型能力只是产品的一部分。可是,在2025年1月以前,很多小团队在推理类功能上会先问:“这会不会太贵?”DeepSeek 之后,问题变成:“哪些部分值得用最强模型?哪些部分可以用便宜模型?哪些部分可以本地跑?哪些部分根本不需要推理模型?”
这是一种更成熟的成本意识。
一个代码工具团队可以把 R1 类模型用于复杂 bug 分析,但把普通补全留给更快更便宜的模型。一个教育产品团队可以把数学解题交给推理模型,但把题库检索和错题归类交给传统搜索与小模型。一个数据分析团队可以用推理模型生成分析计划,再用确定性脚本执行计算。一个内部自动化团队可以让开放模型处理非敏感草稿,把涉及隐私或高风险决策的步骤放进受控系统。
这些组合没有发布会漂亮,却是 AI 真正进入工作流时的形态:不是一个模型统治一切,而是一组成本、能力和风险各不相同的模型与工具被拼在一起。
DeepSeek 还改变了价格谈判。闭源 API 厂商过去可以用“最强能力”维持高价格锚点;开放权重推理模型出现后,企业采购会多问几个问题:你的模型比开放替代方案好在哪里?好多少?在我们的任务上是否经过评测?延迟和吞吐如何?安全监控是否值得溢价?数据能否不出域?如果一个开放模型在80%的内部任务上足够好,那么剩下20%的高端需求应该如何定价?
这并不意味着闭源模型失去价值。闭源厂商仍然可能在总体能力、工具生态、可靠性、多模态、安全、企业支持和产品体验上领先。许多企业宁愿为稳定 SLA、合规承诺和统一平台付费。DeepSeek 的影响是让“为什么付费”变成必须回答的问题,而不是默认前提。
小团队看到的是机会,大公司看到的是采购杠杆,云服务商看到的是新流量,安全团队看到的是新风险。开放权重推理模型把能力交给更多人,也把治理问题交给更多人。AI 行业再次获得了一种典型的双重现实:门槛下降,责任上升。
八、被改写的不是冠军榜
DeepSeek 没有在2025年1月“打败 OpenAI”。这种说法太适合传播,也太不适合解释历史。
更准确地说,DeepSeek 改写了全球 AI 行业的想象边界。它让人们意识到,前沿能力的成本结构可能不是单调上升的直线;训练计算成本、总模型成本、推理成本和市场神话必须分开讨论;开放权重可以从追赶姿态变成进攻工具;推理能力可以扩散到闭源巨头之外;地缘约束下的工程效率也可能成为全球市场重新定价的变量。
这比榜单胜负更重要。榜单会更新,benchmark 会被刷新,API 价格会调整,今天的惊艳很快会变成明天的默认配置。真正不可逆的是问题本身被换掉了。
过去两年,行业常问:谁有最多 GPU?谁能训练最大模型?谁能融资最多?谁能买到最多电力和机架?DeepSeek 之后,另一些问题插了进来:谁能把同样能力做得更便宜?谁能把推理能力开放给更多开发者?谁能在低成本下保持可靠性与安全性?谁能把便宜模型变成有利润的产品?谁能在效率提升后仍然拥有定价权?
答案在2025年2月还没有出现。市场的红色屏幕只是开场,技术报告只是底稿,GitHub 仓库只是材料堆。DeepSeek 的历史位置不在于它终结了算力竞赛,而在于它迫使所有参与者重新计算竞赛规则。
前沿智能到底应该花多少钱?
这个问题从1月开始,不再只属于财务部门。
参考文献
- Reuters,Nvidia sheds $593 billion in market value as DeepSeek sparks AI selloff,2025.01.27。
- DeepSeek-AI,DeepSeek-V3 Technical Report,2024.12.27。
- DeepSeek-AI / GitHub,DeepSeek-R1 Release,2025.01.20。
- DeepSeek-AI,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,2025.01。
- DeepSeek API Docs,Models & Pricing / DeepSeek-R1 API documentation,2025.01。
- CNBC,Nvidia calls DeepSeek an “excellent AI advancement” as stock plunges,2025.01.27。
- Associated Press,What is DeepSeek, the Chinese AI startup that shook the tech world?,2025.01.28。
- Reuters,China’s DeepSeek sets off AI market rout and draws attention to founder Liang Wenfeng,2025.01.27。
第25章|AI 进入医院、课堂与实验室:从炫技到专业系统
一、演示之后,轮到签名
2025年1月23日,OpenAI 发布 Operator。官方材料把它放在“research preview”的位置:这个系统可以在浏览器里查看页面、点击按钮、填写表单,替用户完成某些网页任务;在涉及登录凭据、付款、发送邮件等敏感动作时,产品说明强调需要用户接管或确认。[1]
这是一种很有时代感的场景。人工智能不再只是写一段答案,而是把答案推进网页表单,靠近现实系统。一个模型会说话,最多让人担心它胡说;一个模型会点按钮,问题就从“它答得对不对”变成“它有没有权限这样做”。
2月2日,OpenAI 又发布 Deep Research,官方称它可以在网上进行多步骤检索、阅读和综合,并生成带引用的研究报告。[2] 这类产品展示的是另一种方向:模型不仅回答问题,还开始扮演研究助理、资料员和流程执行者。演示足够流畅,足以让人兴奋;但一旦把它移进医院、课堂和实验室,掌声后面很快出现一串不适合发布会大屏幕的问题:
谁授权它读取这些资料?
谁检查它的输出?
谁在最终文件上签名?
如果它错了,责任落在哪里?
如果它大部分时候是对的,人会不会在少数关键错误面前放松警惕?
这就是2025年初专业场景里的真实戏剧。戏剧不在于“AI 替代医生、教师、科学家”这一类夸张口号,而在于一种更麻烦的重排:AI 进入工作流,却没有替人类带走责任。它生成草稿,医生签署;它辅助备课,教师评分;它提出候选算法,研究者验证。工具变强了,问责也变细了。
同一个按钮,在消费互联网里可能只是买一袋猫粮;在医院系统里可能关联病历;在学校系统里可能影响成绩;在实验室里可能变成论文图表和后续实验。专业系统并不反对聪明的机器。它们只是会用一种近乎冷酷的方式追问聪明:你在什么范围内工作,依据是什么,日志在哪里,谁复核,谁负责?
本章只看三个具体场景。一个是临床文书里的环境式 AI 书记员;一个是加州州立大学系统在2025年2月宣布向师生提供 ChatGPT Edu;一个是 Google DeepMind 在2025年5月发布的 AlphaEvolve 式算法发现工作流。它们都不足以代表整个医疗、教育或科研行业。它们的意义恰恰在于具体:AI 不再飘在“行业转型”的口号里,而是被塞进一个个带权限、流程和签名的格子。
二、病历里的草稿,不是诊断书
2025年1月,美国食品药品监督管理局发布关于 AI-enabled device software functions 的生命周期管理和上市提交建议草案。文件讨论的是一种监管者很熟悉、但产品发布会很少愿意停留的事情:AI 医疗软件不只是上线那一刻要看性能,它还可能在生命周期中更新、漂移、适应新环境,因此需要在设计、验证、监测和变更管理上说明清楚。[3]
这份草案给医院里的 AI 热潮泼了一盆必要的冷水。医疗场景欢迎效率,但效率不能自动替代验证。一个系统如果只是整理文书,风险边界与一个介入临床判断的软件不同;一个系统如果会影响诊断、治疗或分诊,监管问题就不能被“它只是建议”几个字轻轻带过。
在真实医院里,生成式 AI 较早落地的常常不是“自动诊断”,而是更琐碎、更沉重、也更容易理解的工作:病历文书。
《NEJM Catalyst》在2024年发表过一篇关于环境式人工智能书记员的文章,描述 The Permanente Medical Group 的部署经验。这个系统的流程并不神秘:在取得患者同意后,它记录门诊中的医患交流,生成临床记录草稿,再由医生审阅、修改并签署。文章称,在部署初期的十周内,数千名医生和临床人员在数十万次就诊中使用了这一工具。[4]
这里的关键词不是“AI 医生”,而是“草稿”。
病人看到的仍然是医生。医生仍然问诊、查体、解释和决策。AI 所做的是把对话转成一份初步笔记,让医生少在电子病历系统里敲一些键。美国医疗体系里,临床文书负担长期被认为是职业倦怠的重要来源之一;如果一个系统能把医生从键盘前解放一点出来,它当然有价值。
但草稿也是一种危险物。它看起来整齐,语气专业,格式像病历,医学术语摆放得体。正因为它像一份合格文件,医生才更需要记住它仍然只是草稿。一个否认症状被写成存在症状,一个药物剂量被听错,一个既往史被遗漏,在普通文档里是错误,在病历里就是风险入口。
这类工具的荒诞感来自它的双重身份:医院买它是为了减少医生负担;为了安全,医生又必须检查它生成的内容。检查太粗,风险上升;检查太细,节省的时间被拿走。所谓“人类在回路中”,不是把医生的名字挂在最后一页就结束,而是要给医生足够时间、界面和训练去发现机器的错误。
到2025年3月,微软发布 Dragon Copilot,官方把它描述为面向临床工作流的 AI 助手,并把此前的语音识别、临床文书和 DAX Copilot 等能力整合到新的产品叙事中。[5] 这是供应商对医疗文书市场的一个强烈信号。但供应商发布材料只能证明产品如何自我定位,不能单独证明患者结局改善、诊断质量提高或医生长期负担下降。专业系统里,宣传语需要被转化成研究设计、实施数据、错误审计和责任安排。
世界卫生组织在2024年关于健康领域大型多模态模型的指南中,把风险列得很直接:不准确或虚假内容、偏见、隐私泄露、网络安全、过度依赖,以及未经充分验证就用于临床任务。[6] 这些词在普通科技报道里可能显得保守,在医院里却很具体。病人是否知道对话被 AI 处理?音频和文本保存多久?模型供应商是否接触数据?医生修改了哪些内容?原始记录能否追溯?如果病历草稿漏写过敏史,最终责任如何认定?
于是,AI 进入门诊时,并没有像科幻小说那样坐上医生椅。它更像一位被允许旁听的书记员:能听,能写,不能签字。
三、患者听见的,是同意;医生留下的,是签名
在环境式 AI 书记员的流程里,患者遇到 AI 的第一个动作通常不是惊叹,而是同意。
这是一种非常普通却重要的专业礼节。医生或医疗机构需要说明:这次问诊可能由 AI 工具辅助记录;患者可以同意,也可能有拒绝的选择;AI 生成的内容不会直接成为最终病历,医生会审阅并签署。相比发布会里的流畅演示,这个场景显得笨拙:先讲用途,再讲限制,再继续问诊。可笨拙正是医疗系统保护人的方式。
患者的体验可能因此改善。医生不必一直盯着屏幕,谈话中少一些键盘声,问诊后的文书时间可能缩短。TPMG 的案例报告中也提到医生和患者对这种工具的积极反馈。[4] 但这里仍然要把边界说清:这类实施报告不是随机对照临床试验,不能据此推出“AI 改善医疗结果”的普遍结论。它证明的是一个具体组织在特定流程中引入 AI 文书工具,并观察到使用规模和反馈;它没有把整个医疗行业都交给模型。
医生留下的最后动作仍然是签名。这个动作在纸面上很简单,在制度上很重。签名意味着医生确认这份记录可以进入病历,意味着后续诊疗、保险编码、转诊沟通和法律审查可能都以它为依据。AI 如果把一句话写错,错误不会因为来源是模型就自动变轻。它进入病历后,就会像其他文书错误一样沿着系统流动。
这也是专业 AI 与消费 AI 的分界。消费软件常常把“用户自行判断”写进条款,然后在大规模使用中快速迭代。医院没有这种奢侈。一个文书工具看似低风险,因为它不直接开药、不直接诊断;但病历是医疗系统的记忆。记忆写错,后面的人就可能在错误记忆上继续工作。
FDA 在2025年草案中讨论生命周期管理,并不只是为了给企业增加表格。AI 医疗软件可能在不同医院、不同科室、不同口音、不同噪声环境中表现不同;模型更新后,旧的验证结果是否还成立,也需要被说明。[3] 对医院而言,采购 AI 不只是购买一个软件席位,而是接受一套持续监测义务:错误样本如何收集,医生如何反馈,版本如何变更,性能如何复查。
如果把这个场景压缩成一句话,那就是:AI 可以帮医生写得更快,但医生不能因此读得更少。
四、课堂从恐慌走向制度化使用
教育场景里的转折同样发生在流程层面。
生成式 AI 刚进入学校时,许多机构首先看到作弊风险。这个反应并不荒谬:如果作业主要表现为一篇可提交文本,而机器能够快速生成可提交文本,学校当然会紧张。只是到了2025年,一些教育机构开始从“要不要禁止”转向更困难的问题:如果学生终究会使用 AI,学校如何规定、训练、监督和评价?
2025年1月,美国教育部教育技术办公室发布《Designing for Education with Artificial Intelligence: An Essential Guide for Developers》。这份文件面向开发者,但它反复指向学校真正关心的问题:教育 AI 应当服务教学目标,尊重教师和学生的角色,关注隐私、安全、公平、可解释性和证据,而不是把课堂当作通用聊天机器人的试验田。[7]
一个月后,加州州立大学系统宣布与 OpenAI 合作,向其23个校区的学生、教师和员工提供 ChatGPT Edu。CSU 官方材料给出的规模是约46万名学生和6.3万名教职员工,并把它放在系统层面的 AI 计划中,包含工具访问、培训和支持资源。[8] OpenAI 同日发布材料,称这是当时 ChatGPT 最大规模的单一机构部署之一;这一表述来自供应商和合作方,应当被视为部署规模的官方说法,而不是学习效果的独立证明。[9]
这件事的重要性不在于“大学拥抱 AI”这种宽泛判断,而在于它把 AI 从个人账号变成了机构安排。个人学生偷偷使用一个公开聊天机器人,与学校采购一个有教育版管理能力的服务,不是同一件事。后者会引出一整套具体问题:账号由谁管理,数据如何保护,教师如何知道学生使用范围,课程政策如何写,哪些作业允许 AI 辅助,哪些考核必须独立完成。
据路透社2025年2月报道,这一合作发生在高校从早期禁用和混乱走向更正式采用的背景中。[10] 但正式采用并不等于教学问题解决。一个学校可以给所有人开通 AI 工具,却仍然不知道怎样衡量学生是否真正学会了写作、推理、编程或批判性阅读。技术部署只是第一步,教学设计才是难处。
教师遇到的 AI,不像发布会里的家教那样永远耐心、永远正确。它更像一位能力很强但需要看管的助教:可以帮忙生成练习题,可以协助改写讲义,可以给学生提供解释,可以让学生练习语言表达;也可能编出错误参考文献,给出过度简化的解释,或让学生把“获得答案”误认为“完成学习”。
学生遇到的 AI,也不是单纯的作弊机器。对一个第一代大学生、英语非母语学生、夜里打工后才有时间学习的学生来说,一个随时可用的解释工具可能确实有帮助。问题在于,帮助和替代之间的边界并不会自动出现。它需要教师把规则写进作业:哪些环节可以用 AI 讨论,哪些文字必须自己完成,是否需要披露使用方式,是否要提交草稿、过程记录或课堂口头解释。
教育领域的荒诞感在这里最明显。过去十几年,教育科技不断承诺“个性化学习”,常常把学生变成仪表盘上的进度条。生成式 AI 终于带来了更像自然语言家教的界面,却同时让传统作业的可信度摇晃。它既可能是补习资源,也可能是代写枪手;区别不只在模型,更在课程目标、教师判断和评价制度。
因此,CSU 的案例不应被写成“AI 改变教育”的胜利宣言。更准确的说法是:一个大型公立大学系统在2025年选择把 AI 使用纳入机构管理,而不是把它完全留在学生个人账号和灰色地带。至于它能否改善学习,还要看课程、教师培训、学生支持、隐私治理和后续评估。
五、实验室里的加速器,先要有计分器
科研场景里,AI 的作用看起来更接近“加速”。但科学系统对加速有自己的脾气:跑得快不够,结果还得能复现。
2025年2月,Google Research 发布“AI co-scientist”相关材料,把它描述为一个基于 Gemini 2.0 的多智能体系统,可以帮助研究者生成假设、进行文献综合并提出实验方向。[11] 这样的叙事容易让人联想到一位自动科学家。但在专业流程里,更可靠的理解是:它可以扩展候选想法的数量,不能替代实验验证和同行审查。
5月,Google DeepMind 发布 AlphaEvolve,称其为由 Gemini 驱动的算法发现智能体。官方材料介绍的核心机制,不是让模型自由写论文,而是让模型生成候选程序,再由自动化评估器测试和打分;系统在迭代中保留更好的候选,继续变异和改进。Google DeepMind 把它用于数学算法和自身计算基础设施优化等例子;这些成效来自供应商发布材料,应当标注为 Google DeepMind 的官方说法,而不是独立行业结论。[12]
AlphaEvolve 的专业意义在于“计分器”。很多研究问题并不适合让语言模型凭口才解决。它们需要可执行代码、测试集、约束条件和明确目标函数。模型提出一个候选算法,评估器运行它,检查正确性,测量效率。如果答案错了,测试会把它打下来;如果答案更快,还要继续确认它不是利用了测试漏洞。这里的 AI 更像一台会不断交作业的机器,而研究者的工作变成了设计题目、写评估器、检查异常、证明结果、复现实验。
这和聊天框里的“请解释某篇论文”完全不同。聊天框给出的是语言,AlphaEvolve 式流程要求候选方案能被机器执行和评分。模型的创造性被放进约束里,才有机会变成科学或工程进展。没有约束,所谓“灵感”可能只是流畅幻觉;有了约束,AI 生成的大量候选至少要先过测试这一关。
但测试也不是上帝。一个自动评估器只能衡量它被设计来衡量的东西。研究者如果把目标函数写窄了,系统可能优化出不符合真实需求的方案;如果测试覆盖不足,候选程序可能在未测试条件下失败;如果结果要进入论文,还需要公开方法、数据、代码、评估细节和失败边界。科学共同体不会因为输出来自 AI 就免除复现要求,反而可能提出更多问题:提示词是什么,模型版本是什么,随机种子如何处理,候选筛选过程是否可追踪,负结果是否被报告。
这就是实验室中的个人影响。研究者获得的不是一位替自己署名的同事,而是一台把候选空间突然扩大的机器。它可能让一个人一天看到过去一周才会尝试的方案,也可能把审查负担同步放大。过去,瓶颈在想法数量;现在,瓶颈可能变成验证能力。
科研 AI 最令人兴奋的地方不在于它绕开科学方法,而在于它在某些明确问题上把科学方法推进得更快。它也最值得怀疑,因为速度越快,越容易把“产生候选”误写成“完成发现”。实验室欢迎加速器,但加速器必须接在刹车、仪表盘和记录仪上。
六、监管文件里的冷水,正是系统的地基
到2025年春天,医院、课堂和实验室面对的是同一种结构性问题:AI 能把专业工作的一部分做得更快,但专业系统不能只按速度采购。
欧盟《人工智能法案》在2024年正式公布,采用基于风险的监管框架。教育和职业培训中的某些 AI 系统、作为医疗器械或其安全组成部分的 AI 系统,都可能落入高风险框架,需要满足风险管理、数据治理、技术文档、透明度、人工监督、准确性、稳健性和网络安全等要求。[13] 这类规定读起来不像创新故事,却定义了创新能否进入制度深处。
医疗里的关键是临床责任。AI 生成病历草稿,医生要审阅签署;AI 辅助分诊或诊断,机构要弄清监管属性、验证证据和适用人群;AI 供应商宣称节省时间,医院还要问节省的是谁的时间、增加的是谁的风险。医生签名不是橡皮图章,患者同意也不是装饰文本。
教育里的关键是学习责任。AI 可以帮助解释和练习,教师仍要判断学生是否掌握了能力;学校可以采购工具,不能把教育公平外包给一个聊天框;学生可以使用辅助系统,但课程规则必须说明何为协助、何为代写、何为必须披露。成绩单上不会写“由模型共同完成”,最后负责评价的人仍是教师和学校。
科研里的关键是知识责任。AI 可以提出假设、写代码、筛选候选;论文作者仍要保证结果可复查,实验仍要能重复,代码和数据仍要经得起同行追问。一个模型生成了漂亮方案,并不意味着这个方案自动成为科学事实。科学事实不是由语言流畅度授予的,而是由证据、方法和共同体审查支撑的。
专业系统里的“人在回路中”也需要警惕变成空话。真正的人类监督要有条件:人要看得懂系统输出,人要有时间检查,人要知道常见错误,人要能推翻模型建议,人要不因组织效率压力而被迫盖章。如果所有流程都要求人负责,却不给人足够能力和时间,那么“人类负责”就会从安全机制滑向责任转嫁。
这就是2025年AI专业化的冷峻面。技术公司把模型包装成助手,机构把助手嵌进流程,监管者要求流程可审计,专业人员在最后签字。每一方都说自己没有完全放手,但风险可能正是在这些“没有完全”之间移动。
七、从炫技到专业系统
2025年1月至5月,人工智能行业仍然热闹。Operator 会点网页按钮,Deep Research 会组织资料,医疗文书工具进入门诊,大学系统开始采购教育版聊天机器人,算法发现系统把语言模型接到自动评估器上。它们都让人看到同一个方向:AI 正从演示台进入工作台。
但工作台不是舞台。
在舞台上,模型只要完成一个令人惊讶的任务;在工作台上,它要被放进权限、日志、培训、验证、采购、隐私、监管和责任链。医院不会因为模型会写医学术语就交出诊疗权;学校不会因为模型会讲题就自动获得学习效果;实验室不会因为模型能生成假设就跳过复现。专业系统的保守,常常不是拒绝创新,而是在保护那些不能用“再试一次”轻易修复的后果。
这并不意味着 AI 的影响被高估。恰恰相反,一旦它被专业系统认真吸收,影响可能比消费级炫技更深。一个可靠的文书助手可能改变医生每天和屏幕相处的时间;一个政策绑定的教育 AI 可能改变教师布置作业和学生寻求帮助的方式;一个带自动评估器的研究智能体可能改变算法搜索的节奏。只是这些改变不会像发布会那样干净,它们会带着培训手册、审批表、错误报告和会议纪要一起出现。
2025年的关键词不是“替代”,而是“协助下的问责”。
AI 帮忙写,谁签?
AI 帮忙教,谁评?
AI 帮忙发现,谁证明?
当这些问题被认真提出时,人工智能才真正开始进入医院、课堂和实验室。炫技让人相信机器会做事;专业系统要求机器做事之后,还能被检查、被限制、被追责。前者制造兴奋,后者制造现实。
参考文献
- OpenAI,Introducing Operator,2025.01.23。
- OpenAI,Introducing deep research,2025.02.02。
- U.S. Food and Drug Administration,Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations; Draft Guidance for Industry and Food and Drug Administration Staff,2025.01.07。
- NEJM Catalyst,Ambient Artificial Intelligence Scribes to Alleviate the Burden of Clinical Documentation,2024。
- Microsoft,Introducing Dragon Copilot: Your AI assistant for clinical workflow,2025.03.03。
- World Health Organization,Ethics and governance of artificial intelligence for health: Guidance on large multi-modal models,2024.01.18。
- U.S. Department of Education, Office of Educational Technology,Designing for Education with Artificial Intelligence: An Essential Guide for Developers,2025.01。
- California State University,The CSU Makes AI Available to 460,000 Students and 63,000 Faculty and Staff,2025.02.04。
- OpenAI,California State University and OpenAI launch the largest deployment of ChatGPT to date,2025.02.04。
- Reuters,OpenAI to bring ChatGPT to California State University students and faculty,2025.02.04。
- Google Research,Accelerating scientific breakthroughs with an AI co-scientist,2025.02.19。
- Google DeepMind,AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms,2025.05.14。
- European Union,Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence,2024.07.12。
第26章|真空的尽头:GPT-4.5、Gemini 2.5 与 GPT-5 前夜
一、等待不是安静,是发布页连着发布页
从后来 OpenAI 官方直播索引回看,2025 年春夏的顺序并不神秘:GPT-4.5、o3 与 o4-mini、Codex、ChatGPT agent,随后才是 GPT-5 作为新的主叙事登场。[1] 这意味着本章不能再把 2025 年上半年写成一个空白的“等待 GPT-5”时期。它更像一间加压舱:门还没有打开,里面却已经堆满了模型、订阅档位、API 名称、推理系统、编码助手和多模态承诺。
人工智能行业并没有在 GPT-5 之前停下来。它反而变得更吵。
这种吵,不是早期创业公司式的白噪音,而是前沿实验室正式发布、正式收费、正式进企业采购表的噪音。OpenAI 在 2 月发布 GPT-4.5,4 月连续把 GPT-4.1、o3 和 o4-mini推到开发者与 ChatGPT 用户面前,5 月把 Codex 包装成云端软件工程代理,7 月又推出 ChatGPT agent。Google 在 3 月发布 Gemini 2.5 Pro Experimental,4 月把 Gemini 2.5 Flash 放进开发者视野,6 月宣布 Gemini 2.5 Pro 和 Flash 稳定可用。Meta 在 4 月发布 Llama 4 系列,xAI 在 7 月推出 Grok 4,Mistral 在 6 月发布自己的推理模型 Magistral。[2][3][4][5][6][7][8][9][10][11][12]
这是一种很新的行业节奏。过去,一个大版本模型像钟声:GPT-3、ChatGPT、GPT-4,每一次敲响,市场都能听出方向。到了 2025 年上半年,钟声变成了消息提醒。每隔几周,用户就要重新理解一次:这次是聊天模型,还是推理模型?是 API 模型,还是 ChatGPT 模型?是给 Pro 用户,还是给 Plus 用户?是研究预览,还是稳定版本?是能看图,能写代码,能调用工具,还是能在浏览器里执行任务?
这不是“暴风雨前的宁静”。这是暴风雨前,所有人已经在搬设备、改电路、加固窗户、检查保险条款,还顺手换了三套遥控器。
第二版叙事必须承认一个事实:GPT-5 对读者而言已经不是未知物。真正值得追踪的,是它出现之前,行业如何把“下一代模型”的悬念拆成许多中间产品。OpenAI 没有只让市场等一个名字;Google 没有把舞台让空;开源权重阵营没有安静;面向开发者的编码工具也没有停在演示里。所谓“真空”,不是没有空气,而是空气被抽到足以让每一次发布都带着压力。
这也是 2025 年上半年荒诞而真实的地方:行业等待一个更大的模型,同时又不断购买、测试、迁移、弃用一批“小一号但已经足够复杂”的模型。前沿 AI 公司一边承诺未来会更简单,一边把现在变得更像航空公司票价表。
二、GPT-4.5:半代旗舰的尴尬位置
2025 年 2 月 27 日,OpenAI 发布 GPT-4.5。官方材料把它称为研究预览,强调它是当时 OpenAI 在聊天体验、知识广度、模式识别和自然交互方面最强的模型之一;系统卡则列出一系列安全评估、能力测试与风险说明。[2][3]
如果把 GPT-4.5 放回 2023 年,它很可能会被写成一次大事件。可是它站在 2025 年初,面对的是另一套观众。用户已经被 GPT-4、GPT-4o、o1、o3-mini、DeepSeek-R1、Claude、Gemini 反复训练过。他们不只问“能不能写诗、写代码、解释图片”,也问“延迟多少、价格多少、上下文多长、能不能调用工具、会不会被弃用、在企业里有没有合规说明”。
GPT-4.5 的名字先天带着半代感。它不是 GPT-4,也不是 GPT-5。它像一块路标,写着“前方施工”,但没有说高速何时全线通车。OpenAI 的发布并没有把它塑造成 GPT-5 的替代品,而是把它放在研究预览和高质量对话的位置上。这个定位很克制,也很难逃脱比较。
可真正改变叙事的,不只是 GPT-4.5 本身,而是随后发生的事情。4 月 14 日,OpenAI 发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,明确面向 API,强调编码、指令遵循和长上下文能力。同一篇官方公告中,OpenAI 还说明 GPT-4.5 Preview API 将在 2025 年 7 月 14 日下线,理由是 GPT-4.1 在许多场景下以更低成本和更低延迟提供了强能力。[4]
这条弃用信息比任何排行榜都更能说明半代旗舰的处境。一个 2 月末发布的研究预览,到了 4 月中旬就在 API 路线上被更便宜、更面向生产的模型挤压。对开发者来说,这不是哲学问题,而是迁移计划。代码里写着某个模型名,评测脚本记录着某个延迟,预算表里按某个 token 价格估算,一纸公告就能让这些东西变成倒计时。
GPT-4.5 因此成了一个过渡时代的标本。它证明模型仍然在进步,也证明“更强”不再自动等于“更应该接入”。在真实产品里,能力、成本、稳定性、可用期限、工具支持和企业政策一起决定模型命运。一个模型可以在聊天中更自然,却不一定是客服系统、代码代理、法律审阅或企业知识库的最佳选择。
这就是 2025 年的前沿模型现实:模型发布不再是终点,而是供应链事件。
三、OpenAI 把“一个大模型”拆成三个货架
GPT-4.5 之后,OpenAI 的动作更像在整理一个越来越拥挤的货架。
第一层货架是 API 与通用开发。4 月 14 日的 GPT-4.1 系列面向开发者,强调一百万 token 上下文、编码能力和指令遵循。它不是 ChatGPT 主舞台上的大旗帜,却对开发者非常具体:如果要把模型接进代码库、文档系统、客服后台或企业流程,API 模型的价格、延迟和稳定性比发布会上的一句“更聪明”更重要。[4]
第二层货架是推理。4 月 16 日,OpenAI 发布 o3 和 o4-mini。官方材料把 o3 定位为更强的推理模型,把 o4-mini 定位为速度、成本与性能之间的折中,并强调这些模型可以在 ChatGPT 中结合工具使用,包括浏览、Python、图像理解、文件分析等能力。[5] 这次发布的重点不是让模型更会聊天,而是让模型在回答前更会“做题”、更会分解问题、利用工具和处理多模态输入。
o 系列让“模型”这个词开始显得不够用。用户看到的仍是一段回答,背后可能已经发生了检索、读图、运行代码、查看文件、调用工具和再组织答案。系统的能力不再只来自权重,而来自模型、工具、权限和产品界面的组合。一个不会用工具的强模型,可能在现实任务中输给一个稍弱但能稳定调用工具的系统;一个推理能力很强的模型,也可能因为成本和延迟被挡在大规模产品之外。
第三层货架是编码代理。5 月 16 日,OpenAI 发布 Codex,称其为云端软件工程代理。官方说明中,Codex 可在隔离的云环境里处理代码任务,例如修复 bug、实现功能、回答代码库问题和运行测试;它由 codex-1 驱动,后者被描述为基于 o3、针对软件工程优化的模型版本。发布时,Codex 以研究预览形式向 ChatGPT Pro、Enterprise 和 Team 用户开放,Plus 与 Edu 随后开放。[6]
这不是早期“帮我写一个函数”的代码补全。Codex 的产品形态更接近把任务派给一个远程工程助手:给它一个代码库,让它在沙盒里读文件、改文件、跑测试,然后提交结果供人审阅。这里的关键不是它每次都能成功,而是工作流变了。模型开始进入软件开发的工单系统,而不只是待在聊天窗口里生成片段。
到了 7 月 17 日,OpenAI 又发布 ChatGPT agent,官方称它把网页操作、研究和对话能力结合起来,可以在用户授权下执行更复杂的多步骤任务。[7] 本章只把它作为序列终点附近的信号,不展开它的后续平台化影响;那部分材料将移到后文关于 GPT-5 与 agent 转向的章节。重要的是,在 GPT-5 到来之前,OpenAI 已经公开展示了一个方向:未来的旗舰不是单纯更会说话,而是要把聊天、推理、代码、浏览、文件和行动组织成系统。
等待 GPT-5 的用户,实际上已经被迫先学习一套准 GPT-5 时代的菜单。
四、Google 把压力从侧面压过来
OpenAI 没有独占 2025 年春天的前沿叙事。3 月 25 日,Google 发布 Gemini 2.5 Pro Experimental,官方标题直接把它称为当时最智能的 Gemini 模型,并把 Gemini 2.5 系列描述为“thinking model”路线:模型在回应前进行更强的推理。[8]
这对 Google 很重要。它拥有 Transformer 传统、DeepMind 研究资产、搜索入口、Android、Chrome、YouTube、Workspace 和 Google Cloud。按资产表看,它几乎不该在生成式 AI 叙事里处于追赶位置。但 ChatGPT 之后,公共注意力一度被 OpenAI 拿走。Gemini 2.5 Pro 的发布,是 Google 把“我仍在前沿”重新写到标题里的动作。
Gemini 2.5 Pro 的官方材料强调推理、编码、多模态和长上下文。它支持百万级 token 上下文,Google 还表示更长上下文正在推进。[8] 对企业和开发者而言,长上下文不是一个适合海报的数字那么简单。它意味着模型可能一次读入更多代码库、合同、会议记录、日志、论文或多模态材料。可是长上下文也不是魔法。把一百万 token 放进窗口,不等于模型每次都能稳稳抓住关键证据;上下文越长,评估越难,错误也可能越隐蔽。
4 月,Google 又推出 Gemini 2.5 Flash 预览,把“思考”与低延迟、低成本结合起来。[9] 这条路线很现实:企业不会把所有请求都交给最贵的旗舰模型。大量任务需要的是足够好的推理、可控的价格和稳定吞吐。到 6 月 17 日,Google 宣布 Gemini 2.5 Pro 和 Gemini 2.5 Flash 稳定可用,并推出 Flash-Lite 预览。[10] 这意味着 Google 不只是展示一个顶级模型,而是在补齐分层产品线:旗舰、快速版本、轻量版本、开发者 API、云服务入口和消费端应用。
前沿模型竞争于是从“谁有最大模型”变成“谁能把模型铺成一张网”。OpenAI 有 ChatGPT 与 API,Google 有搜索、Workspace、Android 和 Vertex AI。模型能力相近时,默认入口会变得极其重要。用户不会为了一个小幅榜单优势轻易迁移全部工作流;他们更可能使用已经嵌在邮件、文档、浏览器、手机和云后台里的助手。
Google 的官方材料同样列出 benchmark,但这些数字需要放在谨慎框架里看。2025 年的榜单已经太多:数学、科学问答、代码修复、长上下文、多模态、人类偏好,各有各的测试。公司会选择有利角度展示进步,这并不等于数据无效;它只是提醒读者,benchmark 是地图,不是领土。一个模型在竞赛数学上高分,不等于它适合企业合规审查;一个模型在代码榜上领先,也不等于它能在复杂遗留系统里稳定交付。
Gemini 2.5 的意义,不在于用某一张表宣告胜负,而在于它让 GPT-5 前夜变得不再由 OpenAI 单独定义。OpenAI 如果留下空档,Google 就会把推理模型、长上下文和云端入口填进去。
五、开源权重、公共广场与小语种推理模型
4 月 5 日,Meta 发布 Llama 4 系列。官方文章称其为原生多模态 AI 创新的新阶段,推出 Llama 4 Scout 和 Llama 4 Maverick,并预览更大的 Llama 4 Behemoth。[11] 这是一条与 OpenAI、Google 不完全相同的路线:不是只通过一个闭源 API 出售能力,而是用开放权重把生态扩散出去。
Llama 4 的官方材料强调混合专家架构、多模态能力和长上下文。Scout 被描述为具备超长上下文能力,Maverick 则面向更强的通用助手与多模态任务;Behemoth 在发布时仍是预览,而非可供普通开发者完整调用的产品。[11] 这类细节很重要。开源权重阵营常被写成“闭源巨头之外的自由世界”,但大模型的开放从来不是传统软件开源的简单复刻。权重可以下载,模型可以部署,社区可以微调;训练数据、训练流程、算力成本和许可证边界却未必完全透明。
即便如此,Llama 的现实价值仍然巨大。对许多企业而言,“可控部署”本身就是能力。金融、医疗、政府承包商、制造业和法律服务机构未必愿意把全部数据送进闭源 API。它们关心模型多聪明,也关心数据边界、日志审计、成本上限、供应商锁定和本地化定制。开放权重模型让这些组织多了一张谈判牌:不是所有智能都必须从同一家云端窗口租来。
7 月 9 日,xAI 发布 Grok 4 和 Grok 4 Heavy。[12] 与 Google 的生产力生态、Meta 的开放权重不同,xAI 的优势绑定在 X 平台、实时信息和强烈的品牌传播上。官方发布把 Grok 4 放在前沿模型竞争中,强调推理、工具使用和更强能力。它提醒行业,前沿 AI 的“入口”并不只在办公套件和开发者控制台,也可以在公共舆论广场里。实时性是吸引力,也是风险:越靠近突发信息,越需要来源、纠错和责任边界。
同一时期,欧洲模型公司也没有离场。6 月,Mistral 发布 Magistral,称其为面向推理任务的模型系列,包括开放权重的小型版本和面向企业/API 的中型版本。[13] 它的存在说明,推理模型的概念已经扩散出 OpenAI 的 o 系列。2025 年上半年,“reasoning model”不再是某一家实验室的内部术语,而成了产品目录里的一个类别。
这些非 OpenAI 模型构成了 GPT-5 前夜的横向压力。Google 证明闭源前沿不只有一家;Meta 证明开放权重仍能参与主战场;xAI 证明公共平台可以成为模型分发渠道;Mistral 证明推理模型正在全球化。等待 GPT-5 的行业并不是站在原地看一个门口,而是站在十字路口,被四面八方的发布推着走。
六、普通用户面对的不是智能,是菜单
这一时期最具体的个人影响,不需要编造某个用户在屏幕前皱眉。公开文档已经足够说明问题。
一个 ChatGPT 用户在 2025 年上半年可能看到 GPT-4o、GPT-4.5、o3、o4-mini、o4-mini-high、Deep Research、Codex、Operator 或 ChatGPT agent;不同功能对应 Free、Plus、Pro、Team、Enterprise、Edu 等不同入口和限额。一个 Google 用户则要区分 Gemini app、Gemini Advanced、Google AI Studio、Vertex AI、Gemini 2.5 Pro、Gemini 2.5 Flash、Flash-Lite,以及不同地区、不同产品中的可用性。开发者还要面对模型版本号、上下文长度、工具调用接口、计费方式、速率限制、弃用日期和迁移指南。[4][5][6][7][8][9][10]
这就是人工智能产品化后的行业幽默:公司说要让 AI “just work”,用户却先要做一张模型族谱。
订阅决策也变得更像采购。Plus 是否够用?Pro 是否值得?团队版是否只是权限管理,还是能拿到关键模型?企业版是否提供数据控制和合规条款?如果用 API,应该把复杂任务路由给 o3,日常任务交给 mini 或 Flash,代码任务交给 Codex 或专门的代码模型,长文档交给长上下文模型,还是直接等 GPT-5?这些问题没有一个能靠“最新模型最强”解决。
开发者的处境更具体。GPT-4.5 Preview API 的弃用日期给了一个清晰例子:模型发布后不到两个月,迁移时钟就开始响。[4] 对实验项目来说,这只是改一行 model name;对企业系统来说,它可能意味着重新跑评测、重算成本、更新合规文件、修改提示词、调整缓存、检查失败案例、重新培训内部用户。模型能力越快进步,围绕模型建立的业务系统越容易变成移动靶。
编码工具让这种移动靶进一步加速。OpenAI 的 Codex 把软件工程任务放进云端代理;GitHub 在 6 月宣布 Copilot coding agent 向 Copilot Business 用户开放,把“给 AI 派工单”的模式推向更多企业开发流程。[14] 这类工具并不是简单替代程序员,而是改变代码审查、测试、任务分配和权限边界。开发团队必须决定:哪些仓库能让代理读取?哪些测试必须通过?谁批准合并?代理生成的安全漏洞由谁负责?
用户疲劳因此不是对技术进步的抱怨,而是系统复杂性的结果。每个模型都可能有道理,每个版本都可能在某些测试上更强,每个订阅档位都有自己的说明。问题在于,人类的工作流没有跟着每周发布自动重构。一个律师事务所、医院、学校、客服中心或软件团队,不能因为模型菜单变化就每月重写一次责任制度。
GPT-5 前夜的真正个人体验,常常不是“未来即将到来”的宏大震动,而是一个很小的问题:今天到底该选哪个?
七、榜单之后,是系统的压力
2024 年底,路透社曾报道,OpenAI 等领先实验室正在寻找让 AI 继续变聪明的新路径,因为单纯扩大训练规模的收益面临更复杂的限制。[15] 到 2025 年上半年,公开发布给出了一个答案:实验室没有停止扩大模型,但它们同时把推理时计算、工具调用、长上下文、代码代理、多模态和产品分层推到前台。
这不等于“前沿停滞”,也不等于“AGI 近在眼前”。它说明进步的形态变了。GPT-4 时代最容易讲的故事是一个更大的聊天模型震动世界;2025 年上半年的故事则更像系统工程:哪个模型负责推理,哪个模型负责低成本调用,哪个工具负责浏览,哪个代理负责代码,哪个产品层负责权限,哪个订阅档位负责商业化。
benchmark 在这里仍然有价值,但不能代替判断。前沿公司发布的测试成绩可以显示某些任务上的进步,也可能帮助研究者发现能力边界。可是榜单无法完全回答真实部署中的问题:模型在长上下文中是否遗漏关键条款?代码代理修改文件后是否引入隐蔽漏洞?工具调用失败时系统能否回滚?模型引用来源是否可审计?企业数据是否被用于训练?用户是否理解自己授权了什么?
这就是“真空的尽头”。GPT-5 到来之前,行业已经不再只等一个更强的回答者,而是在等待一个能把这些碎片重新组织起来的系统名称。OpenAI 的 GPT-4.5、GPT-4.1、o3、o4-mini、Codex 和 ChatGPT agent,Google 的 Gemini 2.5 Pro 与 Flash,Meta 的 Llama 4,xAI 的 Grok 4,Mistral 的 Magistral,共同把前沿 AI 从单一模型竞赛推向产品矩阵竞赛。
从第二版叙事看,GPT-5 的意义会在后文展开;本章的任务不是假装它仍在雾中,而是说明雾里已经塞满了机器。等那个更大的名字出现时,市场要比较的已不只是模型聪明程度,还包括价格、延迟、工具、权限、代理能力、开发者生态、企业控制和责任结构。
所谓等待,已经被产业自己改造成了压力测试。
补丁说明
参考文献
- OpenAI,OpenAI Live,2025。
- OpenAI,Introducing GPT-4.5,2025-02-27。
- OpenAI,GPT-4.5 System Card,2025-02-27。
- OpenAI,Introducing GPT-4.1 in the API,2025-04-14。
- OpenAI,Introducing OpenAI o3 and o4-mini,2025-04-16。
- OpenAI,Introducing Codex,2025-05-16。
- OpenAI,Introducing ChatGPT agent,2025-07-17。
- Google,Gemini 2.5: Our most intelligent AI model,2025-03-25。
- Google AI for Developers,Gemini 2.5 Flash Preview release notes,2025-04-17。
- Google AI for Developers,Gemini 2.5 Pro and Flash stable releases,2025-06-17。
- Meta AI,The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation,2025-04-05。
- xAI,Grok 4,2025-07-09。
- Mistral AI,Magistral,2025-06-10。
- GitHub Blog Changelog,GitHub Copilot coding agent is now available for Copilot Business users,2025-06-24。
- Reuters,OpenAI and others seek new path to smarter AI as current methods hit limitations,2024-11-11。
第27章|MCP 与工具权限:Agent 从演示走向工作流
一、一只鼠标,和一串权限
一个 Agent 有多有用,取决于它能碰到哪些工具;它有多危险,也取决于同一件事。
2024年10月,Anthropic 发布新版 Claude 3.5 Sonnet,并把“computer use”作为公开测试能力放进开发者视野。官方说明很直接:Claude 可以看屏幕、移动光标、点击按钮、输入文本,像人类一样与电脑界面交互。[1] 这不是模型榜单上多一行分数,而是边界发生了移动。过去,大模型的错误多半停在文本层:一句错误摘要,一段不可运行代码,一个虚构引用。用户不复制、不粘贴、不执行,错误还有一道人工闸门。Computer Use 以后,模型可以把判断变成动作。
动作有重量。点击“发送”和写出“建议发送”不是同一种产品;运行 rm 命令和解释 rm 命令不是同一种风险;打开网页搜索资料和登录后台修改客户记录,也不是同一种权限。Agent 叙事里最容易被忽略的事实是:所谓“智能体”,并不是一个漂浮在语义空间里的聪明角色,而是一个被工具、凭证、上下文和授权边界定义出来的系统。
Anthropic 在发布时也没有把 Computer Use 描述成成熟生产自动化。它强调这项能力仍是 beta,并列出限制:模型可能在滚动、拖拽、精确鼠标操作、复杂动态界面中失败;开发者需要在虚拟机或容器等隔离环境中测试,限制网络与文件访问,并在高风险操作上加入人工确认。[1] 这组提醒比演示更接近 Agent 的现实。一个会点鼠标的模型,最先需要的不是掌声,而是沙箱。
这一章的主题由此展开。2024年10月至2025年10月,Agent 从早期演示走向工作流,真正的桥梁并不是某个单独模型名字,而是一组更枯燥的基础设施:工具协议、权限设计、远程连接、审计日志、技能包、沙箱、人工确认。行业仍然兴奋,因为 AI 第一次开始大规模接近“帮我办事”;行业也必须怀疑,因为每接入一个工具,就多一个攻击面,每开放一个权限,就多一条事故路径。
这也是 MCP 出现的背景。Agent 如果只会聊天,它需要的是上下文窗口;Agent 如果要办事,它需要的是工具插座。
二、MCP 标准化了插座,没有标准化信任
2024年11月25日,Anthropic 发布 Model Context Protocol,简称 MCP。官方把它定义为一种开放标准,用于把 AI assistant 连接到数据所在的系统,包括内容仓库、业务工具和开发环境。[2] 这句话不像“AI 会操作电脑”那样适合短视频传播,却更像工程现场的第一根脚手架。
在 MCP 之前,开发者当然也能给模型接工具。接 GitHub 写一个连接器,接 Slack 写一个插件,接数据库写一套查询接口,接 Google Drive 再写一遍认证和文件读取逻辑。问题在于,这种集成方式很快变成碎片化工程:每个平台有自己的工具定义,每个应用有自己的上下文传递方法,每个企业又有自己的权限体系。模型越多,工具越多,连接成本越像泥潭。
MCP 试图把这件事抽象成协议。按照 Anthropic 的介绍和 MCP 官方文档,一个 MCP 系统通常包含 host、client、server 等角色:用户使用的 AI 应用作为 host;client 维护与 server 的连接;外部数据源或工具通过 MCP server 暴露能力。[2][3] Server 可以提供 resources、tools、prompts 等能力,让 AI 应用用相对统一的方式发现上下文、读取资源、调用工具或使用预设提示模板。协议层面使用标准化消息结构和传输方式,后来也围绕远程连接、授权流程继续演进。[3]
这解决的是“怎么接”的问题,而不是“能不能信”的问题。
MCP 标准化的是接口形态:一个工具怎样被声明,资源怎样被暴露,客户端怎样发现服务器能力,模型应用怎样请求调用。它并不自动判断某个 MCP server 是否可信,不自动决定某个工具是否应该被允许修改数据,也不会因为函数名写得规范就理解一次操作的真实业务后果。一个工具叫 send_email,协议可以传递参数;它不能替组织判断这封邮件是否该发给外部客户。一个工具叫 delete_record,协议可以完成调用;它不能把不可逆删除变成安全动作。
这也是本章必须划清的边界:协议不是安全本身。协议可以让连接更可管理,让生态少重复造轮子,也能为权限、授权和日志提供更清晰的挂钩位置;但它不能替代身份管理、最小权限、人工审批、供应链审查、沙箱隔离和事故响应。把 MCP 理解成“Agent 时代的 USB-C 接口”是有帮助的类比;把它理解成“接上就安全”的护身符,则正好走向相反方向。
Anthropic 在 MCP 发布时列举了常见服务器和集成方向,包括 Google Drive、Slack、GitHub、Git、Postgres、文件系统和浏览器自动化等。[2] 这些名字说明了 Agent 的真实工作半径。所谓“智能体进入企业”,并不是抽象地进入“知识世界”,而是进入文件夹、代码仓库、聊天频道、数据库表、工单系统和网页后台。宏大的 AGI 叙事,落到工作流里,常常变成读取、查询、复制、提交、同步、修改这些动词。
这正是 MCP 的意义:如果 Agent 要从演示走向工作流,不能每家公司、每个工具、每个模型平台都重新发明插座。但插座统一以后,通电的责任并没有消失。
三、浏览器、桌面、终端:Agent 的领土也是事故现场
MCP 解决连接形态,Computer Use 和各类工具调用则把 Agent 带进具体领土。这个领土大致有三块:浏览器、桌面和终端。
浏览器是最诱人的入口。大量现代工作已经网页化:CRM、广告后台、客服系统、企业邮箱、报销平台、招聘系统、在线表格、票务、采购、内部知识库。浏览器里有按钮、有表单、有登录态、有支付页,也有弹窗、广告、Cookie 横幅、A/B 测试、验证码、动态加载和恶意网页文本。对模型来说,浏览器既是资料源,也是操作面;既能完成搜索,也能误触提交。
桌面则更像旧世界与新世界的交界。很多公司仍然依赖本地文件、旧版办公软件、压缩包、PDF、共享盘和行业专用客户端。Computer Use 让模型可以通过截图和鼠标键盘模拟人类操作,绕过没有 API 的系统。这一点极有价值,因为现实中的企业软件从来不是一张整洁的现代云架构图。它更像多年采购、外包、内部开发和临时补丁堆出来的地质层。人类坐在这些地层之间,做着复制、粘贴、核对、录入、保存、上传。Agent 只要能稳定处理其中一小部分,就足以改变很多办公室节奏。
终端则是另一种东西。它没有浏览器界面的花哨,却拥有更直接的后果:安装依赖、读写文件、调用云服务、运行测试、访问环境变量、启动部署脚本。对开发者来说,终端是高效工具;对 Agent 来说,终端也是最需要边界的工具之一。一个网页点错按钮可能提交错误表单;一个终端命令点错路径,可能改掉仓库、泄露密钥、删除文件或触发昂贵任务。
因此,工具不是一个单一类别。搜索网页、读取文件、写入文件、发邮件、改数据库、提交订单、执行 shell、调用支付接口,风险等级完全不同。Agent 产品如果只在界面上把它们统称为“tools”,就会掩盖真正问题:工具调用的副作用差异极大,授权也必须分层。
OpenAI 在2025年1月发布 Operator 时,把网页操作能力作为研究预览展示:系统可以使用浏览器执行任务,但在登录、付款、发送、提交等敏感动作上需要用户接管或确认。[4] 这个产品设计本身就是一种行业信号。浏览器 Agent 的成熟标志不是它永远不问人,而是它知道什么时候必须问人。完全自动化听起来更像未来;可部署的自动化往往更像一套闸门。
这里的荒诞感来自软件世界本身。人们先把 Agent 称为“数字员工”,随后又必须给这个员工配虚拟机、受限浏览器、只读凭证、确认按钮、审批流、日志系统、回滚方案和紧急停止开关。一个被营销为“自主”的系统,真正进企业时,第一项工作常常是被限制。可这不是倒退,而是 Agent 开始接触现实后的第一课:工具越强,笼子越重要。
四、远程 MCP:插座从本机伸向云端
MCP 的早期场景很容易被理解成开发者本机上的连接:Claude Desktop 或类似 host 通过本地 client 连接文件系统、Git、Postgres、GitHub 等 server。这样的结构适合实验,也适合个人工作流。但企业工作不只发生在一台电脑上。工具在云上,凭证在身份系统里,日志在安全平台里,数据在 SaaS 和私有服务之间流动。Agent 如果要进入组织流程,MCP 也必须从本地走向远程。
2025年,远程 MCP 成为一个更明确的方向。Anthropic 在 Claude Code 相关发布中加入 remote MCP 支持,使 Claude Code 能连接远程 MCP server,而不只是本机服务。[5] 这一步的意义不在于“写代码更方便”本身,而在于它把 MCP 从开发者桌面上的插件形态,推向了云端工具和企业服务的连接形态。远程 server 可以代表一个组织维护的系统入口,也可以承载更统一的认证、权限和审计策略。
7月9日,GitHub 在 changelog 中宣布 Copilot coding agent 支持 remote MCP servers。[6] 这是一条看似窄的更新,却很适合观察基础设施如何扩散。GitHub 的场景仍然是软件开发,但 remote MCP 触及的是更普遍的问题:当一个 Agent 需要读取外部上下文、调用外部工具、遵循组织配置时,工具连接不能只靠本地脚本和个人配置文件。它需要能被企业管理员理解、配置和撤销。
这里仍要保持怀疑。远程 MCP 并不自动提高安全等级。相反,把工具 server 放到远程后,攻击面也会发生变化:server 的身份如何验证?OAuth 授权范围是否过宽?用户是否看得懂授权页面?恶意或被攻陷的 server 是否能返回诱导性内容?日志保存在哪里?企业能否知道某个 Agent 在何时调用了哪个远程工具、带了哪些参数、拿到了哪些数据?
远程连接让 Agent 更接近工作流,也让权限设计变得更像真正的企业安全工程。过去,个人在本机跑一个脚本,出错范围相对有限;现在,一个 Agent 通过远程 MCP 连接公司知识库、仓库、工单、客服或 CRM,出错就可能跨系统传播。所谓“从演示到工作流”,在基础设施层面就是这一步:从单机魔法,进入可管理、可审计、可撤销的组织连接。
GitHub 的 remote MCP 支持还说明另一件事:Agent 基础设施不会停留在某一家模型公司的生态里。Anthropic 提出 MCP,GitHub 接入 remote MCP,其他平台也开始围绕连接、工具和权限做自己的产品化包装。协议扩散不是胜利终点,而是竞争开始。谁控制 host,谁控制 server,谁控制授权界面,谁控制日志,谁就可能在 Agent 时代控制工作流入口。
五、制度化:基金会、AgentKit 与 Skills
2025年10月,Agent 基础设施开始出现更强的制度化迹象。
Linux Foundation 宣布成立 Agentic AI Foundation。官方公告把它定位为面向智能体 AI 的开放治理与基础设施组织,并把 MCP、AGENTS.md、goose 等项目纳入其中。[7] 这类基金会新闻通常不如模型发布刺激,但它对行业有另一种意义:当一个协议或实践从公司发布页进入中立基金会,外界会看到一个信号——这不再只是某家供应商的功能,而是可能被多方共同治理的生态资产。
这并不意味着争议结束。开放基金会可以降低单一公司控制标准的担忧,可以让云厂商、模型公司、开发者工具、企业用户和开源社区在同一张桌子上讨论接口与治理;但它不会自动解决产品可靠性、安全事故或商业利益冲突。标准进入基金会,是制度化的开始,不是现实部署的担保书。
同一时期,OpenAI 在 DevDay 期间发布 AgentKit,称其为帮助开发者把 Agent 从原型带到生产的一组构件,包括 Agent Builder、Connector Registry、ChatKit 以及面向 Agent 的评估能力。[8] 这个方向与 MCP 的开放协议叙事不同,更像平台公司给出的“全套施工包”。开发者不只是需要模型调用,还需要连接器管理、可视化编排、嵌入式聊天界面、评估和调试。Agent 进入生产后,产品形态必然从“一个输入框”膨胀成一套后台系统。
OpenAI 同日还发布 Apps SDK,使开发者可以把应用接入 ChatGPT,官方说明中也把 Apps SDK 与 MCP 关联起来,作为连接应用、工具和对话界面的基础之一。[9] 这再次说明 MCP 不只是 Anthropic 生态里的名词,而成为更大平台竞争里的一个共同参照。协议、应用商店、连接器注册表、企业权限界面,这些过去看起来属于不同软件时代的部件,开始围绕 Agent 汇合。
Anthropic 则在10月用另一种方式回答“Agent 怎样进入真实工作”:Agent Skills。其工程文章把 Skills 描述为可打包的能力单元,通常包含说明文件、脚本和资源,让 Claude 在需要时加载相应技能,以完成特定领域或特定格式的任务。[10] 这和普通 prompt 不同。Prompt 往往是一段上下文里的指令;Skill 更接近一个可复用、可分发、可版本化的工作包。它可以包含操作步骤,也可以包含代码、模板、参考资料和领域规则。
Skills 的关键并不是给提示词换一个更时髦名字,而是把“会做某事”从一次对话变成可安装的能力。一个处理财务表格的 Skill,可以包含格式说明、校验脚本和模板;一个生成品牌材料的 Skill,可以包含风格规范、素材规则和输出流程;一个处理特定内部系统的 Skill,可以把经验封装成可调用的步骤。对企业来说,这意味着 Agent 的能力不只是来自模型本身,还来自组织把流程知识打包、授权和维护的方式。
但 Skills 也带来新的安全问题。一个 Skill 如果包含脚本和资源,就可能成为供应链风险的一部分。谁编写?谁审核?谁签名?谁更新?Claude 或其他 Agent 在什么环境执行其中脚本?是否能访问文件、网络、凭证?普通 prompt 至少主要停留在文本;技能包则更接近软件包。软件包世界过去几十年的依赖投毒、版本劫持、权限滥用,在 Agent Skills 时代不会神秘消失,只会换一种入口出现。
制度化因此有双重面孔。基金会让协议进入公共治理,平台工具让开发者更容易搭建生产级 Agent,Skills 让工作能力变得可打包。兴奋在这里成立:Agent 基础设施终于不再只是演示旁白。怀疑也在这里成立:一旦基础设施成熟,错误和攻击也会获得更稳定的通道。
六、权限管理员:用户的新工作
早期大模型教育用户学会写 prompt。Agent 时代则开始训练用户做另一件事:管理权限。
这不是一句隐喻。用户在使用 Agent 时,越来越常被要求决定:是否允许它读取本地文件?是否允许它访问浏览器?是否允许它登录邮箱、日历、云盘、Slack、GitHub、CRM?是否允许它使用终端?是否允许它保存长期记忆?是否允许它把数据发给外部工具?是否允许它自动提交,还是每一步都要确认?
过去,普通用户很少需要把工作拆成权限矩阵。人登录自己的账号,凭经验操作软件。Agent 进入后,同一个账号可能被模型代为使用;同一个浏览器登录态可能让模型同时看到个人邮箱、公司系统和支付页面;同一个文件夹里可能同时有公开资料、客户名单和合同草稿。用户如果只把自己看成“发指令的人”,就会低估自己已经成为权限管理员。
这对开发者同样如此。2023年的 LLM 应用开发,很多工作围绕提示词、检索增强和响应格式。到2025年,Agent 开发者必须同时思考工具边界和审计轨迹。一个工具最好只暴露完成任务所需的最小能力:能读就不要写,能写草稿就不要发送,能创建待审批记录就不要直接提交,能在临时目录运行就不要挂载整个文件系统。工具调用参数要可见,返回数据要过滤,敏感字段要脱敏,高风险动作要中断给人类确认。
OWASP 的 LLM 应用安全清单把 Prompt Injection、Sensitive Information Disclosure、Excessive Agency 等列为关键风险。[11] 放到 Agent 场景里,这些风险不再是抽象分类。一个网页可以包含恶意指令,诱导模型忽略原任务;一个共享文档可以把隐藏文本伪装成系统要求;一个工单评论可以要求 Agent 读取环境变量;一个工具如果拥有过宽权限,就可能把提示注入从“模型被误导”升级为“数据被导出”或“系统被修改”。
安全研究者 Simon Willison 在2025年提出过一个简洁框架:当 AI Agent 同时具备访问私有数据、接触不可信内容、向外部通信三种条件时,提示注入会变得尤其危险。他称之为“lethal trifecta”。[12] 这个框架的价值在于,它不把风险归结为“模型不够聪明”,而是归结为工具边界组合。私有数据本身不是问题,读取网页本身不是问题,发送邮件本身也不是问题;三者叠加,才构成可被提示注入利用的数据外泄路径。
这就是 Agent 安全与传统聊天机器人安全的不同。聊天机器人被诱导胡说,后果可能是误导;Agent 被诱导调用工具,后果可能是动作。工具边界决定事故半径。
因此,个人用户和企业用户都需要一套新的日常习惯。给 Agent 一个临时工作目录,而不是整个硬盘;用只读账号连接数据源,而不是管理员账号;让它生成邮件草稿,而不是自动发送;让它在沙箱浏览器中操作,而不是使用装满个人登录态的主浏览器;把支付、删除、外部发送、代码合并、数据库写入列为强确认动作;定期查看连接的 MCP server、应用授权和技能包来源;对不再使用的连接执行撤销。
这听起来像麻烦。它也确实麻烦。行业最想讲的是“自然语言就是新界面”,现实补上的句子是:“权限面板也是新界面。”从提示词作者到权限管理员,这是 Agent 普及前用户身份的一次安静变化。
七、从“帮我写”到“在边界内帮我办”
到2025年10月,Agent 的故事已经不再只是模型能力故事。Computer Use 把浏览器、桌面和终端变成模型可以尝试操作的领土;MCP 把工具和上下文连接标准化;remote MCP 把连接从个人本机推向云端和组织系统;Linux Foundation 的 Agentic AI Foundation 把协议与项目带入更正式的治理框架;OpenAI 的 AgentKit 和 Apps SDK 把 Agent 包装成平台构件;Anthropic 的 Skills 则把可复用工作能力打包成新的分发单位。
这些变化共同构成一座桥:从早期 Agent 演示,通向后来的平台 Agent。
桥的一端,是视频里一句话完成任务的魔法。桥的另一端,是真实工作流里的权限、协议、日志、沙箱、审批、技能包和连接器。中间没有哪一块可以单独代表未来。更强模型会让任务成功率提高,但没有工具就不能行动;工具让模型能行动,但没有权限边界就不可部署;协议降低连接成本,但不自动产生信任;Skills 让能力可复用,但也引入软件供应链问题;远程 MCP 让组织接入更方便,也让授权与审计变得更关键。
这一章的判断因此并不悲观。相反,真正值得重视的不是那些声称“完全自主”的口号,而是这些看似乏味的基础设施正在落地。办公室工作由无数跨系统动作构成:查资料、读文件、整理表格、同步工单、生成草稿、核对记录、更新状态、提交申请、等待审批。Agent 不必一次成为科幻里的数字员工。只要它能在明确边界内稳定完成这些颗粒任务,就会改变白领工作的节奏。
但怀疑必须同样存在。一个 Agent 越有用,就越需要接触真实数据;越接触真实数据,就越需要权限;越拥有权限,就越接近事故。AI 行业过去喜欢用“能力涌现”解释惊喜,Agent 时代还要学会用“权限涌现”解释风险:几个看似无害的连接组合在一起,可能突然打开一条外泄或误操作路径。
所以,Agent 走向主流产品之前,读者需要先理解 MCP、工具和权限。它们不是附属设置,不是发布会之后的工程细节,而是 Agent 能否从演示走向工作流的基础桥梁。未来的 Agent 不会只是一个更会聊天的窗口。它会是一组被授权的行动通道。谁能定义这些通道,谁能审计这些通道,谁能在关键时刻切断这些通道,谁就真正掌握了 Agent 时代的入口。
参考文献
- Anthropic,Claude 3.5 Sonnet and Claude 3.5 Haiku / Computer use beta,2024-10-22。
- Anthropic,Introducing the Model Context Protocol,2024-11-25。
- Model Context Protocol,Model Context Protocol official documentation,2024-2025。
- OpenAI,Introducing Operator,2025-01-23。
- Anthropic,Claude Code: Remote MCP,2025-06。
- GitHub Changelog,Copilot coding agent now supports remote MCP servers,2025-07-09。
- Linux Foundation,Linux Foundation Announces the Formation of the Agentic AI Foundation,2025-10。
- OpenAI,Introducing AgentKit,2025-10-06。
- OpenAI,Introducing apps in ChatGPT and the new Apps SDK,2025-10-06。
- Anthropic Engineering,Equipping agents for the real world with Agent Skills,2025-10。
- OWASP,OWASP Top 10 for LLM Applications 2025,2025。
- Simon Willison,The lethal trifecta for AI agents: private data, exposure to untrusted content, and external communication,2025-06-16。
第28章|程序员的新同事终于上岗
一、自动补全长出了一双手
最早那几年,AI 编程工具的姿态很谦虚。它站在光标后面,像一个过分热情的输入法。程序员敲下函数名、注释、循环开头,它把后半句灰色地浮出来。人类按下 Tab,它就算完成了一次工作;人类继续敲字,它就继续猜下一行。
这类工具当然重要。GitHub Copilot 的早期传播,正是从这种“少敲几行”的惊奇开始的。可是到 2025 年,软件行业真正感到异样的地方,不再是模型能不能补出一段代码,而是它开始碰到仓库本身。
2 月 24 日,Anthropic 发布 Claude 3.7 Sonnet,并把 Claude Code 作为 research preview 推出。官方把它描述为一种面向开发者的 agentic coding tool:开发者在终端里调用它,让它读取项目、解释代码、修改文件、运行命令,再把结果交回人类确认。[1] 这里的关键词不是“聊天”,而是“项目”。模型不再只回答一段粘贴进去的代码,它进入了一个目录,面对真实的文件树、依赖、测试和版本控制。
5 月,OpenAI 发布 Codex。官方材料把 Codex 放进 ChatGPT,称它可以在云端软件工程环境中处理代码任务:回答代码库问题、修复 bug、实现功能、运行测试,并把修改结果交给开发者审查。[2] 这同样不是早期“写一个排序函数”的演示。它的工作单位变成了任务,工作对象变成了仓库,工作产物变成了可检查的变更。
6 月 24 日,GitHub 宣布 Copilot coding agent 面向 Copilot Business 用户可用。GitHub 的叙事更直接:开发者可以把 issue 分配给 Copilot;Copilot coding agent 在 GitHub Actions 支持的开发环境中工作,提交 draft pull request,随后由人类审查、修改、合并或关闭。[3] 这一步把 AI 编程工具从编辑器里的“副驾驶”,推向协作系统里的“被分配任务者”。
一天后,Google 发布 Gemini CLI,称其为开源 AI agent,把 Gemini 带进终端。开发者可以在命令行里请求它理解代码库、生成或修改代码、运行本地任务。[4] 到 2026 年 2 月,GitHub Copilot CLI 又宣布 general availability,把 Copilot 更正式地带到终端工作流里。[5]
这些产品并不是同一种东西。自动补全、IDE 聊天、终端 agent、GitHub issue agent、云端 coding agent,各自站在不同入口,拥有不同权限,承担不同风险。但它们共同完成了一次越界:AI 从“建议文本”走向“操作软件工程对象”。
软件行业的荒诞感也随之升级。过去,程序员担心同事没看 README;现在,团队开始给 AI 同事写 README 的 README。过去,新人入职要问“怎么跑测试”;现在,仓库里要写清楚“如果你是 agent,请先读这里,不要碰那里,跑这个命令,不要自作主张升级数据库驱动”。减少沟通成本的工具,首先需要更多沟通格式。
这不是科幻式入职。没有工牌,没有头像,没有座位。新同事第一次上岗的方式,是在终端里闪过命令,在 GitHub 上开出 draft PR,在文件 diff 里留下几行看似熟练的修改。它会写代码,也会犯错;它能跑测试,也可能误解测试;它能读项目说明,却不知道公司周五下午不发大版本。
程序员第一次大规模体验 agent 成为同事,不是在通用办公场景,而是在代码场景。这并不偶然。代码库有文件,任务有 issue,变更有 diff,审查有 pull request,错误有编译器、测试和日志。相比开放网页世界,软件工程至少给 agent 提供了可观察、可回滚、可审计的轨道。轨道不是安全本身,但它让机器人的第一份工作看起来像工作,而不是魔术。
二、终端里的第二个提示符
终端是开发者工具链中最古老也最顽固的房间。现代 IDE 有侧边栏、插件市场、智能搜索和漂亮主题;GitHub 有 issue、review、Actions 和安全扫描;云平台有控制台和仪表盘。可是项目真正能不能跑起来,很多时候仍要回到一行命令:安装依赖、启动服务、迁移数据库、跑测试、查日志、提交代码。
因此,2025 年的终端 agent 不只是把聊天机器人换了个黑色背景。它把模型放到了一个能触发实际动作的位置。
Claude Code 的 research preview 就是这种入口变化的早期信号。根据 Anthropic 的发布说明和文档,Claude Code 可以在开发者本地项目中工作,读取代码库上下文,提出修改,编辑文件,执行命令,并在权限机制下让用户批准高风险操作。[1] 这和“请解释这段代码”不是一个风险等级。解释错了,人类最多被误导;执行错了,文件、依赖、配置和本地环境都会被牵连。
终端 agent 的吸引力也正在这里。一个开发者接到任务:某个测试在 CI 里失败,本地复现不了。传统流程是打开日志、搜索错误、切分环境差异、查看依赖版本、加调试输出,再反复运行命令。Claude Code、Gemini CLI 这类工具提供了另一种流程:把失败日志和项目上下文交给 agent,让它查找相关文件,提出假设,修改测试或实现,运行命令,读取新的错误,再继续迭代。
Google 在 6 月发布 Gemini CLI 时,把它定位成开源终端 agent,并强调开发者可以从命令行访问 Gemini 模型能力,用于理解、编辑和自动化项目任务。[4] 它的产品形态和 IDE 插件不同。IDE 的强项是文件与符号;终端的强项是命令与环境。一个 agent 进入终端,就接近了构建脚本、测试框架、包管理器、本地服务和系统工具。它的能力因此更像“会干活”,也更需要护栏。
到 2026 年 2 月 25 日,GitHub 宣布 Copilot CLI general availability。这个节点重要,不是因为命令行突然被发明,而是因为 GitHub 把 Copilot 从编辑器和网页协作场进一步推入 shell。Copilot CLI 面向的是开发者日常命令行工作:解释命令、生成命令、辅助 Git 和项目操作,以及把 Copilot 的上下文能力带到终端。[5] 它和 GitHub 上的 Copilot coding agent 仍然不同:前者从开发者当前 shell 会话出发,后者从 issue 和 pull request 流程出发。
这里必须划清界限。自动补全通常只建议下一段代码;IDE 聊天通常围绕打开的文件和选中上下文回答;终端 agent 可以运行命令、修改文件、读取命令输出;GitHub coding agent 则在远端开发环境中处理被分配的任务,并以 pull request 交付。把它们统称为“AI 写代码”虽然方便,却会抹平最重要的差异:权限在哪里,证据在哪里,责任在哪里。
终端尤其考验责任边界。一个 agent 建议 npm test,风险有限;建议删除缓存目录,风险上升;建议修改迁移脚本、重置数据库、旋转密钥,风险就不能只靠“模型看起来很聪明”来管理。开发者过去把终端称作自己的手,现在这只手旁边多了一个会请求动作的系统。产品文档里那些批准、确认、沙箱、权限提示,看起来像摩擦,实际上是终端 agent 能不能进入专业工作流的门票。
软件行业在这里展现出一种奇特的诚实。它一边高喊自动化,一边把确认按钮做得越来越多;一边抱怨手工跑测试太慢,一边要求 AI 每次跑危险命令前都问一句。工具越像同事,就越不能像神谕。一个真正能上岗的 agent,必须学会在命令行里等人类点头。
三、GitHub 把任务卡交给 Copilot
如果说终端 agent 像坐到开发者旁边,GitHub Copilot coding agent 则更像被写进团队流程。
2025 年 6 月 24 日,GitHub 在 changelog 中宣布,Copilot coding agent 面向 Copilot Business 用户可用。[3] 其工作方式不是等待程序员在文件里敲字,而是从 GitHub issue 开始:团队可以把 issue 分配给 Copilot,coding agent 在受控开发环境中处理任务,提交 draft pull request,并把变更放进 GitHub 原有的 review 流程。
这是一种非常 GitHub 的 agent 形态。它没有试图绕开 issue、branch、commit、pull request 和 review,反而寄生在这些旧制度上。软件团队不需要把生产流程交给一个陌生机器人后台;它们看到的是一个 draft PR,里面有文件变更、提交记录、说明和测试结果。人类 reviewer 仍然可以逐行评论,要求修改,追加测试,或者直接关掉这次尝试。
这个设计很关键。AI 代码生成的危险之一,是把“能生成”误认为“能进入主干”。GitHub 的 coding agent 把输出放在 PR 里,等于承认软件工程的社会事实:代码进入项目,不是因为它存在,而是因为团队接受它。pull request 是现代软件组织把个人劳动转化为集体责任的仪式。现在,agent 也必须走这道门。
7 月 9 日,GitHub 又宣布 Copilot coding agent 支持 remote MCP servers。[6] MCP,即 Model Context Protocol,在上一章已经出现:它试图为模型连接外部工具和上下文提供统一方式。放到 GitHub coding agent 里,remote MCP 的意义在于,agent 不只看仓库文件,还可能连接项目管理、文档、监控、安全扫描或内部知识系统。软件任务从来不只存在于代码里;bug 可能写在 Sentry 报警里,需求可能藏在 Linear 或 Jira 任务里,接口约束可能在内部文档里。MCP 把这些外部系统变成 agent 可访问的上下文与工具。
但工具越多,风险越多。一个只能读仓库的 agent,错误半径主要在代码 diff;一个能访问远端工具的 agent,错误半径扩展到凭证、外部系统、业务数据和组织流程。MCP 的价值不是让 agent 到处乱跑,而是让企业能够用更标准的方式声明:哪些工具可用,哪些上下文可读,哪些动作需要授权,哪些日志必须留下。
8 月 28 日,GitHub 宣布 Copilot coding agent 支持 AGENTS.md custom instructions。[7] 这是一件看似朴素、实际很有工程意味的事。AGENTS.md 本质上是仓库里的指令文件,用来告诉 coding agent:项目结构是什么,如何安装依赖,怎样运行测试,代码风格有哪些禁忌,哪些目录不要修改,哪些命令最可靠。
它像一份写给机器同事的入职手册。人类新人入职时,团队会说:“先看 README,但 README 有点过期;真正的测试命令在 package.json 里,不过后端要先启动容器;不要碰 legacy 目录;那个 flaky test 不是你弄坏的。”AGENTS.md 试图把这些口头传统变成 agent 可读的文本。
不过,AGENTS.md 不是魔法标准。它标准化的是“把项目指令放在哪里、让 agent 读取什么”,不是标准化项目本身。每个仓库的构建方式、测试习惯、部署风险、代码风格和历史债务仍然千差万别。一个 AGENTS.md 可以写“运行全部测试”,但如果全部测试要跑四小时,团队仍要决定 agent 该先跑哪一组。它可以写“不要引入新依赖”,但当安全修复必须升级依赖时,仍要有人判断例外是否成立。
GitHub 的路线因此很清楚:把 AI 放进既有协作骨架,而不是宣布软件工程制度过时。issue 是任务入口,Actions 是运行环境,MCP 是外部工具桥梁,AGENTS.md 是项目指令,pull request 是审查与责任入口。AI 在这里像一名可以被分配任务的初级同事,区别在于它不需要账号头像,也不会在 PR 里解释自己为什么周末还在提交。
四、OpenAI 与 Anthropic 把“会编码”做成平台能力
GitHub 和 Google 改写的是开发者工具入口;OpenAI 与 Anthropic 则从模型和 agent 产品两端推进。
OpenAI 的 Codex 发布于 2025 年 5 月。官方说明中,Codex 被描述为一个 cloud-based software engineering agent,可以在隔离的云端环境里并行处理多个软件任务。开发者把仓库连接给它,让它回答代码库问题、实现功能、修复 bug、运行测试,最后返回可审查的结果。[2] Codex 发布时还强调了 AGENTS.md 这类项目指令:开发者可以在仓库中放置说明,告诉 agent 如何构建、测试和遵守项目约定。
这一步把 OpenAI 从“模型供应商”推向“软件工程执行层”。Codex 背后的模型能力当然重要,但产品真正改变的是工作单位。开发者不只是调用 API 生成函数,而是提交任务:“修这个 bug”“补这个测试”“解释这个模块为何这样设计”。如果说 GPT-4 时代的开发者常把模型当问答机,Codex 则把模型包装成可排队、可并行、可返回结果的工程劳动力接口。
8 月,OpenAI 发布 GPT-5,并在面向开发者的官方文章中把 coding、agentic tasks、tool use 和长上下文能力列为重点方向。[8] 这类模型更新为 Codex、IDE 插件、企业内部 agent 和第三方开发者工具提供底座。需要注意的是,GPT-5 本身不是一个会自动开 PR 的产品;它是模型能力。能不能编辑文件、能不能运行测试、能不能提交 pull request,取决于外层系统如何给它工具、环境、权限和审查流程。
Anthropic 的路线同样是模型与工具并行。Claude Code 在 2 月作为 research preview 出现后,Anthropic 又继续强化远端工具接入和编码模型。官方 Claude Code remote MCP 材料显示,Claude Code 支持连接 remote MCP servers,让终端中的 agent 能接入外部上下文和工具,而不只局限在本地文件。[9] 8 月,Anthropic 发布 Claude Opus 4.1,强调其在编码和 agentic tasks 上的提升,并给出 SWE-bench Verified 等基准结果。[10] 9 月,Claude Sonnet 4.5 发布,Anthropic 将编码、agent 和 computer use 放在主要卖点中,继续把 Claude 推向长时间、多步骤的软件工程任务。[11]
这些官方基准值得记录,也必须怀疑。SWE-bench Verified 等测试把真实开源项目中的 issue 转化为可评估任务,比早期“写一个函数”的评测更接近软件工程。但它仍然不是生产环境。真实公司代码库里有私有框架、历史包袱、隐性业务规则、不完整测试、权限边界、灰度发布、客户承诺和审计要求。一个模型在基准上拿到更高分,说明它更可能完成某类公开任务,不说明它可以无监督地改银行核心系统。
OpenAI 与 Anthropic 也都没有只押注“模型更聪明”。它们都在围绕 agent 的环境做工程:云端沙箱、本地 CLI、项目指令、工具协议、权限确认、测试运行、结果审查。行业在 2025 年形成一个共识:编码 agent 的竞争不只是谁的模型会写更多代码,而是谁能把模型放进一个可控的软件生产系统。
这就是程序员新同事的真实形态。它不是单独的“大脑”,而是模型、上下文、工具、权限、日志、测试和 review 的组合。缺任何一个,都容易从同事退化成会胡说的实习生;多任何一个权限,又可能从实习生升级成事故源。
五、编辑器没有退场,只是换了战场
2025 年的叙事重心从补全转向 agent,并不意味着编辑器路线消失。相反,编辑器仍然是开发者一天里停留最久的地方。只是它不再满足于弹出灰色代码,而是试图成为可对话、可修改、可执行的工作台。
Cursor 这一类 AI 原生编辑器的核心位置仍然是“代码库内的上下文”。开发者打开项目,不只是问“下一行怎么写”,而是问“这个模块做什么”“这个函数在哪里被调用”“帮我把这个接口迁移到新参数”“根据现有风格补测试”。官方文档和产品说明一直围绕代码库理解、多文件编辑、diff 审查和聊天式开发展开。[12] 它的优势在于贴近人类写代码的肌肉记忆:文件树、编辑窗口、搜索、终端、diff 都在同一屏幕附近。
Windsurf 的路线则延续了 Codeium 从补全工具向 agentic IDE 的迁移。2024 年底 Codeium 发布 Windsurf Editor,随后在 2025 年品牌改为 Windsurf;官方叙事强调 agentic IDE,让 AI 不只是建议代码,而是在 IDE 内围绕目标连续查找、修改、运行和修复。[13] 在本章时间范围内,Windsurf 代表的是另一条竞争线:不是从 GitHub issue 入口切入,也不是从模型 API 切入,而是直接把开发者的主工作台改造成 agent 工作区。
编辑器 agent 和 GitHub coding agent 的差异很现实。编辑器 agent 更适合即时探索:读陌生代码、重构一组文件、修本地测试、解释错误。GitHub coding agent 更适合异步任务:把 issue 分配出去,等待 draft PR,进入 review。终端 agent 更适合环境操作:跑命令、查日志、调构建。云端 Codex 更适合并行排队:多个任务同时处理,结果回到人类面前。
这几类入口会重叠,也会竞争。一个开发者可能在 Cursor 里写需求草稿,让 Claude Code 跑本地测试,把 issue 分给 Copilot coding agent,再让 Codex 尝试另一个修复方案。软件工程从未缺少工具,缺少的是工具之间不互相踩脚。2025 年的荒诞之处在于,为了让 agent 帮人类管理复杂性,人类先要管理一群 agent 的上下文、权限和输出格式。
因此,编辑器路线的意义不在于它一定赢过 GitHub 或模型公司,而在于它证明 agent 不会只有一个入口。程序员的新同事可能在 IDE 侧边栏里建议 diff,也可能在终端里请求运行命令,可能在 GitHub 上开 PR,也可能在云端排队处理任务。它们都声称自己更懂项目;最后检验它们的,不是发布会上生成了多少代码,而是团队在周三下午合并它们的 PR 时,愿不愿意少皱一点眉。
六、程序员变成规格员、审稿人和责任人
这些工具真正改变普通开发者工作的地方,不是让人完全不写代码,而是把一天里的角色重新洗牌。
一个典型任务过去可能这样开始:开发者读 issue,复现 bug,找相关文件,修改实现,补测试,本地运行,提交 PR,等待 review。agent 进入之后,流程变成另一种形状:开发者先把 issue 写得更清楚,补充约束、边界条件、验收标准和测试命令;把任务分给 agent 或在终端中要求 agent 尝试修复;随后阅读 diff、检查测试、追问设计理由,必要时要求 agent 改第二版、第三版;最后仍由人类决定是否合并。
这意味着开发者从“代码打字员”向四个角色移动。
第一,规格撰写者。agent 对模糊任务很敏感。人类写“优化登录体验”,它可能不知道是减少请求、调整 UI、修 bug,还是改文案。人类写“当密码错误时保持邮箱输入框内容,显示现有错误组件,不改变登录 API,补充对应单元测试和 Playwright 用例”,agent 才更可能沿着正确轨道行动。过去,规格不清导致同事返工;现在,规格不清会让机器同事以极快速度返工。
第二,差异审稿人。AI 生成的代码常常比初学者代码更像“正确代码”:格式整齐,命名自然,注释完整,甚至测试也齐全。它的问题往往藏在业务语义、权限假设、边界条件和长期维护里。reviewer 不能只看它能不能编译,还要问:这个分支会不会泄露数据?这个缓存会不会破坏一致性?这个依赖是否必要?这个测试是否只是验证了错误实现?
第三,测试运行者和测试设计者。agent 可以跑测试,也可以补测试,但测试仍然需要独立规格。最危险的情况是 agent 先写错实现,再根据错误实现生成通过的测试。那不是验证,而是自我鼓掌。团队需要更明确的回归用例、集成测试、端到端路径和 CI 策略,让机器产出的 diff 被机器可重复地检验,再被人类有判断地接受。
第四,责任持有人。无论 Codex、Claude Code、Gemini CLI 还是 Copilot coding agent 写了多少代码,生产事故不会发给模型绩效面谈。客户、监管、SLA、审计、开源许可证和安全漏洞,最终仍由公司和人类团队承担。agent 可以生成 PR,但不能在事故报告上签字;可以建议升级依赖,但不能向客户解释为什么昨晚服务不可用。
对初级开发者,这种变化尤其复杂。过去,一些简单任务虽然枯燥,却是理解系统的训练路径:改字段、补接口、写 CRUD、修小 bug、读失败测试。agent 把这些任务压缩之后,新人更容易“发货”,也更容易跳过理解。一个人可以让 AI 生成一大段可运行代码,却未必知道为什么项目不用另一种架构,为什么某个老接口不能碰,为什么那个看似多余的判断保护了三年前的客户数据。
这不是说新人没有机会。相反,agent 可能让新人更快进入大型代码库,更快获得解释,更快看到可运行方案。但学习路径需要重新设计。团队不能只看新人合并了多少 AI 辅助 PR,还要看他们能否解释 diff、定位错误、写出清楚规格、拒绝看似漂亮但不合适的方案。AI 降低了开始的门槛,也提高了真正理解系统的要求。
资深工程师的价值也没有消失,只是更集中在判断上。哪些任务适合交给 agent?哪些文件不该让它碰?哪些测试结果可信?什么时候应该让它继续迭代,什么时候应该人类接手?什么时候一个 agent 生成的“简单修复”其实正在绕开架构边界?这些判断过去就重要,2025 年以后变得更显眼。
程序员的新同事终于上岗,但它改变的不是责任归属,而是责任前的劳动分布。人类少敲了一些样板代码,多写了一些规格;少查了一些命令参数,多看了一些 diff;少从零搭脚手架,多决定哪些脚手架不该存在。工作的手感变了,签名的位置没变。
七、没有工牌的新同事
2025 年到 2026 年初,编码成为普通专业人士最早大规模接触 agent 同事的场景之一。这件事有充分的工程原因。代码天然可文本化,仓库天然可版本化,任务天然可 issue 化,结果天然可 diff 化,质量至少部分可测试化。相比让 agent 自由操作整个互联网,让它先在软件仓库里工作,像是把一只会开门的动物先放进装了围栏的实验室。
但围栏不是万能的。AGENTS.md 可以告诉它如何跑测试,却不能保证需求正确;MCP 可以连接外部工具,却不能替团队做权限治理;Codex 可以在云端并行处理任务,却不能保证每个结果都符合长期架构;Claude Code 和 Gemini CLI 可以在终端里改文件跑命令,却更需要确认和审计;Copilot coding agent 可以开 draft PR,却不能把 review 变成橡皮图章。
兴奋与怀疑必须同时保留。兴奋在于,这些工具确实把很多低价值摩擦压缩了。一个开发者可以更快理解陌生代码库,更快得到初稿,更快补测试,更快尝试迁移方案。怀疑在于,软件工程从来不是代码行数竞赛。它是团队协作、长期维护、风险控制和责任分配。代码越容易生成,判断越不能外包。
这一轮变化也和早期“AI 软件工程师”的宏大口号不同。行业没有等来一个单独坐在工位上的机器程序员,而是在工具链每个缝隙里看见 agent:终端、IDE、GitHub issue、pull request、云端沙箱、MCP 工具、项目指令文件。它们没有统一制服,却都在争夺同一个位置:软件任务从自然语言走向代码变更的默认通道。
程序员的新同事已经上岗。它接任务,读文件,改代码,跑测试,开 PR;它也需要说明书、权限边界、review、回滚和人类签字。它不像传统同事那样会在站会上说“昨天被依赖阻塞”,但它会在日志里留下另一种阻塞:测试失败、上下文不足、权限被拒、指令冲突。
真正的问题不再是它会不会写代码,而是团队能否把它放进足够好的流程里。让它做擅长的事,让它留下证据,让它接受审查,让人类保留最后判断。软件行业第一批 agent 同事没有改变一条老规则:能合并进主干的,不是最会说话的代码,而是经得起责任追问的代码。
参考文献
- Anthropic,“Claude 3.7 Sonnet and Claude Code”,2025-02-24。
- OpenAI,“Introducing Codex”,2025-05-16。
- GitHub Blog Changelog,“GitHub Copilot coding agent is now available for Copilot Business users”,2025-06-24。
- Google Blog,“Introducing Gemini CLI: An open-source AI agent”,2025-06-25。
- GitHub Blog Changelog,“GitHub Copilot CLI is now generally available”,2026-02-25。
- GitHub Blog Changelog,“Copilot coding agent now supports remote MCP servers”,2025-07-09。
- GitHub Blog Changelog,“Copilot coding agent now supports AGENTS.md custom instructions”,2025-08-28。
- OpenAI,“Introducing GPT-5 for developers”,2025-08-07。
- Anthropic,“Claude Code remote MCP”,访问日期 2026-02-28。
- Anthropic,“Claude Opus 4.1”,2025-08-05。
- Anthropic,“Claude Sonnet 4.5”,2025-09-29。
- Cursor,“Cursor Documentation”,访问日期 2026-02-28。
- Windsurf / Codeium,“Introducing the Windsurf Editor”,2024-11-13;Windsurf,“Codeium is now Windsurf”,2025-04。
第29章|智能的物质世界:芯片、能源、数据中心与国界
一、每一个神奇答案,都有电费单
用户在聊天框里输入一句话,屏幕上出现一段摘要、一张图片、一段代码,或者一个能够继续调用工具的 Agent。界面轻得像空气:没有烟囱,没有卡车,没有厂房,甚至没有保存按钮。可在这句回答生成之前,另一条链路已经启动:模型请求被路由到某个云区域,排进推理队列,落在 GPU 或专用加速器上,经过网络、存储、冷却系统和电力系统,最后才回到浏览器。
所谓“云”,在这一刻露出了它的旧名字:别人的计算机。只是到 2025 年,这些计算机不再只是互联网服务器,而越来越像工业设施。
这不是修辞。NVIDIA 在 2025 年 8 月发布的 2026 财年第二季度财报显示,截至 2025 年 7 月 27 日的季度,公司收入为 467 亿美元,其中数据中心收入为 411 亿美元。[1] 对一家曾以游戏显卡和图形工作站闻名的公司来说,这组数字说明了一个行业重心的位移:AI 不再只是模型实验室、论文榜单和应用商店的故事,它已经把财务报表、供应链、出口许可、电网负荷和地方审批拖进同一张桌子。
上一章写到程序员的新同事终于上岗。Claude Code、Codex、Copilot coding agent、Gemini CLI 这些工具让模型进入真实仓库,读取文件,运行测试,提交补丁。它们看起来是软件工业的自然延伸:更好的 IDE、更聪明的终端、更顺手的自动化。但它们也把推理需求从“偶尔问一次”改造成“持续循环”。一个 Agent 修复 bug,可能不是一次回答,而是规划、检索、改文件、跑测试、读错误、再改、再跑。每一步都像轻轻敲了一下键盘;合在一起,就是一串 GPU 时间、日志存储、网络传输和云账单。
因此,本章要把镜头向下移。
AI 不是一朵云形的奇迹。它是 Blackwell、H20、Rubin,是 HBM、先进封装和高速互连;它是 Meta、Microsoft、Google、Amazon 在财报里写下的资本开支;它是 IEA 和 LBNL 报告里的太瓦时;它是北弗吉尼亚地方听证会里的输电线路、噪声、土地和税收;它还是美国商务部文件里的出口管制编号和许可要求。
这并不意味着智能的故事变得不浪漫。恰恰相反,它变得更像工业史:蒸汽机要煤,铁路要钢,互联网要海底光缆,生成式 AI 要芯片、电力、土地、水、资本和国界。行业的荒诞感也从这里产生:最会说“无服务器”的公司开始排队等变压器,最抽象的模型公司开始关心机柜密度,最轻盈的应用演示最后落在一份电力接入申请上。
兴奋仍然在场。怀疑也必须在场。因为当智能变成基础设施,问题就不再只是“模型会不会更聪明”,而是“谁有能力运行它”。
二、NVIDIA 的三张脸:Blackwell、H20 与 Rubin
2025 年的 NVIDIA 有三张同时出现的脸。
第一张脸是 Blackwell。2024 年 GTC 上,NVIDIA 已经把 Blackwell 包装成新一代 AI 平台:B200 GPU、GB200 Grace Blackwell Superchip、GB200 NVL72 机柜级系统,以及围绕 NVLink、网络、软件库和 CUDA 生态形成的整套基础设施。[4] 到 2025 年中,这套平台不再只是舞台上的参数表,而是公司收入增长的核心。
NVIDIA 2026 财年第二季度财报给出的数字非常直接:季度收入 467 亿美元,数据中心收入 411 亿美元。[1] 这意味着 NVIDIA 的“数据中心”业务已经不是公司的一条产品线,而是公司本身的财务重力。它卖出的不只是芯片,而是 AI 工厂的关键零件。云厂商、模型公司、企业客户和政府项目购买 Blackwell,不是为了收藏一块更快的 GPU,而是为了把它接入机柜、网络、存储、调度系统、冷却系统和电力合同,变成可连续生产智能的机器。
第二张脸是 H20。它提醒人们,同一家公司、同一类产品,在舞台上是性能叙事,在华盛顿文件里是管制对象。
2025 年 4 月,NVIDIA 在提交给美国证券交易委员会的 8-K 文件中披露,美国政府在 4 月 9 日通知公司,向中国及相关目的地出口 H20 集成电路需要许可证;该许可证要求被表述为无限期适用。NVIDIA 同时披露,公司预计将在 2026 财年第一季度就 H20 库存、采购承诺和相关储备计提最高约 55 亿美元费用。[2] 这里没有神秘感,只有现代产业政策最冷静的语法:一个为特定市场设计的芯片,突然被写进许可制度;一条销售路径,立即变成会计项目。
H20 是 AI 基础设施时代的典型物件。它不是最强的芯片,却因为出口控制而成为全球 AI 版图的温度计。一个型号的带宽、互连和目的地,不只是工程问题,也是国家安全问题、商业预测问题和客户可得性问题。对中国客户来说,它关系到可用算力;对 NVIDIA 来说,它关系到收入和库存;对美国政策制定者来说,它关系到先进计算能力的扩散边界。
第三张脸是 Rubin。到 2026 年 GTC,NVIDIA 继续把“AI factories”作为叙事中心,并把 Blackwell 之后的平台路线、网络、系统和软件生态放进同一幅基础设施图景。[3] Rubin 在这里不只是下一代 GPU 名字,而是产业预期的锚点。云厂商签长期采购,数据中心规划电力,内存和封装供应链安排产能,资本市场计算未来需求,都需要一个路线图。芯片公司发布未来架构,实际上是在给整个基础设施链条发施工图。
这就是 NVIDIA 在 2025—2026 年的特殊位置。它既是供应商,也是瓶颈;既是创新公司的代表,也是重资产周期的发动机;既把“智能”包装成未来生产力,又让所有客户面对一个老问题:如果下一代模型需要更多算力,钱、电、地和许可从哪里来?
行业里常说“需求强劲”。这句话在软件公司财报里往往轻飘飘,在 NVIDIA 财报里却很重。因为这里的需求不是多下载一个 App,而是多建一座数据中心,多签一份电力协议,多采购一批机柜,多等待一轮供应链交付。每一个“强劲需求”,最终都会落在现实世界的某个地方。
三、数据中心不是背景板,是主角
在 AI 产品发布会上,数据中心经常以背景板出现:一排蓝色机柜,一束冷光,一句“由先进基础设施驱动”。但到 2025 年,背景板站到了前台。
国际能源署在 2025 年发布的《Energy and AI》中估计,全球数据中心用电量在 2024 年约为 415 太瓦时,约占全球用电量 1.5%;在其基准情景中,到 2030 年这一数字将增至约 945 太瓦时,超过翻番。[5] 这不是“AI 单独用电”的数字,而是数据中心整体负荷,其中 AI 是增长的重要驱动。这个区别必须说清楚。把所有数据中心用电都算成 AI,是夸大;忽视 AI 推动新建算力集群,也是逃避。
美国的情况有更细的底稿。劳伦斯伯克利国家实验室在《2024 United States Data Center Energy Usage Report》中估计,美国数据中心 2023 年用电量约为 176 太瓦时,占美国总用电量约 4.4%;报告在不同假设下预测,到 2028 年美国数据中心用电可能达到 325 至 580 太瓦时,占美国总用电量约 6.7% 至 12%。[6] 这个区间很宽,原因也重要:未来用电取决于服务器出货、芯片效率、利用率、冷却方式、应用需求、模型架构和电价。基础设施史最怕把区间写成命运。这里更合理的读法是:方向清楚,幅度不确定,地方冲击会高度集中。
电网公司比模型榜单更早感受到这种集中。PJM 是覆盖美国东部多州的区域输电组织,它在 2025 年长期负荷预测中把数据中心等大型负荷列为需求增长的重要因素,尤其在部分服务区域,数据中心接入请求改变了传统负荷增长曲线。[7] 这类报告不会讨论某个模型是否通过数学竞赛,也不会评价 Agent 是否聪明;它只关心峰值负荷、输电约束、发电容量、并网周期和可靠性。
这就是基础设施视角的冷酷之处。模型公司说“推理成本下降”,电网公司问“峰值什么时候来”;云厂商说“AI capacity”,地方政府问“变电站建在哪里”;开发者说“长上下文真香”,财务部门问“这个月 API 账单为什么像水管爆了”。
资本开支把这件事进一步放大。Meta 在 2025 年第二季度财报中把全年资本开支预期区间提高到 660 亿至 720 亿美元,并说明其中包括对 AI 基础设施的投入。[9] Microsoft 在 2025 财年第四季度财报和电话会材料中同样把云和 AI 需求与资本开支增长联系起来。[10] 这些数字不是抽象的“投资未来”。它们会变成服务器订单、土地购买、施工许可、输电线路、冷却系统和折旧表。
数据中心于是成了 AI 竞争的物质重力。它不发论文,不上排行榜,却决定模型能否训练、服务能否稳定、价格能否下降、应用能否实时响应。过去十年,互联网公司擅长把基础设施隐藏起来,让用户只看见软件。生成式 AI 把隐藏成本重新放大:当每一次回答都需要更多计算,基础设施就不可能永远待在幕后。
四、地方居民看到的不是模型,而是围栏、线路和噪声
AI 行业谈数据中心,喜欢用“容量”“集群”“AI 工厂”。地方居民看到的词更朴素:土地、围栏、输电线路、冷却塔、备用柴油发电机、施工车流、噪声、税收。
北弗吉尼亚是最典型的地区之一。弗吉尼亚州联合立法审计与审查委员会在 2024 年发布的《Data Centers in Virginia》报告中,把数据中心对州内经济、地方税收、电力需求、土地使用、噪声和环境资源的影响放在同一份官方评估里。[8] 这份报告的价值不在于给出一句简单结论,而在于显示“数据中心影响”本来就不是单变量问题。
地方政府可能欢迎数据中心,因为它们能带来巨额设备税和地产税,而就业密度相对低,对学校、交通等公共服务的日常压力未必像住宅开发那样大。财政账本上,数据中心是一种诱人的对象:占地、用电、交税,但不带来大量新学生。可是居民听证会上,问题往往从另一边冒出来:输电线路穿过哪里?变电站离社区多远?备用发电机测试时的噪声如何控制?冷却用水来自哪里?高密度机房改变了原本的乡村景观,谁来承担这种变化?
这里必须谨慎。不是每个数据中心都大量耗水,也不是每个项目都会造成严重噪声;不同冷却技术、气候条件、供水来源、地方条例和设施设计,会带来不同结果。JLARC 报告也没有把所有影响写成全州统一灾难,而是强调影响常常是地方性的、项目性的,需要通过地方规划、监管和信息披露来处理。[8]
这正是本章要保留的复杂性。AI 基础设施不是反派,也不是免费午餐。它给地方带来税收、建设投资和数字经济地位,也带来电力扩容、土地竞争、景观改变和环境治理压力。对于住在数据中心附近的人来说,“通用人工智能”不是哲学名词,而可能是一条新输电线路的走向、一场晚上听见的低频噪声、一份地方政府税收说明,或者一次规划委员会会议。
行业荒诞感也在这里变得清晰:一个创业公司在旧金山演示“十秒生成营销视频”,北弗吉尼亚的居民可能在讨论为这些十秒视频供电的变电站;一个模型公司宣布“Agent 能连续工作一小时”,某个县的规划人员要审查支持这种连续推理的数据中心备用电源。软件越像魔法,地方治理越像土木工程。
五、美国政策把基础设施写成国家战略
2025 年 7 月,白宫发布《America’s AI Action Plan》。这份文件的结构本身就说明了美国政府如何理解 AI:它不仅谈模型、应用和安全,也把基础设施列为核心议题。[11]
行动计划中有关基础设施的部分,围绕数据中心、半导体制造、能源基础设施、许可审批和电网能力展开。它传递的政策姿态很明确:美国不只是要拥有领先模型,还要拥有运行这些模型的土地、电力、芯片、云和工业能力。换句话说,AI 竞争被正式写成基础设施竞争。
这与出口政策形成了另一条线。2025 年 5 月,美国商务部工业与安全局宣布撤销拜登政府末期发布的 AI Diffusion Rule,同时表示将强化芯片相关出口管制执法。[12] 再往前看,2025 年 1 月的 AI Diffusion Rule 曾试图用目的地、授权用户、算力规模和安全条件来管理先进 AI 芯片及相关能力的全球扩散。[13] 新政府撤销旧规则,并不等于“边界消失”,而是说明边界的画法发生变化。美国政策争论的焦点,不是要不要把先进 AI 基础设施纳入国家安全框架,而是如何纳入、对谁开放、对谁限制、由哪个部门执行。
H20 的例子把政策与商业直接连起来。NVIDIA 8-K 文件里那 55 亿美元潜在费用,不是论文争论,也不是社交媒体口水,而是出口许可落到资产负债表上的声音。[2] 同一块芯片,客户看到性能,投资者看到收入,监管者看到扩散风险,竞争国家看到可得性。国界不是把 AI 软件完全挡住的墙,却会变成算力流动中的阀门。
《America’s AI Action Plan》还有一个值得注意的方向:它不仅强调限制对手,也强调向盟友和伙伴输出美国 AI 技术栈。[11] 这意味着美国把 AI 基础设施看作一种可出口的组合产品:芯片、云、模型、软件、标准、安全实践和融资安排。过去,互联网全球化常常表现为平台服务跨境扩张;AI 基础设施全球化更像电站、通信网和金融清算系统的混合体,既要卖技术,也要卖信任,还要管理风险。
这里的兴奋显而易见。一个国家若能同时拥有先进芯片、强大云厂商、充足资本、能源供给和政策协调能力,就可能在 AI 时代获得巨大优势。怀疑也同样明显。加速许可可能与地方环境评估发生张力;扩大数据中心可能与电价、排放和水资源目标冲突;出口技术栈可能增加盟友依赖,也可能引发新的政策摩擦。
基础设施一旦进入国家战略,就不可能只有硅谷叙事。它会进入国会听证、州政府招商、联邦许可、环保审查、贸易谈判和军事安全文件。AI 的“物质世界”从来不只是技术问题。
六、小团队的账单:价格、配额、延迟和区域
基础设施约束不只影响国家和巨头,也会落到小团队身上。只是它落下来的方式不像输电线路那样显眼,而是出现在控制台里:价格表、速率限制、配额申请、区域可用性和延迟。
一个两三人的产品团队如果在 2025 年开发 Agent 应用,通常不会自己买 GPU、建机房、雇运维。他们调用 API,接入云模型,按 token 付费。OpenAI 等模型供应商公开列出不同模型的输入、输出、缓存和批处理价格;价格表把“智能”拆成每百万 token 的数字。[15] Microsoft Azure OpenAI 的公开文档则把配额、速率限制和部署区域写成服务使用条件:不同订阅、区域和模型部署可能对应不同配额,客户需要申请提升限制。[14]
这些文档看起来枯燥,却是小团队的基础设施体验。创始人不一定见过一台 Blackwell 服务器,但会知道某个模型在某个区域还不能用;工程师不一定懂变电站扩容,但会知道每分钟 token 数限制让演示卡住;产品经理不一定研究出口管制,但会知道客户要求数据留在特定地区时,模型选择突然变少。延迟也是同一件事的用户侧表现:交互式 Agent 若需要多轮调用工具,区域距离、网络路径和后端排队都会影响体验。
这也是 AI 应用经济学与传统 SaaS 的差别。传统软件的边际成本可以被压得很低,服务器成本通常不会跟每个用户动作线性显现。生成式 AI 应用则更像每次点击都点亮一小段生产线。一次摘要很便宜,百万次摘要就是预算;一次代码修复很有价值,Agent 循环跑十轮测试就要进入成本模型;一次长上下文问答很惊艳,用户把整个知识库都塞进去时,账单也会变得诚实。
价格下降并不自动消除压力。模型更便宜,团队就会把它用到更多地方:客服、销售、代码、数据分析、文档、财务、法务、搜索、个人助理。Agent 能力越强,调用链越长。基础设施成本从“能不能用”变成“怎么设计才用得起”。于是,小团队开始学习一种奇特的新产品纪律:提示词要优化,缓存要设计,检索要裁剪,上下文要压缩,模型要分层,昂贵模型只处理难题,便宜模型承担常规任务。
这不是技术悲观主义。它是智能普及的工程现实。AI 让小团队拥有过去大公司才有的能力,但也让小团队更早接触到大公司才熟悉的资源约束。过去,创业者担心服务器宕机;现在,他们还要担心推理成本、区域合规、速率限制和模型供应商的产品调整。魔法可以调用,但魔法按量计费。
七、边界里的智能,电表上的未来
到 2026 年春,AI 行业已经形成一种双层现实。
第一层,是用户看到的轻盈世界。模型嵌入浏览器、IDE、终端、办公软件和企业系统。Agent 能读文档、改代码、生成报告、调用工具。开源模型和商业 API 让开发者几小时内搭出过去需要团队数月完成的功能。智能像水一样流进软件。
第二层,是基础设施看到的沉重世界。GPU 要排产,HBM 要供应,先进封装要扩产,数据中心要拿地,电网要接入,冷却系统要设计,资本开支要融资,出口许可要审批,地方居民要参加听证。智能不是凭空流动,而是在一张由芯片、电力、土地、水、资本和法律构成的地图上流动。
这两层现实共同定义了 AI 时代的新秩序。
NVIDIA 的财报说明,先进加速器已经成为全球资本开支的中心对象。H20 的出口许可说明,芯片型号可以被国界重新定义。IEA 和 LBNL 的报告说明,数据中心电力需求已经进入能源预测,而不能只留在科技新闻。PJM 和弗吉尼亚地方评估说明,AI 的负荷并不平均落在地图上,而会集中改变一些社区、电网节点和地方财政。美国 AI 行动计划说明,政府已经把算力、能源和许可审批纳入国家竞争框架。小团队的价格表和配额限制则说明,基础设施最终会穿过云服务界面,落到每个产品决策里。
兴奋与怀疑必须并存。兴奋在于,芯片效率、模型架构、系统工程和市场竞争会持续降低单位智能成本;怀疑在于,降低单位成本可能扩大总需求,新的应用会吞掉效率收益。兴奋在于,基础设施建设会让更多人获得模型能力;怀疑在于,建设本身需要土地、电力、水和地方同意。兴奋在于,国家战略可以加速投入;怀疑在于,国家战略也会带来边界、管制和新的依赖关系。
AI 不是脱离物质世界的意识实验。它更像一场把软件、半导体、电力和地缘政治重新焊接在一起的工业革命。未来几年,关于智能的许多争论,表面上会继续围绕模型能力、Agent 安全、开源闭源和商业模式展开;底层却会反复回到几个老问题:谁有芯片?谁有电?谁有地?谁出钱?谁批准?谁承担邻避成本?谁能在国界变化时保持供应?
每一个神奇答案,都有电费单。每一个电费单背后,都有供应链。每一条供应链,都会穿过某个国家、某个社区和某个预算表。
八、补丁说明
参考文献
- NVIDIA Newsroom,NVIDIA Announces Financial Results for Second Quarter Fiscal 2026,2025-08-27。
- NVIDIA,Current Report on Form 8-K,2025-04-15。
- NVIDIA Blog,GTC 2026 News,2026-03。
- NVIDIA Newsroom,NVIDIA Blackwell Platform Arrives to Power a New Era of Computing,2024-03-18。
- International Energy Agency,Energy and AI,2025-04。
- Lawrence Berkeley National Laboratory,2024 United States Data Center Energy Usage Report,2024-12。
- PJM Interconnection,2025 Long-Term Load Forecast Report,2025。
- Virginia Joint Legislative Audit and Review Commission,Data Centers in Virginia,2024-12-09。
- Meta Platforms,Meta Reports Second Quarter 2025 Results,2025-07-30。
- Microsoft,Earnings Release FY25 Q4,2025-07-30。
- The White House,America’s AI Action Plan,2025-07-23。
- U.S. Department of Commerce, Bureau of Industry and Security,BIS Rescinds Biden Administration AI Diffusion Rule, Strengthens Chip-Related Export Control Enforcement,2025-05-13。
- Federal Register,Framework for Artificial Intelligence Diffusion,2025-01。
- Microsoft Learn,Azure OpenAI Service quotas and limits,2026-04(访问)。
- OpenAI,API Pricing,2026-04(访问)。
第30章|从聊天框到行动者:ChatGPT Agent 与 GPT-5 落地
一、聊天框长出手
很长一段时间里,聊天框是一种礼貌的家具。用户输入问题,它给出回答;用户继续追问,它继续补充。它可以写邮件、列清单、解释代码、总结论文,却通常停在屏幕里,像一位坐在桌边的顾问。
2025年7月,这张桌子的边界往外挪了一截。
OpenAI 的官方直播索引把这一段夏季发布排成一条清楚的时间线:7月17日,ChatGPT Agent;8月7日,GPT-5。[1] 如果说前者让熟悉的 ChatGPT 界面开始执行任务,后者则把新的基础模型放进消费者、企业和开发者的工作流。两件事相隔三周,构成了这一轮产品叙事的铰链:用户不再只是提问;他们开始委托。
这不是比喻。OpenAI 在 ChatGPT Agent 发布文中说,它把此前 Operator 的网页操作能力、deep research 的信息综合能力,以及 ChatGPT 的对话能力结合起来。用户可以让它研究信息、浏览网页、分析数据,并在授权范围内执行动作。[2] 过去,用户问:“帮我比较三家供应商。”模型返回一张表。现在,用户可以进一步要求它打开网站、查找价格、整理交付条款、生成表格,甚至在必要时准备表单。产品边界从“对话框内”延伸到“对话框外”。
这只手不是自由的。官方材料反复强调,Agent 在执行有外部后果的动作前需要用户确认,用户可以随时中断、接管浏览器,系统也会对高风险任务设置限制。[2] 换句话说,它不是一个脱缰的数字雇员,而是一只戴着安全绳的手:能抓东西,不能随便乱抓;能把工作推进到确认按钮前,却不能替用户消灭确认按钮本身。
行业里最荒诞也最真实的场景就此出现:一个工具可以替用户逛网站、查资料、跑代码、做幻灯片,但到了登录、付款、发送、提交的时候,又会像办公室里最懂合规的同事一样停下来。它能把几十个浏览器标签页压缩成一句指令,却仍可能被验证码、权限弹窗、过期网页和用户自己的粗心拦住。进步很大,进步也很像日常办公:许多革命,最后都堵在“请再次确认”前。
TechCrunch 在当日报道中也把重点放在同一个转折上:ChatGPT Agent 不是单纯聊天,而是使用一台虚拟电脑完成任务。[3] 对普通用户来说,这句话的含义比模型参数更直接。以前,AI 的错误多半以文本形式出现;现在,错误可能出现在一个被填好的表单、一封草拟好的邮件、一个筛选过的购物车、一段已经运行过的脚本里。回答需要判断,行动需要验收。
于是,聊天框获得了手。它不是科幻电影里的金属手臂,而是网页浏览器、终端、文件、表格、日历、连接器和权限提示组成的一组产品能力。它没有离开屏幕,却已经开始碰到屏幕外的世界。
二、Agent 的工作台:浏览器、终端与确认按钮
ChatGPT Agent 的发布文没有把它描述成无所不能的机器人,而是描述成一个能在“自己的电脑”上工作的系统。[2] 这台电脑是虚拟的,却承担了真实工作流中的多个环节:它可以看网页,用浏览器点击和导航;可以用文本浏览器快速读取页面;可以运行代码,处理文件;可以把研究结果组织成可编辑的文档、表格或演示材料。用户还可以把它放回对话里继续追问,要求修改路线、补充来源、调整输出格式。
这一步的重要性,在于任务不再被切成“问答”。一个用户要做市场研究,过去可能需要让模型先列竞争对手,再把链接逐个打开,再把结果复制回聊天框,再要求汇总。ChatGPT Agent 的产品设想是把这些步骤串起来:搜索、打开、筛选、比较、计算、生成文件。它仍然可能犯错,但它开始处理“连续工作”。
OpenAI 给出的能力边界同样清楚。Agent 可以执行许多网页任务,但对于购买、发送邮件、提交表单等有现实后果的动作,需要用户确认。对于敏感操作,用户可以接管浏览器;对于一些高风险领域,系统会拒绝或限制执行。[2] 这些限制不是注脚,而是 Agent 进入日常工作的前提。一个只能回答问题的模型,最多需要“引用来源”;一个能替人点击按钮的模型,需要“权限制度”。
这也是 ChatGPT Agent 与此前插件时代的差别。插件时期,聊天框像一个呼叫中心:它向外部服务发送请求,拿回结果,再把结果说给用户听。Agent 时期,聊天框更像一个初级助理坐在工作台前:它可以打开网页、切换工具、整理材料、运行步骤。用户给它的不是单个问题,而是一段目标。目标越长,权限越重要。
官方发布中还有一个值得注意的安全表述:OpenAI 把 Agent 的能力与风险放在同一篇文章里叙述,强调用户控制、外部后果确认、任务中断和安全训练。[2] 这不是公关材料里的道德花边,而是产品本体的一部分。因为 Agent 的价值恰恰来自“它能做事”;风险也来自同一个地方。让它能做更多事,就必须让它在更多地方停下来。
行业的笑点也在这里。人类花了几十年把软件做成“自动化”,又在自动化变聪明之后,重新发明了层层确认。过去是用户对着软件点按钮;现在是用户让 Agent 点按钮,然后软件要求用户确认 Agent 是否可以点按钮。办公流程没有消失,只是换了一个更有未来感的绕口令。
到7月中旬,ChatGPT Agent 的可用性也不是“全体用户同时拥有一个全能助理”。OpenAI 公告称,它面向 ChatGPT 的付费层级推出,并计划继续扩展到更多组织用户;不同套餐有不同使用额度和可用范围,欧洲经济区、瑞士等地区的可用性也受发布安排限制。[2] 这类细节提醒人们:Agent 不是抽象能力,而是产品、算力、监管、账户等级和地区政策共同塑造的服务。
这一节的核心事实很朴素:聊天框没有变成完全自治的主体。它只是获得了一套可以行动的工具,并被放进一组限制里。真正改变用户体验的,正是这两个东西同时出现——能力与边界。
三、委托的第一课:验收不是礼貌,是职责
当一个用户让 Agent “帮我比较三家服务商”时,任务表面上变简单了。过去他要自己搜索、打开网页、复制价格、查服务条款、做表格;现在,他可以把这些步骤交给 Agent。几分钟后,屏幕上出现一张表,列出价格、交付周期、客户案例和来源链接。这个时刻很容易让人兴奋:白领劳动中最耗人的部分,似乎被一段指令吞掉了。
但新的职责也在同一刻出现。用户不能只看表格是否漂亮,还要点开来源;不能只看价格,还要确认日期;不能只看结论,还要检查 Agent 是否把促销价当成长期报价,是否把旧页面当成新公告,是否遗漏了地区限制。过去,模型给错答案,用户可以说“它胡说”;现在,Agent 把错误整理成一份像样的文件,用户如果直接提交,责任很难继续留在聊天框里。
OpenAI 对 ChatGPT Agent 的设计已经把这门课写进流程:涉及外部后果的步骤需要确认,用户可以打断或接管,系统对敏感任务设限。[2] 这些机制把一个现实问题摆到用户面前:委托不是放弃监督。委托是把执行权部分交出去,把验收权更清楚地拿回来。
在个人层面,Agent 带来的变化可以拆成四条纪律。
第一,任务要分层。适合交给 Agent 的,往往是“收集、比较、整理、草拟、跑初步分析”;不适合完全交出去的,是“最终承诺、法律判断、付款授权、医疗或财务决策”。这并不是因为模型不聪明,而是因为这些动作的后果不一样。查十个酒店价格和确认一次不可退订订单,不是同一种点击。
第二,证据要能追。Agent 生成的表格、摘要、方案,如果没有来源链接、时间戳、计算路径,就不该直接进入正式流程。deep research 类能力曾经让用户习惯看引用;Agent 时代,这种习惯要扩展到所有可执行任务。它不是写得像报告就成了报告,正如一个表单填得整齐并不等于可以提交。
第三,权限要最小。能让 Agent 看公开网页,就不要先给它账户后台;能让它草拟邮件,就不要让它直接发送;能让它准备购物车,就不要把支付确认一起交出去。权限比口才更重要。一个回答流畅但权限很少的模型,风险有限;一个回答偶尔糊涂但权限很大的 Agent,才是真正需要制度驯服的东西。
第四,确认要慢一点。Agent 的界面会制造一种效率幻觉:它把复杂过程压缩成一串进度条和最终文件,用户很容易把“完成了”理解成“正确了”。可在行动者时代,“完成”只是进入验收。那只新长出来的手可以替人把事情推到门口,但门是不是该开,仍要有人看一眼门牌号。
这不是给技术泼冷水。恰恰相反,只有当用户学会验证和授权,Agent 才能真正进入工作。没有边界的自动化无法规模化;没有验收的委托只是把错误包装得更正式。2025年夏天的产品转折,不是人类退场,而是人类换了站位:从每一步亲手操作,变成设目标、分权限、看证据、按确认。
四、GPT-5:新模型进入工作流
三周后,OpenAI 把另一个更大的名字推到台前。2025年8月7日,OpenAI 发布 GPT-5。[4] 官方产品页把它定位为一个更强、更快、更有用的模型系统,面向 ChatGPT 用户、企业和开发者,重点强调写作、编程、健康、工作任务等使用场景。[4] 直播索引中的时间顺序也让这次发布与7月的 ChatGPT Agent 形成呼应:先把聊天框变成行动入口,再把更强的模型放进这个入口。[1]
GPT-5 的发布很容易被写成“更聪明的模型又来了”。但在这一章里,更重要的是它怎样服务于“委托”这件事。OpenAI 面向开发者的发布文把 GPT-5 描述为适合编码和 agentic tasks 的模型,并强调它在复杂代码生成、前端生成、长链任务、工具调用等方面的能力。[5] 对开发者而言,模型不只是回答 API 怎么用,而是被放进能读仓库、改文件、跑测试、调用工具的系统里。它的价值不只在一句答案,而在能否稳定推进一串步骤。
官方开发者材料还把 GPT-5 放进 API 产品结构中,介绍不同规模模型、推理强度、输出详略等控制参数。[5] 这些听上去像工程细节,却恰好说明大模型产品正在从“聊天体验”转向“工作部件”。在聊天时代,用户关心的是它答得好不好;在 Agent 时代,开发者还要关心它什么时候思考更久,什么时候回答更短,什么时候调用工具,什么时候停止,怎样把成本、延迟和可靠性放进同一个系统。
OpenAI 对 GPT-5 的能力叙述同时包含营销语言和测量结果。比如,官方产品页强调它在日常工作、写作、编码等方面更有用;这是产品定位。开发者发布文列出多个公开基准和内部评估,用来说明它在软件工程、代码修改、多语言编程等任务上的表现;这是测量能力。[4][5] 两类话不能混为一谈。前者告诉市场“该把它用在哪里”,后者告诉工程师“在某些测试上它表现如何”。从实验室分数到办公室委托,中间仍有很长一段路,路上铺满权限、数据质量、组织流程和人类复核。
GPT-5 发布后的一个小插曲也提醒人们,模型升级不是单向度的狂欢。据 The Verge 报道,GPT-5 上线后,部分用户对旧模型选项变化和使用体验表达不满,OpenAI 随后调整,让部分付费用户继续使用 GPT-4o 作为选项。[6] 这类反应并不否定 GPT-5 的能力,却说明消费者对模型的关系已经变得具体:他们不是抽象地崇拜“最强模型”,而是在乎某个写作风格、响应速度、稳定性和熟悉感。模型一旦进入工作流,就不只是技术指标,而是习惯、流程和信任的一部分。
路透社在发布日报道中也把 GPT-5 放在 OpenAI 与大型科技公司竞争的背景下理解。[7] 这当然是资本市场和平台战争的语言。但对普通用户来说,更直接的变化是:基础模型的升级与 Agent 能力的铺开开始合流。一个更能编码、推理、调用工具的模型,放进一个能浏览、填表、运行代码的界面里,才构成了“从聊天到行动”的产品事实。
因此,GPT-5 不是本章里的“AGI 时刻”。它更像一台更强的发动机,被装进已经开始长出轮子的车辆里。车辆仍有刹车,仍要人开门上路,仍可能在复杂路况中犯错。但发动机变强之后,用户愿意委托的任务会变长,开发者敢交给系统的步骤会变多,组织需要设计的护栏也会变厚。
五、同一个夏天,不同入口
OpenAI 并不是唯一把模型推向行动的一家公司。2025年夏天,竞争对手的动作从多个方向挤压同一个问题:谁能成为用户委托任务的入口?
8月5日,Anthropic 发布 Claude Opus 4.1,称其是 Claude Opus 4 的升级版本,并强调在 agentic tasks、真实世界编码和推理任务上的改进。[8] 官方材料中特别提到它在 SWE-bench Verified 等软件工程评测中的提升,并保持与 Opus 4 相同价格。[8] 这条新闻发生在 GPT-5 发布前两天,时间上很接近,方向上也很清楚:高端模型的竞争越来越围绕“能否完成复杂任务”,而不仅是“能否写一段漂亮回答”。
Google 的路径则更靠近命令行。6月,Google 发布 Gemini CLI,把它称为开源 AI agent,让开发者可以在终端中使用 Gemini 处理代码、文件和工作流。[9] GitHub 也在6月宣布 Copilot coding agent 面向 Copilot Business 用户可用,7月又为它加入远程 MCP 服务器支持。[10][11] 这些发布与 ChatGPT Agent 不是同一种产品形态,却指向同一个趋势:模型正在被放进真实工具环境里,接触文件、仓库、终端、浏览器和外部服务。
三家公司在同一个夏天喊出相似的口号,但入口不同。OpenAI 把 Agent 放进普通用户最熟悉的聊天框;Anthropic 把能力深扎进开发者工作和 Claude Code 生态;Google 把开源终端 Agent 推到命令行;GitHub 则从代码仓库和 pull request 出发。它们争夺的不是一句回答的所有权,而是委托任务的第一站。
这一点解释了为什么“Agent”突然变成行业热词。它不是因为模型拥有了完整自治,也不是因为科幻意义上的智能体降临。更现实的原因是:谁掌握了行动入口,谁就更接近用户的工作流程。搜索引擎掌握问题入口,办公软件掌握文档入口,代码平台掌握仓库入口;Agent 时代,各家公司想掌握“把事情办了”的入口。
竞争也让护栏变成产品能力。过去,安全限制常被看作妨碍体验的刹车;到 Agent 阶段,刹车本身成了卖点。企业用户不会把客户数据、财务系统、代码仓库随便交给一个只会热情回答的模型。它们需要审计、权限、日志、确认、撤销和责任边界。谁能让模型“多做事而少闯祸”,谁才有机会进入组织的日常流程。
这场竞争的幽默感在于:科技公司一边宣布 AI 可以替人完成更多工作,一边紧锣密鼓地发明更多办法阻止 AI 乱完成工作。左手给它工具,右手给它手套;左手接上浏览器,右手加上确认弹窗;左手开放终端,右手写下权限策略。看起来矛盾,其实正是 Agent 落地的真实形状。
六、开发者、白领与那张待确认的表
GPT-5 与 ChatGPT Agent 合流以后,最先感到变化的群体之一仍是开发者。第28章写过,编程 Agent 已经从自动补全走向读取仓库、修改文件、运行测试。到2025年7月至8月,这种变化获得了更强的基础模型和更明确的平台竞争。OpenAI 在 GPT-5 for developers 中强调编码和 agentic tasks;Anthropic 强调 Claude Opus 4.1 的 agentic coding;GitHub 和 Google 则把 Agent 放进终端、仓库和命令行。[5][8][9][10]
一个前端工程师面对组件库时,新的工作方式不再只是“请解释这段代码”。他可以要求模型扫描目录、找出重复组件、提出重构方案、修改若干文件、运行测试,再生成变更说明。每一步都可以由 Agent 推进,但每一步也都留下验收问题:测试是否覆盖关键路径?修改是否破坏无障碍属性?生成的说明是否夸大了变更范围?模型能跑测试,不等于测试足够;模型能开 pull request,不等于可以合并。
对白领工作来说,类似变化出现在研究、销售、采购、人力、运营和行政任务中。ChatGPT Agent 发布文展示的方向,是让用户把多步骤任务交给系统:收集信息、整理日程、生成材料、准备可编辑输出。[2] 这类任务过去常被称为“杂活”,但组织正是靠大量杂活运转。客户会议前的背景调查、供应商名单的初筛、报销材料的整理、竞品功能的对比、培训材料的初稿,都不是改变世界的伟大叙事,却占据了真实工作日的大块时间。
Agent 对这些工作的影响,不是简单“替代一个职位”。更准确地说,它改变了任务颗粒度。过去,一个人亲手做十个步骤;现在,他可以把前六个步骤交给 Agent,把第七步到第十步变成检查、判断和确认。劳动没有消失,而是从执行细节转向任务设计和结果验收。对熟练用户来说,这是杠杆;对粗心用户来说,这是放大器。它既放大效率,也放大疏忽。
这也是为什么个人权限纪律会变成一种新素养。办公室过去训练人们如何写邮件、做表格、开视频会议;Agent 时代还要训练人们如何写可执行指令,如何拆分任务,如何检查来源,如何限制授权,如何在系统即将提交、发送、购买、删除、合并代码之前停一下。确认按钮不再是烦人的流程残留,而是人类仍在场的证据。
A-source 报道中的用户反应也显示,公众并不会只按厂商发布会的节奏接受新模型。GPT-5 上线后,围绕模型选择、旧模型保留和体验变化的争议说明,人们已经把模型当成工作伙伴的一部分,而不是一次性玩具。[6] 当一个工具只是聊天机器人,用户可以随时换;当它进入文档、代码、日程和采购流程,切换成本就会上升。熟悉感本身变成生产力的一部分。
因此,个体影响的关键词不是“被替代”,而是“被重新分配”。用户把搜索、整理、初稿、初步执行委托出去,同时拿回更重的确认责任。一个人从键盘前的操作者,变成任务链条上的委托人、审稿人和权限管理员。这个新角色听起来不如“AI 魔法师”浪漫,却更接近2025年夏天真实发生的事情。
七、手停在确认按钮上
从7月17日到8月7日,OpenAI 连续推出 ChatGPT Agent 和 GPT-5。一个改变界面能做什么,一个改变模型能支撑什么。把它们放在一起看,2025年夏天的转折才完整:熟悉的聊天框开始越过回答,进入行动;更强的模型开始服务于更长的任务链。用户不再只是提问;他们开始委托。
但这一转折不应被写成自动化乌托邦。Agent 没有获得完整自治,GPT-5 也不等于 AGI。公开材料中反复出现的确认、接管、限制、可用范围和安全框架,说明厂商自己也知道,行动能力越强,边界越重要。[2][4][5] 如果说2023年的关键词是“生成”,2024年的关键词是“多模态”和“工具”,那么2025年夏天的关键词更像“授权”。谁授权,授权到哪里,何时收回,如何验收——这些问题决定 Agent 能否真正工作。
兴奋与怀疑在这里同时成立。兴奋的是,许多日常任务终于不必被拆成无数次复制粘贴、网页切换和格式整理;怀疑的是,模型的流畅输出仍可能遮住错误来源,自动化的速度仍可能超过人的检查习惯。Agent 让软件更像同事,也让管理同事的麻烦进入个人电脑。一个不会抱怨加班的助理固然诱人,但它如果把两年前的网页当成最新报价,也不会主动尴尬。
这一章的核心不是机器取代人,而是人和机器之间的动作分配发生了变化。过去,人类问,模型答;现在,人类设定目标,模型推进步骤,人类检查证据并授予下一步权限。聊天框长出手以后,人类也握住了另一只手:暂停键。
到这里,AI 的历史叙事从“它会说什么”转向“它能做什么”,又从“它能做什么”转向“谁允许它做”。确认按钮于是成了这个时代最朴素的象征。它没有发布会上的光环,也没有基准测试里的百分号,却决定一项委托是否真正越过屏幕。
人类仍在场,只是站在了一个新的位置:不是每一步的操作者,而是任务的委托人。那只手停在确认按钮上;按下去之前,工作还没有完全交出去。
参考文献
- OpenAI,OpenAI Livestreams,2025。
- OpenAI,Introducing ChatGPT agent: bridging research and action,2025-07-17。
- TechCrunch,OpenAI launches ChatGPT agent, a new AI agent that can use a computer,2025-07-17。
- OpenAI,GPT-5,2025-08-07。
- OpenAI,Introducing GPT-5 for developers,2025-08-07。
- The Verge,OpenAI is bringing back GPT-4o as an option after GPT-5 backlash,2025-08-08。
- Reuters,OpenAI launches GPT-5 in push to stay ahead in AI race,2025-08-07。
- Anthropic,Claude Opus 4.1,2025-08-05。
- Google,Introducing Gemini CLI: your open-source AI agent,2025-06-25。
- GitHub Blog Changelog,GitHub Copilot coding agent is now available for Copilot Business users,2025-06-24。
- GitHub Blog Changelog,Copilot coding agent now supports remote MCP servers,2025-07-09。
第31章|开源反攻与本地智能:gpt-oss、Qwen、Mistral 与 Hermes Agent
一、前沿不再只在登录框后面
2025 年夏天,人工智能的主舞台看起来仍然属于云端巨头。用户打开浏览器,输入账号,接受服务条款,选择套餐,然后在一个被精心设计的聊天框里获得“前沿模型”的能力。上一章写到 ChatGPT Agent 与 GPT-5 时,这条道路已经相当清楚:模型、工具、浏览器、代码环境、支付系统和企业权限,被包装进一个平台;用户通过授权把任务交给平台,平台再把答案和动作带回来。
但同一时期,另一条路也在变宽。
8 月,OpenAI 发布 gpt-oss,把两个开放权重模型推到开发者面前。官方材料将它们命名为 gpt-oss-120b 与 gpt-oss-20b,强调它们面向推理、工具调用和开发者自有部署场景,并采用 Apache 2.0 许可。[1] 这件事在行业叙事上有一种反常的喜剧感:长期被视为闭源前沿象征的公司,开始把带有自己品牌的开放权重模型放出来;而许多曾经靠开源模型“绕开”闭源 API 的开发者,则突然发现,绕开的对象也走进了同一条街。
它不意味着闭源云端失去优势。大模型服务的用户体验、规模化推理、工具权限、安全治理、企业合规和生态分发,仍然高度依赖平台化能力。也不意味着开放权重自动更便宜、更安全。下载权重只是第一步。推理服务器、显存预算、量化精度、上下文管理、日志脱敏、越权调用、许可证兼容、模型更新、评测回归,都会从供应商的后台转移到使用者的桌面、机房或云账单上。
可前沿已经不再只在登录框后面。到 2025 年下半年,一个小团队可以在同一周里做三件过去很难并列发生的事:调用闭源模型处理高风险复杂任务;在本地或自有云上部署开放权重模型处理私有数据;再用自托管 Agent 框架把模型、记忆、工具和技能串起来。软件业熟悉这种转变。自由不是免费午餐,自由常常意味着自己洗碗、自己修水管、自己半夜看监控。
这一章写的不是“开源战胜闭源”。那是另一种过度简化。它写的是 2025 年 8 月到 2026 年 4 月之间,一个更混杂的格局:OpenAI 的 gpt-oss、阿里 Qwen、DeepSeek、Mistral、Meta Llama 等开放或开放权重模型,把基础能力铺到更多人手里;Hermes Agent 这类自托管 Agent 项目,则把“会调用工具的模型”进一步推向个人和小团队实验。由此获得的杠杆是真实的,由此转嫁出去的复杂性也是真实的。
二、开放权重的夏秋:gpt-oss、Qwen 与一张更长的菜单
gpt-oss 的特殊性,不只在于模型本身,而在于发布者。OpenAI 在 2025 年 8 月把 gpt-oss 放出来时,行业已经习惯了一个分工:最强模型在云端,开放模型追赶;闭源模型提供整套产品,开放模型提供可改造的底座。gpt-oss 没有抹掉这个分工,却让边界变得更难画。
官方材料给出的重点不是“聊天机器人”,而是开放权重、推理能力和开发者部署。gpt-oss-120b 与 gpt-oss-20b 这两个尺寸,本身就对应了两类使用者:前者面向拥有较强 GPU 资源的机构和团队,后者面向更受设备约束的开发环境。[1] 在闭源 API 里,模型尺寸、权重量化、运行环境通常被服务商隐藏;在开放权重语境里,它们变成用户必须面对的工程事实。一个模型能否跑起来,不再只是“有没有账号”,而是“显存够不够、吞吐能不能接受、上下文成本是否可控、推理框架是否支持”。
Qwen 的路线提供了另一种样本。2025 年,Qwen 系列继续以官方博客和模型卡形式发布面向代码、通用推理和高效推理的模型。Qwen3-Coder 的官方发布将其定位为面向代理式编程任务的代码模型,强调代码生成、仓库级任务和工具使用;随后 Qwen3-Next 的官方材料又把重点放在更稀疏、更高效的架构上。[2][3] 对小团队来说,这些信息的意义并不抽象。模型卡列出的参数规模、许可证、上下文长度、部署建议和已知限制,决定了它能否被塞进一台工作站、一组租来的 GPU,或一家企业内网的推理服务。
开源模型的繁荣改变了选择方式。过去,团队选择模型像选择一家外包供应商:谁能力最强、价格最低、稳定性最好,就把请求发给谁。到 2025 年下半年,选择更像采购零部件。开发者要比较的不只是榜单分数,还有许可证能否商用,权重是否可下载,量化版本由谁维护,推理框架是否成熟,安全补丁如何跟进,微调数据是否会触碰隐私或版权边界。
这里的荒诞感来自一个事实:模型越开放,表格越长。闭源平台把很多表格藏在后台,用户只看到套餐页;开放权重把表格摊开,用户获得了选择,也获得了填表的义务。一个两三人的产品团队,可能在同一天讨论用户增长、Docker 镜像、Apache 2.0、GPU 驱动、红队提示词和夜间告警。所谓“AI 民主化”,有时表现为每个人都终于有资格给自己的推理服务值班。
三、DeepSeek 与 Mistral:开放不是姿态,而是交付方式
2025 年 12 月,DeepSeek 在官方 API 文档新闻页发布 DeepSeek-V3.2。官方说明把这次更新放在工具使用、推理能力与开源发布的框架里,显示开放模型的竞争已经不再停留于“会回答问题”,而是进入“能否稳定调用工具、能否适配 Agent 工作流”的阶段。[4] 到 2026 年 4 月,DeepSeek 又在官方文档中发布 V4 Preview,强调面向智能体能力与推理效率的进一步优化。[5]
这类发布把开放模型带入了一个更苛刻的赛道。普通聊天模型回答错了,用户可以追问;Agent 模型调用错了工具,可能改错文件、查错数据库、给错客户发邮件,或把一次看似无害的内部搜索变成权限事故。开放模型如果要参与 Agent 时代,就不能只在静态问答榜单上竞争,还要在工具调用格式、函数参数可靠性、多轮状态保持、拒答边界和评测复现上竞争。
Mistral 的动作也说明了这一点。2025 年 6 月,Mistral 发布 Magistral,称其为公司的推理模型系列,并同时提供开放权重版本与商业版本。[6] 同月,Mistral 发布 Mistral Code,把产品定位在企业软件开发场景,强调代码助手、企业知识、部署选项和面向组织的控制能力。[7] 虽然这两项发布时间早于本章主时段的起点,但到 2025 年 8 月以后,它们已经成为欧洲开放模型叙事中的重要组成部分:一边是可供开发者拿走的模型,一边是企业愿意付费购买的完整系统。
开放与商业并不矛盾。恰恰相反,2025 年之后,越来越多公司把开放权重作为分发方式,把企业服务作为收入方式。开放模型降低试用门槛,扩大社区评测,吸引生态适配;商业服务则处理企业最不愿意自己承担的部分:私有部署、权限管理、审计日志、支持响应、合规文件、稳定升级。开放模型公司不再只是在 GitHub 上争星标,它们也要卖合同、签 SLA、进采购流程。开源世界仍然浪漫,但浪漫主义者也要开增值税发票。
Meta 的 Llama 生态在这一阶段承担了另一种角色。2025 年 9 月,Meta 发布面向美国联邦政府采用 AI 的官方说明,称将通过合作伙伴推动 Llama 在联邦机构中的使用。[8] 这不是一次模型参数更新,却是开放生态进入公共部门采购和治理体系的信号。开放权重模型如果要被政府、医疗、金融和工业部门采用,技术能力只是条件之一;供应链、许可证、审计、部署地点、数据边界和责任归属同样重要。
这也解释了为什么“开源更安全”是一个危险的懒句子。开放权重允许更多人检查、测试、微调和部署,但安全不会自动从许可证里长出来。模型可能被错误微调,推理服务可能暴露在公网,日志可能记录敏感信息,工具调用可能越过权限边界,依赖库可能出现漏洞。闭源平台的问题是信任集中,开放部署的问题是责任分散。前者让用户相信一个大后台,后者要求用户自己成为后台的一部分。
四、Llama 的公共化与本地智能的政治经济学
Llama 不需要在本章重新讲一遍早期泄露和开放起源。那是前文已经覆盖过的旧故事。到 2025 年下半年,更重要的问题已经变成:开放模型如何进入制度化使用。
Meta 面向联邦政府的官方说明使用的是“加速采用”的政策语言。[8] 这类语言背后,是开放模型的一项现实优势:组织可以在不同云、不同硬件和不同服务商之间移动,至少在理论上降低被单一 API 锁定的风险。对公共部门和大型企业来说,这一点尤其重要。它们并不总是追求最炫的演示,而是追求可审计、可采购、可迁移、可解释责任链的系统。
但“可迁移”不是“无成本迁移”。一个机构把模型部署在自有环境中,需要有人维护镜像、驱动、推理框架、网络隔离、访问控制和日志策略。模型更新也会带来回归测试:新版本是否改变拒答行为,是否影响工具调用格式,是否在内部知识问答上退步,是否对某些语言或专业术语出现新的偏差。开放模型给了机构更多控制权,也把变更管理带回机构内部。
这就是本地智能的政治经济学。闭源云端把智能做成服务,把复杂性集中到供应商;开放模型把智能做成可部署资产,把复杂性分发给组织和个人。两者都不是纯粹的自由或束缚。闭源平台可能更省心,但数据、成本和路线图受制于供应商。开放部署可能更自主,但每一次自主都要求工程、治理和预算配套。
到 2026 年,监管语境也进一步提醒开发者:通用 AI 不只是技术资产,也是合规对象。欧盟围绕通用 AI 模型的行为准则与 AI Act 指引,将透明度、版权、安全和风险管理纳入制度框架。[9] 对小团队而言,这些文件可能显得遥远;但当他们把开放模型接入客户数据、医疗文本、招聘流程或金融分析时,遥远的制度会突然变成合同附件。开源许可证回答的是“能不能用”的一部分,合规义务回答的是“怎样用、出了事谁负责”的另一部分。
开放模型的反攻,因此不是一场轻装上阵的游行。它更像把许多原本藏在云平台里的后勤部门拆开,分发给了每个愿意自建的人。有人因此获得主权,有人因此获得成本优势,有人因此获得定制能力;也有人因此第一次知道,CUDA 版本不匹配会让一个宏大的智能体计划停在启动日志里。
五、Hermes Agent:当框架把记忆、技能和自我改造写进文档
模型开放之后,下一层问题是:谁来组织模型行动?
NousResearch 的 Hermes Agent 给出了一个开源社区版本的答案。其 GitHub 仓库把项目呈现为一个 Agent 框架,围绕工具使用、记忆、技能和自主任务执行组织代码与文档。[10] 官方文档中还提供了面向 Hermes Agent 的技能说明,把“技能”作为可组合、可调用的能力单元来描述。[11] 另一个由 NousResearch 维护的 hermes-agent-self-evolution 仓库,则把“self-evolution”作为扩展方向,展示让 Agent 生成、修改或扩展自身能力的实验性路径。[12]
这些说法需要被准确放置。文档声称支持记忆、技能和自我演化,并不等于证明系统具备可靠的长期自主改进能力,更不等于出现了什么“智能体社会”。在工程语境里,记忆通常意味着持久化存储、检索和上下文注入;技能意味着一组工具、提示、脚本或工作流封装;自我演化意味着系统可以根据任务结果生成新组件、修改配置或提出代码变更。它们都是软件结构,不是人格叙事。
但正因为它们是软件结构,才值得认真。闭源 Agent 平台通常把这些能力包装进产品体验:用户看到的是按钮、任务列表和授权弹窗。Hermes Agent 这样的项目则把骨架暴露出来。开发者可以看到记忆如何写入,技能如何注册,工具如何调用,模型如何被替换,失败如何记录。透明度带来学习价值,也带来责任。一个团队如果决定自托管这类框架,就必须回答一串实际问题:记忆数据库存放在哪里,是否加密,谁能读取;技能包是否允许执行 shell 命令;外部 API 密钥如何管理;Agent 生成的新代码能否自动运行;失败任务是否进入人工审核队列。
这里有一种行业荒诞:当人们说“让 Agent 自我进化”时,下一步往往是配置权限、写测试、禁用危险命令、限制目录访问、设置审计日志。科幻词汇落到运维手册里,语气会变得朴素。所谓自我进化,在生产环境里首先要学会不要把 .env 文件提交到仓库。
Hermes Agent 的意义,不在于它已经替代了平台化产品,而在于它使 Agent 的构造过程可见。小团队不必等待某个大型云厂商开放某个按钮,才能尝试把本地模型、私有知识库、内部脚本和长期记忆组合起来。他们可以下载仓库,阅读文档,接入模型,写自己的技能。与此同时,他们也失去了一部分平台保护:没有默认的企业安全团队,没有统一的滥用监控,没有自动合规审计,没有保证可用性的服务等级承诺。
Agent 时代的开源框架因此有一种双重性质。它们是杠杆,也是裸露的机械臂。会用的人能把一个小团队的工作半径扩大;不会管的人则可能把权限、数据和自动化错误一起放大。
六、OpenClaw、Moltbook 与社区实验的可见性
2026 年前后,围绕 Agent 的社区实验开始以更具娱乐性的方式进入行业媒体。TechTarget 和 IBM 的解释文章把 OpenClaw、Moltbook 等项目放在“最新 AI Agent 热潮”的语境下讨论,将其视为开发者围绕多 Agent、个人自动化和工具编排进行实验的文化信号。[13][14]
本章只把它们放在这个位置:文化信号,而不是基础设施转折点。原因很简单。公开讨论中常见的星标数、Agent 数量、收购传闻或商业化说法,如果没有官方仓库快照、项目公告或可靠一手资料,很容易在传播中失真。Agent 圈尤其容易制造一种热闹的错觉:一个项目的演示视频可以像产品,一个 Discord 频道可以像生态,一个排行榜可以像市场。可在非虚构叙事里,热闹不是证据。
不过,热闹本身也说明了一件事。到这一阶段,Agent 实验不再只属于研究实验室和大公司产品团队。个人开发者、开源维护者、学生、小型咨询公司和企业内部工具团队,都可以用开放模型、向量数据库、浏览器自动化、终端工具、MCP 服务器和技能框架拼出自己的“行动者”。有些项目会失败,有些会变成插件,有些会成为短暂流行的梗,有些会沉淀成库和标准。
Linux Foundation 在 2025 年宣布成立 Agentic AI Foundation,并把 MCP、AGENTS.md、goose 等项目和规范纳入更制度化的开源协作框架。[15] 这类动作与 OpenClaw、Moltbook 式的社区热潮形成对照:一边是实验文化,一边是标准化和治理。前者提供想象力,后者提供可持续的地基。Agent 生态需要两者,但也需要区分两者。演示可以展示可能性,标准和文档才决定可复用性。
开源世界历来如此。一个玩笑项目可能启发严肃工具,一个严肃项目也可能被错误包装成万能入口。2025 年后的 Agent 生态只是把这种老规律加速了。模型让原型更容易,社交媒体让原型更容易被看见,自动化又让原型更容易造成后果。可见性提高,不等于可信度提高。小团队若把这些实验接入真实业务,仍要回到朴素问题:谁维护,谁审核,谁备份,谁负责。
七、小团队的杠杆与账单
如果把 2025 年下半年到 2026 年春天的开放模型和自托管 Agent 项目摊在桌面上,一个小团队确实获得了前所未有的杠杆。
它可以选择 gpt-oss 这样的开放权重模型,在自有环境中处理不适合发往第三方 API 的数据。[1] 它可以测试 Qwen、DeepSeek、Mistral 或 Llama 生态中的模型,按语言、代码、推理、成本和许可证做组合。[2][4][6][8] 它可以把 Hermes Agent 这样的框架接入内部文档、工单系统、脚本和长期记忆,构造一个不完全依赖闭源平台的工作流。[10][11] 对一家小咨询公司,这可能意味着用更少的人维护更多客户项目;对一个内部工具团队,这可能意味着把重复报表、代码迁移、日志分析和知识检索统一到一个本地系统;对个人开发者,这可能意味着第一次拥有一个能读自己文件、调用自己脚本、记住自己偏好的工具。
但每一项杠杆都有背面。
首先是运维。开放权重模型不是网页收藏夹。它需要推理框架、GPU 或 CPU 资源、容器镜像、版本管理、监控和扩缩容策略。小模型可以在本地跑,生产服务仍然要处理并发、延迟、崩溃和成本。一次模型升级可能让提示词失效,一次驱动更新可能让推理服务无法启动。
其次是安全。Agent 框架的价值来自工具调用,风险也来自工具调用。能读文件的 Agent 可能读到敏感文件;能发请求的 Agent 可能触碰内部接口;能执行命令的 Agent 可能执行错误命令;能写代码的 Agent 可能引入漏洞。安全策略不能只写在宣传页上,必须落到权限隔离、密钥管理、沙箱、审计和人工确认上。
第三是许可证与数据。Apache 2.0 这类宽松许可证降低了使用门槛,但团队仍需核对模型、依赖库、训练或微调数据、第三方工具和客户合同之间是否兼容。模型输出也可能触发版权、隐私或行业合规问题。开放权重并不自动清空法律风险,它只是让使用者拥有更多自主处理风险的空间。
第四是评测。闭源平台通常提供一个看似稳定的产品名,背后版本可能滚动变化;开放部署则让团队可以锁定版本,却也要求团队自己建立评测集。一个 Agent 是否真的提高效率,不能只看演示是否顺滑,还要看任务成功率、人工返工率、错误严重度、成本、延迟和安全事件。小团队若没有评测,自动化很容易变成一种更快制造不确定性的方式。
最后是更新。开放生态速度极快。2025 年 8 月的选择,到 2026 年 4 月可能已经被新模型、新框架、新量化方案和新安全问题包围。团队既不能永远追新,也不能永远冻结。追新会让系统不稳定,冻结会让能力落后和漏洞累积。夹在中间的,是每个小团队都熟悉的现实:路线图写得雄心勃勃,维护表格写得密密麻麻。
因此,开放模型的反攻不是对闭源云巨头叙事的否定,而是对它的校正。前沿能力确实正在离开单一登录框,进入本地设备、私有云、开源仓库和社区框架。更多人可以触摸、修改、部署和组合这些能力。与此同时,复杂性也被重新分配。过去由平台吞下的许多脏活,开始摆到个人和小团队面前。
这并不悲观。软件史上许多重要的扩散,都是从“终于能自己做”开始,然后迅速进入“为什么这么多事都要自己做”的阶段。兴奋和怀疑在这里并不冲突。兴奋来自新的杠杆,怀疑来自新的责任。到 2026 年春天,智能的前沿不再只有一扇门;它变成了许多扇门、许多把钥匙、许多份许可证,以及许多台半夜仍在发热的机器。
参考文献
- OpenAI,Introducing gpt-oss,2025-08-05。
- Qwen Team,Qwen3-Coder: Agentic Coding in the World,2025-07-23。
- Qwen Team,Qwen3-Next,2025-09-11。
- DeepSeek API Docs,DeepSeek-V3.2 Release Notes,2025-12-01。
- DeepSeek API Docs,DeepSeek-V4 Preview Release Notes,2026-04-24。
- Mistral AI,Magistral,2025-06-10。
- Mistral AI,Mistral Code,2025-06-04。
- Meta,Accelerating AI adoption across the federal government,2025-09。
- European Commission,The General-Purpose AI Code of Practice,2025。
- NousResearch,hermes-agent,GitHub repository,访问日期:2026-04-30。
- NousResearch,Hermes Agent Docs: autonomous-ai-agents / hermes-agent,访问日期:2026-04-30。
- NousResearch,hermes-agent-self-evolution,GitHub repository,访问日期:2026-04-30。
- TechTarget,OpenClaw and Moltbook explained: The latest AI agent craze,2026。
- IBM Think,OpenClaw, Moltbook and future of AI agents,2026。
- Linux Foundation,Linux Foundation Announces the Formation of the Agentic AI Foundation,2025。
第32章|平台吃掉界面:AgentKit、Apps SDK、Atlas 与工作区代理
一、图标退到幕后
2025 年秋天,应用图标开始显得像上一个时代的路标。
过去二十年,软件工业训练用户记住一个动作:先想清楚要做什么,再打开对应的 App。订机票打开航旅应用,做海报打开设计工具,查客户打开 CRM,写报销打开财务系统,找文件打开网盘,问同事打开聊天软件。智能手机把这种秩序压缩成一屏屏小方块;SaaS 又把它搬进浏览器标签页。企业员工的一天,经常不是完成任务,而是在完成任务之前,先完成一场跨应用迁徙。
Agent 把这个秩序倒了过来。用户不再从图标开始,而从意图开始:整理这次客户拜访;比较两家供应商报价;把会议纪要变成任务;根据网页资料更新销售演示;在公司知识库里找出上季度的定价例外。随后,代理去调用邮件、日历、浏览器、网盘、表格、CRM、代码仓库和内部知识库。图标还在,但它们越来越像后台服务的徽章,而不是用户旅程的入口。
OpenAI 在 2025 年 10 月发布 Apps in ChatGPT 和 Apps SDK 时,正式把这种入口变化摆到台前。官方说明称,开发者可以用 Apps SDK 在 ChatGPT 中构建应用,让用户在对话中与第三方服务交互;这不是把一个网页链接贴进聊天窗口,而是让应用能力成为对话的一部分。[1] 同一天,OpenAI 又发布 AgentKit,把它描述为用于构建、部署和优化代理的一组工具。[2] 两周后,ChatGPT Atlas 发布,ChatGPT 被放进浏览器,网页不再只是被浏览的对象,也成为代理可解释、可总结、可继续操作的工作场。[3]
这三件事合在一起,说明竞争的坐标发生了变化。模型能力仍然重要,推理、编码、视觉、工具调用仍然是底层燃料;但更上层的战场,正在从“谁的模型更聪明”扩展为“谁拥有工作流、身份、记忆、权限、连接器、账单和治理”。在这一层,模型像发动机,平台像交通系统。发动机强不强当然要紧,可道路、收费站、驾驶证、维修记录和保险条款,开始决定谁能把车开进城市中心。
这种变化并非没有前史。本书前文写过插件商店的第一轮热闹:聊天框曾试图像手机系统那样安装插件,又很快暴露出发现、权限、可靠性和分发的难题。2025 年的新意不在于“又有一个商店”,而在于平台方把聊天、浏览器、开发工具、企业工作区和管理控制台一起搬进同一张地图。插件时代的问题是:聊天机器人能不能调用外部工具。代理平台时代的问题变成:谁来批准调用,谁来记录调用,谁来收费,谁来承担治理责任。
这听上去像企业架构师的白板话术,却直接改变普通人的屏幕。用户少切换一个应用,背后就多一次授权;少复制一段文本,背后就多一条连接器链路;少手动检查一个表格,背后就多一段代理日志。便利没有消灭复杂性,只是把复杂性从前台图标挪到了后台控制面板。行业的荒诞感也在这里:人类终于不用在十几个标签页之间搬运信息了,但为了实现这一点,他们需要学会阅读比标签页更难懂的权限说明。
二、OpenAI 的三块拼图:构建、分发、浏览
OpenAI 在这一阶段的动作,并不是单点产品发布,而是一组互相咬合的基础设施。
AgentKit 对开发者说的是:不要只把模型 API 当作补全文本的接口,要把代理当作可设计、可测试、可部署的工作流。官方发布文把 AgentKit 放在代理构建语境下,强调开发者可以创建代理工作流、连接工具、评估代理表现,并把代理体验嵌入产品。[2] 这意味着 OpenAI 不只想出售一次模型调用,也想参与代理从原型到生产的整个生命周期。模型回答错了,可以调模型;代理走错流程,就要调工作流、工具描述、权限边界、失败回退和评测用例。后者需要平台。
Apps SDK 则面向另一端:分发。Apps in ChatGPT 的官方发布把 ChatGPT 描述为用户可以直接发现和使用应用的地方,开发者通过 Apps SDK 把应用能力带进 ChatGPT。[1] 这里的关键不是“又多了几个应用”,而是入口所有权。过去,第三方应用争夺的是手机桌面、搜索排名、浏览器书签和企业门户;现在它们还要争夺聊天窗口里的可见性。当用户说“帮我做一张活动海报”时,究竟由哪个设计工具接住请求,谁来展示界面,谁来保存结果,谁来获得付费转化,都变成平台规则的一部分。
Atlas 补上第三块:浏览器。OpenAI 对 ChatGPT Atlas 的官方说明把它定位为内置 ChatGPT 的浏览器,用户可以围绕网页内容询问、总结、辅助操作,并在代理能力支持下让 ChatGPT 帮助完成浏览器中的任务。[3] 浏览器本来就是互联网工作流的总入口。把 ChatGPT 放进浏览器,意味着代理不再等待用户把网页内容复制进聊天框;网页、对话和行动可以在同一处发生。过去,浏览器扩展把一个个小工具挂在地址栏边上;Atlas 的方向是让代理成为浏览器本身的组织原则。
这一组动作背后有一个明显的平台逻辑:构建者用 AgentKit 创建代理,开发者用 Apps SDK 把服务接入 ChatGPT,终端用户在 ChatGPT 或 Atlas 中把任务交给代理,企业则在工作区里管理身份、权限和数据边界。每一环都可以单独解释为产品改进;连起来看,它们是一条从模型 API 到工作流控制面的迁移路线。
行业分析也注意到这一点。The Verge 在报道 OpenAI 2025 年开发者活动时,把 Apps in ChatGPT 放在“ChatGPT 变成应用平台”的语境下讨论。[4] 这种说法并不意味着平台已经成功,更不意味着开发者和用户已经大规模迁移。SDK 发布只是供给侧事件,不是采用率数据。真正的竞争要等用户是否愿意在聊天窗口里完成原本属于独立应用的任务,开发者是否愿意把关键交互交给平台分发,企业是否允许代理跨系统调用内部数据。发布会可以宣布入口,市场还要决定入口是不是门。
对 OpenAI 来说,危险与机会正好重叠。若 ChatGPT 成为前台,第三方应用可能获得新的流量;但如果用户只记得“让 ChatGPT 帮我做”,而不再记得具体应用名称,应用品牌就会被压到代理动作背后。手机时代,图标至少还在桌面上占一个位置;代理时代,应用可能只在授权弹窗、调用日志和账单明细里露面。软件业辛苦设计的启动页、导航栏和新手引导,有一部分会被压缩成一行工具描述。多年 UX 研究最后浓缩成一句话:请允许本代理访问你的数据。
三、工作区代理:公司边界进入聊天框
如果只看消费者场景,代理平台像是一个更聪明的个人助理;一旦进入企业,它就变成公司边界的一部分。
企业软件的基本单位不是“用户”,而是“带权限的用户”。同一家公司里,销售可以看客户记录,财务可以看付款信息,法务可以看合同条款,工程师可以看代码仓库,人力资源可以看员工档案。传统 SaaS 用角色、组、目录服务、单点登录、审计日志和数据保留规则维持这些边界。代理进入之后,问题变得更刁钻:如果一个员工可以看某份文件,他委托的代理是否也可以看?如果代理把文件摘要写入另一套系统,原始权限是否随摘要流动?如果代理调用了外部应用,谁来证明它没有越界?
OpenAI 的企业和工作区资料把 ChatGPT 放在组织管理语境中,强调面向企业的管理控制、数据保护、连接公司知识和工作流的能力。[5] 这类资料的意义不只是安抚采购部门。它说明 ChatGPT 不再只是员工个人打开的网页,而是可以被纳入公司身份体系和管理体系的工作区。所谓工作区代理,并不一定是一个拟人化头像,而是“某个组织中可被配置、授权、约束和审计的代理能力”。
这与 2023 年的聊天机器人热潮不同。那时,很多公司最紧张的问题是员工把敏感信息粘进公开聊天框。到了 2025 年,问题变成公司是否要主动把内部知识库、文件系统、日历、协作工具和业务系统接进代理平台。前者是影子 IT,后者是正式采购。前者的风险来自员工绕过流程,后者的风险来自流程终于批准了一个能跨系统行动的工具。
工作区代理的诱惑很强。企业知识通常散在邮件、会议纪要、文档、工单、CRM 字段和聊天记录里。员工要回答一个简单问题,可能要搜索四个系统、问两个同事、再翻一个过期的表格。代理如果能在已有权限范围内检索、汇总、生成后续动作,效率提升是可见的。荒诞的是,许多组织花了十年把数据装进“统一工作平台”,最后发现真正统一它们的可能不是门户网站,而是一个会调用门户网站的聊天框。
但这同样把平台方放进更中心的位置。谁承载工作区身份,谁就知道用户属于哪个组织、哪个组、拥有哪些连接器、能调用哪些工具。谁承载记忆和上下文,谁就能影响代理下一次如何解释同一项业务。谁承载审计日志,谁就掌握合规复盘的事实底稿。谁承载账单,谁就决定一次代理调用究竟算模型消耗、应用服务费、连接器费用,还是企业席位价值的一部分。
在企业采购语言里,这些叫安全、合规、管理、可观测性;在平台竞争语言里,它们叫控制面。
四、Anthropic 的 Skills:把能力打包,而不是只抢入口
OpenAI 的路线突出入口和分发,Anthropic 在 2025 年公布 Agent Skills 时,则展示了另一种实现方式:把代理能力打包成可复用的技能。
Anthropic 的工程文章把 Skills 描述为给代理配备现实世界能力的方法。根据官方说明,Skills 可以包含指令、脚本和资源,让 Claude 在需要时加载相关能力,用于完成特定任务。[6] 这看起来没有“应用进聊天框”那么像平台发布会,却触及代理工程的核心问题:长任务不是靠一次提示词完成的,而需要可复用的操作知识、文件、代码和约束。技能包把这些东西组织起来,使代理在处理某类任务时不必每次从零开始。
这种设计有自己的平台含义。若应用平台争夺的是用户入口,Skills 争夺的是能力封装格式。一个企业可以为财务分析写技能,为品牌审查写技能,为客户支持写技能,为数据清洗写技能。技能如果以文件和脚本形式存在,就更接近软件工程中的包管理;它不一定要求用户在某个平台商店里点击安装,却要求组织维护一套代理可调用的能力库。
这条路线与 Anthropic 过去强调的安全、可控和工程实践相符。Agent Skills 的重点不是让用户在聊天中召唤更多第三方品牌,而是让代理在特定任务中拥有更稳定的操作手册。它把“代理会不会做事”拆成几个可管理元素:任务说明是否清楚,脚本是否可靠,资源是否齐全,加载时机是否合适,输出是否可检查。相比把所有能力都塞进模型上下文,技能机制更像是给代理一个工具箱仓库,需要时取出对应抽屉。
这并不意味着 Anthropic 不参与平台竞争。恰恰相反,能力封装本身也是平台竞争的一部分。谁定义技能格式,谁提供运行环境,谁管理技能权限,谁支持技能在团队内分发,谁就可能成为代理工作流的基础设施。只是它的冲突点不是“用户从哪个前台入口开始”,而是“组织把自己的业务能力写成什么格式、存在哪里、由谁执行”。
这也提供了一个有趣的对照。OpenAI 的 Apps SDK 把第三方应用带到 ChatGPT 里,强调对话入口中的应用交互;Anthropic 的 Skills 把任务能力带到 Claude 可使用的结构中,强调代理执行中的能力加载。前者更像城市商业街,店铺争取在主街上开门;后者更像工厂工具库,关键在于每个工具是否能被正确取用、维护和追踪。两者都在平台化,只是一个更靠近用户界面,一个更靠近代理工程。
五、Google 的 Gemini Enterprise:企业代理的正门
Google 的路径又不同。它的优势不是从一个聊天产品向外扩张,而是从云、办公套件、搜索、身份和企业数据基础设施向代理平台收拢。
Google Cloud 在 2025 年发布 Gemini Enterprise Agent Platform,官方将其描述为面向企业构建、部署和管理 AI 代理的平台,强调连接企业数据、创建代理、治理代理使用,并把 Gemini 能力带入工作场景。[7] 这不是一个孤立的聊天窗口故事,而是 Google 长期企业业务的延伸:Workspace 里的文档、邮件、会议和表格,Google Cloud 里的数据、应用和安全体系,Vertex AI 等开发平台,以及企业已经配置好的身份和权限。
对于大型组织来说,这种路线有现实吸引力。企业不只是要一个能回答问题的模型,还要知道模型能接触哪些数据、运行在哪里、如何与已有云资源对接、如何纳入合规和审计。Google 的叙事重点,正是把代理放进企业平台:员工可以使用代理,开发者可以构建代理,管理员可以治理代理。这三个角色一旦同时出现,代理就不再是个人效率工具,而是组织级软件层。
这也使竞争变得更像云战争,而不只是聊天机器人战争。云厂商熟悉的不是“日活跃用户”一项指标,而是账户体系、项目、资源配额、IAM、日志、数据驻留、采购合同和服务级别协议。代理平台一旦进入企业核心流程,就必须面对这些旧而硬的东西。没有它们,代理像演示;有了它们,代理才像系统。行业有时喜欢把 Agent 说成会自己干活的数字员工,但真正让数字员工上岗的,仍是非常不浪漫的入职流程:分配账号、设定权限、绑定成本中心、启用日志、接受安全培训。
Google 的企业代理平台,也把一个事实说得更清楚:模型厂商、云厂商和应用厂商正在同一层相遇。OpenAI 从模型和 ChatGPT 入口向企业工作区推进;Google 从企业数据和云平台向代理入口推进;Anthropic 从模型安全和代理工程向技能与企业部署推进。它们看似卖的是不同产品,争夺的却是同一个控制面:工作如何被表达,数据如何被接入,权限如何被继承,行动如何被记录,费用如何被归因。
这一层竞争不会很快有胜者。大型企业通常不会只用一个模型,也不会轻易把所有工作流交给单一供应商。它们会试点、分部门采购、设白名单、做安全评估、要求日志导出、要求合同条款。平台方想要的是默认入口,企业想要的是可替换性。双方都说自己支持开放生态,但采购谈判桌上,真正的开放程度通常要看数据能否迁出、日志能否带走、权限模型能否复用、代理工作流能否在另一处重建。
六、控制面:身份、记忆、连接器、审计、账单
代理平台的真正权力,不在一个漂亮的回答里,而在六个后台名词里:身份、记忆、连接器、审计、账单、治理。
身份是第一层。没有身份,代理只能回答公共问题;有了身份,代理才能代表某个用户访问邮件、文档、日历、代码和业务系统。企业身份体系通常包含单点登录、目录同步、组管理、多因素认证和离职回收。代理接入后,这些机制不再只是登录便利,而是行动边界。一个代理能否读取客户名单,不取决于它“懂不懂销售”,而取决于它继承了谁的权限、被授予了哪个连接器、是否经过管理员批准。
记忆是第二层。消费者喜欢记忆,因为它能减少重复说明;企业喜欢上下文,因为它能让代理理解内部术语、项目历史和团队偏好。但记忆也提出难题:哪些内容可以长期保存,谁能查看,如何删除,是否跨设备、跨工作区、跨应用生效。记忆让代理更像同事,也让它更像档案系统。一个忘性很大的代理效率低;一个什么都记住的代理合规压力高。平台要在这两种失败之间找路。
连接器是第三层。它们把代理从语言系统变成工作系统。没有连接器,代理只能建议用户打开哪个应用;有了连接器,代理可以检索、汇总、创建草稿、更新记录,甚至触发业务流程。连接器的数量容易被做成发布会数字,但真正重要的是权限继承、数据最小化、调用失败处理和管理员可见性。一个能连接十个应用但无法解释权限边界的代理,比一个只能连接两个应用但日志清楚的代理更难进入严肃组织。
审计是第四层。传统软件里,用户点击按钮,系统记录操作。代理时代,用户给出目标,系统中间可能发生多步推理、多次检索、多轮工具调用。审计日志必须回答新的问题:代理看了哪些资料,调用了哪些工具,依据什么生成了输出,在哪一步需要人工确认,哪里发生了失败。欧洲关于 AI 治理的官方说明中,围绕通用 AI、风险管理和合规义务的讨论,已经把透明度、文档和责任链放在监管框架内。[8] 企业不会因为“这是 AI”就放弃追责;相反,AI 越能行动,追责链越需要可读。
账单是第五层。平台化的标志之一,是费用从单一订阅变成多层计量:模型调用、代理运行、第三方应用、连接器、企业席位、存储、日志保留、云资源。用户看到的是“帮我完成这件事”,财务看到的是一串成本归属。代理若真的减少人工操作,它就会增加机器操作;机器操作也要进账单。软件业最稳定的幽默之一,就是每次有人宣布“无缝体验”,都会有另一个部门开始研究新的计费维度。
治理是第六层,也是前五层的总和。治理不是在代理外面贴一个“安全使用 AI”的海报,而是把身份、权限、数据、日志、评测、人工确认、供应商管理和合同条款嵌进日常流程。AgentKit、Apps SDK、Atlas、Skills、Gemini Enterprise 这些产品线的共同方向,正是把代理从演示阶段拉进治理阶段。它们各自强调的功能不同,但都承认一个前提:代理要进入真实工作,就必须被管理。
这就是平台吃掉界面的含义。界面没有消失,它只是退后了。真正决定体验的,不再只是按钮摆在哪里,而是谁能在什么条件下调用什么能力。前台越简单,后台越复杂。用户说一句话,平台要完成身份确认、上下文检索、工具选择、权限检查、调用执行、结果生成、日志记录和费用归属。应用图标消失的地方,控制面板长了出来。
七、个人的授权时刻
平台化最终落到个人身上时,常常不是宏大叙事,而是一个授权按钮。
一个员工准备让代理整理下周客户会议。为了完成任务,代理需要访问日历确认参会人,读取邮件找历史沟通,打开网盘查报价文件,进入 CRM 查看客户阶段,调用文档工具生成会议简报。过去,员工要在五个应用之间来回切换;现在,员工可以在一个代理入口里发出委托。便利真实存在。少复制一次附件,少找一次版本,少在搜索框里猜关键词,都是工作日里能被感知的减负。
但授权按钮也真实存在。员工必须理解:这是临时访问还是长期连接;是只读还是可写;代理能否代表自己发出消息、创建记录、修改字段;授权能否随时撤销;撤销后历史日志是否保留;管理员能否看到代理调用;第三方应用是否获得了新的数据副本;离职或转岗时这些权限如何回收。这些问题以前属于 IT、安全和法务,现在开始进入普通知识工作者的日常。
锁定效应也从这里出现。若一个人的会议准备、客户摘要、写作风格、常用资料、应用连接和自动化流程都沉淀在某个平台,他更换平台的成本就不只是重新订阅,而是重建工作记忆、重连工具、重写代理指令、重新通过公司审批。对个人来说,这叫“用顺手了”;对平台来说,这叫留存;对采购部门来说,这叫供应商风险。三个词描述同一件事,只是站位不同。
订阅蔓延同样会变得更隐蔽。过去用户知道自己买了设计软件、项目管理软件和云存储;代理入口出现后,用户可能通过一个对话同时触发多个付费系统。平台若处理得好,账单会清楚归属;处理不好,便利就会变成月底报销单上的考古工作。到那时,员工会发现自己不再需要记住每个应用的入口,却仍然需要解释每笔费用的来源。图标消失了,成本中心没有。
这并不是反代理的结论。恰恰相反,代理平台化代表软件终于开始围绕任务而不是应用边界组织。对许多工作者来说,这是一件令人兴奋的事。人类长期承担着“软件胶水”的角色:把 A 系统里的信息复制到 B 系统,把会议里的决定变成项目管理里的任务,把邮件里的承诺变成日历里的提醒。Agent 如果能可靠承担一部分胶水工作,人的时间会从搬运转向判断。
怀疑也必须同时保留。一个能跨应用行动的代理,比一个只会回答问题的聊天机器人更有价值,也更需要边界。平台方越强调无缝,用户越要寻找缝在哪里:权限缝、数据缝、日志缝、账单缝、退出缝。真正成熟的代理平台,不应只让授权变得容易,也应让撤销、审计和迁移变得同样容易。否则,所谓“智能工作流”很可能只是把旧时代的应用孤岛,升级成新时代的平台围城。
到 2026 年春天,胜负仍未揭晓。OpenAI 在入口、构建工具和浏览器上连续落子;Anthropic 用 Skills 强调可封装、可复用的代理能力;Google 把企业代理放进云和 Workspace 的治理框架。没有一家可以宣布吃掉整个界面。可是方向已经足够清楚:下一轮软件竞争,不只发生在模型参数和基准测试里,也发生在谁替用户打开应用、谁替企业保管权限、谁替开发者分发能力、谁替监管留下记录。
应用图标不会一夜消失。它们会先变少被点击,再变成代理调用清单里的名字,最后在某些任务中退化为后台服务。人类仍会使用软件,只是越来越少从软件开始。平台吃掉界面,并不是屏幕上少了几个按钮;它是软件工业重新分配入口、身份和控制权的一次缓慢吞并。
参考文献
- OpenAI,Introducing apps in ChatGPT,2025-10-06。
- OpenAI,Introducing AgentKit,2025-10-06。
- OpenAI,Introducing ChatGPT Atlas,2025-10-21。
- The Verge,OpenAI wants ChatGPT to be an app platform,2025-10-06。
- OpenAI,ChatGPT Enterprise,访问于 2026-04。
- Anthropic,Equipping agents for the real world with Agent Skills,2025-10-16。
- Google Cloud,Google Gemini Enterprise Agent Platform,2025-10-09。
- European Commission,Navigating the AI Act: FAQ,访问于 2026-04。
第33章|三套规则,一场竞赛:当 Agent 开始需要护栏
一、聊天框造成尴尬,代理造成后果
在上一轮人工智能热潮里,最常见的恐惧,是一句话说错了。
聊天机器人可能编造引用,可能把客服话术写得过分热情,可能在搜索摘要里给出离谱答案。它让公司尴尬,让用户困惑,让律师皱眉。错误大多停留在文本里:一段回复、一封草稿、一张幻灯片、一行错误代码。人们争论的是模型能不能说、该不该说、怎样拒绝说。
2025年7月以后,问题变了。
OpenAI 在 7月17日发布 ChatGPT Agent 时,把它描述为一种可以在用户授权下研究信息、浏览网页、运行代码、分析数据并执行任务的系统。它不只是把答案写在聊天框里,而是把浏览器、终端、连接器和任务执行放进同一条工作流。[1] 一个普通的聊天机器人如果犯错,可能让用户复制了一段荒唐邮件;一个代理如果被接进企业系统,可能在日历上发出邀请,在表格里改动数字,在代码仓库里开出拉取请求,在采购系统里生成申请,在客户关系管理系统中更新字段。
行业的荒诞感也在这里出现:同一句“帮我处理一下”,在旧时代意味着写一段文字;在代理时代,可能意味着调用五个工具、访问三套数据库、触发两个审批流,再把所有动作写进审计日志。过去,安全团队担心模型把密钥说出来;现在,他们还要担心模型拿着一个合法身份去调用合法接口,做出不该做的合法动作。
这并不意味着聊天时代的内容治理消失了。幻觉、偏见、版权、儿童安全、选举虚假信息仍然在场。但代理把监管问题从“AI 可以说什么”推进到“AI 可以做什么、代表谁做、凭什么权限做、出了事谁负责”。这也是本章的起点:2023 年那些围绕风险信、听证会和“暂停训练”的公共争论,在 2025 至 2026 年变成了更琐碎也更要命的工程问题。护栏不再只是一套拒答模板,而是一张权限表、一组日志、一份模型文档、一个区域开关,以及一条能够被审计的责任链。
二、布鲁塞尔把合规做成接线图
欧盟给出的答案,不是简单地“严格”,而是把责任拆成不同层次。
2025年7月,欧盟委员会公布通用人工智能模型《行为准则》(General-Purpose AI Code of Practice)相关材料。官方页面把这套准则放在《人工智能法案》框架下:它旨在帮助通用人工智能模型提供者履行法案中的义务,尤其是透明度、版权,以及对具有系统性风险模型的安全和安保要求。[2] 这不是一部新的法,也不是一张万能清单;它更像是在法律条文和工程组织之间架起的一组接头。
欧盟《人工智能法案》的逻辑并不把所有 AI 产品揉成一团。它区分被禁止的用法、高风险 AI 系统、透明度义务、通用人工智能模型,以及通用人工智能模型中可能构成系统性风险的模型。欧盟委员会的问答材料解释,法案分阶段适用:部分禁用实践先行生效,通用人工智能模型义务在 2025 年 8 月进入关键节点;已经投放市场的既有通用模型,则有更长的过渡期。[3] 法案文本本身要求通用人工智能模型提供者准备并维护技术文档,向下游系统提供必要信息,建立遵守欧盟版权法的政策,并公开训练内容摘要;对具有系统性风险的模型,还要求进行模型评估、评估和缓解系统性风险、跟踪并报告严重事件,并保证网络安全保护。[4]
这些条款在报纸标题里容易显得抽象,在产品经理和安全工程师手里却会变成接线图。一个模型提供者要知道训练和评估材料如何记录,模型能力和限制怎样说明,版权合规策略放在哪里,严重事件谁接收,红队测试如何留痕。一个下游应用提供者要知道自己调用的基础模型给了哪些信息,自己在医疗、教育、就业、信贷、公共服务等场景中是否落入高风险分类,用户界面上需要怎样告知,人的监督如何安排。
代理使这套接线图更复杂。通用模型本身可能只是生成文本或代码,但一旦它被放进代理框架,就会开始调用外部工具。模型提供者、代理平台、企业部署者和最终用户之间,责任边界不再天然清楚。模型说“可以帮你整理供应商报价”,平台给它浏览器和表格工具,企业给它采购系统权限,员工让它生成比价报告。若报告中引用了错误网页、误读了合同、越权访问了内部价格表,问题不只属于“模型输出质量”,还属于权限设计、日志记录、人员监督和供应商管理。
欧盟的规则在这里显得既雄心勃勃又笨重。雄心在于,它把上游模型和下游系统都纳入治理视野;笨重在于,代理的真实运行路径常常跨越公司、云服务、插件、浏览器、身份系统和外部网站。法案要的是可说明、可追责、可减缓风险;产品要的是少点弹窗、少点摩擦、少点延迟。二者相遇时,工程团队得到的不是一句“遵守 AI Act”,而是大量具体问题:哪些工具默认禁用,哪些动作需要二次确认,哪些日志保留多久,哪些区域暂缓上线,哪些模型版本需要额外文档。
因此,布鲁塞尔的监管不是把速度按停,而是把速度变成有表单、有证明、有责任人的速度。对想在欧洲提供通用模型和代理服务的公司来说,合规不再是发布后的法律附录,而是发布前的产品结构。
三、华盛顿把规则写成动员令
大西洋另一边,2025年7月,美国白宫发布《America’s AI Action Plan》。官方页面和白宫 PDF 把它写成一份国家竞争方案:加速 AI 创新,建设美国 AI 基础设施,并在国际外交与安全上保持领先。[5][6]
如果用“松”来概括美国路线,会漏掉它真正起作用的地方。美国的文件没有采用欧盟那种统一横向法案的表达方式,但它把 AI 规则嵌入了另一套机器:能源、数据中心、芯片、标准、采购、出口、盟友体系、科研基础设施和国家安全审查。它关心的不是少数条文能否管住所有模型,而是美国能否足够快地建出算力、布置电力、扩展半导体供应链,把 AI 技术栈出口给盟友,同时用标准、测试和安全机制约束高风险方向。
这是一种基础设施姿态。数据中心审批、电网接入、芯片制造、模型评测、政府采购、开源与开放权重、出口管制、国际标准组织,在这份行动计划里互相勾连。对企业而言,它的信号不是“随便做”,而是“快做、在美国做、用美国供应链做、按美国安全与标准体系做,并把这套体系卖到外部世界”。
代理时代使这种姿态更有现实意义。聊天机器人主要消耗的是模型推理和用户注意力;代理消耗的是更长链条的计算、工具调用、浏览会话、沙盒环境、身份系统和后台任务。一个能连续处理研究、网页操作、文件分析和企业工作流的代理,比单轮问答更像一项基础设施服务。它需要低延迟、可靠上下文、隔离环境、权限网关、日志存储和合规接口。美国行动计划所强调的基础设施、标准和安全,在这种场景下不只是宏观产业政策,也会落到每一次代理任务的后台成本上。
白宫文件还把 AI 与国际竞争并列书写。这里的竞赛并不只是模型参数或排行榜,而是规则的输出能力:谁的云、谁的芯片、谁的安全评测、谁的采购模板、谁的标准文本,会成为其他国家和企业采用 AI 代理时的默认配置。欧洲通过法案塑造市场准入,美国通过基础设施和技术栈塑造依赖关系。两者不是“管得严”和“管得松”的对照,而是两种不同的操作系统。
这也解释了为什么同一个企业在 2025 年下半年会同时开三种会:法务部门研究欧盟通用模型义务,公共政策团队阅读美国行动计划,基础设施团队计算代理工作流会增加多少推理和工具调用成本。监管没有停在政府网站上,它沿着采购合同、云账单和安全评审进入公司。
四、北京的标签,亚洲的另一种入口
亚洲不是一种制度。若把中国、日本、韩国、新加坡、印度和东南亚市场简单归入“亚洲监管”,只会制造新的幻觉。本章只取 2025 至 2026 年期间有明确官方来源、且对产品设计有直接影响的一条中国规则:人工智能生成合成内容标识。
2025年3月,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局发布《人工智能生成合成内容标识办法》,并明确自 2025年9月1日起施行。[7] 这套办法围绕一个具体问题展开:当内容由人工智能生成或合成,服务提供者和传播平台应如何标识。办法要求服务提供者按照规则添加显式标识或隐式标识;提供网络信息内容传播平台服务的主体,要采取措施识别、提示和管理生成合成内容;任何组织和个人不得恶意删除、篡改、伪造、隐匿相关标识。
这条规则处理的不是代理权限本身,而是代理输出进入公共传播空间后的可识别性。一个图像生成工具、一段 AI 配音、一个自动生成的视频、一篇由代理整理并发布的商品说明,都可能触发标识要求。若代理替用户跨平台发布内容,问题进一步变得具体:标识由谁加,是模型服务商、代理平台、内容发布平台,还是最后点击发布的用户?若代理把多段人工和机器内容混合,显式标识放在哪里?若内容被二次编辑,隐式标识如何保留?这些不是哲学问题,而是元数据、界面提示、水印、平台审核和用户协议问题。
中国此前已有《生成式人工智能服务管理暂行办法》,对面向境内公众提供生成式人工智能服务提出安全评估、算法备案、训练数据、个人信息保护、生成内容管理等要求。[8] 到 2025 年秋季,标识办法使“生成合成内容可识别”成为更可操作的一层。它与欧盟的通用模型文档义务不同,与美国的基础设施动员也不同。它从内容流通和平台责任切入,要求产品在生成、传播、再传播环节留下痕迹。
代理在这里带来的麻烦,是它会把“生成”和“发布”连起来。过去,用户先让模型写文案,再复制到平台;责任链至少有一个人工搬运环节。代理若被授权直接登录账号、排程发布、修改标题、配图、加标签,内容标识就必须嵌入任务链,而不是发布前的事后提醒。行业荒诞又一次出现:一个看似聪明的营销代理,若不会正确加上“AI 生成”标识,可能在合规上比一个笨拙但只会生成草稿的聊天机器人更危险。
因此,中国的这一组规则不是“更严格”四个字可以概括的。它展示的是另一种治理入口:从内容可识别、平台管理和传播秩序出发,让生成式 AI 产品把标签写进工作流。对代理而言,这意味着护栏不只在模型拒答处,也在发布按钮、文件元数据、视频水印和平台接口处。
五、风险变成一张权限表
监管一旦进入代理时代,就会遇到安全工程的老问题:身份、权限、审计。
NIST 在生成式人工智能风险管理框架画像中,将生成式 AI 的风险放进治理、映射、测量和管理流程里讨论,涉及信息完整性、数据隐私、网络安全、滥用、知识产权、偏见和人机监督等方面。[9] 这些风险在聊天框里已经存在,但代理把它们接上了工具。工具连接后,风险不再只是“模型说错”,还包括“模型拿到什么”“模型调用什么”“模型替谁调用”“调用后能不能撤销”。
企业安全部门对此并不陌生。过去十年,零信任、最小权限、身份治理和审计日志已经成为云安全常识。代理出现后,一个新对象被塞进这些制度:非人类行动者。微软在 Entra Agent ID 相关材料中,把 AI 代理作为需要身份管理和访问治理的对象来处理,强调为代理建立可识别身份、管理访问权限并纳入治理流程。[10] 这类设计说明了一个方向:如果代理要访问邮件、文档、代码仓库、客户数据或财务系统,它不能永远躲在某个员工账号后面。否则审计日志只能显示“张三访问了文件”,却无法说明是张三本人、张三授权的代理,还是被错误配置的自动流程。
Google 在 2025 年推出 Gemini Enterprise 代理平台时,也把企业代理与治理、安全、连接器和可观测性放在同一套叙述中。[11] 这不是偶然。代理平台要卖给企业,不能只展示“会做事”,还要展示“做了什么能查清楚、能限制、能撤回、能证明”。一个代理如果能跨 Gmail、Drive、Slack、Salesforce、Jira 或内部数据库工作,管理员就需要白名单、黑名单、数据边界、审批流、日志导出和异常告警。代理的智力只是产品海报的上半部分;下半部分是权限矩阵。
软件开发场景把这一点演得很直观。GitHub 在 2025年7月宣布 Copilot coding agent 支持远程 MCP 服务器,使编码代理可以连接外部上下文和工具。[12] 对开发者来说,这意味着代理获得更多项目知识和自动化能力;对安全团队来说,这意味着新的供应链入口、新的凭据边界和新的审计对象。代理可以读 issue、改代码、运行测试、提交分支、打开拉取请求。每一步看起来都是正常开发动作,但组合起来就是一条自动化生产线。问题不再是“它写的代码好不好”,还包括“它为什么能访问这个仓库”“它用了哪个外部工具”“谁批准了这个 MCP 服务器”“失败后谁回滚”。
在代理时代,护栏的形状因此发生变化。第一层是模型层:拒绝生成恶意内容,降低幻觉,处理敏感数据。第二层是工具层:哪些 API 可用,哪些动作只读,哪些动作需要确认。第三层是身份层:代理以谁的身份运行,是用户委托、服务账号,还是独立非人身份。第四层是组织层:日志、审计、审批、事件响应、供应商合同。第五层是法律和区域层:不同司法辖区的模型文档、内容标识、数据保护和行业规则。
这五层叠在一起,构成了代理的真实护栏。它们不如“AI 会不会失控”那样适合做演讲标题,却决定了 2025 年以后大多数 AI 事故的边界:不是科幻电影里的机器叛乱,而是一个权限配置过宽的代理,把正常接口用在了错误任务上。
六、普通用户看到的不是同一个 AI
监管和企业治理最直接的结果,是用户开始看到不同版本的“同一个 AI”。
同一款代理产品,在不同地区、不同价格层级、不同组织租户中,可能拥有不同按钮、不同连接器、不同额度、不同拒绝策略和不同日志规则。OpenAI 在 ChatGPT Agent 发布时就说明,该能力按订阅层级和上线节奏开放,并且企业、教育和不同地区的可用性存在差异。[1] 这意味着一个用户在个人付费账户里看到的功能,未必会出现在公司账号;一个地区先开放的代理能力,另一个地区可能等待法律、隐私或安全评估;一个管理员允许连接的工具,另一个组织会全部关闭。
OpenAI 在 2025年10月发布 Apps in ChatGPT 和 Apps SDK 时,把第三方应用接入 ChatGPT 的平台化方向进一步展开。[13] 从用户角度看,这像是聊天窗口里多了应用;从合规角度看,这是更多权限请求、更多数据流动、更多区域差异。某个餐饮、设计、旅行或办公应用能否在聊天中调用,取决于地区、账号、产品阶段和企业管理员设置。按钮看似消失了,背后的准入规则却更多了。
企业用户的差异更明显。公司可能要求所有代理任务进入审计日志,禁止代理访问某些文件夹,限制外发邮件,要求高风险操作二次确认,或者只允许在特定模型和特定区域的数据中心运行。于是,一个员工让代理总结会议纪要时得到正常结果;同一个员工让代理提取客户数据时,系统拒绝;另一个国家的同事看不到同样的连接器;外包人员的账号只能使用只读模式。对终端用户来说,这些差异常常表现为一句平淡的提示:该功能在你的地区不可用,或你的组织未启用此功能,或你没有访问该资源的权限。
价格也成为治理的一部分。更高价格层级通常意味着更高额度、更强模型、更长上下文、更多连接器、更细管理控制和更完善日志。它既是商业分层,也是风险分层。能执行更多动作的代理,消耗更多计算,也带来更高权限风险;企业愿意为审计、隔离、身份和合规付费。于是,AI 的“能力”不再是排行榜上一个统一数字,而是合同、地区、组织策略和管理员开关共同塑造的体验。
这给普通劳动者带来一种新的夹层处境。公司要求他们“用 AI 提高效率”,同时又要求他们监督 AI 的输出、确认 AI 的动作、为 AI 生成的草稿负责。合规义务可能写在供应商合同、企业政策和监管文件里,但最后的确认按钮常常落到员工手上。员工不是模型提供者,不是平台运营者,也不是法务负责人,却要判断代理生成的客户回复是否合适、代码修改是否可靠、数据引用是否越权。代理减轻了一部分体力劳动,也把一部分监督劳动转移到更多岗位。
这不是反 AI 的结论。恰恰相反,只有当这些差异被认真处理,代理才可能进入更多真实工作。一个不能分地区上线、不能按组织授权、不能留下日志、不能解释拒绝原因、不能把价格与风险成本对应起来的代理,很难成为企业基础设施。用户看到的功能差异,是监管落地的表层;背后是一个行业正在把“聪明”翻译成“可管理”。
七、三套规则,一场竞赛
到 2026年4月,代理时代的监管轮廓已经比两年前清楚许多。
欧盟用《人工智能法案》和通用人工智能模型《行为准则》把模型提供者、系统部署者、透明度、版权和系统性风险连成法律框架。美国用《America’s AI Action Plan》把创新速度、基础设施、国际竞争、标准和安全写进国家动员。中国用生成合成内容标识等规则,从内容可识别和平台责任切入,把水印、元数据、提示和传播管理变成产品要求。三者都不是完整答案,也都不是简单姿态。
它们共同指向一个事实:代理让 AI 治理从言论管理进入行动管理。
聊天框时代,一个监管者可以问:模型会不会生成违法内容,会不会歧视,会不会侵犯版权,会不会泄露隐私。代理时代,这些问题仍在,但后面必须加上更多动词:会不会访问、会不会调用、会不会购买、会不会提交、会不会删除、会不会发布、会不会越权、会不会留下证据。模型输出是一页纸;代理行为是一串事件。
这场竞赛也不只是政府之间的竞赛。它是监管者、云厂商、模型公司、企业安全团队、开源社区、标准组织和普通用户之间的共同竞赛。欧盟要求文档和风险管理,美国要求基础设施和全球技术栈,中国要求生成内容可识别;企业要求身份、权限和日志;用户要求功能好用、价格合理、不被无端拒绝;开发者要求接口稳定、沙盒清楚、责任边界明确。
行业因此进入一种兴奋与怀疑并存的状态。兴奋在于,代理终于让 AI 从会说话的工具变成能协助完成任务的系统;怀疑在于,一旦系统能做事,错误也会离现实更近。一个会编造答案的模型让人恼火;一个会拿着正确权限执行错误任务的代理,让组织必须重新设计工作。
护栏不是刹车片,也不是装饰条。它是代理成为基础设施的条件。没有护栏,代理只能在演示视频里自由奔跑;有了护栏,它才可能在医院、银行、学校、政府、工厂和软件仓库里慢慢获得信任。真正的变化不在于监管者终于写出了多少页文件,而在于每一次代理行动开始被问四个问题:它能做什么,为谁做,凭什么权限做,出了事谁负责。
这四个问题,构成了代理时代的新章法。
参考文献
- OpenAI,Introducing ChatGPT agent,2025年7月17日。
- European Commission,The General-Purpose AI Code of Practice,2025年7月10日。
- European Commission,Navigating the AI Act: Questions and Answers,2024年8月1日。
- European Parliament and Council,Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence,2024年6月13日。
- The White House,America’s AI Action Plan,2025年7月23日。
- The White House,America’s AI Action Plan PDF,2025年7月。
- 国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局,人工智能生成合成内容标识办法,2025年3月14日。
- 国家互联网信息办公室等,生成式人工智能服务管理暂行办法,2023年7月13日。
- National Institute of Standards and Technology,Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile, NIST AI 600-1,2024年7月。
- Microsoft Security,Secure and govern AI agents with Microsoft Entra Agent ID,2025年5月19日。
- Google Cloud,Introducing Gemini Enterprise: the new front door for AI in the workplace,2025年10月9日。
- GitHub Changelog,Copilot coding agent now supports remote MCP servers,2025年7月9日。
- OpenAI,Introducing apps in ChatGPT and Apps SDK,2025年10月6日。
第34章|未完待续:时代中的个体如何月更自己
一、五月没有句号
2026年5月,许多人已经很少再问“AI到底重不重要”。
这个问题不是被哪场发布会一锤定音,也不是被哪篇论文盖章定案。它只是被一连串日常动作挤出了桌面:GitHub 在2025年6月宣布 Copilot coding agent 面向 Copilot Business 用户可用,代码仓库开始把机器生成的补丁纳入协作流程;OpenAI 在2025年7月发布 ChatGPT Agent,把研究、浏览网页、运行代码、分析数据和执行任务放进同一个系统;Apple 在2025年6月和9月继续把 Apple Intelligence 推向个人设备,开发者也开始接触设备端基础模型框架。[1][2][3][4]
这些更新没有共同的舞台,却有共同的方向:AI 不再只是回答问题的文本框,而是开始进入行动链条。
过去,用户把一句话发给聊天机器人,得到一段文字。错了,顶多重新问,或者把幻觉当成笑话转发给同事。到了这一年,系统开始申请访问仓库、文件、浏览器、邮件、日历、终端、工作区和手机。它不只写“建议”,还可能开拉取请求、调用工具、整理客户资料、生成会议任务、在浏览器里替人点开网页。
软件工业花了二十年教育用户:“不要随便点陌生链接,不要随便同意权限弹窗。”到了代理时代,同一批公司又说:“请授权这个代理访问你的文件、日历、浏览器和工作系统,它会提高效率。”历史没有嘲笑谁,它只是把安全培训和增长曲线放进同一个弹窗里。
到这里,问题换了样子。
不是“AI会不会影响我”,而是“一个会行动的系统进了我的工作和生活,我怎么跟它相处”。
这不是宏大叙事的降格,而是本书最后一章必须回到的地方。芯片、电力、模型、公司治理、监管框架,都重要;但每一次调用,最后都会落到某个人的一次授权、一次核验、一次记录、一次选择。大历史推进到这一步,最小单位不再是发布会,也不是融资新闻,而是一个人如何把系统叫进来,又如何把它关在该关的门外。
二、工作不是消失,而是被拆开
2026年1月和3月,Anthropic 连续发布 Economic Index 报告,试图回答一个听起来朴素、其实很难的问题:人们到底拿 Claude 做什么。[5][6]
这类报告的重要性,不在于它能替代就业统计,也不在于它能宣布哪个职业会消失。它的价值更窄,也更具体:它观察的是 Claude 使用中的任务分布,尝试把用户请求映射到职业和工作活动上,从而看见 AI 在真实使用中更常触碰哪些劳动环节。[5][6]
报告给出的信号很清楚:软件开发、写作、分析、教育、商业支持等知识劳动任务,是生成式 AI 使用最密集的区域之一;其中代码相关工作持续占有显著位置。[5][6] 这与2025年至2026年产品侧的变化互相照应:代码代理、终端代理、工作区代理先后出现,不是因为全行业突然爱上命令行,而是因为软件开发天然有结构化任务、版本控制、测试、审查和回滚机制。机器做了什么,diff 里看得见;人同不同意,PR 里有记录。
但 Economic Index 的边界同样重要。
它看到的是 Claude 用户,不是全体劳动者;它看到的是对话和任务分类,不是企业利润表,也不是真实岗位替代数量;它能观察用户如何请求模型,却不能自动证明这些输出最后被采纳、被拒绝,还是被经理看了一眼就关掉。[5][6] 把它读成“某职业即将消失”的占卜,是对数据的过度使用。把它完全丢开,又会错过一个事实:AI 对劳动的影响,往往先发生在岗位内部,而不是公司门口。
这就是2026年前后的就业故事最难写的地方。
岗位名称还在,任务配比先变了。程序员仍叫程序员,但写样板代码、补测试、查文档、解释报错、生成脚本的方式变了。市场人员仍叫市场人员,但草拟文案、整理竞品、生成版本、改写语气的成本变了。律师、教师、研究员、运营、客服、财务也都遇到同一类问题:AI 不一定接管整个职业,却会先拿走或重排职业里的若干步骤。
于是个人面对的不是一个戏剧性的“被替代”通知,而是一串更琐碎的工作变化:哪些任务可以交出去,哪些必须自己做;哪些结果可以直接用,哪些必须核验;哪些数据可以输入,哪些绝不能输入;哪些权限可以临时开放,哪些一旦开放就等于把钥匙挂在门口。
宏观经济学把它叫任务重组。普通人更熟悉另一个说法:活儿还是那些活儿,但干法不一样了。
三、代码仓库先学会待客
如果要找一个最早把“人与代理如何协作”写成制度的地方,代码仓库是合适的样本。
2025年6月24日,GitHub 宣布 Copilot coding agent 面向 Copilot Business 用户可用。[1] 这条变更日志本身不喧哗,却把一个旧事实改了方向:过去,仓库主要接待人类贡献者;现在,它也开始接待机器代理。几周后,GitHub 又宣布 Copilot coding agent 支持 remote MCP servers,让代理可以连接外部工具和上下文。[7] 到8月,GitHub 增加 AGENTS.md 支持,把给代理的仓库级说明写进一个文件。[8] 2026年2月,GitHub Copilot CLI 正式 GA,把 Copilot 工作流推进终端。[9]
这一串更新看上去像工程师的家务账:支持远程服务器,支持说明文件,支持命令行。可正是这些家务账,暴露出代理时代最基本的规矩。
第一,委派要写清楚。AGENTS.md 的意义,不是文学,而是边界:这个仓库怎么构建,测试怎么跑,代码风格是什么,哪些目录别碰,怎样开 PR。[8] 人类团队过去靠口头习惯和新人培训维持秩序,现在要把一部分规则写给机器看。行业的幽默感也在这里:一个团队花了多年催人类同事读文档,最后发现最认真读文档的,可能是代理。
第二,权限要分层。remote MCP 让代理可以接入更多工具,也让权限管理变成实务问题。[7] 一个只能看 issue 的代理,和一个能访问数据库、凭据、部署系统的代理,不是同一种风险。过去的自动化脚本通常范围固定,代理却可能根据任务动态选择工具。它越像助理,越不能把它当搜索框。
第三,核验不能省。代码代理可以生成补丁,但补丁进入主分支之前,仍需要测试、审查、责任人和记录。GitHub 的产品形态之所以适合代理,是因为软件工程已经有 issue、branch、diff、review、CI、rollback 这些制度家具。机器可以坐进来,但不能把椅子都拆了。
Google 在2025年推出 Gemini CLI,把它描述为面向开发者的开源 AI agent;Anthropic 也围绕 Claude Code、remote MCP 和 Agent Skills 更新了代理工具链。[10][11][12] 这些产品互相竞争,也共同证明一件事:代码领域不是代理故事的全部,却是代理治理的预演场。
因为在代码里,世界先把规则写得比较硬。机器的行动留下 diff,人的批准留下审查记录,系统的失败可以触发测试。其他行业没有这么幸运。合同、病历、采购、课堂、客户沟通,都比代码更难回滚。代码仓库先学会待客,办公室、浏览器和手机随后都要补课。
四、办公桌、浏览器和输入框的后代
2025年下半年,输入框开始长出手脚。
OpenAI 在7月发布 ChatGPT Agent,官方说明把它定位为能在用户授权下研究信息、浏览网页、运行代码、分析数据并完成任务的系统。[2] 随后,OpenAI 又推出 AgentKit、Apps SDK 和 ChatGPT Atlas,把代理、应用和浏览器入口进一步连在一起。[13][14][15] Google 则在企业侧推出 Gemini Enterprise Agent Platform,继续把代理能力放进云和工作区场景。[16]
这些更新的共同点,是把用户从“打开哪个应用”推向“说明要完成什么任务”。
过去的软件秩序很像城市地铁:用户先认线路,再换乘。写文档去文档应用,查资料去浏览器,改表格去表格,找客户去 CRM,发消息去聊天工具。代理时代的承诺是:用户说出目标,系统替人穿过这些站点。图标还在,入口却开始退后。
这也解释了为什么代理产品总是和连接器、浏览器、工作区、企业权限绑在一起。一个不能访问资料的代理,只能写空泛建议;一个能访问资料的代理,立刻变成治理问题。它要读哪些文件?能不能看客户信息?能不能向外部网站提交表单?能不能调用公司 API?能不能保存中间结果?能不能让另一个工具继续执行?
行业最荒诞的一幕,不在科幻电影里,而在权限页面上。那里没有机器人起义,只有一排复选框:邮件、日历、文件、浏览器、代码仓库、客户数据。未来没有先敲门,它先请求 OAuth 授权。
这时,个人的技能结构也跟着变了。会问问题,不再只是把提示词写得优美,而是把任务目标、输入范围、输出格式、禁止事项和验收标准说清楚。会委派,不是把工作一股脑丢给系统,而是知道哪部分适合机器做,哪部分必须由人判断。会验证,不是偶尔发现错误时抱怨模型,而是把核对来源、复算数字、检查引用、审查权限做成流程。
如果说早期聊天机器人考验的是表达能力,那么代理考验的是管理能力。一个普通用户,突然被推到小型项目经理的位置上:安排任务、设置边界、检查结果、承担后果。软件没有给他发任命书,工作流已经这样要求他。
五、手机醒来,最小权限也醒来
工作区之外,AI 还进入了口袋。
Apple 在2025年6月宣布 Apple Intelligence 在多种设备上获得新能力,并在同年9月继续发布面向用户的新功能。[3][4] WWDC 2025 的 Foundation Models framework,则让开发者可以在 Apple 平台上接触设备端基础模型能力。[17] 这些更新的意义不只是“手机更聪明了”。它们说明个人设备也成了 AI 行动链条的一部分。
手机和工作区不一样。工作区里,至少还有 IT、法务、安全团队和采购流程挡在前面。手机更贴身,也更混乱。照片、通讯录、消息、位置、健康数据、语音、日历、支付、家庭设备,都可能在同一块屏幕上汇合。一个手机 AI 助手如果只改写短信,风险有限;如果开始理解屏幕、跨应用行动、调用个人数据,它就不再只是漂亮功能,而是一个随身权限管理问题。
这并不是说个人设备 AI 必然危险。恰恰相反,设备端模型、隐私设计、权限提示和系统级控制,可能成为降低风险的重要路径。[3][17] 但它们也把责任重新放到日常动作里:允许一次,还是始终允许;只读,还是可写;本地处理,还是发送到云端;给某个应用权限,还是让它永远在门外等着。
过去,隐私设置像水电费账单,大家知道重要,但常常拖到周末再看。代理时代,权限设置更像家门钥匙。谁能进门,能进哪间屋,能不能拿东西,能不能把东西交给别人,都要重新问。
文化层面的信号也在同一时期冒出来。TechTarget 和 IBM 对 OpenClaw、Moltbook 等代理潮流做过解释和分析;这些材料足以说明它们曾成为行业讨论对象,但不足以支持夸张的采用率或商业成败判断。[18][19] NousResearch 的 Hermes Agent 及其文档、self-evolution 相关仓库,则显示开源社区继续尝试把技能、代理和自我改进机制组合起来。[20][21][22]
这些名字本身就带着行业的荒诞气味:蟹钳、蜕皮本、赫尔墨斯。过去软件产品喜欢叫“云”“流”“空间”,代理时代开始像动物园和神话辞典合办黑客松。但玩笑背后有真实信号:越来越多人不再满足于让模型写答案,而是尝试让模型装上工具、记住技能、调用环境、迭代行为。
本章不能把这些文化信号写成定论。它们不是宏观经济数据,也不是监管文件。它们更像街角贴纸:不证明城市已经改建完毕,却说明某种新路标正在出现。
六、个人不再只是使用者
把2025年6月至2026年5月的事实脊梁放在一起,可以得到一份不太浪漫、却更可靠的个人手册。
第一,学习提问。不是把提示词写成长诗,而是说清目标、上下文、约束和验收标准。代理越能行动,含糊的请求越危险。“帮我处理一下”在聊天时代只是生成一段话,在代理时代可能意味着调用工具、改动文件、联系他人。问题越具体,系统越不容易把空白处用自作主张填满。
第二,学习委派。Anthropic Economic Index 看到的是任务层面的使用,而不是职业整体被一键替换。[5][6] 个人也应按任务拆分:资料搜集、格式整理、草稿生成、代码样板、测试建议,可以交给系统先做;判断、签字、客户承诺、法律结论、医疗决策、财务确认,不能因为机器写得流畅就顺手放行。
第三,学习验证。GitHub 的代码代理之所以有现实落点,是因为软件工程有 diff、测试和 review。[1][8][9] 其他领域也需要自己的 diff:引用要查原文,数字要复算,图片要看来源,合同要让专业人员审,自动生成的会议纪要要回听关键片段。验证不是怀疑技术,而是承认技术已经快到足以把错误也高速放大。
第四,限制权限。remote MCP、工作区代理、浏览器代理、手机 AI,都把“能访问什么”变成核心问题。[7][13][15][17] 最小权限原则不再只是安全团队的黑话。普通人也要知道:一次性授权优于长期授权,只读优于可写,局部数据优于全量同步,临时任务优于常驻后台。代理像实习生时,别给它董事长权限。
第五,记录决定。机器可以生成建议,人必须留下为什么采纳、为什么拒绝、谁批准、依据是什么。记录不是官僚主义的胜利,而是责任链的最低配置。没有记录,出错以后只剩一锅粥:模型说它只是建议,用户说自己以为系统可靠,公司说流程没有要求,最后所有人一起寻找截图。
第六,保持更新。模型会更新,代理会更新,政策会更新,权限界面会更新,工作规范也会更新。个人如果完全不更新,就会被默认设置带着走。这里的“更新”不是每天追发布会,也不是把所有新工具都装上,而是定期检查自己正在把哪些认知任务外包出去,哪些能力正在退化,哪些新能力值得补上。
这六件事听起来不像时代史的结尾,更像办公室卫生:备份、核验、锁门、记账、复盘。可是许多技术革命真正落地时,本来就不是以金句出现,而是以习惯出现。电气化进入家庭以后,人们学会看开关和保险丝;汽车普及以后,人们学会看红绿灯和后视镜;互联网普及以后,人们学会密码、备份和两步验证。代理进入工作和生活以后,人们要学的,是把行动中的机器当成合作者,也当成需要约束的外部力量。
这不是自我提升鸡汤。鸡汤通常要求人变得更好,代理时代只要求人别把钥匙随便交出去。
七、未完待续,不是拖延结尾
本书不能在这里宣布历史完成。
到2026年5月,公开证据能支持的结论是:AI 已经从会说话的系统,变成越来越多会行动的系统;它已经进入代码仓库、终端、工作区、浏览器、手机和企业平台;劳动影响正在任务层面显现,但职业、收入、组织结构和监管后果仍在展开;文化上,代理不再只是大公司的产品路线,也成了开源社区和行业媒体反复命名、试验、争论的对象。[1][2][5][6][10][13][18][20]
公开证据不能支持的,是另一些更漂亮也更危险的句子:不能说 AI 已经抵达最终形态,不能说某个职业必然消失,不能说代理会自动带来生产率奇迹,也不能说只要个人努力学习工具,就能抵消所有结构性冲击。兴奋和怀疑必须同时保留。没有兴奋,看不见工作流正在改;没有怀疑,就会把权限弹窗当成进步本身。
所以,最后的场景不该是某家公司发布会上掌声雷动,也不该是某个抽象的 AGI 倒计时。更合适的,是一个普通月份的最后一天:有人打开自己常用的工具列表,看哪些代理仍有权限;有人清理浏览器扩展和工作区连接器;有人把上个月用 AI 生成的重要文件重新抽查;有人更新团队的 AGENTS.md;有人把“AI 输出须人工核验”写进流程;有人删掉一个好玩但越权的插件;有人发现自己已经一个月没有亲手写过某类代码,于是安排一次不用代理的练习。
这就是“月更自己”。
它不是口号,也不是新书名。它更像版本机制。软件月更,模型月更,平台月更,政策月更,个人也要有自己的更新日志:本月学会了什么,委派了什么,验证了什么,误信了什么,开放了哪些权限,收回了哪些权限,哪些能力需要保留手感,哪些任务可以放心交给系统。
月更自己,不是崇拜技术,而是拒绝被技术的默认设置拖着走。
历史没有在2026年5月结束。它只是把问题交还给每一个正在使用系统的人。下一次更新,可能来自模型公司,可能来自监管机构,可能来自代码仓库,也可能来自一个人按下“拒绝授权”的按钮。
未完待续,不是因为作者舍不得句号。
是因为这个时代还在自动保存草稿。
参考文献
- GitHub Blog,“GitHub Copilot coding agent is now available for Copilot Business users”,2025.06.24。
- OpenAI,“Introducing ChatGPT agent”,2025.07.17。
- Apple Newsroom,“Apple Intelligence gets even more powerful with new capabilities across Apple devices”,2025.06。
- Apple Newsroom,“New Apple Intelligence features are available today”,2025.09。
- Anthropic,“Anthropic Economic Index January 2026 Report”,2026.01。
- Anthropic,“Economic Index March 2026 Report”,2026.03。
- GitHub Blog,“Copilot coding agent now supports remote MCP servers”,2025.07.09。
- GitHub Blog,“Copilot coding agent now supports AGENTS.md custom instructions”,2025.08.28。
- GitHub Blog,“GitHub Copilot CLI is now generally available”,2026.02.25。
- Google Blog,“Introducing Gemini CLI: an open-source AI agent”,2025。
- Anthropic,“Claude Code: Remote MCP support”,2025。
- Anthropic Engineering,“Equipping agents for the real world with Agent Skills”,2025。
- OpenAI,“Introducing AgentKit”,2025。
- OpenAI,“Introducing apps in ChatGPT”,2025。
- OpenAI,“Introducing ChatGPT Atlas”,2025。
- Google Cloud Blog,“Gemini Enterprise Agent Platform”,2025。
- Apple Developer,“Meet the Foundation Models framework”,WWDC 2025。
- TechTarget,“OpenClaw and Moltbook explained: The latest AI agent craze”,2025。
- IBM Think,“OpenClaw, Moltbook and future of AI agents”,2025。
- NousResearch,“Hermes Agent”,GitHub repository,2025。
- NousResearch,“Hermes Agent Docs”,2025。
- NousResearch,“Hermes Agent Self-Evolution”,GitHub repository,2025。

