Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第31章|开源反攻与本地智能:gpt-oss、Qwen、Mistral 与 Hermes Agent

一、前沿不再只在登录框后面

2025 年夏天,人工智能的主舞台看起来仍然属于云端巨头。用户打开浏览器,输入账号,接受服务条款,选择套餐,然后在一个被精心设计的聊天框里获得“前沿模型”的能力。上一章写到 ChatGPT Agent 与 GPT-5 时,这条道路已经相当清楚:模型、工具、浏览器、代码环境、支付系统和企业权限,被包装进一个平台;用户通过授权把任务交给平台,平台再把答案和动作带回来。

但同一时期,另一条路也在变宽。

8 月,OpenAI 发布 gpt-oss,把两个开放权重模型推到开发者面前。官方材料将它们命名为 gpt-oss-120b 与 gpt-oss-20b,强调它们面向推理、工具调用和开发者自有部署场景,并采用 Apache 2.0 许可。[1] 这件事在行业叙事上有一种反常的喜剧感:长期被视为闭源前沿象征的公司,开始把带有自己品牌的开放权重模型放出来;而许多曾经靠开源模型“绕开”闭源 API 的开发者,则突然发现,绕开的对象也走进了同一条街。

它不意味着闭源云端失去优势。大模型服务的用户体验、规模化推理、工具权限、安全治理、企业合规和生态分发,仍然高度依赖平台化能力。也不意味着开放权重自动更便宜、更安全。下载权重只是第一步。推理服务器、显存预算、量化精度、上下文管理、日志脱敏、越权调用、许可证兼容、模型更新、评测回归,都会从供应商的后台转移到使用者的桌面、机房或云账单上。

可前沿已经不再只在登录框后面。到 2025 年下半年,一个小团队可以在同一周里做三件过去很难并列发生的事:调用闭源模型处理高风险复杂任务;在本地或自有云上部署开放权重模型处理私有数据;再用自托管 Agent 框架把模型、记忆、工具和技能串起来。软件业熟悉这种转变。自由不是免费午餐,自由常常意味着自己洗碗、自己修水管、自己半夜看监控。

这一章写的不是“开源战胜闭源”。那是另一种过度简化。它写的是 2025 年 8 月到 2026 年 4 月之间,一个更混杂的格局:OpenAI 的 gpt-oss、阿里 Qwen、DeepSeek、Mistral、Meta Llama 等开放或开放权重模型,把基础能力铺到更多人手里;Hermes Agent 这类自托管 Agent 项目,则把“会调用工具的模型”进一步推向个人和小团队实验。由此获得的杠杆是真实的,由此转嫁出去的复杂性也是真实的。

二、开放权重的夏秋:gpt-oss、Qwen 与一张更长的菜单

gpt-oss 的特殊性,不只在于模型本身,而在于发布者。OpenAI 在 2025 年 8 月把 gpt-oss 放出来时,行业已经习惯了一个分工:最强模型在云端,开放模型追赶;闭源模型提供整套产品,开放模型提供可改造的底座。gpt-oss 没有抹掉这个分工,却让边界变得更难画。

官方材料给出的重点不是“聊天机器人”,而是开放权重、推理能力和开发者部署。gpt-oss-120b 与 gpt-oss-20b 这两个尺寸,本身就对应了两类使用者:前者面向拥有较强 GPU 资源的机构和团队,后者面向更受设备约束的开发环境。[1] 在闭源 API 里,模型尺寸、权重量化、运行环境通常被服务商隐藏;在开放权重语境里,它们变成用户必须面对的工程事实。一个模型能否跑起来,不再只是“有没有账号”,而是“显存够不够、吞吐能不能接受、上下文成本是否可控、推理框架是否支持”。

Qwen 的路线提供了另一种样本。2025 年,Qwen 系列继续以官方博客和模型卡形式发布面向代码、通用推理和高效推理的模型。Qwen3-Coder 的官方发布将其定位为面向代理式编程任务的代码模型,强调代码生成、仓库级任务和工具使用;随后 Qwen3-Next 的官方材料又把重点放在更稀疏、更高效的架构上。[2][3] 对小团队来说,这些信息的意义并不抽象。模型卡列出的参数规模、许可证、上下文长度、部署建议和已知限制,决定了它能否被塞进一台工作站、一组租来的 GPU,或一家企业内网的推理服务。

开源模型的繁荣改变了选择方式。过去,团队选择模型像选择一家外包供应商:谁能力最强、价格最低、稳定性最好,就把请求发给谁。到 2025 年下半年,选择更像采购零部件。开发者要比较的不只是榜单分数,还有许可证能否商用,权重是否可下载,量化版本由谁维护,推理框架是否成熟,安全补丁如何跟进,微调数据是否会触碰隐私或版权边界。

这里的荒诞感来自一个事实:模型越开放,表格越长。闭源平台把很多表格藏在后台,用户只看到套餐页;开放权重把表格摊开,用户获得了选择,也获得了填表的义务。一个两三人的产品团队,可能在同一天讨论用户增长、Docker 镜像、Apache 2.0、GPU 驱动、红队提示词和夜间告警。所谓“AI 民主化”,有时表现为每个人都终于有资格给自己的推理服务值班。

三、DeepSeek 与 Mistral:开放不是姿态,而是交付方式

2025 年 12 月,DeepSeek 在官方 API 文档新闻页发布 DeepSeek-V3.2。官方说明把这次更新放在工具使用、推理能力与开源发布的框架里,显示开放模型的竞争已经不再停留于“会回答问题”,而是进入“能否稳定调用工具、能否适配 Agent 工作流”的阶段。[4] 到 2026 年 4 月,DeepSeek 又在官方文档中发布 V4 Preview,强调面向智能体能力与推理效率的进一步优化。[5]

这类发布把开放模型带入了一个更苛刻的赛道。普通聊天模型回答错了,用户可以追问;Agent 模型调用错了工具,可能改错文件、查错数据库、给错客户发邮件,或把一次看似无害的内部搜索变成权限事故。开放模型如果要参与 Agent 时代,就不能只在静态问答榜单上竞争,还要在工具调用格式、函数参数可靠性、多轮状态保持、拒答边界和评测复现上竞争。

Mistral 的动作也说明了这一点。2025 年 6 月,Mistral 发布 Magistral,称其为公司的推理模型系列,并同时提供开放权重版本与商业版本。[6] 同月,Mistral 发布 Mistral Code,把产品定位在企业软件开发场景,强调代码助手、企业知识、部署选项和面向组织的控制能力。[7] 虽然这两项发布时间早于本章主时段的起点,但到 2025 年 8 月以后,它们已经成为欧洲开放模型叙事中的重要组成部分:一边是可供开发者拿走的模型,一边是企业愿意付费购买的完整系统。

开放与商业并不矛盾。恰恰相反,2025 年之后,越来越多公司把开放权重作为分发方式,把企业服务作为收入方式。开放模型降低试用门槛,扩大社区评测,吸引生态适配;商业服务则处理企业最不愿意自己承担的部分:私有部署、权限管理、审计日志、支持响应、合规文件、稳定升级。开放模型公司不再只是在 GitHub 上争星标,它们也要卖合同、签 SLA、进采购流程。开源世界仍然浪漫,但浪漫主义者也要开增值税发票。

Meta 的 Llama 生态在这一阶段承担了另一种角色。2025 年 9 月,Meta 发布面向美国联邦政府采用 AI 的官方说明,称将通过合作伙伴推动 Llama 在联邦机构中的使用。[8] 这不是一次模型参数更新,却是开放生态进入公共部门采购和治理体系的信号。开放权重模型如果要被政府、医疗、金融和工业部门采用,技术能力只是条件之一;供应链、许可证、审计、部署地点、数据边界和责任归属同样重要。

这也解释了为什么“开源更安全”是一个危险的懒句子。开放权重允许更多人检查、测试、微调和部署,但安全不会自动从许可证里长出来。模型可能被错误微调,推理服务可能暴露在公网,日志可能记录敏感信息,工具调用可能越过权限边界,依赖库可能出现漏洞。闭源平台的问题是信任集中,开放部署的问题是责任分散。前者让用户相信一个大后台,后者要求用户自己成为后台的一部分。

四、Llama 的公共化与本地智能的政治经济学

Llama 不需要在本章重新讲一遍早期泄露和开放起源。那是前文已经覆盖过的旧故事。到 2025 年下半年,更重要的问题已经变成:开放模型如何进入制度化使用。

Meta 面向联邦政府的官方说明使用的是“加速采用”的政策语言。[8] 这类语言背后,是开放模型的一项现实优势:组织可以在不同云、不同硬件和不同服务商之间移动,至少在理论上降低被单一 API 锁定的风险。对公共部门和大型企业来说,这一点尤其重要。它们并不总是追求最炫的演示,而是追求可审计、可采购、可迁移、可解释责任链的系统。

但“可迁移”不是“无成本迁移”。一个机构把模型部署在自有环境中,需要有人维护镜像、驱动、推理框架、网络隔离、访问控制和日志策略。模型更新也会带来回归测试:新版本是否改变拒答行为,是否影响工具调用格式,是否在内部知识问答上退步,是否对某些语言或专业术语出现新的偏差。开放模型给了机构更多控制权,也把变更管理带回机构内部。

这就是本地智能的政治经济学。闭源云端把智能做成服务,把复杂性集中到供应商;开放模型把智能做成可部署资产,把复杂性分发给组织和个人。两者都不是纯粹的自由或束缚。闭源平台可能更省心,但数据、成本和路线图受制于供应商。开放部署可能更自主,但每一次自主都要求工程、治理和预算配套。

到 2026 年,监管语境也进一步提醒开发者:通用 AI 不只是技术资产,也是合规对象。欧盟围绕通用 AI 模型的行为准则与 AI Act 指引,将透明度、版权、安全和风险管理纳入制度框架。[9] 对小团队而言,这些文件可能显得遥远;但当他们把开放模型接入客户数据、医疗文本、招聘流程或金融分析时,遥远的制度会突然变成合同附件。开源许可证回答的是“能不能用”的一部分,合规义务回答的是“怎样用、出了事谁负责”的另一部分。

开放模型的反攻,因此不是一场轻装上阵的游行。它更像把许多原本藏在云平台里的后勤部门拆开,分发给了每个愿意自建的人。有人因此获得主权,有人因此获得成本优势,有人因此获得定制能力;也有人因此第一次知道,CUDA 版本不匹配会让一个宏大的智能体计划停在启动日志里。

五、Hermes Agent:当框架把记忆、技能和自我改造写进文档

模型开放之后,下一层问题是:谁来组织模型行动?

NousResearch 的 Hermes Agent 给出了一个开源社区版本的答案。其 GitHub 仓库把项目呈现为一个 Agent 框架,围绕工具使用、记忆、技能和自主任务执行组织代码与文档。[10] 官方文档中还提供了面向 Hermes Agent 的技能说明,把“技能”作为可组合、可调用的能力单元来描述。[11] 另一个由 NousResearch 维护的 hermes-agent-self-evolution 仓库,则把“self-evolution”作为扩展方向,展示让 Agent 生成、修改或扩展自身能力的实验性路径。[12]

这些说法需要被准确放置。文档声称支持记忆、技能和自我演化,并不等于证明系统具备可靠的长期自主改进能力,更不等于出现了什么“智能体社会”。在工程语境里,记忆通常意味着持久化存储、检索和上下文注入;技能意味着一组工具、提示、脚本或工作流封装;自我演化意味着系统可以根据任务结果生成新组件、修改配置或提出代码变更。它们都是软件结构,不是人格叙事。

但正因为它们是软件结构,才值得认真。闭源 Agent 平台通常把这些能力包装进产品体验:用户看到的是按钮、任务列表和授权弹窗。Hermes Agent 这样的项目则把骨架暴露出来。开发者可以看到记忆如何写入,技能如何注册,工具如何调用,模型如何被替换,失败如何记录。透明度带来学习价值,也带来责任。一个团队如果决定自托管这类框架,就必须回答一串实际问题:记忆数据库存放在哪里,是否加密,谁能读取;技能包是否允许执行 shell 命令;外部 API 密钥如何管理;Agent 生成的新代码能否自动运行;失败任务是否进入人工审核队列。

这里有一种行业荒诞:当人们说“让 Agent 自我进化”时,下一步往往是配置权限、写测试、禁用危险命令、限制目录访问、设置审计日志。科幻词汇落到运维手册里,语气会变得朴素。所谓自我进化,在生产环境里首先要学会不要把 .env 文件提交到仓库。

Hermes Agent 的意义,不在于它已经替代了平台化产品,而在于它使 Agent 的构造过程可见。小团队不必等待某个大型云厂商开放某个按钮,才能尝试把本地模型、私有知识库、内部脚本和长期记忆组合起来。他们可以下载仓库,阅读文档,接入模型,写自己的技能。与此同时,他们也失去了一部分平台保护:没有默认的企业安全团队,没有统一的滥用监控,没有自动合规审计,没有保证可用性的服务等级承诺。

Agent 时代的开源框架因此有一种双重性质。它们是杠杆,也是裸露的机械臂。会用的人能把一个小团队的工作半径扩大;不会管的人则可能把权限、数据和自动化错误一起放大。

六、OpenClaw、Moltbook 与社区实验的可见性

2026 年前后,围绕 Agent 的社区实验开始以更具娱乐性的方式进入行业媒体。TechTarget 和 IBM 的解释文章把 OpenClaw、Moltbook 等项目放在“最新 AI Agent 热潮”的语境下讨论,将其视为开发者围绕多 Agent、个人自动化和工具编排进行实验的文化信号。[13][14]

本章只把它们放在这个位置:文化信号,而不是基础设施转折点。原因很简单。公开讨论中常见的星标数、Agent 数量、收购传闻或商业化说法,如果没有官方仓库快照、项目公告或可靠一手资料,很容易在传播中失真。Agent 圈尤其容易制造一种热闹的错觉:一个项目的演示视频可以像产品,一个 Discord 频道可以像生态,一个排行榜可以像市场。可在非虚构叙事里,热闹不是证据。

不过,热闹本身也说明了一件事。到这一阶段,Agent 实验不再只属于研究实验室和大公司产品团队。个人开发者、开源维护者、学生、小型咨询公司和企业内部工具团队,都可以用开放模型、向量数据库、浏览器自动化、终端工具、MCP 服务器和技能框架拼出自己的“行动者”。有些项目会失败,有些会变成插件,有些会成为短暂流行的梗,有些会沉淀成库和标准。

Linux Foundation 在 2025 年宣布成立 Agentic AI Foundation,并把 MCP、AGENTS.md、goose 等项目和规范纳入更制度化的开源协作框架。[15] 这类动作与 OpenClaw、Moltbook 式的社区热潮形成对照:一边是实验文化,一边是标准化和治理。前者提供想象力,后者提供可持续的地基。Agent 生态需要两者,但也需要区分两者。演示可以展示可能性,标准和文档才决定可复用性。

开源世界历来如此。一个玩笑项目可能启发严肃工具,一个严肃项目也可能被错误包装成万能入口。2025 年后的 Agent 生态只是把这种老规律加速了。模型让原型更容易,社交媒体让原型更容易被看见,自动化又让原型更容易造成后果。可见性提高,不等于可信度提高。小团队若把这些实验接入真实业务,仍要回到朴素问题:谁维护,谁审核,谁备份,谁负责。

七、小团队的杠杆与账单

如果把 2025 年下半年到 2026 年春天的开放模型和自托管 Agent 项目摊在桌面上,一个小团队确实获得了前所未有的杠杆。

它可以选择 gpt-oss 这样的开放权重模型,在自有环境中处理不适合发往第三方 API 的数据。[1] 它可以测试 Qwen、DeepSeek、Mistral 或 Llama 生态中的模型,按语言、代码、推理、成本和许可证做组合。[2][4][6][8] 它可以把 Hermes Agent 这样的框架接入内部文档、工单系统、脚本和长期记忆,构造一个不完全依赖闭源平台的工作流。[10][11] 对一家小咨询公司,这可能意味着用更少的人维护更多客户项目;对一个内部工具团队,这可能意味着把重复报表、代码迁移、日志分析和知识检索统一到一个本地系统;对个人开发者,这可能意味着第一次拥有一个能读自己文件、调用自己脚本、记住自己偏好的工具。

但每一项杠杆都有背面。

首先是运维。开放权重模型不是网页收藏夹。它需要推理框架、GPU 或 CPU 资源、容器镜像、版本管理、监控和扩缩容策略。小模型可以在本地跑,生产服务仍然要处理并发、延迟、崩溃和成本。一次模型升级可能让提示词失效,一次驱动更新可能让推理服务无法启动。

其次是安全。Agent 框架的价值来自工具调用,风险也来自工具调用。能读文件的 Agent 可能读到敏感文件;能发请求的 Agent 可能触碰内部接口;能执行命令的 Agent 可能执行错误命令;能写代码的 Agent 可能引入漏洞。安全策略不能只写在宣传页上,必须落到权限隔离、密钥管理、沙箱、审计和人工确认上。

第三是许可证与数据。Apache 2.0 这类宽松许可证降低了使用门槛,但团队仍需核对模型、依赖库、训练或微调数据、第三方工具和客户合同之间是否兼容。模型输出也可能触发版权、隐私或行业合规问题。开放权重并不自动清空法律风险,它只是让使用者拥有更多自主处理风险的空间。

第四是评测。闭源平台通常提供一个看似稳定的产品名,背后版本可能滚动变化;开放部署则让团队可以锁定版本,却也要求团队自己建立评测集。一个 Agent 是否真的提高效率,不能只看演示是否顺滑,还要看任务成功率、人工返工率、错误严重度、成本、延迟和安全事件。小团队若没有评测,自动化很容易变成一种更快制造不确定性的方式。

最后是更新。开放生态速度极快。2025 年 8 月的选择,到 2026 年 4 月可能已经被新模型、新框架、新量化方案和新安全问题包围。团队既不能永远追新,也不能永远冻结。追新会让系统不稳定,冻结会让能力落后和漏洞累积。夹在中间的,是每个小团队都熟悉的现实:路线图写得雄心勃勃,维护表格写得密密麻麻。

因此,开放模型的反攻不是对闭源云巨头叙事的否定,而是对它的校正。前沿能力确实正在离开单一登录框,进入本地设备、私有云、开源仓库和社区框架。更多人可以触摸、修改、部署和组合这些能力。与此同时,复杂性也被重新分配。过去由平台吞下的许多脏活,开始摆到个人和小团队面前。

这并不悲观。软件史上许多重要的扩散,都是从“终于能自己做”开始,然后迅速进入“为什么这么多事都要自己做”的阶段。兴奋和怀疑在这里并不冲突。兴奋来自新的杠杆,怀疑来自新的责任。到 2026 年春天,智能的前沿不再只有一扇门;它变成了许多扇门、许多把钥匙、许多份许可证,以及许多台半夜仍在发热的机器。

参考文献

  1. OpenAI,Introducing gpt-oss,2025-08-05。
  2. Qwen Team,Qwen3-Coder: Agentic Coding in the World,2025-07-23。
  3. Qwen Team,Qwen3-Next,2025-09-11。
  4. DeepSeek API Docs,DeepSeek-V3.2 Release Notes,2025-12-01。
  5. DeepSeek API Docs,DeepSeek-V4 Preview Release Notes,2026-04-24。
  6. Mistral AI,Magistral,2025-06-10。
  7. Mistral AI,Mistral Code,2025-06-04。
  8. Meta,Accelerating AI adoption across the federal government,2025-09。
  9. European Commission,The General-Purpose AI Code of Practice,2025。
  10. NousResearch,hermes-agent,GitHub repository,访问日期:2026-04-30。
  11. NousResearch,Hermes Agent Docs: autonomous-ai-agents / hermes-agent,访问日期:2026-04-30。
  12. NousResearch,hermes-agent-self-evolution,GitHub repository,访问日期:2026-04-30。
  13. TechTarget,OpenClaw and Moltbook explained: The latest AI agent craze,2026。
  14. IBM Think,OpenClaw, Moltbook and future of AI agents,2026。
  15. Linux Foundation,Linux Foundation Announces the Formation of the Agentic AI Foundation,2025。