第31章｜开源反攻与本地智能：gpt-oss、Qwen、Mistral 与 Hermes Agent

一、前沿不再只在登录框后面

2025 年夏天，人工智能的主舞台看起来仍然属于云端巨头。用户打开浏览器，输入账号，接受服务条款，选择套餐，然后在一个被精心设计的聊天框里获得“前沿模型”的能力。上一章写到 ChatGPT Agent 与 GPT-5 时，这条道路已经相当清楚：模型、工具、浏览器、代码环境、支付系统和企业权限，被包装进一个平台；用户通过授权把任务交给平台，平台再把答案和动作带回来。

但同一时期，另一条路也在变宽。

8 月，OpenAI 发布 gpt-oss，把两个开放权重模型推到开发者面前。官方材料将它们命名为 gpt-oss-120b 与 gpt-oss-20b，强调它们面向推理、工具调用和开发者自有部署场景，并采用 Apache 2.0 许可。[1] 这件事在行业叙事上有一种反常的喜剧感：长期被视为闭源前沿象征的公司，开始把带有自己品牌的开放权重模型放出来；而许多曾经靠开源模型“绕开”闭源 API 的开发者，则突然发现，绕开的对象也走进了同一条街。

它不意味着闭源云端失去优势。大模型服务的用户体验、规模化推理、工具权限、安全治理、企业合规和生态分发，仍然高度依赖平台化能力。也不意味着开放权重自动更便宜、更安全。下载权重只是第一步。推理服务器、显存预算、量化精度、上下文管理、日志脱敏、越权调用、许可证兼容、模型更新、评测回归，都会从供应商的后台转移到使用者的桌面、机房或云账单上。

可前沿已经不再只在登录框后面。到 2025 年下半年，一个小团队可以在同一周里做三件过去很难并列发生的事：调用闭源模型处理高风险复杂任务；在本地或自有云上部署开放权重模型处理私有数据；再用自托管 Agent 框架把模型、记忆、工具和技能串起来。软件业熟悉这种转变。自由不是免费午餐，自由常常意味着自己洗碗、自己修水管、自己半夜看监控。

这一章写的不是“开源战胜闭源”。那是另一种过度简化。它写的是 2025 年 8 月到 2026 年 4 月之间，一个更混杂的格局：OpenAI 的 gpt-oss、阿里 Qwen、DeepSeek、Mistral、Meta Llama 等开放或开放权重模型，把基础能力铺到更多人手里；Hermes Agent 这类自托管 Agent 项目，则把“会调用工具的模型”进一步推向个人和小团队实验。由此获得的杠杆是真实的，由此转嫁出去的复杂性也是真实的。

二、开放权重的夏秋：gpt-oss、Qwen 与一张更长的菜单

gpt-oss 的特殊性，不只在于模型本身，而在于发布者。OpenAI 在 2025 年 8 月把 gpt-oss 放出来时，行业已经习惯了一个分工：最强模型在云端，开放模型追赶；闭源模型提供整套产品，开放模型提供可改造的底座。gpt-oss 没有抹掉这个分工，却让边界变得更难画。

官方材料给出的重点不是“聊天机器人”，而是开放权重、推理能力和开发者部署。gpt-oss-120b 与 gpt-oss-20b 这两个尺寸，本身就对应了两类使用者：前者面向拥有较强 GPU 资源的机构和团队，后者面向更受设备约束的开发环境。[1] 在闭源 API 里，模型尺寸、权重量化、运行环境通常被服务商隐藏；在开放权重语境里，它们变成用户必须面对的工程事实。一个模型能否跑起来，不再只是“有没有账号”，而是“显存够不够、吞吐能不能接受、上下文成本是否可控、推理框架是否支持”。

Qwen 的路线提供了另一种样本。2025 年，Qwen 系列继续以官方博客和模型卡形式发布面向代码、通用推理和高效推理的模型。Qwen3-Coder 的官方发布将其定位为面向代理式编程任务的代码模型，强调代码生成、仓库级任务和工具使用；随后 Qwen3-Next 的官方材料又把重点放在更稀疏、更高效的架构上。[2][3] 对小团队来说，这些信息的意义并不抽象。模型卡列出的参数规模、许可证、上下文长度、部署建议和已知限制，决定了它能否被塞进一台工作站、一组租来的 GPU，或一家企业内网的推理服务。

开源模型的繁荣改变了选择方式。过去，团队选择模型像选择一家外包供应商：谁能力最强、价格最低、稳定性最好，就把请求发给谁。到 2025 年下半年，选择更像采购零部件。开发者要比较的不只是榜单分数，还有许可证能否商用，权重是否可下载，量化版本由谁维护，推理框架是否成熟，安全补丁如何跟进，微调数据是否会触碰隐私或版权边界。

这里的荒诞感来自一个事实：模型越开放，表格越长。闭源平台把很多表格藏在后台，用户只看到套餐页；开放权重把表格摊开，用户获得了选择，也获得了填表的义务。一个两三人的产品团队，可能在同一天讨论用户增长、Docker 镜像、Apache 2.0、GPU 驱动、红队提示词和夜间告警。所谓“AI 民主化”，有时表现为每个人都终于有资格给自己的推理服务值班。

三、DeepSeek 与 Mistral：开放不是姿态，而是交付方式

2025 年 12 月，DeepSeek 在官方 API 文档新闻页发布 DeepSeek-V3.2。官方说明把这次更新放在工具使用、推理能力与开源发布的框架里，显示开放模型的竞争已经不再停留于“会回答问题”，而是进入“能否稳定调用工具、能否适配 Agent 工作流”的阶段。[4] 到 2026 年 4 月，DeepSeek 又在官方文档中发布 V4 Preview，强调面向智能体能力与推理效率的进一步优化。[5]

这类发布把开放模型带入了一个更苛刻的赛道。普通聊天模型回答错了，用户可以追问；Agent 模型调用错了工具，可能改错文件、查错数据库、给错客户发邮件，或把一次看似无害的内部搜索变成权限事故。开放模型如果要参与 Agent 时代，就不能只在静态问答榜单上竞争，还要在工具调用格式、函数参数可靠性、多轮状态保持、拒答边界和评测复现上竞争。

Mistral 的动作也说明了这一点。2025 年 6 月，Mistral 发布 Magistral，称其为公司的推理模型系列，并同时提供开放权重版本与商业版本。[6] 同月，Mistral 发布 Mistral Code，把产品定位在企业软件开发场景，强调代码助手、企业知识、部署选项和面向组织的控制能力。[7] 虽然这两项发布时间早于本章主时段的起点，但到 2025 年 8 月以后，它们已经成为欧洲开放模型叙事中的重要组成部分：一边是可供开发者拿走的模型，一边是企业愿意付费购买的完整系统。

开放与商业并不矛盾。恰恰相反，2025 年之后，越来越多公司把开放权重作为分发方式，把企业服务作为收入方式。开放模型降低试用门槛，扩大社区评测，吸引生态适配；商业服务则处理企业最不愿意自己承担的部分：私有部署、权限管理、审计日志、支持响应、合规文件、稳定升级。开放模型公司不再只是在 GitHub 上争星标，它们也要卖合同、签 SLA、进采购流程。开源世界仍然浪漫，但浪漫主义者也要开增值税发票。

Meta 的 Llama 生态在这一阶段承担了另一种角色。2025 年 9 月，Meta 发布面向美国联邦政府采用 AI 的官方说明，称将通过合作伙伴推动 Llama 在联邦机构中的使用。[8] 这不是一次模型参数更新，却是开放生态进入公共部门采购和治理体系的信号。开放权重模型如果要被政府、医疗、金融和工业部门采用，技术能力只是条件之一；供应链、许可证、审计、部署地点、数据边界和责任归属同样重要。

这也解释了为什么“开源更安全”是一个危险的懒句子。开放权重允许更多人检查、测试、微调和部署，但安全不会自动从许可证里长出来。模型可能被错误微调，推理服务可能暴露在公网，日志可能记录敏感信息，工具调用可能越过权限边界，依赖库可能出现漏洞。闭源平台的问题是信任集中，开放部署的问题是责任分散。前者让用户相信一个大后台，后者要求用户自己成为后台的一部分。

四、Llama 的公共化与本地智能的政治经济学

Llama 不需要在本章重新讲一遍早期泄露和开放起源。那是前文已经覆盖过的旧故事。到 2025 年下半年，更重要的问题已经变成：开放模型如何进入制度化使用。

Meta 面向联邦政府的官方说明使用的是“加速采用”的政策语言。[8] 这类语言背后，是开放模型的一项现实优势：组织可以在不同云、不同硬件和不同服务商之间移动，至少在理论上降低被单一 API 锁定的风险。对公共部门和大型企业来说，这一点尤其重要。它们并不总是追求最炫的演示，而是追求可审计、可采购、可迁移、可解释责任链的系统。

但“可迁移”不是“无成本迁移”。一个机构把模型部署在自有环境中，需要有人维护镜像、驱动、推理框架、网络隔离、访问控制和日志策略。模型更新也会带来回归测试：新版本是否改变拒答行为，是否影响工具调用格式，是否在内部知识问答上退步，是否对某些语言或专业术语出现新的偏差。开放模型给了机构更多控制权，也把变更管理带回机构内部。

这就是本地智能的政治经济学。闭源云端把智能做成服务，把复杂性集中到供应商；开放模型把智能做成可部署资产，把复杂性分发给组织和个人。两者都不是纯粹的自由或束缚。闭源平台可能更省心，但数据、成本和路线图受制于供应商。开放部署可能更自主，但每一次自主都要求工程、治理和预算配套。

到 2026 年，监管语境也进一步提醒开发者：通用 AI 不只是技术资产，也是合规对象。欧盟围绕通用 AI 模型的行为准则与 AI Act 指引，将透明度、版权、安全和风险管理纳入制度框架。[9] 对小团队而言，这些文件可能显得遥远；但当他们把开放模型接入客户数据、医疗文本、招聘流程或金融分析时，遥远的制度会突然变成合同附件。开源许可证回答的是“能不能用”的一部分，合规义务回答的是“怎样用、出了事谁负责”的另一部分。

开放模型的反攻，因此不是一场轻装上阵的游行。它更像把许多原本藏在云平台里的后勤部门拆开，分发给了每个愿意自建的人。有人因此获得主权，有人因此获得成本优势，有人因此获得定制能力；也有人因此第一次知道，CUDA 版本不匹配会让一个宏大的智能体计划停在启动日志里。

五、Hermes Agent：当框架把记忆、技能和自我改造写进文档

模型开放之后，下一层问题是：谁来组织模型行动？

NousResearch 的 Hermes Agent 给出了一个开源社区版本的答案。其 GitHub 仓库把项目呈现为一个 Agent 框架，围绕工具使用、记忆、技能和自主任务执行组织代码与文档。[10] 官方文档中还提供了面向 Hermes Agent 的技能说明，把“技能”作为可组合、可调用的能力单元来描述。[11] 另一个由 NousResearch 维护的 hermes-agent-self-evolution 仓库，则把“self-evolution”作为扩展方向，展示让 Agent 生成、修改或扩展自身能力的实验性路径。[12]

这些说法需要被准确放置。文档声称支持记忆、技能和自我演化，并不等于证明系统具备可靠的长期自主改进能力，更不等于出现了什么“智能体社会”。在工程语境里，记忆通常意味着持久化存储、检索和上下文注入；技能意味着一组工具、提示、脚本或工作流封装；自我演化意味着系统可以根据任务结果生成新组件、修改配置或提出代码变更。它们都是软件结构，不是人格叙事。

但正因为它们是软件结构，才值得认真。闭源 Agent 平台通常把这些能力包装进产品体验：用户看到的是按钮、任务列表和授权弹窗。Hermes Agent 这样的项目则把骨架暴露出来。开发者可以看到记忆如何写入，技能如何注册，工具如何调用，模型如何被替换，失败如何记录。透明度带来学习价值，也带来责任。一个团队如果决定自托管这类框架，就必须回答一串实际问题：记忆数据库存放在哪里，是否加密，谁能读取；技能包是否允许执行 shell 命令；外部 API 密钥如何管理；Agent 生成的新代码能否自动运行；失败任务是否进入人工审核队列。

这里有一种行业荒诞：当人们说“让 Agent 自我进化”时，下一步往往是配置权限、写测试、禁用危险命令、限制目录访问、设置审计日志。科幻词汇落到运维手册里，语气会变得朴素。所谓自我进化，在生产环境里首先要学会不要把 .env 文件提交到仓库。

Hermes Agent 的意义，不在于它已经替代了平台化产品，而在于它使 Agent 的构造过程可见。小团队不必等待某个大型云厂商开放某个按钮，才能尝试把本地模型、私有知识库、内部脚本和长期记忆组合起来。他们可以下载仓库，阅读文档，接入模型，写自己的技能。与此同时，他们也失去了一部分平台保护：没有默认的企业安全团队，没有统一的滥用监控，没有自动合规审计，没有保证可用性的服务等级承诺。

Agent 时代的开源框架因此有一种双重性质。它们是杠杆，也是裸露的机械臂。会用的人能把一个小团队的工作半径扩大；不会管的人则可能把权限、数据和自动化错误一起放大。

六、OpenClaw、Moltbook 与社区实验的可见性

2026 年前后，围绕 Agent 的社区实验开始以更具娱乐性的方式进入行业媒体。TechTarget 和 IBM 的解释文章把 OpenClaw、Moltbook 等项目放在“最新 AI Agent 热潮”的语境下讨论，将其视为开发者围绕多 Agent、个人自动化和工具编排进行实验的文化信号。[13][14]

本章只把它们放在这个位置：文化信号，而不是基础设施转折点。原因很简单。公开讨论中常见的星标数、Agent 数量、收购传闻或商业化说法，如果没有官方仓库快照、项目公告或可靠一手资料，很容易在传播中失真。Agent 圈尤其容易制造一种热闹的错觉：一个项目的演示视频可以像产品，一个 Discord 频道可以像生态，一个排行榜可以像市场。可在非虚构叙事里，热闹不是证据。

不过，热闹本身也说明了一件事。到这一阶段，Agent 实验不再只属于研究实验室和大公司产品团队。个人开发者、开源维护者、学生、小型咨询公司和企业内部工具团队，都可以用开放模型、向量数据库、浏览器自动化、终端工具、MCP 服务器和技能框架拼出自己的“行动者”。有些项目会失败，有些会变成插件，有些会成为短暂流行的梗，有些会沉淀成库和标准。

Linux Foundation 在 2025 年宣布成立 Agentic AI Foundation，并把 MCP、AGENTS.md、goose 等项目和规范纳入更制度化的开源协作框架。[15] 这类动作与 OpenClaw、Moltbook 式的社区热潮形成对照：一边是实验文化，一边是标准化和治理。前者提供想象力，后者提供可持续的地基。Agent 生态需要两者，但也需要区分两者。演示可以展示可能性，标准和文档才决定可复用性。

开源世界历来如此。一个玩笑项目可能启发严肃工具，一个严肃项目也可能被错误包装成万能入口。2025 年后的 Agent 生态只是把这种老规律加速了。模型让原型更容易，社交媒体让原型更容易被看见，自动化又让原型更容易造成后果。可见性提高，不等于可信度提高。小团队若把这些实验接入真实业务，仍要回到朴素问题：谁维护，谁审核，谁备份，谁负责。

七、小团队的杠杆与账单

如果把 2025 年下半年到 2026 年春天的开放模型和自托管 Agent 项目摊在桌面上，一个小团队确实获得了前所未有的杠杆。

它可以选择 gpt-oss 这样的开放权重模型，在自有环境中处理不适合发往第三方 API 的数据。[1] 它可以测试 Qwen、DeepSeek、Mistral 或 Llama 生态中的模型，按语言、代码、推理、成本和许可证做组合。[2][4][6][8] 它可以把 Hermes Agent 这样的框架接入内部文档、工单系统、脚本和长期记忆，构造一个不完全依赖闭源平台的工作流。[10][11] 对一家小咨询公司，这可能意味着用更少的人维护更多客户项目；对一个内部工具团队，这可能意味着把重复报表、代码迁移、日志分析和知识检索统一到一个本地系统；对个人开发者，这可能意味着第一次拥有一个能读自己文件、调用自己脚本、记住自己偏好的工具。

但每一项杠杆都有背面。

首先是运维。开放权重模型不是网页收藏夹。它需要推理框架、GPU 或 CPU 资源、容器镜像、版本管理、监控和扩缩容策略。小模型可以在本地跑，生产服务仍然要处理并发、延迟、崩溃和成本。一次模型升级可能让提示词失效，一次驱动更新可能让推理服务无法启动。

其次是安全。Agent 框架的价值来自工具调用，风险也来自工具调用。能读文件的 Agent 可能读到敏感文件；能发请求的 Agent 可能触碰内部接口；能执行命令的 Agent 可能执行错误命令；能写代码的 Agent 可能引入漏洞。安全策略不能只写在宣传页上，必须落到权限隔离、密钥管理、沙箱、审计和人工确认上。

第三是许可证与数据。Apache 2.0 这类宽松许可证降低了使用门槛，但团队仍需核对模型、依赖库、训练或微调数据、第三方工具和客户合同之间是否兼容。模型输出也可能触发版权、隐私或行业合规问题。开放权重并不自动清空法律风险，它只是让使用者拥有更多自主处理风险的空间。

第四是评测。闭源平台通常提供一个看似稳定的产品名，背后版本可能滚动变化；开放部署则让团队可以锁定版本，却也要求团队自己建立评测集。一个 Agent 是否真的提高效率，不能只看演示是否顺滑，还要看任务成功率、人工返工率、错误严重度、成本、延迟和安全事件。小团队若没有评测，自动化很容易变成一种更快制造不确定性的方式。

最后是更新。开放生态速度极快。2025 年 8 月的选择，到 2026 年 4 月可能已经被新模型、新框架、新量化方案和新安全问题包围。团队既不能永远追新，也不能永远冻结。追新会让系统不稳定，冻结会让能力落后和漏洞累积。夹在中间的，是每个小团队都熟悉的现实：路线图写得雄心勃勃，维护表格写得密密麻麻。

因此，开放模型的反攻不是对闭源云巨头叙事的否定，而是对它的校正。前沿能力确实正在离开单一登录框，进入本地设备、私有云、开源仓库和社区框架。更多人可以触摸、修改、部署和组合这些能力。与此同时，复杂性也被重新分配。过去由平台吞下的许多脏活，开始摆到个人和小团队面前。

这并不悲观。软件史上许多重要的扩散，都是从“终于能自己做”开始，然后迅速进入“为什么这么多事都要自己做”的阶段。兴奋和怀疑在这里并不冲突。兴奋来自新的杠杆，怀疑来自新的责任。到 2026 年春天，智能的前沿不再只有一扇门；它变成了许多扇门、许多把钥匙、许多份许可证，以及许多台半夜仍在发热的机器。

参考文献

OpenAI，Introducing gpt-oss，2025-08-05。
Qwen Team，Qwen3-Coder: Agentic Coding in the World，2025-07-23。
Qwen Team，Qwen3-Next，2025-09-11。
DeepSeek API Docs，DeepSeek-V3.2 Release Notes，2025-12-01。
DeepSeek API Docs，DeepSeek-V4 Preview Release Notes，2026-04-24。
Mistral AI，Magistral，2025-06-10。
Mistral AI，Mistral Code，2025-06-04。
Meta，Accelerating AI adoption across the federal government，2025-09。
European Commission，The General-Purpose AI Code of Practice，2025。
NousResearch，hermes-agent，GitHub repository，访问日期：2026-04-30。
NousResearch，Hermes Agent Docs: autonomous-ai-agents / hermes-agent，访问日期：2026-04-30。
NousResearch，hermes-agent-self-evolution，GitHub repository，访问日期：2026-04-30。
TechTarget，OpenClaw and Moltbook explained: The latest AI agent craze，2026。
IBM Think，OpenClaw, Moltbook and future of AI agents，2026。
Linux Foundation，Linux Foundation Announces the Formation of the Agentic AI Foundation，2025。

Keyboard shortcuts

智能涌动