第7章｜羊驼出逃：开源模型把护城河打成公路

一、没有发布会的扩散

2023年3月初，大模型世界发生了一件没有舞台、没有倒计时、没有直播间，却改变了行业路线的事。

一个原本需要申请才能获得的研究模型，突然出现在公开网络的下载链接、torrent和论坛讨论里。据《The Verge》3月8日报道，Meta不久前发布的LLaMA模型权重已经泄露到网上，并在开发者社区传播。[1] Motherboard也在3月7日报道了相关泄露事件。[2] 这不是一次官方发布。公开材料不能证明泄露者身份和动机，也不宜把它写成黑客传奇。能够确认的事实更朴素，也更关键：受控访问的边界被撞开了。

上一章写到的世界，是GPT-4式闭源能力带来的压迫感：最强模型在云端，外部开发者通过API、插件和产品界面接入能力，参数、训练细节、权重和主要安全策略都由公司掌握。那像一艘闭源巨舰。船体巨大，航线清晰，但外部人员拿到的是码头上的接口和使用规则。

LLaMA不同。它发布时并不是面向消费者的聊天产品，体量也不是当时行业叙事里最大的那一种。但它有一样东西非常具体：权重。权重不是一句宣传语，不是网页窗口，而是可以复制、保存、压缩、搬运、微调的文件。对软件行业来说，这种差别像租车和拿到发动机之间的差别；对AI行业来说，它像一只羊驼从栅栏里跑出来，后面跟着研究者、独立开发者、显卡玩家、创业团队和安全研究员。

行业荒诞感也在这里集中爆发。几周前，许多普通用户还在讨论ChatGPT会不会改写搜索、教育和办公室流程；几周后，开发者社区已经开始讨论如何在本地机器上运行一个基础大模型。闭源产品像一座管理严密的商场，入口、付款、监控、退货规则都在平台手里；开放权重则更像临时集市，摊位上摆着模型文件、量化教程、微调脚本、模型卡、许可证提醒和一堆“为什么我这张显卡跑不起来”的求助帖。

这并不意味着开放模型突然超越闭源模型。能力差距仍然存在，尤其在复杂推理、可靠性、多模态、安全对齐和产品化体验上。但权力结构第一次明显松动了。此前，大模型护城河常被归结为三样东西：算力、数据和模型权重。泄露事件之后，至少“权重”这一层不再像城墙，而像一条被车辙压出来的土路。很快，更多人会把它铺成公路。

二、Meta的门禁开放

要理解这次“出逃”的戏剧性，必须先回到2023年2月24日。那一天，Meta AI发布博客《Introducing LLaMA: A foundational, 65-billion-parameter large language model》。这不是一次面向消费者的炫技发布，也不是扎克伯格站在台上宣布一个新App。发布场在线上，由博客、论文、模型卡、代码页面和申请表单构成。

Meta在博客开头写道：“Today, we’re releasing a new state-of-the-art AI large language model called LLaMA, designed to help researchers advance their work in this subfield of AI.”——“今天，我们发布一个新的最先进AI大语言模型LLaMA，旨在帮助研究者推进这一AI子领域的工作。”[3]

这句话里的关键词不是“chatbot”，而是“researchers”。Meta当时把LLaMA定位为研究工具，而不是面向所有人的消费产品。博客还写道：“Smaller, more performant models such as LLaMA enable others in the research community who don’t have access to large amounts of infrastructure to study these models, further democratizing access in this important, fast-changing field.”——“像LLaMA这样更小、更高效的模型，使研究社区中那些无法获得大量基础设施的人也能研究这些模型，从而进一步使这个重要且快速变化的领域的访问民主化。”[3]

这段官方表述把一个长期矛盾摆到了台面上。基础模型越来越重要，但能从头训练、检查、复现实验的大型机构越来越少。对没有万卡集群的实验室、独立研究者和学生来说，最强AI系统常常只能通过论文、API和二手评测来理解。Meta给出的理由是：更小、更高效的模型能让更多研究者进入现场。

这里的“小”，当然是大模型语境里的小。LLaMA系列包括7B、13B、33B和65B四个规模，分别约为70亿、130亿、330亿和650亿参数。[3] 对普通软件开发者来说，70亿参数已经像一头机械鲸；对已经习惯千亿参数叙事的AI行业来说，它又显得像一只可以搬运的羊驼。

Meta和论文作者强调的另一个技术路线，是使用公开可得数据训练。LLaMA论文《LLaMA: Open and Efficient Foundation Language Models》写道，作者展示了“it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets”——可以只使用公开可得数据训练出最先进模型，而不依赖专有且不可访问的数据集。[4] 这句话对开源社区有强烈信号意义：大模型并非只能建立在完全不可见的数据黑箱之上。

但Meta的开放是受控开放。LLaMA 1发布时，权重需要申请，访问面向研究用途，申请对象包括学术研究者、政府、民间组织以及行业研究实验室等。[3] 换言之，Meta打开的是一道带门禁的研究通道，而不是公共广场。

冲突正发生在这里。制度设计里，权重可以通过申请表单、许可协议和研究社区规范来约束；技术现实里，权重一旦离开服务器，就具有软件文件的命运。文件可以复制。复制成本接近于零。申请表单可以筛人，许可协议可以约束可识别主体，研究社区可以形成伦理规则；但当模型权重在更广泛网络中传播，原本清晰的边界会迅速变成模糊地带。

Meta不是第一个相信开放研究能推动AI进步的公司，也不是第一个低估复制速度的组织。只是这一次发生在特殊时间点：ChatGPT已经证明对话模型有大众市场，微软和Google正围绕搜索入口展开竞赛，GPT-4即将以闭源方式登场。LLaMA发布时像一份研究材料；泄露之后，它成了行业叙事里的变量。

羊驼本来被放进研究社区，后来跑进了更大的世界。

三、文件逻辑战胜门禁逻辑

公开报道中的泄露事件，最值得写的不是具体传播路径，而是边界失守的速度。

据《The Verge》报道，LLaMA的权重文件在网上泄露后，开发者已经开始下载和使用这些文件。[1] Motherboard也报道了相关模型在网络社区传播的情况。[2] 对Meta来说，这不是计划内扩散；对许多开发者来说，这像是一扇门突然开了；对闭源阵营来说，这是一道安全警报；对监管者来说，这又提出了一个新问题：如果强模型可以像文件一样到处走，谁来负责？

这件事发生时，大模型行业还在用旧词汇描述新现实。人们说“开源”，但很多模型并不符合传统开源软件定义；人们说“发布”，但有些传播并非官方授权；人们说“社区”，但社区里混合了研究者、创业者、匿名账号、学生、工程师和纯粹围观看热闹的人。一个精密技术产业突然显得像早期互联网：README是路标，issue区是临时市政厅，论坛帖子是新闻社，显卡驱动和依赖冲突则是每个新居民必须缴纳的入城税。

LLaMA泄露改变了一个关键问题的答案：谁有资格实验？

在闭源API模式下，开发者的实验空间由模型提供方定义。价格、速率限制、模型版本、安全策略、上下文窗口、功能开关，都由平台控制。开发者可以在接口上创新，但无法真正拆开模型本身。它像在一条高速公路上开车，道路宽阔，但收费站、限速牌和施工通知都不由你决定。

开放权重则不同。拿到权重的人可以做微调、量化、蒸馏、剪枝、部署、评测、失败、重来。很多尝试粗糙，很多结果不稳定，很多许可证和数据来源问题让人皱眉。但速度惊人。过去需要大型实验室排期完成的事情，开始被拆成社区任务：有人整理指令数据，有人写微调脚本，有人做本地推理，有人补中文教程，有人提交模型卡，有人跑榜单，有人专门告诉大家某张消费级显卡到底能不能跑。

这就是大模型时代的第一次“硬件店时刻”。闭源公司提供经过包装的成品服务，开放社区突然涌入了零件、螺丝刀、改装说明和风险提示。兴奋与怀疑同时存在：一边是技术民主化的速度，另一边是安全、滥用、版权、隐私和许可证的混乱。

如果权重是护城河里的吊桥，那么3月初之后，吊桥没有完全放下，但已经有人把木板铺到了对岸。

四、Alpaca击穿成本神话

真正把这条路踩实的，是斯坦福。

2023年3月，斯坦福大学基础模型研究中心CRFM发布Alpaca项目。团队成员包括Rohan Taori、Ishaan Gulrajani、Tianyi Zhang、Yann Dubois、Xuechen Li、Carlos Guestrin、Percy Liang和Tatsunori B. Hashimoto等。项目博客题为《Alpaca: A Strong, Replicable Instruction-Following Model》。它的叙事几乎像一份实验报告：以Meta的LLaMA 7B为基础模型，用OpenAI的text-davinci-003生成指令跟随数据，再进行监督微调。[5]

这不是最大模型的故事，而是成本结构的故事。

Alpaca使用约52,000条instruction-following demonstrations，即指令跟随示例。[5] 这些数据由OpenAI API生成。斯坦福团队在博客中说明，数据生成成本不到500美元，微调成本不到100美元，总成本低于600美元。[5] 在一个动辄以千万美元训练成本、万张GPU集群和超级数据中心讲故事的行业里，“低于600美元”像一枚小石子砸在玻璃上，声音不大，但裂纹清楚。

必须收窄地说：这600美元左右不是从零训练一个顶级基础模型的成本，也不是完整研发、评估、安全、部署和运维的总成本。它指向的是一个具体实验：在已有LLaMA 7B基础上，生成指令数据并完成监督微调。预训练仍然昂贵，顶尖闭源模型仍然需要巨量算力。但Alpaca证明，一旦基础模型权重可得，把基础语言模型推向“能听懂指令、能像聊天机器人一样回应”的形态，门槛会突然下降。

这条链条由三段组成：基础模型提供语言和知识底座，指令数据提供交互格式，微调让模型学会用用户希望的方式回应。Alpaca的意义不只是一个模型，而是一个配方。基础模型、指令数据、微调脚本、评估样例、成本说明——每个部分都可以被拆开、替换、再组装。开放社区最擅长的不是一次性造出完美产品，而是把一个实验变成许多人可以改造的流程。

斯坦福团队也清楚边界在哪里。博客明确写道：“We emphasize that Alpaca is intended only for academic research and any commercial use is prohibited.”——“我们强调，Alpaca仅用于学术研究，禁止任何商业用途。”[5] 这句话把早期开源大模型生态的尴尬暴露出来：技术上，许多人可以复现；许可证上，许多用途不能做；商业上，所有人又都看见了机会。

对普通研究生和小团队来说，这种变化尤其具体。以前，他们可以读论文、调API、写评测，却很难真正把一个基础模型改造成自己的实验对象。Alpaca之后，问题变成了另一组更工程化、更琐碎的问题：数据怎么来，脚本能不能跑，显存够不够，许可证是否允许，评测是否可信，demo上线后成本会不会爆炸。这些问题不像宏大战略，却是技术扩散真正经过的地面。

Alpaca还有一个短暂而典型的插曲。斯坦福曾上线在线演示，随后项目方关闭了交互式demo，并在项目材料中提示了学术研究用途和限制。[5] 这不是简单的失败，而是2023年开放模型现实处境的缩影：模型能力足以吸引大量用户，但安全评估、滥用防范、服务器费用和法律边界很快会追上来。开放带来的不是免费午餐，而是把厨房打开，让更多人看见炉火、刀具、账单和消防隐患。

Alpaca之后，“训练一个聊天模型需要多贵”这个问题不再能用旧口径回答。护城河没有消失，但河上开始出现便桥。

五、Vicuna、Koala与集市开张

Alpaca之后，羊驼家族开始变得拥挤。

2023年3月30日，LMSYS发布Vicuna项目，标题本身就很会在互联网传播：《Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality》。按项目博客说法，Vicuna-13B基于LLaMA微调，使用来自ShareGPT的用户共享对话数据；团队用GPT-4作为评判者进行初步评估，并称Vicuna-13B达到ChatGPT质量的90%左右；训练成本约300美元。[6]

这里需要谨慎。这个“90%”是项目方在特定评估设置下的传播性表述，不应被当作普遍、无条件、经过行业共识确认的能力排名。用GPT-4评估聊天模型，本身就是2023年大模型行业的荒诞一幕：一个闭源强模型坐在评委席上，给开放模型打分；开放模型再拿这个分数说明自己接近闭源模型。它像一场由冠军兼任裁判的比赛。

可是，荒诞不等于没有信息量。它说明当时社区急需评估方法，而传统NLP基准无法完整覆盖聊天体验。于是，行业在不完美中前进：先用能用的尺子量，再争论尺子歪在哪里。

4月，伯克利人工智能研究实验室相关团队发布Koala，一个面向学术研究的对话模型。项目博客写明Koala基于LLaMA微调，并使用从网络收集的对话数据进行训练。[7] 从Alpaca到Vicuna再到Koala，模式越来越清楚：基础模型泄露或开放之后，真正爆发的是“模型改装业”。每个团队都可以选择不同数据、不同训练策略、不同评测方式，给同一只羊驼剪出不同发型。

与此同时，工具链也在补齐。llama.cpp项目在GitHub上出现，用C/C++实现LLaMA推理，并很快与本地运行、量化和消费级硬件讨论联系在一起。[8] 量化模型把参数用更低精度表示，牺牲一部分精度，换取更低内存占用和更容易部署。对云端大模型来说，这也许只是工程优化；对个人开发者来说，这关系到模型能不能塞进自己的机器。AI行业突然出现了极具生活气息的问题：这台Mac能不能跑？这张显卡够不够？内存爆了怎么办？下载一夜断线算不算人生挫折？

这时，Hugging Face成了集市。

它不是单纯代码仓库，也不是传统论文网站，而是模型托管、数据集、模型卡、讨论区、下载、Space演示和排行榜的混合体。Open LLM Leaderboard把ARC、HellaSwag、MMLU、TruthfulQA等基准放在公开表格上，让不同开放模型可以被比较。[9] 排行榜不能代表全部能力，尤其不能完整衡量安全、长上下文、工具使用、复杂推理、中文能力和真实产品体验。但排行榜有一种行业魔力：它把抽象能力变成数字，把数字变成传播，把传播变成下一轮迭代的燃料。

集市的热闹不只在模型名上。那里还有教程、模型卡、许可证提醒、显存需求、量化版本、LoRA权重、微调脚本、评测结果和无尽的“这个模型为什么在我机器上跑不起来”。如果闭源巨舰给人的感觉是庄严、昂贵、不可接近，那么这个集市给人的感觉就是嘈杂、便宜、混乱、充满创造力，还经常有人把招牌写错。

行业的重心也在这里发生变化。竞争不再只是“谁的模型最大”，而是“谁迭代更快”“谁部署更方便”“谁更容易复现”“谁有更清楚的许可证”“谁有更活跃的社区”“谁能在有限硬件上跑出可接受效果”。在闭源路线里，能力常常被封装成服务；在开放权重路线里，能力被拆成生态。

这不是乌托邦。开放模型同样可能胡说八道，同样可能输出有害内容，同样可能继承训练数据中的偏见，同样可能被用于垃圾信息、诈骗脚本、恶意自动化和其他滥用场景。区别在于，问题暴露的位置变了。闭源模型的问题往往发生在公司黑箱和用户界面之间；开放模型的问题则散落在每个下载、微调、部署和转发节点上。安全从一家公司内部的流程，变成整个生态的共同债务。

六、开源这个词的混乱

2023年春天以后，“开源大模型”成了一个被频繁使用、但并不总是精确的词。

严格地说，开放权重、开放代码、开放数据、开放训练过程、开放许可证，是不同层级。许多被行业称为开源的大模型，只开放了权重或推理代码，没有完整开放训练数据和训练过程；有些允许研究使用，不允许商业使用；有些允许商业使用，但设置规模限制或可接受使用政策。传统开源软件世界里，“源代码”是核心；大模型世界里，权重、数据、训练配方和对齐流程共同构成能力来源。只拿到其中一部分，并不等于拿到全部。

因此，本章的“开源”更接近当时行业语境里的广义说法：模型不再只以API黑箱方式存在，至少部分权重、代码和工具链进入公共开发者生态。这个区分重要，因为它决定了权力如何转移。

开放权重削弱了模型提供方对使用方式的控制。开发者可以本地部署，不必把所有数据发给云端API；企业可以在私有环境中试验，减少对单一供应商的依赖；研究者可以检查模型行为，设计新的评测和安全方法；创业者可以在基础模型之上快速做垂直应用。对许多人来说，这是一种自由。

但同一件事从另一侧看，是风险扩散。模型一旦被复制，撤回很难；许可协议可以追责合规主体，却难以阻止匿名传播；安全对齐可以发布推荐版本，却无法保证所有人都使用安全版本；开放社区可以发现漏洞，也可能放大漏洞。行业在这里遇到一个古老软件问题的新版本：开放带来审查和创新，也带来复制和滥用。只是在大模型时代，被复制的不再只是代码，而是能生成代码、文本、图片提示、社会工程话术和自动化流程的能力。

闭源公司因此有自己的论点：强模型需要集中安全测试、滥用监控、红队评估和迭代控制。这个论点并非毫无道理。闭源路线的核心承诺，是把能力释放和风险控制绑定在同一套系统里。上一章写到插件和工具调用时，这种集中控制已经成为平台化的一部分。

开放社区的反论点同样有力：如果最强模型永远掌握在少数公司手中，社会如何监督？研究者如何复现？中小企业如何避免被平台锁定？安全问题是否只能由模型所有者定义？当AI成为通用基础设施，把底层能力封在黑箱里是否会制造新的垄断？

2023年春天，这些问题没有答案，只有实验。Alpaca、Vicuna、Koala、llama.cpp、Hugging Face排行榜和无数模型卡共同构成了一次大型社会技术实验。实验的结论不是“开源必胜”，也不是“闭源更安全”。更准确地说，大模型行业从单一路线变成了双路线。闭源巨舰继续向前，开放公路也开始通车。

这条公路的路面并不平整。上面有许可证坑、数据版权坑、安全坑、评测幻觉坑、显存坑、依赖冲突坑。但它毕竟是路。路一旦出现，后来者就会问：能不能修得更宽？能不能收费？能不能限速？能不能通向我的市场？

七、Llama 2：野火变成战略

2023年7月18日，Meta给出了自己的回答。

这一天，Meta发布Llama 2，并宣布与微软合作。Meta博客标题是《Meta and Microsoft Introduce the Next Generation of Llama》。官方写道，Llama 2可免费用于研究和商业用途。[10] 这与2月的LLaMA 1有明显不同：LLaMA 1是受控研究访问，Llama 2则以更明确的开放权重和商业许可进入生态。

扎克伯格当天在公开发布中写道：“Open source drives innovation because it enables many more developers to build with new technology.”——“开源推动创新，因为它让更多开发者能够基于新技术进行构建。”[11] 这句话把Meta的叙事从“帮助研究社区”推进到“构建生态”。同一只羊驼，不再只是研究对象，而成了平台战略的一部分。

Llama 2系列包括7B、13B和70B三个参数规模。[12] 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》显示，Llama 2预训练使用约2万亿tokens，并发布了基础模型和聊天微调模型。[12] Meta还配套发布模型卡、可接受使用政策和责任使用指南。换句话说，Meta不是简单把文件扔到网上，而是试图把开放权重包装进一套治理框架。

微软的出现让这件事不再像边缘社区运动。微软博客宣布，在Azure和Windows生态中支持Llama 2，开发者可以通过Azure AI模型目录等方式使用它。[13] 几个月前，开放社区还在追逐泄露权重和本地运行教程；几个月后，巨头把开放模型放进云服务货架。公路不仅通车，还开始有服务区、官方路牌和云端入口。

Meta的选择也有商业逻辑。它没有像OpenAI那样把最强模型能力完全封装为API，也没有像Google那样把AI与搜索和云业务深度捆绑。Meta的核心业务是社交网络和广告，它对开发者生态、研究声誉和基础设施影响力有自己的需求。开放Llama 2，可以让更多公司、研究者和创业团队围绕Meta模型构建工具链，从而把Meta推到开放大模型生态的中心位置。开源在这里既是理念，也是战略；既是研究传统，也是平台竞争手段。

当然，Llama 2的“开放”也不是没有条件。其许可文件包含可接受使用政策，并对特定超大规模平台设置额外许可要求。[14] 它不是把全部训练数据、训练代码和中间过程完整公开，也不是放弃所有控制。它更像一种折中：开放权重，允许广泛商业使用，同时保留部分边界。这种折中后来会成为许多公司效仿的模板：既要社区速度，又要法律护栏；既要开放声誉，又要战略控制。

从2月到7月，路线完成了转换。LLaMA 1以研究访问开始，泄露让它变成野火；Alpaca和Vicuna证明野火能点燃一片实验田；Hugging Face和本地工具链把实验田变成集市；Llama 2则把这场混乱重新收编进巨头战略。

开放模型把护城河打成公路，但公路最终也会有人修站、画线、立广告牌。

八、公路通向哪里

到2023年夏天，大模型行业第一次形成清晰的双重景观。

一边是闭源巨舰。GPT-4代表着更强能力、更复杂安全系统、更高产品化水平，也代表更深黑箱、更强平台依赖和更高使用成本。它像一座云端电厂，开发者接入电网，用多少付多少，但无法进入机房。

另一边是开放公路。LLaMA、Alpaca、Vicuna、Koala、Llama 2和后续无数模型，让研究者和开发者拿到低成本试验门票。它们不一定最强，却可以被复制、微调、量化、部署、比较、批评和改造。它们把大模型从少数公司的产品线，拆解成整个生态的工程材料。

这种变化带来的真正问题，不是“开源会不会消灭闭源”。历史很少这么简单。更好的问题是：当模型权重不再是唯一护城河，真正稀缺的东西会变成什么？

可能是算力。预训练顶级模型仍然昂贵，推理成本在大规模产品中也会变成硬账单。可能是数据。高质量、合规、持续更新、领域化的数据会越来越重要。可能是分发。谁掌握用户入口，谁就能把模型能力变成产品收入。可能是安全能力。模型越容易获得，越需要更成熟的评测、监控、红队和治理。也可能是开发者生态。谁让开发者更容易构建、部署和赚钱，谁就能成为新基础设施的中心。

对时代中的个体来说，这条公路的意义并不抽象。研究者获得了新的复现实验对象；独立开发者第一次能把大模型塞进自己的机器；小公司可以在巨头API之外设计备选方案；安全研究员也不得不面对更分散、更难回收的模型能力。每个人都多了一点自由，也多了一点债务。

2023年的答案还未定型，但方向已经改变。护城河没有消失，只是被重新分配。过去，护城河围着模型权重；现在，公路穿过权重，通向算力、数据、产品、安全和生态。

这条公路很快会越过太平洋。中国公司、创业者、高校实验室和云厂商会迅速加入大模型发布会季。开放权重降低了入场门槛，也提高了竞争速度：模型可以更快推出，榜单可以更快刷新，创业故事可以更快讲完，泡沫也可以更快长大。

羊驼出逃之后，世界没有变得简单。它只是变得更热闹、更便宜、更危险，也更难被少数闸门完全关住。

参考文献

The Verge，James Vincent，“Meta’s powerful AI language model has leaked online — what happens now?”，2023-03-08。
Vice / Motherboard，Joseph Cox，“Meta’s Powerful AI Language Model Has Leaked Online”，2023-03-07。
Meta AI Blog，“Introducing LLaMA: A foundational, 65-billion-parameter large language model”，2023-02-24。
Touvron et al.，“LLaMA: Open and Efficient Foundation Language Models”，2023-02。
Stanford CRFM，“Alpaca: A Strong, Replicable Instruction-Following Model”，2023-03。
LMSYS Blog，“Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality”，2023-03-30。
Berkeley Artificial Intelligence Research Blog，“Koala: A Dialogue Model for Academic Research”，2023-04-03。
GitHub，ggerganov，“llama.cpp”，2023-03。
Hugging Face，“Open LLM Leaderboard”，2023。
Meta Blog，“Meta and Microsoft Introduce the Next Generation of Llama”，2023-07-18。
Mark Zuckerberg，Facebook public post on Llama 2 open source，2023-07-18。
Touvron et al.，“Llama 2: Open Foundation and Fine-Tuned Chat Models”，2023-07。
Microsoft Blog，“Microsoft and Meta expand their AI partnership with Llama 2 on Azure and Windows”，2023-07-18。
Meta，“Llama 2 Community License Agreement”，2023-07。

Keyboard shortcuts

智能涌动