第19章｜Claude 3.5 与 Llama 3.1：闭源天花板，开源地板

一、不是最大，却最顺手

2024年6月20日，人工智能行业又迎来一个模型发布日期。到这一年夏天，发布会、基准测试表格、演示视频和“重新定义”式标题已经过于密集，行业从兴奋中学会了疲劳。真正引人注意的，不再只是“最大参数”或“最贵旗舰”，而是一个更朴素的问题：这个模型能不能被人反复用在工作里。

Anthropic在官网发布Claude 3.5 Sonnet。官方博客开头写道：“Claude 3.5 Sonnet raises the industry bar for intelligence, outperforming competitor models and Claude 3 Opus on a wide range of evaluations, with the speed and cost of our mid-tier model, Claude 3 Sonnet.”按中文转述，就是Claude 3.5 Sonnet在一系列评测中超过竞争模型和Claude 3 Opus，同时保持中档模型Claude 3 Sonnet的速度与成本结构。[1]

这句话里藏着2024年模型战争的一个新方向：强模型不只要强，还要顺手。

3月，Anthropic发布Claude 3系列时，Opus是旗舰，Sonnet是中档，Haiku是轻量级。按照传统科技产品叙事，旗舰应当代表最高体验。但三个多月后，Claude 3.5 Sonnet把这种层级关系打乱了。Anthropic称，Claude 3.5 Sonnet“operates at twice the speed of Claude 3 Opus”，即速度为Claude 3 Opus的两倍；发布时API价格为每百万输入tokens 3美元、每百万输出tokens 15美元；上下文窗口为200K tokens。[1][2]

这组数字对普通消费者未必有戏剧性。可对企业用户、独立开发者和产品经理来说，它们像报价单上的小型地震。一个模型能力提升、延迟降低、成本可试算、上下文足够长，意味着它可以吞下长文档、代码片段、合同、日志、客服记录和内部知识库片段。过去一年，许多AI产品的困境不是模型完全不能用，而是“效果好但太贵”“演示惊艳但上线不稳”“能答问题却很难进入流程”。Claude 3.5 Sonnet的吸引力恰好在这里：它没有把所有指标推到宇宙尽头，而是把能力、速度和价格调到一个更像生产工具的位置。

Anthropic在发布页列出官方评测表，把Claude 3.5 Sonnet与Claude 3 Opus、GPT-4o、Gemini 1.5 Pro等模型放在一起比较，项目包括MMLU、GPQA、MATH、HumanEval等。更接近日常工程的一项，是Anthropic自己的代理式编码评测：公司称Claude 3.5 Sonnet解决了64%的问题，Claude 3 Opus为38%。这些任务要求模型修复开源代码库中的bug或增加功能，评估方式比单纯代码补全更接近软件工程工作。[1] 但这里也必须保留限制：这是Anthropic发布材料中的评测，不等同于所有企业代码库、所有语言、所有工程环境下的通用结论。

模型公司在榜单上相互超越，已经成了2024年的行业天气预报。今天这家超过，明天那家刷新。Claude 3.5 Sonnet的发布之所以像一个转折点，是因为它没有只停在榜单。Anthropic同时把它放到Claude.ai、Claude iOS应用、Anthropic API、Amazon Bedrock和Google Cloud Vertex AI等渠道上。[1] 这意味着它不是一个孤立模型，而是一组分发路径：个人用户可以在网页里试，企业可以从云平台采购，开发者可以用API接入，安全团队可以把它放进既有权限体系里评估。

这也是Anthropic与前文写到的OpenAI多模态路线、苹果设备路线之间的差异。OpenAI在5月把实时语音和视觉推到前台，苹果在6月把AI塞进设备和操作系统；Anthropic则更强调可靠、长上下文、企业可用性和一种不那么喧哗的生产力。它不是不炫技，而是把炫技包装成工作流。

2024年的AI使用者已经被训练得挑剔。一个模型会写诗，不足以让企业掏钱；会总结PDF，也不足以让开发团队迁移流程；会生成代码，如果不能解释、修改、迭代，最后仍会变成昂贵的自动补全文本框。Claude 3.5 Sonnet击中的，是一个更实际的问题：能不能把一件事交给它反复改。

答案还不是完全肯定。但比几个月前更接近肯定。

二、聊天框旁边多出了一张桌子

同一天，Anthropic推出了一个名字不像模型、却可能比模型更改变体感的功能：Artifacts。

在过去的聊天机器人界面里，AI的回答大多以一段段文本形式堆在对话历史中。用户让它写代码，它就在气泡里吐出代码；让它写网页，它给一段HTML；让它写方案，它给Markdown；让它做小游戏，它把文件压成一段回答。用户真正要使用这些成果，还要复制、粘贴、保存、运行、报错，再回到对话里请求修改。聊天框像一个很聪明的同事，但它的桌面永远隔着一层玻璃。

Artifacts改变的是这层玻璃。

Anthropic官方说明中，Artifacts会出现在用户与Claude的对话旁边，使用户可以查看、编辑并继续构建Claude生成的内容。它可以承载代码片段、文本文件、网站设计、SVG图形、图表、交互式组件等对象。[3] Claude 3.5 Sonnet发布博客也把Artifacts列为新的Claude.ai体验：当用户要求Claude生成代码、网页、文档或设计时，相关成果可以在独立窗口中打开，并随着对话继续迭代。[1]

这不是复杂到难以理解的创新。相反，它几乎简单得让人疑惑：为什么聊天机器人一开始不是这样？

在官方演示和产品说明所描述的使用方式中，用户可以要求Claude生成一个交互式网页。过去，聊天框返回HTML、CSS和JavaScript；现在，右侧打开一个可预览的窗口。用户继续要求修改颜色、布局、文案、组件，Claude更新右侧对象。成果不再只是“回答”，而变成一个可见、可编辑、可反复加工的工作件。

这一步的意义在于，AI产品从“对话”向“协作界面”移动。聊天本身不是终点，聊天是操作对象的方式。文本框不再是最后交付物，而更像控制台。

行业荒诞感也在这里出现：2023年，大量AI应用创业公司把“在聊天框里生成一段东西”包装成产品；到2024年，基础模型公司开始把这些产品外壳吸回模型界面。网页生成器、文案编辑器、简单数据图表、前端组件草稿、小游戏原型——它们都可能变成Claude右侧窗口里的一个Artifact。许多AI创业公司终于发现，最大的竞争对手不一定是同类创业者，而是模型供应商突然在聊天框旁边加了一张桌子。

但Artifacts还不是完整的软件开发环境。它可以快速生成原型，却不能替代复杂项目中的版本控制、权限管理、测试体系、依赖管理、部署流程和长期状态维护。它能帮助用户更快看见结果，也能让非技术用户参与修改；但从“一个可运行的网页片段”到“一个长期运营的产品”，中间仍隔着工程组织、代码审查、监控告警和安全合规。

这正是它的真实位置：不是终结开发流程，而是把早期构思、草稿、演示和小型工具制作的门槛降下来。

Claude 3.5 Sonnet与Artifacts放在一起看，就不再是一次单纯模型升级。Anthropic在做一件更有野心的事：把强模型嵌入一个可操作界面，让用户在对话中逐步塑造结果。模型能力是发动机，Artifacts是方向盘和工作台。发动机再强，如果用户每次都要跳车搬货，效率仍会损失；工作台出现后，模型的“可用感”被放大。

这也是闭源模型在2024年夏天展示出的第一种优势：它们不只卖智能，还卖完成度。模型、界面、账户体系、企业权限、API、云渠道和安全叙事被打包在一起。对用户来说，这比单个榜单分数更现实。

三、闭源模型的后台：云、芯片与账单

Claude 3.5 Sonnet发布时，前台是模型和界面，后台是更重的东西：云计算、专用芯片、资本投入和分发渠道。

三个月前，2024年3月27日，Amazon宣布完成对Anthropic总计40亿美元投资。Amazon在新闻稿中表示，这是其对Anthropic投资计划的最后一笔追加投资；Anthropic选择AWS作为主要云服务提供商，并将使用AWS Trainium和Inferentia芯片来构建、训练和部署未来模型。[4]

这条新闻没有模型演示那样的视觉效果，却更接近基础设施层面的现实。训练前沿模型需要巨额算力，推理服务需要稳定云平台，企业客户采购需要合规渠道。模型公司可以在博客里谈智能边界，但账单最终会落到GPU、网络、存储、电力、机房和云合同上。

AWS在这场绑定中得到的也不只是潜在财务回报。Claude模型进入Amazon Bedrock，意味着AWS企业客户可以在同一平台调用Anthropic模型，与其他模型一起被纳入企业云采购和权限体系。[4][5] 对云厂商来说，基础模型是留住企业工作负载的新入口；对模型公司来说，云厂商是算力来源、销售渠道和企业信任背书。

到2024年，前沿模型公司的命运越来越难脱离云厂商。外界看到的是聊天机器人回答问题，内部持续燃烧的却是资本密集型工业系统。闭源模型的“天花板”并不只由算法决定。它由数据处理能力、训练稳定性、芯片供应、推理优化、产品渠道、安全评估和商业合同共同决定。

Claude 3.5 Sonnet的价格因此值得注意。每百万输入tokens 3美元、输出tokens 15美元，放在前沿模型区间里具有竞争力。[1][2] 它不是免费，也不是廉价玩具；它是一种企业可试算的成本。一个模型如果只在少数演示中表现惊艳，却让每次调用都像打开水龙头放美元，它很难成为大规模应用的默认组件。

Anthropic选择Sonnet而不是Opus作为这次跃迁的主角，恰好说明了行业重心的变化。企业不总是需要最强模型，它们需要“足够强、足够快、足够稳定、足够便宜”的模型。生产力工具的胜利经常不是由最高峰决定，而是由可重复使用的高原决定。

这就是闭源路线的第一层逻辑：把能力上限握在自己手里，同时用产品和渠道把高能力变成标准化服务。用户买到的不只是模型输出，而是一整套责任边界。出了问题，可以找供应商；要扩容，可以找云；要合规，可以走企业合同；要接入内部系统，可以用API。

当然，这也带来另一面。企业越依赖闭源模型，就越依赖供应商的定价、路线图、可用区域、审核政策和服务稳定性。模型能力越强，锁定也越深。AI行业喜欢谈“智能”，采购部门最后问的却常常是：如果价格上涨怎么办？如果模型下架怎么办？如果数据不能出域怎么办？如果监管要求本地部署怎么办？

这些问题，为几周后Meta的出场铺好了地面。

四、扎克伯格写下一篇产业宣言

2024年4月18日，Meta发布Llama 3首批模型，包括8B和70B两个规模。Meta在博客中写道：“With Llama 3, we set out to build the best open models that are on par with the best proprietary models available today.”——通过Llama 3，Meta的目标是构建能够与当时最好的专有模型相匹敌的开放模型。官方材料称，Llama 3使用超过15万亿tokens训练，训练数据集规模是Llama 2的七倍以上，代码数据量是Llama 2的四倍以上。[6]

如果故事到这里为止，Llama 3只是又一次开放权重模型升级。但7月23日，Meta把这件事推到更大的叙事里。

那天，Meta发布Llama 3.1。模型家族包括8B、70B和405B，其中405B是重点：一个4050亿参数级别的开放权重模型，被放进前沿模型竞争的话语场。Meta官方材料称，Llama 3.1支持128K上下文长度，并改进多语言能力、工具使用能力和整体模型质量。[7]

同一天，Mark Zuckerberg发表文章，标题像一句宣言而不是技术博客：“Open Source AI Is the Path Forward.”——“开源AI是前进之路。”文章中他写道：“I believe that open source is necessary for a positive AI future.”——“我相信，开源对于一个积极的AI未来是必要的。”[8]

这篇文章需要两种读法。

第一种读法是价值观文本。Zuckerberg强调开放模型有利于开发者定制、检查、部署，有助于让更多人分享AI带来的机会，而不是让少数公司控制关键技术。对许多研究者、创业者和产业政策制定者来说，这一论点有吸引力。闭源模型的能力很强，但用户无法完全理解其训练过程、权重结构和安全边界。开放权重模型至少给了外部世界一种可下载、可微调、可本地部署的可能性。

第二种读法是商业防御。Meta不是慈善组织。它拥有Facebook、Instagram、WhatsApp、Messenger和庞大广告系统，它不靠出售模型API作为核心收入。对Meta来说，降低前沿AI能力的获取成本，有助于削弱闭源模型供应商对应用生态的收费权和控制权。如果AI入口未来被少数闭源模型公司、移动操作系统或云平台控制，Meta这样的应用巨头会面临新的平台依赖。开放Llama权重，可以让开发者、企业和研究机构围绕Meta的模型栈生长，形成事实标准。

互联网历史上，开放经常既是理想主义，也是商业策略。Linux让云计算公司省下操作系统许可，也让它们拥有更强基础设施控制力；Android的开放策略帮助Google扩散移动生态，同时保住搜索和服务入口。Llama路线与这些历史并不完全相同，但相似处在于：开放底层能力，可以换取生态规模和议程设置权。

但Meta的开放并不是无限制开放。Llama模型使用Meta自己的许可协议，商业使用存在条件，特定大规模平台需要额外许可。[9] 因此，严格说，它更准确的说法是“开放权重”或“可获取权重”，而不是传统开源软件意义上的完全开放。这个细节很重要。行业里常把Llama称为开源模型，是因为权重可下载、可研究、可微调；但它并不等同于没有许可边界的公共物品。

即便如此，Llama 3.1 405B的出现仍是2024年的关键事件。此前，开放权重模型往往被视为“追赶者”：更便宜、更可控，但能力距离最强闭源模型有差距。Llama 3.1试图改变这个叙事。Meta在官方材料中把405B与GPT-4o、Claude 3.5 Sonnet、Gemini等模型比较，并展示多项评测结果。[7] 本章不把这些表格简化成“谁全面战胜谁”的结论，因为评测项目、提示方式、模型版本和真实业务场景之间始终有距离。它们更适合作为一个信号：开放权重模型开始进入前沿讨论，而不再只在低成本替代品位置上徘徊。

五、405B不是终点，是地板上升的证据

Llama 3.1 405B的数字很醒目，但它的行业意义不只在“405B”。

参数规模曾是大模型时代最容易传播的指标。GPT-3的175B参数让世界记住了规模法则；后来，模型公司逐渐不再公布参数，竞争焦点转向能力、推理效率、上下文、多模态、工具调用和产品体验。Meta重新把405B放到台前，有一种反向透明感：它告诉外界，这个前沿开放权重模型大到什么程度，也让外界可以围绕它构建压缩、蒸馏和小模型训练流程。

Meta发布Llama 3.1时，不只给出405B，还同时给出8B和70B。这种组合比单一巨型模型更接近现实生态。405B负责充当前沿能力参考，70B适合许多服务器端任务，8B则进入低成本服务、边缘实验和教学研究场景。一个生态如果只有巨型模型，就像只有洲际飞机没有卡车和自行车；它能跨洋，却很难抵达每个仓库门口。

128K上下文长度也值得放进这个框架里。[7] 长上下文不是万灵药，它不保证模型真正理解所有内容，也会带来检索、注意力衰减和成本问题。但它让开放权重模型可以处理更长文档、更复杂代码、更大批量对话记录，缩小与闭源模型在企业应用场景中的体验差距。

Llama 3.1的另一个影响，是改变了“应用创业者该依赖谁”的计算。2023年，许多AI应用默认调用少数闭源API，后来又把Anthropic、Google、Mistral等供应商加入候选清单。闭源API的好处是快、强、省工程；坏处是成本和控制权。开放权重模型成熟后，创业公司可以采用混合架构：关键任务调用最强闭源模型，常规任务使用开放模型；敏感数据留在私有部署，通用推理交给云API；用大模型生成高质量数据，再蒸馏到更小模型上。

这种分层使模型市场不再像一场单榜冠军赛，而像电力系统。最高端模型相当于大型电站，成本高、能力强、稳定供应；开放权重模型像分布式能源，性能未必总是最高，但覆盖面广、可定制、可本地化。应用开发者真正关心的不是信仰哪一路，而是在每个任务上选择合适的成本、延迟、隐私和质量组合。

这里也有一个经常被“开源万岁”口号遮住的现实：405B模型巨大，部署并不便宜。开放权重不是免费午餐，它更像是把餐厅厨房开放给顾客：你可以自己做，但你需要厨师、炉灶、采购和消防许可。许多企业下载得起权重，却未必跑得起服务；许多开发者可以本地试验8B或70B，却不可能轻松运营405B级别模型。开源地板在抬升，但地板下面仍然是硬件、运维和电费。

然而，开放权重把另一件事变得清楚：应用层不再必须等待闭源模型公司恩赐。开发者可以微调，企业可以私有部署，国家和地区可以围绕本地语言、本地数据、本地合规建立模型栈。闭源模型继续抬高天花板，开放权重开始抬高地板。

Meta的策略因此具有攻击性。它没有直接向OpenAI和Anthropic出售相同产品，却在削弱闭源API的稀缺性。如果开放权重模型足够好，闭源公司就必须证明自己的溢价：更强推理，更好的多模态，更可靠的工具使用，更低幻觉率，更完善的安全承诺，更易用的企业产品。

这就是本章标题中的“地板”。Llama 3.1不是把开放模型推到绝对顶点，而是把更多人可触及的基础能力抬高。当地板上升，许多原本需要昂贵闭源模型才能做的应用，会被拖入更便宜、更开放、更分散的竞争区间。闭源天花板仍在上方，但地板离它越来越近。

六、巴黎的融资与欧洲的焦虑

美国西海岸的模型公司继续发布，Meta把开放权重推上前沿战场，欧洲也在寻找自己的位置。

2024年6月，Mistral AI宣布完成6亿欧元B轮融资。公司新闻稿称，本轮融资由General Catalyst领投，包含股权和债务融资；Mistral称这笔资金将支持公司推进前沿AI，并把技术带给更多用户。[10] 路透社报道称，这笔融资使Mistral AI估值达到约58亿欧元。[11] 估值数字来自媒体报道，不是本章把它写成公司新闻稿中的官方披露。

Mistral的故事带有明显欧洲色彩。公司总部位于巴黎，创始人包括Arthur Mensch、Timothée Lacroix和Guillaume Lample。它从一开始就把开放模型、高效模型和欧洲基础模型公司放在同一个叙事里。2023年和2024年，Mistral陆续发布Mistral 7B、Mixtral等模型，并推出商业API和Le Chat等产品。它既不像OpenAI那样全力推进闭源旗舰，也不像Meta那样拥有庞大社交广告现金流；它必须在开放、商业化和欧洲政策期待之间保持平衡。

6亿欧元融资的象征意义不亚于财务意义。欧洲一边推动AI监管，一边也不愿在基础模型上完全依赖美国公司。布鲁塞尔讨论风险分类、透明义务和通用AI模型规则；巴黎则希望证明欧洲不只是监管者，也能成为模型生产者。对欧洲产业政策来说，Mistral像一个罕见样本：本土团队，本土资本与国际资本共同支持，产品面向全球开发者，同时承担“欧洲AI主权”的叙事重量。

这种叙事当然有压力。基础模型是资本密集、人才密集、算力密集的行业。欧洲拥有优秀研究人员和工程师，却在超大规模云基础设施、GPU供给和消费级平台入口上弱于美国巨头。Mistral要面对的不是一家对手，而是一整套生态差距：美国模型公司背后往往站着云平台、芯片供应链、企业销售渠道和全球开发者网络。

因此，Mistral的开放策略既是理念，也是现实选择。通过发布高效开放模型，它可以更快获得开发者关注；通过商业API和企业产品，它可以建立收入；通过欧洲身份，它可以获得政策与资本支持。高效模型尤其重要，因为不是所有客户都能承担最大模型的推理成本。一个较小但足够强的模型，部署在企业私有环境里，可能比最强闭源模型更符合预算、隐私和延迟要求。

欧洲的个体也在这条缝隙中出现：巴黎的创业团队、柏林的中型制造企业、阿姆斯特丹的研究小组、布鲁塞尔附近负责合规的律师和政策人员。他们未必关心每一项基准测试谁高0.5分，却关心模型能否在本地合规框架下部署，能否支持欧洲语言，能否不把关键业务完全交给太平洋彼岸的API。对他们来说，开放模型不是抽象理念，而是采购单、合规审查表和工程排期里的选项。

Mistral融资说明，AI竞赛已经不只是模型榜单，而是资本市场、监管制度、云基础设施和地缘产业政策的交汇点。欧洲不想只负责给美国模型写合规条款。这种愿望不保证成功，但它解释了为什么一个成立时间不长的巴黎公司能获得如此高估值，也解释了为什么“开放”在欧洲语境中常常带着产业主权的回声。

七、天花板仍高，地板正在抬升

到2024年夏天，AI模型竞争开始呈现清晰分层。

最上层是闭源前沿模型。OpenAI、Anthropic、Google等公司继续定义能力天花板：更强推理、更自然多模态、更长上下文、更复杂工具使用、更高产品完成度。Claude 3.5 Sonnet证明，闭源竞争不只比参数，也比体验组合。速度、价格、Artifacts、企业渠道和安全叙事叠加在一起，使一个模型从“能回答问题”变成“能进入工作流”。

中间层是开放权重和高效模型。Meta用Llama 3.1 405B告诉行业，开放模型不再只是追赶者；Mistral则说明，较小、更高效、可部署的模型同样有商业空间。它们未必总在所有评测上压过闭源旗舰，却能降低AI应用的基础门槛，让更多开发者和企业拥有选择权。

底层是云、芯片和资本。Amazon完成对Anthropic的40亿美元投资，说明前沿模型公司很难脱离云厂商独自生长。AWS Trainium、Inferentia、Bedrock这些名字不像Claude、Llama那样容易传播，却决定了模型能不能被训练、推理、销售和集成。[4][5] 在公众视野里，AI是一个聊天框；在产业结构里，AI是一张由数据中心、芯片供应链、云合同、许可证和开发者生态组成的网。

“闭源天花板，开源地板”不是一句道德判断。闭源并不天然邪恶，开源也不天然纯洁。闭源模型可以提供更高质量、更强安全控制和更完整服务；开放权重可以带来透明、可定制、可本地部署和生态扩散。两者的冲突不是谁代表光明，而是谁在不同层级掌握控制权。

对应用创业者来说，2024年夏天之后的问题变得更复杂，也更有利。过去，他们可能只问：哪家模型最强？现在，他们要问：哪个任务需要最强模型？哪个任务可以用开放模型？数据能不能出云？延迟预算是多少？推理成本占收入比例多少？用户是否愿意为更强智能付费？如果模型供应商调整价格，产品还能不能成立？

对国家和大型企业来说，问题更尖锐。如果Llama、Mistral等开放模型足够好，是否还必须把关键系统建立在少数美国闭源API之上？如果本地部署可行，隐私、监管和主权的权衡会不会改变？如果闭源模型始终领先一代，又有多少场景愿意为了控制权牺牲最高能力？

Claude 3.5 Sonnet给出了闭源路线的答案：把模型做强，把界面做顺，把企业使用路径铺好。Llama 3.1给出了开放路线的答案：把权重放出去，让生态自己生长，让更多人站在更高的地板上。Mistral给出了欧洲答案：在监管与技术之间争取一块自己的基础模型土地。Amazon则给出了基础设施答案：无论前台是谁，后台都需要云和芯片。

这场竞赛的兴奋之处在于，能力还在上升；它的可疑之处在于，成本、权力和依赖也在上升。每一次模型发布都像未来提前到来，每一张云账单又提醒人们，未来并不免费。

2024年的夏天，AI行业没有得出最终答案。它只是把问题摆得更清楚：闭源模型继续冲击天花板，开放权重不断抬高地板。当天花板与地板之间的距离缩小时，中间所有应用、公司和国家战略都会重新定价。

下一场风暴，将不只发生在模型榜单上。Agent泡沫、监管压力、芯片约束和商业化焦虑，会把“更聪明的模型”拖回现实世界的成本表里。

参考文献

Anthropic，“Claude 3.5 Sonnet”，2024-06-20。
Anthropic Docs，“Pricing”，2024。
Anthropic，“Artifacts: a new way to use Claude”，2024。
Amazon，“Amazon completes $4 billion investment in Anthropic”，2024-03-27。
Amazon Web Services，“Amazon Bedrock”，2024。
Meta，“Introducing Meta Llama 3”，2024-04-18。
Meta，“Introducing Llama 3.1: Our most capable models to date”，2024-07-23。
Mark Zuckerberg，“Open Source AI Is the Path Forward”，2024-07-23。
Meta，“Llama 3.1 Community License Agreement”，2024。
Mistral AI，“Mistral AI raises €600 million in Series B”，2024-06。
Reuters，“French AI startup Mistral AI raises 600 million euros at 5.8 billion euro valuation”，2024-06。

Keyboard shortcuts

智能涌动