第19章|Claude 3.5 与 Llama 3.1:闭源天花板,开源地板
一、不是最大,却最顺手
2024年6月20日,人工智能行业又迎来一个模型发布日期。到这一年夏天,发布会、基准测试表格、演示视频和“重新定义”式标题已经过于密集,行业从兴奋中学会了疲劳。真正引人注意的,不再只是“最大参数”或“最贵旗舰”,而是一个更朴素的问题:这个模型能不能被人反复用在工作里。
Anthropic在官网发布Claude 3.5 Sonnet。官方博客开头写道:“Claude 3.5 Sonnet raises the industry bar for intelligence, outperforming competitor models and Claude 3 Opus on a wide range of evaluations, with the speed and cost of our mid-tier model, Claude 3 Sonnet.”按中文转述,就是Claude 3.5 Sonnet在一系列评测中超过竞争模型和Claude 3 Opus,同时保持中档模型Claude 3 Sonnet的速度与成本结构。[1]
这句话里藏着2024年模型战争的一个新方向:强模型不只要强,还要顺手。
3月,Anthropic发布Claude 3系列时,Opus是旗舰,Sonnet是中档,Haiku是轻量级。按照传统科技产品叙事,旗舰应当代表最高体验。但三个多月后,Claude 3.5 Sonnet把这种层级关系打乱了。Anthropic称,Claude 3.5 Sonnet“operates at twice the speed of Claude 3 Opus”,即速度为Claude 3 Opus的两倍;发布时API价格为每百万输入tokens 3美元、每百万输出tokens 15美元;上下文窗口为200K tokens。[1][2]
这组数字对普通消费者未必有戏剧性。可对企业用户、独立开发者和产品经理来说,它们像报价单上的小型地震。一个模型能力提升、延迟降低、成本可试算、上下文足够长,意味着它可以吞下长文档、代码片段、合同、日志、客服记录和内部知识库片段。过去一年,许多AI产品的困境不是模型完全不能用,而是“效果好但太贵”“演示惊艳但上线不稳”“能答问题却很难进入流程”。Claude 3.5 Sonnet的吸引力恰好在这里:它没有把所有指标推到宇宙尽头,而是把能力、速度和价格调到一个更像生产工具的位置。
Anthropic在发布页列出官方评测表,把Claude 3.5 Sonnet与Claude 3 Opus、GPT-4o、Gemini 1.5 Pro等模型放在一起比较,项目包括MMLU、GPQA、MATH、HumanEval等。更接近日常工程的一项,是Anthropic自己的代理式编码评测:公司称Claude 3.5 Sonnet解决了64%的问题,Claude 3 Opus为38%。这些任务要求模型修复开源代码库中的bug或增加功能,评估方式比单纯代码补全更接近软件工程工作。[1] 但这里也必须保留限制:这是Anthropic发布材料中的评测,不等同于所有企业代码库、所有语言、所有工程环境下的通用结论。
模型公司在榜单上相互超越,已经成了2024年的行业天气预报。今天这家超过,明天那家刷新。Claude 3.5 Sonnet的发布之所以像一个转折点,是因为它没有只停在榜单。Anthropic同时把它放到Claude.ai、Claude iOS应用、Anthropic API、Amazon Bedrock和Google Cloud Vertex AI等渠道上。[1] 这意味着它不是一个孤立模型,而是一组分发路径:个人用户可以在网页里试,企业可以从云平台采购,开发者可以用API接入,安全团队可以把它放进既有权限体系里评估。
这也是Anthropic与前文写到的OpenAI多模态路线、苹果设备路线之间的差异。OpenAI在5月把实时语音和视觉推到前台,苹果在6月把AI塞进设备和操作系统;Anthropic则更强调可靠、长上下文、企业可用性和一种不那么喧哗的生产力。它不是不炫技,而是把炫技包装成工作流。
2024年的AI使用者已经被训练得挑剔。一个模型会写诗,不足以让企业掏钱;会总结PDF,也不足以让开发团队迁移流程;会生成代码,如果不能解释、修改、迭代,最后仍会变成昂贵的自动补全文本框。Claude 3.5 Sonnet击中的,是一个更实际的问题:能不能把一件事交给它反复改。
答案还不是完全肯定。但比几个月前更接近肯定。
二、聊天框旁边多出了一张桌子
同一天,Anthropic推出了一个名字不像模型、却可能比模型更改变体感的功能:Artifacts。
在过去的聊天机器人界面里,AI的回答大多以一段段文本形式堆在对话历史中。用户让它写代码,它就在气泡里吐出代码;让它写网页,它给一段HTML;让它写方案,它给Markdown;让它做小游戏,它把文件压成一段回答。用户真正要使用这些成果,还要复制、粘贴、保存、运行、报错,再回到对话里请求修改。聊天框像一个很聪明的同事,但它的桌面永远隔着一层玻璃。
Artifacts改变的是这层玻璃。
Anthropic官方说明中,Artifacts会出现在用户与Claude的对话旁边,使用户可以查看、编辑并继续构建Claude生成的内容。它可以承载代码片段、文本文件、网站设计、SVG图形、图表、交互式组件等对象。[3] Claude 3.5 Sonnet发布博客也把Artifacts列为新的Claude.ai体验:当用户要求Claude生成代码、网页、文档或设计时,相关成果可以在独立窗口中打开,并随着对话继续迭代。[1]
这不是复杂到难以理解的创新。相反,它几乎简单得让人疑惑:为什么聊天机器人一开始不是这样?
在官方演示和产品说明所描述的使用方式中,用户可以要求Claude生成一个交互式网页。过去,聊天框返回HTML、CSS和JavaScript;现在,右侧打开一个可预览的窗口。用户继续要求修改颜色、布局、文案、组件,Claude更新右侧对象。成果不再只是“回答”,而变成一个可见、可编辑、可反复加工的工作件。
这一步的意义在于,AI产品从“对话”向“协作界面”移动。聊天本身不是终点,聊天是操作对象的方式。文本框不再是最后交付物,而更像控制台。
行业荒诞感也在这里出现:2023年,大量AI应用创业公司把“在聊天框里生成一段东西”包装成产品;到2024年,基础模型公司开始把这些产品外壳吸回模型界面。网页生成器、文案编辑器、简单数据图表、前端组件草稿、小游戏原型——它们都可能变成Claude右侧窗口里的一个Artifact。许多AI创业公司终于发现,最大的竞争对手不一定是同类创业者,而是模型供应商突然在聊天框旁边加了一张桌子。
但Artifacts还不是完整的软件开发环境。它可以快速生成原型,却不能替代复杂项目中的版本控制、权限管理、测试体系、依赖管理、部署流程和长期状态维护。它能帮助用户更快看见结果,也能让非技术用户参与修改;但从“一个可运行的网页片段”到“一个长期运营的产品”,中间仍隔着工程组织、代码审查、监控告警和安全合规。
这正是它的真实位置:不是终结开发流程,而是把早期构思、草稿、演示和小型工具制作的门槛降下来。
Claude 3.5 Sonnet与Artifacts放在一起看,就不再是一次单纯模型升级。Anthropic在做一件更有野心的事:把强模型嵌入一个可操作界面,让用户在对话中逐步塑造结果。模型能力是发动机,Artifacts是方向盘和工作台。发动机再强,如果用户每次都要跳车搬货,效率仍会损失;工作台出现后,模型的“可用感”被放大。
这也是闭源模型在2024年夏天展示出的第一种优势:它们不只卖智能,还卖完成度。模型、界面、账户体系、企业权限、API、云渠道和安全叙事被打包在一起。对用户来说,这比单个榜单分数更现实。
三、闭源模型的后台:云、芯片与账单
Claude 3.5 Sonnet发布时,前台是模型和界面,后台是更重的东西:云计算、专用芯片、资本投入和分发渠道。
三个月前,2024年3月27日,Amazon宣布完成对Anthropic总计40亿美元投资。Amazon在新闻稿中表示,这是其对Anthropic投资计划的最后一笔追加投资;Anthropic选择AWS作为主要云服务提供商,并将使用AWS Trainium和Inferentia芯片来构建、训练和部署未来模型。[4]
这条新闻没有模型演示那样的视觉效果,却更接近基础设施层面的现实。训练前沿模型需要巨额算力,推理服务需要稳定云平台,企业客户采购需要合规渠道。模型公司可以在博客里谈智能边界,但账单最终会落到GPU、网络、存储、电力、机房和云合同上。
AWS在这场绑定中得到的也不只是潜在财务回报。Claude模型进入Amazon Bedrock,意味着AWS企业客户可以在同一平台调用Anthropic模型,与其他模型一起被纳入企业云采购和权限体系。[4][5] 对云厂商来说,基础模型是留住企业工作负载的新入口;对模型公司来说,云厂商是算力来源、销售渠道和企业信任背书。
到2024年,前沿模型公司的命运越来越难脱离云厂商。外界看到的是聊天机器人回答问题,内部持续燃烧的却是资本密集型工业系统。闭源模型的“天花板”并不只由算法决定。它由数据处理能力、训练稳定性、芯片供应、推理优化、产品渠道、安全评估和商业合同共同决定。
Claude 3.5 Sonnet的价格因此值得注意。每百万输入tokens 3美元、输出tokens 15美元,放在前沿模型区间里具有竞争力。[1][2] 它不是免费,也不是廉价玩具;它是一种企业可试算的成本。一个模型如果只在少数演示中表现惊艳,却让每次调用都像打开水龙头放美元,它很难成为大规模应用的默认组件。
Anthropic选择Sonnet而不是Opus作为这次跃迁的主角,恰好说明了行业重心的变化。企业不总是需要最强模型,它们需要“足够强、足够快、足够稳定、足够便宜”的模型。生产力工具的胜利经常不是由最高峰决定,而是由可重复使用的高原决定。
这就是闭源路线的第一层逻辑:把能力上限握在自己手里,同时用产品和渠道把高能力变成标准化服务。用户买到的不只是模型输出,而是一整套责任边界。出了问题,可以找供应商;要扩容,可以找云;要合规,可以走企业合同;要接入内部系统,可以用API。
当然,这也带来另一面。企业越依赖闭源模型,就越依赖供应商的定价、路线图、可用区域、审核政策和服务稳定性。模型能力越强,锁定也越深。AI行业喜欢谈“智能”,采购部门最后问的却常常是:如果价格上涨怎么办?如果模型下架怎么办?如果数据不能出域怎么办?如果监管要求本地部署怎么办?
这些问题,为几周后Meta的出场铺好了地面。
四、扎克伯格写下一篇产业宣言
2024年4月18日,Meta发布Llama 3首批模型,包括8B和70B两个规模。Meta在博客中写道:“With Llama 3, we set out to build the best open models that are on par with the best proprietary models available today.”——通过Llama 3,Meta的目标是构建能够与当时最好的专有模型相匹敌的开放模型。官方材料称,Llama 3使用超过15万亿tokens训练,训练数据集规模是Llama 2的七倍以上,代码数据量是Llama 2的四倍以上。[6]
如果故事到这里为止,Llama 3只是又一次开放权重模型升级。但7月23日,Meta把这件事推到更大的叙事里。
那天,Meta发布Llama 3.1。模型家族包括8B、70B和405B,其中405B是重点:一个4050亿参数级别的开放权重模型,被放进前沿模型竞争的话语场。Meta官方材料称,Llama 3.1支持128K上下文长度,并改进多语言能力、工具使用能力和整体模型质量。[7]
同一天,Mark Zuckerberg发表文章,标题像一句宣言而不是技术博客:“Open Source AI Is the Path Forward.”——“开源AI是前进之路。”文章中他写道:“I believe that open source is necessary for a positive AI future.”——“我相信,开源对于一个积极的AI未来是必要的。”[8]
这篇文章需要两种读法。
第一种读法是价值观文本。Zuckerberg强调开放模型有利于开发者定制、检查、部署,有助于让更多人分享AI带来的机会,而不是让少数公司控制关键技术。对许多研究者、创业者和产业政策制定者来说,这一论点有吸引力。闭源模型的能力很强,但用户无法完全理解其训练过程、权重结构和安全边界。开放权重模型至少给了外部世界一种可下载、可微调、可本地部署的可能性。
第二种读法是商业防御。Meta不是慈善组织。它拥有Facebook、Instagram、WhatsApp、Messenger和庞大广告系统,它不靠出售模型API作为核心收入。对Meta来说,降低前沿AI能力的获取成本,有助于削弱闭源模型供应商对应用生态的收费权和控制权。如果AI入口未来被少数闭源模型公司、移动操作系统或云平台控制,Meta这样的应用巨头会面临新的平台依赖。开放Llama权重,可以让开发者、企业和研究机构围绕Meta的模型栈生长,形成事实标准。
互联网历史上,开放经常既是理想主义,也是商业策略。Linux让云计算公司省下操作系统许可,也让它们拥有更强基础设施控制力;Android的开放策略帮助Google扩散移动生态,同时保住搜索和服务入口。Llama路线与这些历史并不完全相同,但相似处在于:开放底层能力,可以换取生态规模和议程设置权。
但Meta的开放并不是无限制开放。Llama模型使用Meta自己的许可协议,商业使用存在条件,特定大规模平台需要额外许可。[9] 因此,严格说,它更准确的说法是“开放权重”或“可获取权重”,而不是传统开源软件意义上的完全开放。这个细节很重要。行业里常把Llama称为开源模型,是因为权重可下载、可研究、可微调;但它并不等同于没有许可边界的公共物品。
即便如此,Llama 3.1 405B的出现仍是2024年的关键事件。此前,开放权重模型往往被视为“追赶者”:更便宜、更可控,但能力距离最强闭源模型有差距。Llama 3.1试图改变这个叙事。Meta在官方材料中把405B与GPT-4o、Claude 3.5 Sonnet、Gemini等模型比较,并展示多项评测结果。[7] 本章不把这些表格简化成“谁全面战胜谁”的结论,因为评测项目、提示方式、模型版本和真实业务场景之间始终有距离。它们更适合作为一个信号:开放权重模型开始进入前沿讨论,而不再只在低成本替代品位置上徘徊。
五、405B不是终点,是地板上升的证据
Llama 3.1 405B的数字很醒目,但它的行业意义不只在“405B”。
参数规模曾是大模型时代最容易传播的指标。GPT-3的175B参数让世界记住了规模法则;后来,模型公司逐渐不再公布参数,竞争焦点转向能力、推理效率、上下文、多模态、工具调用和产品体验。Meta重新把405B放到台前,有一种反向透明感:它告诉外界,这个前沿开放权重模型大到什么程度,也让外界可以围绕它构建压缩、蒸馏和小模型训练流程。
Meta发布Llama 3.1时,不只给出405B,还同时给出8B和70B。这种组合比单一巨型模型更接近现实生态。405B负责充当前沿能力参考,70B适合许多服务器端任务,8B则进入低成本服务、边缘实验和教学研究场景。一个生态如果只有巨型模型,就像只有洲际飞机没有卡车和自行车;它能跨洋,却很难抵达每个仓库门口。
128K上下文长度也值得放进这个框架里。[7] 长上下文不是万灵药,它不保证模型真正理解所有内容,也会带来检索、注意力衰减和成本问题。但它让开放权重模型可以处理更长文档、更复杂代码、更大批量对话记录,缩小与闭源模型在企业应用场景中的体验差距。
Llama 3.1的另一个影响,是改变了“应用创业者该依赖谁”的计算。2023年,许多AI应用默认调用少数闭源API,后来又把Anthropic、Google、Mistral等供应商加入候选清单。闭源API的好处是快、强、省工程;坏处是成本和控制权。开放权重模型成熟后,创业公司可以采用混合架构:关键任务调用最强闭源模型,常规任务使用开放模型;敏感数据留在私有部署,通用推理交给云API;用大模型生成高质量数据,再蒸馏到更小模型上。
这种分层使模型市场不再像一场单榜冠军赛,而像电力系统。最高端模型相当于大型电站,成本高、能力强、稳定供应;开放权重模型像分布式能源,性能未必总是最高,但覆盖面广、可定制、可本地化。应用开发者真正关心的不是信仰哪一路,而是在每个任务上选择合适的成本、延迟、隐私和质量组合。
这里也有一个经常被“开源万岁”口号遮住的现实:405B模型巨大,部署并不便宜。开放权重不是免费午餐,它更像是把餐厅厨房开放给顾客:你可以自己做,但你需要厨师、炉灶、采购和消防许可。许多企业下载得起权重,却未必跑得起服务;许多开发者可以本地试验8B或70B,却不可能轻松运营405B级别模型。开源地板在抬升,但地板下面仍然是硬件、运维和电费。
然而,开放权重把另一件事变得清楚:应用层不再必须等待闭源模型公司恩赐。开发者可以微调,企业可以私有部署,国家和地区可以围绕本地语言、本地数据、本地合规建立模型栈。闭源模型继续抬高天花板,开放权重开始抬高地板。
Meta的策略因此具有攻击性。它没有直接向OpenAI和Anthropic出售相同产品,却在削弱闭源API的稀缺性。如果开放权重模型足够好,闭源公司就必须证明自己的溢价:更强推理,更好的多模态,更可靠的工具使用,更低幻觉率,更完善的安全承诺,更易用的企业产品。
这就是本章标题中的“地板”。Llama 3.1不是把开放模型推到绝对顶点,而是把更多人可触及的基础能力抬高。当地板上升,许多原本需要昂贵闭源模型才能做的应用,会被拖入更便宜、更开放、更分散的竞争区间。闭源天花板仍在上方,但地板离它越来越近。
六、巴黎的融资与欧洲的焦虑
美国西海岸的模型公司继续发布,Meta把开放权重推上前沿战场,欧洲也在寻找自己的位置。
2024年6月,Mistral AI宣布完成6亿欧元B轮融资。公司新闻稿称,本轮融资由General Catalyst领投,包含股权和债务融资;Mistral称这笔资金将支持公司推进前沿AI,并把技术带给更多用户。[10] 路透社报道称,这笔融资使Mistral AI估值达到约58亿欧元。[11] 估值数字来自媒体报道,不是本章把它写成公司新闻稿中的官方披露。
Mistral的故事带有明显欧洲色彩。公司总部位于巴黎,创始人包括Arthur Mensch、Timothée Lacroix和Guillaume Lample。它从一开始就把开放模型、高效模型和欧洲基础模型公司放在同一个叙事里。2023年和2024年,Mistral陆续发布Mistral 7B、Mixtral等模型,并推出商业API和Le Chat等产品。它既不像OpenAI那样全力推进闭源旗舰,也不像Meta那样拥有庞大社交广告现金流;它必须在开放、商业化和欧洲政策期待之间保持平衡。
6亿欧元融资的象征意义不亚于财务意义。欧洲一边推动AI监管,一边也不愿在基础模型上完全依赖美国公司。布鲁塞尔讨论风险分类、透明义务和通用AI模型规则;巴黎则希望证明欧洲不只是监管者,也能成为模型生产者。对欧洲产业政策来说,Mistral像一个罕见样本:本土团队,本土资本与国际资本共同支持,产品面向全球开发者,同时承担“欧洲AI主权”的叙事重量。
这种叙事当然有压力。基础模型是资本密集、人才密集、算力密集的行业。欧洲拥有优秀研究人员和工程师,却在超大规模云基础设施、GPU供给和消费级平台入口上弱于美国巨头。Mistral要面对的不是一家对手,而是一整套生态差距:美国模型公司背后往往站着云平台、芯片供应链、企业销售渠道和全球开发者网络。
因此,Mistral的开放策略既是理念,也是现实选择。通过发布高效开放模型,它可以更快获得开发者关注;通过商业API和企业产品,它可以建立收入;通过欧洲身份,它可以获得政策与资本支持。高效模型尤其重要,因为不是所有客户都能承担最大模型的推理成本。一个较小但足够强的模型,部署在企业私有环境里,可能比最强闭源模型更符合预算、隐私和延迟要求。
欧洲的个体也在这条缝隙中出现:巴黎的创业团队、柏林的中型制造企业、阿姆斯特丹的研究小组、布鲁塞尔附近负责合规的律师和政策人员。他们未必关心每一项基准测试谁高0.5分,却关心模型能否在本地合规框架下部署,能否支持欧洲语言,能否不把关键业务完全交给太平洋彼岸的API。对他们来说,开放模型不是抽象理念,而是采购单、合规审查表和工程排期里的选项。
Mistral融资说明,AI竞赛已经不只是模型榜单,而是资本市场、监管制度、云基础设施和地缘产业政策的交汇点。欧洲不想只负责给美国模型写合规条款。这种愿望不保证成功,但它解释了为什么一个成立时间不长的巴黎公司能获得如此高估值,也解释了为什么“开放”在欧洲语境中常常带着产业主权的回声。
七、天花板仍高,地板正在抬升
到2024年夏天,AI模型竞争开始呈现清晰分层。
最上层是闭源前沿模型。OpenAI、Anthropic、Google等公司继续定义能力天花板:更强推理、更自然多模态、更长上下文、更复杂工具使用、更高产品完成度。Claude 3.5 Sonnet证明,闭源竞争不只比参数,也比体验组合。速度、价格、Artifacts、企业渠道和安全叙事叠加在一起,使一个模型从“能回答问题”变成“能进入工作流”。
中间层是开放权重和高效模型。Meta用Llama 3.1 405B告诉行业,开放模型不再只是追赶者;Mistral则说明,较小、更高效、可部署的模型同样有商业空间。它们未必总在所有评测上压过闭源旗舰,却能降低AI应用的基础门槛,让更多开发者和企业拥有选择权。
底层是云、芯片和资本。Amazon完成对Anthropic的40亿美元投资,说明前沿模型公司很难脱离云厂商独自生长。AWS Trainium、Inferentia、Bedrock这些名字不像Claude、Llama那样容易传播,却决定了模型能不能被训练、推理、销售和集成。[4][5] 在公众视野里,AI是一个聊天框;在产业结构里,AI是一张由数据中心、芯片供应链、云合同、许可证和开发者生态组成的网。
“闭源天花板,开源地板”不是一句道德判断。闭源并不天然邪恶,开源也不天然纯洁。闭源模型可以提供更高质量、更强安全控制和更完整服务;开放权重可以带来透明、可定制、可本地部署和生态扩散。两者的冲突不是谁代表光明,而是谁在不同层级掌握控制权。
对应用创业者来说,2024年夏天之后的问题变得更复杂,也更有利。过去,他们可能只问:哪家模型最强?现在,他们要问:哪个任务需要最强模型?哪个任务可以用开放模型?数据能不能出云?延迟预算是多少?推理成本占收入比例多少?用户是否愿意为更强智能付费?如果模型供应商调整价格,产品还能不能成立?
对国家和大型企业来说,问题更尖锐。如果Llama、Mistral等开放模型足够好,是否还必须把关键系统建立在少数美国闭源API之上?如果本地部署可行,隐私、监管和主权的权衡会不会改变?如果闭源模型始终领先一代,又有多少场景愿意为了控制权牺牲最高能力?
Claude 3.5 Sonnet给出了闭源路线的答案:把模型做强,把界面做顺,把企业使用路径铺好。Llama 3.1给出了开放路线的答案:把权重放出去,让生态自己生长,让更多人站在更高的地板上。Mistral给出了欧洲答案:在监管与技术之间争取一块自己的基础模型土地。Amazon则给出了基础设施答案:无论前台是谁,后台都需要云和芯片。
这场竞赛的兴奋之处在于,能力还在上升;它的可疑之处在于,成本、权力和依赖也在上升。每一次模型发布都像未来提前到来,每一张云账单又提醒人们,未来并不免费。
2024年的夏天,AI行业没有得出最终答案。它只是把问题摆得更清楚:闭源模型继续冲击天花板,开放权重不断抬高地板。当天花板与地板之间的距离缩小时,中间所有应用、公司和国家战略都会重新定价。
下一场风暴,将不只发生在模型榜单上。Agent泡沫、监管压力、芯片约束和商业化焦虑,会把“更聪明的模型”拖回现实世界的成本表里。
参考文献
- Anthropic,“Claude 3.5 Sonnet”,2024-06-20。
- Anthropic Docs,“Pricing”,2024。
- Anthropic,“Artifacts: a new way to use Claude”,2024。
- Amazon,“Amazon completes $4 billion investment in Anthropic”,2024-03-27。
- Amazon Web Services,“Amazon Bedrock”,2024。
- Meta,“Introducing Meta Llama 3”,2024-04-18。
- Meta,“Introducing Llama 3.1: Our most capable models to date”,2024-07-23。
- Mark Zuckerberg,“Open Source AI Is the Path Forward”,2024-07-23。
- Meta,“Llama 3.1 Community License Agreement”,2024。
- Mistral AI,“Mistral AI raises €600 million in Series B”,2024-06。
- Reuters,“French AI startup Mistral AI raises 600 million euros at 5.8 billion euro valuation”,2024-06。