Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第14章|Gemini、Sora、Claude 3:裂缝之后的产品冲刺

一、一分钟的世界

2024年2月15日,OpenAI没有宣布一款所有人都能立刻打开使用的消费产品。它发布的是Sora的技术预览。

官方页面上的样例像一组未来影视广告样片:霓虹街道、潮湿路面、行人、服装褶皱、雪地里的猛犸象、海浪中的纸船、金矿小镇、太空人。文字提示词被送进系统,屏幕上出现接近一分钟的视频。OpenAI在页面上写道:“Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.”它又写了另一句更大的表述:“We’re teaching AI to understand and simulate the physical world in motion.”[1]

第二句话需要谨慎理解。它不是一个已经被外部验证的结论,不能直接改写成“Sora已经拥有世界模型”。按照OpenAI自己的说法,这是公司正在“教”AI理解并模拟运动中的物理世界。2024年2月的Sora也不是面向大众的正式上线产品。OpenAI称,它正在向红队人员开放,以评估危害或风险;也向部分视觉艺术家、设计师和电影制作人开放,以获得反馈。[1]

但在这个行业里,一次技术预览已经足够改变天气。

如前章所述,OpenAI刚刚结束董事会危机后的止血阶段。公司治理仍在被外部追问,非营利使命、商业扩张、微软关系和董事会监督并没有因为一次人事回归而自动获得答案。可是外部竞争没有等这些答案出现。

从2023年12月到2024年3月,前沿AI竞赛突然冲进更嘈杂、更昂贵、也更难校验的地带。Google发布Gemini,强调“原生多模态”;Mistral推出Mixtral,继续用开放权重和工程效率挑战大厂叙事;xAI用Grok把实时信息和产品人格包装成卖点;OpenAI用Sora重新夺回全球注意力;Anthropic发布Claude 3,把自己推回第一梯队讨论。

这几个月的产品冲刺有三层变化。

第一,AI从“会写”扩展到“会看、会听、会画、会拍”。聊天框仍然存在,但它不再是唯一舞台。模型开始被描述为能够处理文本、图像、音频、视频、代码和更长上下文的通用系统。

第二,产品发布越来越像大片预告片。技术报告、排行榜、官方博客、短视频样例、社交平台转发、媒体复盘,共同组成一种新的科技工业仪式。发布不只是说明“我们做到了什么”,也在制造另一个问题:哪些已经可用,哪些只是可以被展示?

第三,演示真实性、偏见、安全和平台责任开始成为产品本身的一部分。一个聊天机器人答错问题,可能只是截图传播;一个图像模型生成历史人物错误图像,会迅速变成文化和政治争议;一个视频模型看起来足够逼真,影视行业、广告公司、设计师、选举监管者和版权律师都会同时抬头。

这一轮冲刺里,兴奋和怀疑几乎同时出现。每一段样例视频都在告诉人们:能力边界正在移动。每一条免责声明又在提醒人们:边界移动并不等于可靠交付。

二、Google重新发声

时间倒回两个月。

2023年12月6日,Google发布Gemini。官方博客标题把它称为“our largest and most capable AI model”。Google CEO Sundar Pichai在文中说:“Gemini is the most capable and general model we’ve ever built.”Google DeepMind CEO Demis Hassabis也站在发布叙事中心,代表这家拥有搜索、广告、Android、云计算、TPU、DeepMind和长期基础研究积累的公司重新发声。[2]

这不是一次孤立发布,而是Google在Bard受挫阴影之后的一次体系性反击。Bard早期演示失误已在前文详述。这里需要保留的只是结论:对Google而言,2023年的问题并不是“有没有AI技术”,而是如何把技术可信、稳定、可规模化地变成产品。Reuters当时报道过Alphabet股价在Bard广告出错后大幅下跌,但市场反应不能简化为单一技术错误的机械结果;它更像外界对Google能否在ChatGPT压力下保持节奏的一次集中投票。[3]

Gemini发布时,Google强调三档模型:Ultra、Pro、Nano。Ultra面向最复杂任务,Pro面向广泛规模化应用,Nano则面向设备端任务。[2] 这套命名不是论文语言,而是产品货架语言。Google不是只拿出一个模型,而是在告诉开发者、企业客户、手机用户和内部产品线:从数据中心到手机端,都可以有不同规模的Gemini。

发布材料中最重要的词是“multimodal”。Google写道:“Gemini was built from the ground up to be multimodal.”[2] 技术报告也把Gemini描述为一系列多模态模型,能够处理文本、图像、音频和视频等输入。[4] 这句话的行业含义在于,Google试图把Gemini区别于那种“先做文本模型,再外挂图像识别或语音模块”的拼接路线。所谓“原生多模态”,在Google的叙事里,是把不同模态从一开始纳入同一系统能力的训练和推理框架。

Google还用基准测试为Gemini Ultra加冕。技术报告称,Gemini Ultra在MMLU上达到90.0%,并称超过人类专家基准。[4] MMLU覆盖数学、历史、法律、医学、伦理等多个学科,是大模型时代最常被引用的综合知识测试之一。90.0这个数字非常适合传播:它看起来像体育比分,领先一分也像领先一个身位。

但这类表格必须带着限制阅读。MMLU、GSM8K、HumanEval这些名字在2023年以后变成AI行业的军备公报。每家公司都在表格里插旗,每个小数点都可能被剪进发布幻灯片。问题是,真实用户不会只问标准化选择题,也不会总是按照评测格式提供干净输入。一个模型在排行榜上表现强劲,并不保证它在医疗建议、法律文件、客服流程、儿童教育、企业数据处理和公共事件解释中同样可靠。

Google的处境也因此更复杂。OpenAI可以用创业公司的速度冲锋,Google则带着搜索商业模式、广告客户、Android生态、全球监管档案和品牌信誉。它拥有庞大技术资产,却也必须证明这些资产能够以可信方式进入普通人的手机、浏览器、文档和搜索框。巨轮可以加速,只是每一次转向都伴随更大的噪音。

三、演示与真实交互之间

Gemini发布当天,最吸引外界目光的不是技术报告中的表格,而是一段演示视频。

视频里,模型似乎能够看见桌面上的图画、物体和手势,并用自然语言连续回应。它识别画出来的鸭子,理解纸团和杯子的变化,辨认手势游戏,像一个耐心的多模态助手一样参与互动。对于习惯了聊天框的人来说,这段视频给出的想象很直接:AI终于不只是读字,它开始“看见”世界。

随后,外界注意到视频说明中的一句话:“For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity.”[5]

这句话不长,却足够让媒体开始复盘。Bloomberg和The Verge等媒体报道指出,这段演示并不是实时语音连续交互的原始记录,而是经过剪辑和压缩;Google方面也说明,演示使用了静态图像帧和文本提示,延迟被缩短,输出被压缩。[6][7]

这里不必把问题写成简单的“造假”。更准确的说法是:营销演示与真实交互之间存在距离,而这个距离在多模态时代变得更敏感。

在文本模型时代,公司可以贴出提示词和回答。观众仍要警惕样例挑选、系统提示、失败案例隐藏和评测设置,但交互形式相对清楚。到了多模态模型,演示视频本身带有电影语法:镜头切换、节奏压缩、字幕选择、输出删减、延迟隐藏。一个模型如果需要等待十几秒才能回答,和视频里几乎即时回应,给用户的感受完全不同;一个模型如果需要精心挑选输入,和看起来随手理解现实桌面,也不是同一种产品状态。

AI行业在2023年以后形成了一种奇特景观:公司发布模型时既要像科学家一样给出技术报告,又要像电影公司一样剪预告片,还要像药企一样写安全说明,最后再像消费电子公司一样解释价格、地区和功能限制。每个角色都有必要,每个角色之间又互相拉扯。

对开发者来说,这种距离会变成集成风险。一个小团队看到演示视频,可能会立刻设想把多模态能力接入教育、客服、设计、工业巡检或医疗辅助流程。但真正采购API或接入产品时,他们需要知道延迟、失败率、输入格式、价格、数据政策和限制条件。演示里的“几乎无缝”如果在生产环境中变成“不稳定、慢、贵、偶尔答非所问”,商业计划就会从兴奋变成工单。

Google的尴尬正在于此。它不是没有技术。Gemini技术报告列出了大量评测,Google DeepMind也有长期多模态研究积累。真正的问题是,当一个模型被推到大众传播现场,它必须同时经受研究共同体、开发者、用户、媒体、资本市场和监管者的审视。技术表格说“能力到了”,演示视频说“未来近了”,用户会问:“我现在打开产品,也能这样吗?”

前沿模型竞争已经不只是论文竞争,而是可信产品化的竞争。谁能把能力稳定、透明、可解释地交到用户手里,谁才拥有下一轮平台入口。

四、从Bard到Gemini:产品化带来的社会错误

2024年2月8日,Google把Bard更名为Gemini,并推出Gemini应用和Gemini Advanced。[8]

这一步的信号很清楚。Google不再让“Bard”作为一个带着早期尴尬记忆的聊天机器人品牌继续站在前台,而是把消费端入口、订阅服务和最强模型命名统一到Gemini之下。Gemini Advanced接入Ultra 1.0,通过Google One AI Premium计划提供,在美国价格为每月19.99美元。[8] 这几乎是在正面回应ChatGPT Plus:前沿模型不只是云API,也是一种每月订阅的消费品。

Google还推出Android上的Gemini应用,并把iOS用户导向Google App中的Gemini入口。[8] 对一家控制Android生态、拥有Gmail、Docs、YouTube、Chrome、搜索和地图的公司来说,移动入口是它区别于OpenAI的重要资产。OpenAI拥有ChatGPT的品牌和开发者生态;Google拥有用户日常生活和办公流程中的大量入口。理论上,Gemini可以被放进用户工作的每一道缝隙。

但产品化带来的不是只有增长曲线,还有社会错误。

2024年2月,Gemini的图像生成功能因人物图像问题引发争议。用户在社交平台上展示一些历史人物或历史场景的生成结果,批评模型在种族、性别呈现和历史准确性上出现错误。争议迅速扩大。2月22日,Google Communications在X上发布声明:“We’re already working to address recent issues with Gemini’s image generation feature. While we do this, we’re going to pause the image generation of people and will re-release an improved version soon.”[9]

第二天,Google高级副总裁Prabhakar Raghavan发表文章,标题直接承认:“Gemini image generation got it wrong. We’ll do better.”他解释说,Google为了避免模型陷入暴力或不公正的刻板印象,对系统进行了调校;但在一些情况下,调校产生了过度补偿,在另一些情况下又过于保守,导致某些提示被拒绝或生成不准确结果。[10] Reuters等媒体也报道了Google暂停人物图像生成的决定。[11]

这次事故说明,AI安全不只是科幻电影里的灾难风险,也不是论文里抽象的“对齐”概念。它包括偏见、历史准确性、文化代表、平台责任,以及一个模型在大规模消费产品中如何处理复杂社会语境。

在企业演示里,“减少偏见”是一条漂亮原则;在真实产品里,它会变成无数具体问题:当用户要求生成历史人物,模型应该怎样同时处理史实和多样性目标?当用户要求生成极端政治或战争相关场景,系统应该如何避免美化暴力,同时又不扭曲历史?当不同国家、族群和政治阵营对“准确”和“冒犯”的定义不同,平台如何制定统一规则?

这些问题没有简单答案。荒诞之处在于,大模型公司一边被批评“不够安全”,一边又会因为安全调校过度而被批评“改写现实”。一个图像生成按钮背后,站着训练数据、后处理过滤、系统提示、红队测试、法律审查、政策团队和公关团队。用户看到的是一张错误图片,公司要处理的是模型、产品、文化和政治同时失控的连锁反应。

对普通用户来说,这类事件也改变了他们理解AI的方式。早期聊天机器人答错事实,许多人把它当成“幻觉”。图像模型生成历史错误,则更像平台对公共记忆的可视化改写。模型越多模态,错误越可见;错误越可见,社会后果越快到来。

Gemini暂停人物图像生成因此成为一个标志:前沿AI产品的失败不再只表现为“答错一道题”。它可能表现为一个平台对历史和社会身份的错误编码。

五、侧翼:Mixtral与Grok

聚光灯下是Google和OpenAI,侧翼战线也没有停止。

2023年12月11日,法国公司Mistral AI发布“Mixtral of experts”。Mistral称,Mixtral是一个稀疏专家混合模型,总参数约46.7B,但每个token只使用约12.9B参数。[12] 简单说,它不像每次生成都动用全部参数,而是在每一层通过路由机制选择部分“专家”参与计算。行业喜欢这种结构,因为它提供了一种工程诱惑:模型可以拥有较大的总容量,运行时又不必每次支付完整大模型的计算成本。

Mistral还称,Mixtral在多项评测中匹配或超过Llama 2 70B和GPT-3.5。[12] 这类表述同样需要带着限制阅读。不同评测集、不同提示方式、不同推理设置都会影响结果。Mixtral的意义不只在分数,而在于它代表欧洲创业公司在大厂竞争之外寻找空间:开放权重、开发者友好、成本效率、企业可部署。

对许多小团队和企业技术负责人来说,这不是抽象路线之争。闭源API通常意味着快速接入、能力强、维护省心,但也意味着数据、价格、速率限制和供应商策略都握在别人手里。开放权重模型则把一部分控制权还给部署方:可以在本地或私有云运行,可以围绕行业数据微调,可以根据成本和延迟重新设计架构。当然,它也把运维、安全和评估负担一并交给了使用者。所谓“自由”,经常附带一张GPU账单。

更早一些,2023年11月4日,Elon Musk创办的xAI宣布Grok。官方博客写道:“Grok has real-time knowledge of the world via the 𝕏 platform.”它还写道:“Grok is an AI modeled after the Hitchhiker’s Guide to the Galaxy.”[13] 这两句话几乎把产品定位说完了:实时信息,加上带有反主流、幽默和“叛逆”色彩的人格包装。

Grok的切入点并不是立刻在所有基准测试上证明自己超过GPT-4,而是把X平台的数据流和Musk式品牌风格结合起来。ChatGPT早期的一个弱点是知识截止日期和实时信息不足;浏览、搜索增强和插件生态后来试图弥补这一点。Grok则从一开始就把“via the 𝕏 platform”写进卖点。

这个行业有时像严肃科学竞赛,有时又像角色扮演游戏:一个模型要稳重,一个模型要安全,一个模型要会写代码,一个模型要能处理长文档,还有一个模型要告诉用户它继承了《银河系漫游指南》的精神。幽默不是来自某个个体,而是来自产业本身的荒诞组合:数十亿美元训练出的系统,最后也要在市场上回答一个老问题——你到底有什么性格?

这不是插曲。它说明前沿AI竞争正在分层。

最顶层是OpenAI、Google、Anthropic争夺通用能力和平台入口。中间层是Mistral这类公司用开放权重、成本效率和区域产业政策打开空间。另一路是xAI把实时社交数据和强个性产品化。模型不再只是“谁更聪明”的单轴竞赛,而是能力、成本、速度、开放程度、数据来源、品牌人格和监管适配的组合竞赛。

OpenAI董事会危机给外界留下一个信号:最领先的公司也会出现治理裂缝。对竞争者来说,这不是坐等它倒下的理由,而是加速抢窗口的理由。

六、Sora刷屏

然后,Sora来了。

2024年2月15日,OpenAI发布Sora技术预览。它没有开放给所有ChatGPT用户,也没有宣布明确的消费订阅价格。它展示的是一组足够震动视觉行业的样例,并把技术叙事放在“视频生成”和“物理世界模拟”之间。[1]

OpenAI的公开页面同时写了能力和限制。能力部分最容易传播:最长约一分钟视频,保持视觉质量,并遵循用户提示。[1] 限制部分同样重要,却更容易在转发中被省略。OpenAI承认,Sora可能难以准确模拟复杂场景的物理规律,也可能不理解具体因果关系。例如,一个人咬一口饼干后,饼干上可能不会正确出现咬痕;模型还可能混淆左右,或在时间推进中处理细节出错。[1]

这正是Sora的复杂性:它足够惊人,也明显不可靠。

对影视、广告、游戏概念设计和短视频创作者来说,Sora给出的不是“明天全行业失业”的确定结论,而是一种足够有说服力的替代性想象。过去,文字生成图像已经改变概念设计、分镜草图、海报试稿和视觉探索流程。视频生成进一步触及运动、镜头、角色一致性和场景连续性。即使它还不能稳定生产完整电影,也足以让广告公司和创意团队重新计算试错成本。

在传统流程中,一个一分钟视频可能需要脚本、分镜、美术、拍摄、灯光、演员、后期、特效和审批。AI视频模型把其中一部分流程压缩为提示词、生成、筛选和再生成。压缩并不等于消灭。真实商业项目仍然需要版权清晰、风格可控、角色一致、画面可修、声音可配、交付格式稳定。只是当早期样例已经能让行业人士停下来观看,变化就已经开始。

独立创作者的位置尤其微妙。过去,他们缺少摄影棚、演员、后期团队和特效预算;生成视频让“先做出一个可看的概念片”变得更可想象。但另一面也同样清楚:如果平台访问被少数公司控制,如果生成成本高昂,如果版权和训练数据争议长期不清,小创作者可能只是从一种门槛走向另一种门槛。摄影棚租金变成算力租金,道具预算变成订阅和积分,制片流程变成提示词和审核队列。门变窄了,门牌换了。

Sora也把真实性问题推向更高层。文本可以被反驳,图片可以被检索,视频长期被普通人视为更强证据。深度伪造并不是Sora才带来的问题,但高质量文本生成视频会降低制造逼真场景的门槛。OpenAI因此强调红队测试,特别关注错误信息、仇恨内容和偏见等风险,并表示会构建检测工具,在既有图像生成安全方法基础上处理输入提示和输出内容。[1]

这里的行业荒诞感很强:公司一边发布足以震动世界的生成视频样例,一边告诉世界它正在努力识别这些视频是不是自己生成的。技术像发动机,安全像刹车,市场像油门,监管像交警,而用户已经在路边举起手机拍摄。

Sora让OpenAI重新占据注意力中心。几个月前,它因董事会风波被讨论为治理案例;几个月后,它又把公众讨论拉回“这家公司到底还能做出什么”。这就是前沿AI公司的特殊权力:一次组织危机可以暴露制度问题,一次产品展示又能迅速重写叙事。

但Sora也显示了新的约束。视频比文本昂贵得多。它需要更多数据、更大算力、更复杂的训练和推理系统,也带来更重的版权、安全和滥用压力。Sora不是终点,它是下一轮资源竞赛的预告片。

七、Claude 3回到牌桌中央

2024年3月4日,Anthropic发布Claude 3模型家族:Opus、Sonnet、Haiku。[14]

命名看起来像诗集,商业逻辑却很清楚。Opus是最强模型,面向高复杂度任务;Sonnet在能力和速度之间折中;Haiku强调快速和低成本。Anthropic没有只发布“一个最强模型”,而是发布一套可销售、可部署、可按场景选择的模型组合。

前沿模型竞争到这个阶段,单点冠军固然重要,但企业客户更关心另一组问题:延迟多少?价格多少?上下文多长?能否稳定调用?数据政策如何?安全机制是否可信?能否进入现有工作流?一个企业采购负责人不会只看宣传片,也不会只看MMLU。他们还要面对预算表、合规审查、供应商风险、内部培训和系统集成。

Anthropic在博客中写道:“The Claude 3 models set new industry benchmarks across a wide range of cognitive tasks.”[14] 它公布的评测表显示,Claude 3 Opus在MMLU、GSM8K、HumanEval等任务上表现强劲。例如,Anthropic公布Claude 3 Opus在MMLU上为86.8%,在GSM8K上为95.0%,在HumanEval上为84.9%。[14] 这些数字使Claude 3重新进入与GPT-4、Gemini Ultra并列讨论的前沿模型阵营。

仍然要重复那句扫兴但必要的话:benchmark不是现实世界。它们是路标,不是目的地。一个企业采购模型,不会只看MMLU;一个程序员使用模型,也不会只问HumanEval;一个法务部门更不会因为GSM8K分数高就放心上传合同。评测提供可比较窗口,但真实竞争发生在更复杂的场景中:长文档处理、代码库理解、多轮对话、工具调用、幻觉控制、隐私承诺、可用性和成本。

Claude 3的发布同时延续了Anthropic的安全叙事。Anthropic从成立以来就把“安全”“可靠”“企业可信”放在品牌中心。它不像OpenAI那样拥有ChatGPT的全民级声量,也不像Google那样拥有搜索和Android入口,但它在企业市场、云合作和安全形象上找到了位置。OpenAI危机之后,许多企业客户更清楚地看到,依赖单一前沿模型供应商存在组织风险。Claude 3发布的时间点,正好踩在这个机会窗口上。

Anthropic的竞争策略因此有两层。

第一层是技术追赶。Claude 3 Opus的评测分数告诉市场,Anthropic不是“安全但慢半拍”的替代品,而是能进入第一梯队的前沿模型开发者。

第二层是商业可信度。Sonnet和Haiku告诉客户,Anthropic不只提供最高端模型,也提供速度和成本选项。对企业来说,最贵最强的模型未必适合所有任务。客服摘要、内部搜索、低风险文案、代码辅助、合规审查,可能需要不同级别的模型。把模型家族做成梯队,本质上是在把AI能力变成云服务货架。

这也是2024年前沿模型竞争的新常态:公司不再只炫耀“我有一个大脑”,而要证明“我有一套供应链”。模型、API、价格、上下文、安全文档、区域合规、企业合同、云合作伙伴、监控工具,共同构成产品。

Claude 3证明,OpenAI并没有因为ChatGPT先发优势而锁死赛道。Google没有退出,Anthropic没有掉队,Mistral在侧翼加速,xAI用平台数据切入。裂缝之后,竞争不是降温,而是扩散。

八、下一种硬约束

从Gemini到Sora,再到Claude 3,这一轮产品冲刺看起来像模型能力的胜利。

它当然是。Gemini把Google的多模态资产重新包装成体系性反击;Sora把文本生成视频推到大众想象中心;Claude 3让Anthropic回到第一梯队;Mixtral提醒大厂,开放权重和成本效率仍有市场;Grok则证明,实时数据和产品人格也可以成为竞争武器。

但把镜头再拉远,另一条底线浮现出来:算力。

多模态模型要处理文本、图像、音频、视频,训练数据更重,推理成本更高。视频模型尤其昂贵,因为它不仅要生成每一帧,还要维持时间连续性、运动一致性和视觉质量。模型家族分成Ultra、Pro、Nano,或Opus、Sonnet、Haiku,不只是产品命名,也是在算力约束下做出的商业分层。最强模型负责标杆,较小模型负责规模化,端侧模型负责延迟、隐私和成本。

这解释了为什么前沿AI竞赛很快会从模型发布转向芯片、数据中心、电力、供应链和出口管制。一个公司可以在博客里写“原生多模态”,可以在视频里展示一分钟世界,也可以在表格里把MMLU提高几个百分点;但如果没有足够GPU、网络、内存、数据中心和电力合同,它就无法把这些能力稳定交付给数亿用户。

对行业里的个体而言,算力不是抽象名词。创作者会在等待名单和生成额度里感到它;创业团队会在API账单里感到它;企业客户会在采购合同和延迟指标里感到它;研究者会在能否复现实验里感到它。所谓“智能涌动”,到这一刻已经不只是算法故事,也是资源故事。

2023年底到2024年初的这段时间,AI行业像一条刚换上新发动机的高速列车。车厢里坐着搜索公司、创业公司、云厂商、电影制作人、广告公司、监管机构、版权律师、大学研究者和普通用户。窗外的景色从聊天框变成图像,再变成视频。每一站都有掌声,也有警报。

OpenAI的治理危机没有让行业停下来反思很久。相反,它像一次提醒:如果领先者会摔倒,后面的人就更要加速。Google用Gemini证明自己仍在牌桌上;OpenAI用Sora证明自己仍能制造震撼;Anthropic用Claude 3证明第一梯队不是单人游戏。

下一章,故事将离开发布页和演示视频,进入更硬的世界:H100、数据中心、出口管制、欧洲AI Act,以及那句越来越常见、也越来越需要精确定义的比喻——算力成为新石油。

参考文献

  1. OpenAI Blog,“Creating video from text”,2024-02-15。
  2. Google Blog,“Introducing Gemini: our largest and most capable AI model”,2023-12-06。
  3. Reuters,“Alphabet shares dive after Google AI chatbot Bard flubs answer in ad”,2023-02-08。
  4. Google,“Gemini: A Family of Highly Capable Multimodal Models”,Technical Report,2023。
  5. Google DeepMind YouTube,“Hands-on with Gemini: Interacting with multimodal AI”,2023-12-06。
  6. Bloomberg,“Google’s Gemini AI Demo Was Impressive, But It Wasn’t Real”,2023-12-07。
  7. The Verge,“Google’s Gemini AI demo wasn’t as real as it seemed”,2023-12-07。
  8. Google Blog,“Bard becomes Gemini: Try Ultra 1.0 and a new mobile app today”,2024-02-08。
  9. Google Communications,X statement on pausing Gemini image generation of people,2024-02-22。
  10. Google Blog,“Gemini image generation got it wrong. We’ll do better”,2024-02-23。
  11. Reuters,“Google pauses Gemini AI image generation of people after inaccuracies”,2024-02-22。
  12. Mistral AI Blog,“Mixtral of experts”,2023-12-11。
  13. xAI Blog,“Announcing Grok!”,2023-11-04。
  14. Anthropic Blog,“Introducing the next generation of Claude”,2024-03-04。