第17章｜GPT-4o 正面迎敌：多模态战争的五月

一、春天把聊天框挤窄了

2024年5月到来时，生成式AI行业已经不愿再被一个网页输入框概括。

前几章写过，2月的Sora把文本生成视频推到公众视野。OpenAI当时把它描述为一种可以从文本指令生成现实感和想象力场景的AI模型，并说明发布时只向红队测试者以及部分视觉艺术家、设计师、电影制作者开放。[1] 这不是一次普通消费产品上线，却足以改变行业叙事：如果模型可以生成连续画面，它就不只是“写作助手”，而开始触碰视觉世界。

3月，Cognition发布Devin，把另一个更日常、更昂贵的场景推到台前：软件工程。Cognition在公告中称Devin为“the first AI software engineer”，并称它能使用开发者工具、规划和执行复杂工程任务；公司还称Devin在SWE-bench上端到端解决13.86%的issue，此前最佳结果为1.96%。[2] 这里必须保留主语：这是Cognition自己的披露，不是行业公认的职业认证，也不是对真实公司生产环境的全面评估。可即便如此，Devin仍然提醒了程序员、创业者和工程经理一件事：AI正在从补全一行代码，走向接管一段工作流。

同一季节，监管和开源也在改变空气密度。3月13日，欧洲议会以523票赞成、46票反对、49票弃权通过《人工智能法案》。欧洲议会新闻稿中，Brando Benifei说：“We finally have the world’s first binding law on artificial intelligence…” Dragos Tudorache则说：“The EU has delivered.”[3] 4月18日，Meta发布Llama 3，推出8B和70B两个版本，并称400B以上模型仍在训练中；Meta还披露，Llama 3使用超过15T tokens训练数据，是Llama 2数据集的7倍以上。[4]

这几条线不必在本章重新展开。它们共同构成5月的背景：视频生成、工程代理、开源追赶、监管落地、算力成本，都在把问题从“模型会不会聊天”推向“模型能不能进入现实流程”。

Stanford HAI在《AI Index Report 2024》中估算，GPT-4训练成本约7800万美元，Gemini Ultra约1.91亿美元。[5] 这些不是公司财务报表，也不应被误读为完整研发成本，但它们足以说明行业荒诞感：用户在手机上免费问一句“帮我总结这封邮件”，后台可能对应着上亿美元级别的模型训练、芯片采购、数据中心租赁、电力调度和云服务折扣谈判。

于是5月的竞争不再只是榜单上的分数。它变成更贴近身体的东西：谁能占据人的耳朵、眼睛、摄像头、屏幕和说话时的停顿。

5月13日，OpenAI先出手。一天后，Google在I/O大会上用整个生态回应。

二、五月十三日：GPT-4o把机器放进对话间隙

2024年5月13日，OpenAI举行Spring Update。Mira Murati在直播中介绍新模型GPT-4o。OpenAI发布页面给出了核心定义：“GPT-4o (‘o’ for ‘omni’) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.”[6]

“o”代表omni。这个命名并不谦虚，但它抓住了当时真正的变化：文字、音频、图像、视频不再只是几个分散插件，而被包装成一个更自然的人机交互界面。

OpenAI同时公布了一组对语音产品很关键的数字：GPT-4o对音频输入的响应最快可达232毫秒，平均约320毫秒，接近人类对话反应时间；在API中，GPT-4o比GPT-4 Turbo更快，价格便宜50%。[6] 对聊天机器人来说，几秒延迟可以被用户忍受；对语音助手来说，延迟就是产品性格。慢半拍可能显得礼貌，慢五拍就像系统卡死。低延迟不是装饰，它决定用户是否愿意用说话取代打字。

OpenAI在同一篇文章中解释，过去的Voice Mode使用三个模型串联：一个模型把音频转成文本，GPT-3.5或GPT-4处理文本，再由第三个模型把文本转成音频。这种链路会损失语气、多人说话、背景噪声，也难以输出笑声、歌唱和情绪。GPT-4o则被描述为一个端到端跨文本、视觉和音频训练的新模型，输入和输出由同一个神经网络处理。[6]

这听起来像工程说明，却改变了界面。聊天框时代，用户先把世界翻译成文字，再等待模型生成文字。GPT-4o展示的是另一种回路：人说话，机器接话；人把镜头对准纸面，机器看题；人打断，机器停下或改变语气。

直播演示中，OpenAI研究负责人Mark Chen与GPT-4o语音互动，要求它改变说话方式、用不同情绪讲故事，并在演示中打断它。Barret Zoph则展示了模型通过摄像头看数学题、以辅导方式引导解题的过程。[7] 这些桥段很容易传播，因为它们不需要观众理解Transformer架构，也不需要解释训练数据规模。观众只要听到那个声音被打断后继续回应，就能感到界面发生了变化。

行业的幽默感也在这里出现。过去十多年，语音助手常被嘲笑为只能设闹钟、查天气、误听歌名。到了2024年5月，发布会上的AI已经能配合人类表演故事节奏，还能被要求“更戏剧化”。这不是科幻突然成真，而是产品经理终于把“人类会随时插话”这件小事当成核心指标。

不过，演示不是产品全量上线。OpenAI在发布中说明，GPT-4o的能力会逐步推出；文本和图像能力面向免费用户开放，Plus用户有更高消息限制；新的语音模式将先以alpha形式向Plus用户推出。[6] 这条边界很重要。5月13日展示的不是“所有用户已经拥有直播中的完整体验”，而是OpenAI向外界展示下一代ChatGPT入口。

对一个准备在通勤路上用语音问问题的普通用户来说，真正决定体验的不是发布会掌声，而是耳机连接、网络延迟、口音识别、环境噪声和隐私权限。对一个想用它教孩子数学题的家长来说，问题也不只是“它会不会说话”，而是它是否会在关键步骤上犯错、是否会鼓励孩子依赖答案、是否能在错误时承认不确定。

GPT-4o的意义不在于它让AI第一次能说话。意义在于，它让主流观众第一次直观看到：AI可能不再是一个网页标签页，而是一个随时插入现实对话的对象。

三、自然交互的魔力，也是一种风险

OpenAI Spring Update最有效的部分，不是参数表，而是“在场感”。

Mira Murati在直播中强调更自然的人机交互，Mark Chen和Barret Zoph的演示则把这种自然感拆成几个动作：说话、打断、看图、改变语气、辅导解题。[7] 在屏幕另一端，观众看到的不是一个模型，而像是一个角色化的接口。它有声音，有节奏，有反应速度，甚至在被打断时显得更像“会听”。

这正是多模态产品的力量，也正是它的危险。

文本模型出错时，用户看到的是一段文字。语音模型用自然声线说出错误答案时，错误会带上确定、亲密和权威的质感。一个答案是否可信，不只取决于内容，还取决于声音、停顿、语气和界面设计。人类很难完全把“听起来像懂的人”和“确实正确”分开。

OpenAI在GPT-4o发布页面中也列出安全边界，说明音频输出最初会限制在预设声音中，并继续评估音频、视觉等能力带来的新风险。[6] 这不是安全部门写在页脚的套话，而是多模态产品化的核心。会看、会听、会说的系统一旦进入教育、医疗咨询、客服、儿童陪伴、面试训练、车载系统和办公会议，风险就不再只是“文本幻觉”。它会涉及隐私、身份、情绪依赖、误导性权威、录音留存和对真人声音的模拟边界。

对企业采购者来说，GPT-4o带来的问题也更实际。过去部署文本助手，可以从知识库权限、审计日志、回答准确率开始评估。实时语音和视觉入口加入后，评估对象变成麦克风、摄像头、屏幕共享、员工对话、会议内容和客户身份。公司要问的不只是模型能力，还要问数据流向、保存期限、权限隔离和误触触发。

这就是2024年春天的双重表情。行业确实有理由兴奋：AI终于开始靠近人类最自然的交互方式。行业也必须保持怀疑：越自然的界面，越容易让用户高估系统可靠性。

OpenAI在5月13日抢到的是情绪高地。它让“下一代AI助手”从抽象概念变成一段可转发的视频。可第二天登场的Google不打算只用一个演示回应一个演示。它带来的不是单点爆破，而是一整套入口。

四、五月十四日：Google用生态系统迎敌

2024年5月14日，Google I/O举行。Sundar Pichai在主题演讲中登场，Google围绕Gemini密集发布更新：Gemini 1.5 Pro、Gemini 1.5 Flash、Project Astra、Veo、Imagen 3、AI Overviews，以及Workspace、Android、Photos、开发者工具等产品线的AI能力。[8][9]

这不是“Google模仿OpenAI”的简单故事。OpenAI前一天展示的是一个高度集中的爆款体验；Google展示的是巨型生态系统如何把AI铺进默认入口。搜索、Gmail、Docs、Photos、Android、Chrome、YouTube、Cloud，这些不是孤立应用，而是许多人每天工作和生活的底层路径。

Google在I/O上继续强调Gemini 1.5 Pro的长上下文能力，并推出Gemini 1.5 Flash，称其针对高频、大规模、低延迟任务进行了优化。[9] 这种叙事没有GPT-4o实时语音那么适合社交平台剪辑，但对开发者和企业很实际。一个模型是否便宜、是否稳定、是否能处理长文档、是否能嵌入现有流程，往往比它在发布会上是否会开玩笑更影响采购决策。

搜索是最敏感的战场。Google宣布AI Overviews将在美国向所有用户推出，并计划在年底前覆盖超过10亿人。[10] 这一步把生成式AI推进Google最核心的入口。过去，搜索引擎主要返回链接；AI Overviews则把答案摘要放在更前面。它可能让用户少点几次网页，也可能改变网站流量、广告分发、来源归属和内容生态激励。

对一个网站编辑、一位独立博主或一家靠搜索流量生存的小公司来说，这不是抽象的“技术升级”。如果用户在搜索结果页已经读完AI摘要，是否还会点击原网页？如果AI摘要出错，责任如何分配？如果内容生产者的文章被用于回答，却失去访问量，商业循环是否还能维持？这些问题在I/O发布会的节奏里不会停留太久，但它们会在随后每一次搜索改版中出现。

Google还把Gemini推进Workspace。邮件总结、文档生成、表格分析、会议整理，这些功能在舞台上看起来没有实时语音惊艳，却更贴近办公室预算。行业里有一条朴素规律：最会传播的演示赢得注意力，最无聊的流程赢得合同。一个能每周节省员工几小时重复劳动的AI，未必能登上热搜，却可能进入采购清单。

Android同样关键。手机比网页更接近身体。它有摄像头、麦克风、位置、联系人、相册、日历、支付和通知。谁把AI变成手机系统的一层，谁就更接近下一代个人助手。OpenAI拥有ChatGPT品牌和产品速度；Google拥有Android和默认服务。5月的竞争因此不只是模型能力，而是默认入口之争。

五、Astra与Veo：Google也要眼睛和摄像机

在Google I/O的众多更新中，Project Astra最接近GPT-4o带来的直观冲击。Google DeepMind把Project Astra描述为面向未来AI助手的项目。官方演示中，用户拿着手机摄像头在办公环境里移动，系统识别物体、解释代码、辨认发声设备，并在被问到眼镜在哪里时，回忆起刚才画面中眼镜出现的位置。[11]

这段演示的重点不是“识别物体”。图像识别早已不是新闻。真正的变化在于连续感知、短期记忆和实时对话被放在一起。AI不是处理一张静态图片，而是跟随用户视角移动，把视频和语音组合成一段事件时间线，再用于回答后续问题。Google DeepMind在文章中说，其原型代理会持续编码视频帧，把视频和语音输入结合成事件时间线，并缓存信息以便高效调用。[11]

这就是多模态战争更深的一层：AI要从“处理文件”走向“感知环境”。一旦摄像头成为AI的眼睛，手机镜头就不只是拍照工具，而变成现实世界入口。它可以帮助用户找东西、读说明书、识别屏幕内容、辅助学习、协助维修、解释陌生环境。它也可能收集更敏感的上下文：家里的摆设、办公室白板、孩子的脸、桌上的病历、会议室里的文件。

Project Astra把Google多年来积累的资产重新串起来：Android、Lens、Photos、搜索、地图、YouTube、DeepMind模型研究和云端基础设施。OpenAI用GPT-4o证明AI可以像对话对象；Google用Astra证明AI助手也可以嵌入现实感知和移动系统。

同一天，Google DeepMind发布Veo，称其为“our most capable video generation model”。Google介绍说，Veo可以生成超过一分钟的1080p视频，并理解延时摄影、航拍等电影化提示词。[12] 在2月Sora引发巨大讨论之后，Veo明确表明：Google不会把文本生成视频的叙事交给OpenAI独占。

视频生成的表面战场是创意工具。导演可以做预演，广告团队可以生成样片，设计师可以快速试镜头，普通用户可以把一句话变成短片。深层战场则是世界建模。一个视频模型如果能稳定生成符合物理直觉、角色一致、镜头可控的动态场景，它的价值可能延伸到游戏、机器人、自动驾驶仿真、教育内容和虚拟训练环境。

但这里仍需谨慎。公开视频样例通常经过挑选。提示词、失败率、生成成本、版权授权、人物一致性、后期编辑、商业使用限制，往往不会在一段宣传片里完整呈现。生成一段惊艳视频，与支撑一个可靠的影视生产流程，是两件不同的事。

5月的Google没有只回答“我们也有聊天模型”。它回答的是：我们也要AI的眼睛、耳朵、摄像机和默认入口。

六、Sky：当AI太像一个具体的人

GPT-4o发布后，技术讨论很快被另一个话题打断：声音。

5月13日，Sam Altman在X上发布了一个极短的帖子：“her”。[13] 这个词被许多用户和媒体联想到2013年电影《Her》。在那部电影里，Scarlett Johansson为人工智能操作系统Samantha配音。GPT-4o发布后，ChatGPT语音之一Sky被不少人认为与Johansson的声音相似。

这件事把多模态竞争中最尖锐的问题拉到台前：声音不是皮肤，声音就是界面。对一个主打实时语音、陪伴感和自然对话的AI来说，声线会直接塑造用户对系统人格的理解。

OpenAI随后暂停使用Sky声音，并发布文章说明语音选择过程。OpenAI在文中写道：“We believe that AI voices should not deliberately mimic a celebrity’s distinctive voice—Sky’s voice is not an imitation of Scarlett Johansson but belongs to a different professional actress using her own natural speaking voice.”[14] 这句话需要逐字保留其边界：OpenAI称AI声音不应故意模仿名人的独特声音；OpenAI称Sky不是对Scarlett Johansson的模仿，而是另一位专业演员使用自己的自然声音。

5月20日，Scarlett Johansson通过媒体发表声明。据Variety刊发的声明，Johansson称Sam Altman曾在2023年9月邀请她为ChatGPT语音系统配音，她出于个人原因拒绝；她还称，在GPT-4o演示发布前两天，Altman再次联系她的经纪人；当她听到发布后的声音时，她感到“shocked, angered and in disbelief”。[15]

这里不能替任何一方下法律结论。公开材料呈现的是双方声明：OpenAI否认Sky模仿Johansson，并暂停该声音；Johansson方面称自己曾拒绝合作邀请，并公开表达震惊和不满。事件的戏剧性来自这些公开说法之间的张力，而不是外界对任何一方动机的猜测。

Sky争议的重要性也不只在名人。它触及配音演员、歌手、主播、客服、教师和普通用户的共同问题：在AI可以合成自然声音之后，谁有权决定一个声音被如何使用？相似到什么程度构成问题？同意如何记录？训练数据如何授权？平台如何标识合成媒体？如果用户把一个AI声音误认为某个真人，责任边界在哪里？

生成式AI公司希望系统更像人，因为像人意味着低摩擦、易接受、有陪伴感。可系统一旦太像某个具体的人，商业魔法就会碰到同意、身份和表演权利。行业荒诞感在这里格外清楚：产品越成功地消除机器感，越需要向社会证明它没有未经授权地复制一个真人。

GPT-4o让“声音”从功能设置变成平台政治。它不再只是用户选择男声女声的问题，而是AI公司如何处理人格联想、公众信任和个人权利的问题。

七、入口之争比参数更近

5月13日和5月14日只隔一天，却像两种AI未来路线并排展开。

OpenAI的路线是集中爆发。GPT-4o把实时语音、视觉输入和低延迟对话压进一个强烈演示，让ChatGPT从聊天框走向实时交互对象。它的优势是产品感、速度和公众注意力。它的弱点也清楚：演示能力要变成稳定、便宜、安全、合规的大规模产品，还要经过真实用户、复杂环境和长期负载的检验。

Google的路线是体系推进。I/O展示的不是一个孤立模型，而是搜索、手机、邮箱、文档、相册、开发者工具和云服务的共同改造。它的优势是入口、分发和生态；它的风险也更重。搜索摘要给错答案、AI改变网站流量、移动系统收集更多上下文，都不是小功能问题，而会牵动信息生态和商业模式。

这场战争的焦点正在从“谁的模型参数更大”转向“谁掌握用户面对世界时的第一层界面”。参数仍然重要，训练成本仍然重要，算力仍然重要。Stanford HAI对GPT-4和Gemini Ultra训练成本的估算提醒人们，大模型竞赛背后仍是资本密集型工业。[5] 但用户不会每天打开参数表。用户会打开手机、戴上耳机、进入浏览器、拍一张照片、共享一块屏幕、问一句话。

GPT-4o和Project Astra的共同点，是它们都试图缩短人类意图到机器行动之间的距离。过去，用户要把现实世界转译成文字：描述图片、粘贴代码、总结会议、解释场景。现在，AI公司希望用户直接把摄像头、麦克风和屏幕交给模型。

这是一种效率提升，也是一种权力转移。谁处理这些感官输入，谁就可能理解用户的环境、任务、习惯和脆弱时刻。AI入口越自然，数据边界、同意机制和默认设置越需要被重新讨论。

2024年春天的狂飙因此带着双重面孔。Sora让人看到视频生成的想象力，Devin让软件工程自动化进入公众叙事，Llama 3证明开放模型仍在逼近闭源前沿，欧盟AI Act把监管写入制度现实。到了5月，GPT-4o让AI在大众演示中像一个可以插话的对象，Google I/O则用整个生态回应：搜索巨人不会把眼睛、耳朵和摄像头让出去。

故事没有在5月结束。它只是换了战场。

当AI会看、会听、会说，下一场竞争就不再只是模型榜单之争，而是入口之争、默认设置之争、操作系统之争。谁能成为用户面对世界时的第一层界面，谁就握住了下一代智能平台的门票。

参考文献

OpenAI，“Sora: Creating video from text”，2024.02.15。
Cognition，“Introducing Devin, the first AI software engineer”，2024.03.12。
European Parliament，“Artificial Intelligence Act: MEPs adopt landmark law”，2024.03.13。
Meta AI，“Introducing Meta Llama 3”，2024.04.18。
Stanford HAI，“AI Index Report 2024”，2024.04。
OpenAI，“Hello GPT-4o”，2024.05.13。
OpenAI，“Spring Update livestream”，2024.05.13。
Google，“Google I/O 2024 Keynote”，2024.05.14。
Google, The Keyword，“100 things we announced at I/O 2024”，2024.05.14。
Google, The Keyword，“Generative AI in Search: Let Google do the searching for you”，2024.05.14。
Google DeepMind，“Project Astra: our vision for the future of AI assistants”，2024.05.14。
Google DeepMind，“Veo: our most capable generative video model”，2024.05.14。
Sam Altman，X/Twitter post，“her”，2024.05.13。
OpenAI，“How the voices for ChatGPT were chosen”，2024.05.19。
Variety，“Scarlett Johansson Says OpenAI Ripped Off Her Voice for ChatGPT After She Declined to Work With Company”，2024.05.20。

Keyboard shortcuts

智能涌动