Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第17章|GPT-4o 正面迎敌:多模态战争的五月

一、春天把聊天框挤窄了

2024年5月到来时,生成式AI行业已经不愿再被一个网页输入框概括。

前几章写过,2月的Sora把文本生成视频推到公众视野。OpenAI当时把它描述为一种可以从文本指令生成现实感和想象力场景的AI模型,并说明发布时只向红队测试者以及部分视觉艺术家、设计师、电影制作者开放。[1] 这不是一次普通消费产品上线,却足以改变行业叙事:如果模型可以生成连续画面,它就不只是“写作助手”,而开始触碰视觉世界。

3月,Cognition发布Devin,把另一个更日常、更昂贵的场景推到台前:软件工程。Cognition在公告中称Devin为“the first AI software engineer”,并称它能使用开发者工具、规划和执行复杂工程任务;公司还称Devin在SWE-bench上端到端解决13.86%的issue,此前最佳结果为1.96%。[2] 这里必须保留主语:这是Cognition自己的披露,不是行业公认的职业认证,也不是对真实公司生产环境的全面评估。可即便如此,Devin仍然提醒了程序员、创业者和工程经理一件事:AI正在从补全一行代码,走向接管一段工作流。

同一季节,监管和开源也在改变空气密度。3月13日,欧洲议会以523票赞成、46票反对、49票弃权通过《人工智能法案》。欧洲议会新闻稿中,Brando Benifei说:“We finally have the world’s first binding law on artificial intelligence…” Dragos Tudorache则说:“The EU has delivered.”[3] 4月18日,Meta发布Llama 3,推出8B和70B两个版本,并称400B以上模型仍在训练中;Meta还披露,Llama 3使用超过15T tokens训练数据,是Llama 2数据集的7倍以上。[4]

这几条线不必在本章重新展开。它们共同构成5月的背景:视频生成、工程代理、开源追赶、监管落地、算力成本,都在把问题从“模型会不会聊天”推向“模型能不能进入现实流程”。

Stanford HAI在《AI Index Report 2024》中估算,GPT-4训练成本约7800万美元,Gemini Ultra约1.91亿美元。[5] 这些不是公司财务报表,也不应被误读为完整研发成本,但它们足以说明行业荒诞感:用户在手机上免费问一句“帮我总结这封邮件”,后台可能对应着上亿美元级别的模型训练、芯片采购、数据中心租赁、电力调度和云服务折扣谈判。

于是5月的竞争不再只是榜单上的分数。它变成更贴近身体的东西:谁能占据人的耳朵、眼睛、摄像头、屏幕和说话时的停顿。

5月13日,OpenAI先出手。一天后,Google在I/O大会上用整个生态回应。

二、五月十三日:GPT-4o把机器放进对话间隙

2024年5月13日,OpenAI举行Spring Update。Mira Murati在直播中介绍新模型GPT-4o。OpenAI发布页面给出了核心定义:“GPT-4o (‘o’ for ‘omni’) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.”[6]

“o”代表omni。这个命名并不谦虚,但它抓住了当时真正的变化:文字、音频、图像、视频不再只是几个分散插件,而被包装成一个更自然的人机交互界面。

OpenAI同时公布了一组对语音产品很关键的数字:GPT-4o对音频输入的响应最快可达232毫秒,平均约320毫秒,接近人类对话反应时间;在API中,GPT-4o比GPT-4 Turbo更快,价格便宜50%。[6] 对聊天机器人来说,几秒延迟可以被用户忍受;对语音助手来说,延迟就是产品性格。慢半拍可能显得礼貌,慢五拍就像系统卡死。低延迟不是装饰,它决定用户是否愿意用说话取代打字。

OpenAI在同一篇文章中解释,过去的Voice Mode使用三个模型串联:一个模型把音频转成文本,GPT-3.5或GPT-4处理文本,再由第三个模型把文本转成音频。这种链路会损失语气、多人说话、背景噪声,也难以输出笑声、歌唱和情绪。GPT-4o则被描述为一个端到端跨文本、视觉和音频训练的新模型,输入和输出由同一个神经网络处理。[6]

这听起来像工程说明,却改变了界面。聊天框时代,用户先把世界翻译成文字,再等待模型生成文字。GPT-4o展示的是另一种回路:人说话,机器接话;人把镜头对准纸面,机器看题;人打断,机器停下或改变语气。

直播演示中,OpenAI研究负责人Mark Chen与GPT-4o语音互动,要求它改变说话方式、用不同情绪讲故事,并在演示中打断它。Barret Zoph则展示了模型通过摄像头看数学题、以辅导方式引导解题的过程。[7] 这些桥段很容易传播,因为它们不需要观众理解Transformer架构,也不需要解释训练数据规模。观众只要听到那个声音被打断后继续回应,就能感到界面发生了变化。

行业的幽默感也在这里出现。过去十多年,语音助手常被嘲笑为只能设闹钟、查天气、误听歌名。到了2024年5月,发布会上的AI已经能配合人类表演故事节奏,还能被要求“更戏剧化”。这不是科幻突然成真,而是产品经理终于把“人类会随时插话”这件小事当成核心指标。

不过,演示不是产品全量上线。OpenAI在发布中说明,GPT-4o的能力会逐步推出;文本和图像能力面向免费用户开放,Plus用户有更高消息限制;新的语音模式将先以alpha形式向Plus用户推出。[6] 这条边界很重要。5月13日展示的不是“所有用户已经拥有直播中的完整体验”,而是OpenAI向外界展示下一代ChatGPT入口。

对一个准备在通勤路上用语音问问题的普通用户来说,真正决定体验的不是发布会掌声,而是耳机连接、网络延迟、口音识别、环境噪声和隐私权限。对一个想用它教孩子数学题的家长来说,问题也不只是“它会不会说话”,而是它是否会在关键步骤上犯错、是否会鼓励孩子依赖答案、是否能在错误时承认不确定。

GPT-4o的意义不在于它让AI第一次能说话。意义在于,它让主流观众第一次直观看到:AI可能不再是一个网页标签页,而是一个随时插入现实对话的对象。

三、自然交互的魔力,也是一种风险

OpenAI Spring Update最有效的部分,不是参数表,而是“在场感”。

Mira Murati在直播中强调更自然的人机交互,Mark Chen和Barret Zoph的演示则把这种自然感拆成几个动作:说话、打断、看图、改变语气、辅导解题。[7] 在屏幕另一端,观众看到的不是一个模型,而像是一个角色化的接口。它有声音,有节奏,有反应速度,甚至在被打断时显得更像“会听”。

这正是多模态产品的力量,也正是它的危险。

文本模型出错时,用户看到的是一段文字。语音模型用自然声线说出错误答案时,错误会带上确定、亲密和权威的质感。一个答案是否可信,不只取决于内容,还取决于声音、停顿、语气和界面设计。人类很难完全把“听起来像懂的人”和“确实正确”分开。

OpenAI在GPT-4o发布页面中也列出安全边界,说明音频输出最初会限制在预设声音中,并继续评估音频、视觉等能力带来的新风险。[6] 这不是安全部门写在页脚的套话,而是多模态产品化的核心。会看、会听、会说的系统一旦进入教育、医疗咨询、客服、儿童陪伴、面试训练、车载系统和办公会议,风险就不再只是“文本幻觉”。它会涉及隐私、身份、情绪依赖、误导性权威、录音留存和对真人声音的模拟边界。

对企业采购者来说,GPT-4o带来的问题也更实际。过去部署文本助手,可以从知识库权限、审计日志、回答准确率开始评估。实时语音和视觉入口加入后,评估对象变成麦克风、摄像头、屏幕共享、员工对话、会议内容和客户身份。公司要问的不只是模型能力,还要问数据流向、保存期限、权限隔离和误触触发。

这就是2024年春天的双重表情。行业确实有理由兴奋:AI终于开始靠近人类最自然的交互方式。行业也必须保持怀疑:越自然的界面,越容易让用户高估系统可靠性。

OpenAI在5月13日抢到的是情绪高地。它让“下一代AI助手”从抽象概念变成一段可转发的视频。可第二天登场的Google不打算只用一个演示回应一个演示。它带来的不是单点爆破,而是一整套入口。

四、五月十四日:Google用生态系统迎敌

2024年5月14日,Google I/O举行。Sundar Pichai在主题演讲中登场,Google围绕Gemini密集发布更新:Gemini 1.5 Pro、Gemini 1.5 Flash、Project Astra、Veo、Imagen 3、AI Overviews,以及Workspace、Android、Photos、开发者工具等产品线的AI能力。[8][9]

这不是“Google模仿OpenAI”的简单故事。OpenAI前一天展示的是一个高度集中的爆款体验;Google展示的是巨型生态系统如何把AI铺进默认入口。搜索、Gmail、Docs、Photos、Android、Chrome、YouTube、Cloud,这些不是孤立应用,而是许多人每天工作和生活的底层路径。

Google在I/O上继续强调Gemini 1.5 Pro的长上下文能力,并推出Gemini 1.5 Flash,称其针对高频、大规模、低延迟任务进行了优化。[9] 这种叙事没有GPT-4o实时语音那么适合社交平台剪辑,但对开发者和企业很实际。一个模型是否便宜、是否稳定、是否能处理长文档、是否能嵌入现有流程,往往比它在发布会上是否会开玩笑更影响采购决策。

搜索是最敏感的战场。Google宣布AI Overviews将在美国向所有用户推出,并计划在年底前覆盖超过10亿人。[10] 这一步把生成式AI推进Google最核心的入口。过去,搜索引擎主要返回链接;AI Overviews则把答案摘要放在更前面。它可能让用户少点几次网页,也可能改变网站流量、广告分发、来源归属和内容生态激励。

对一个网站编辑、一位独立博主或一家靠搜索流量生存的小公司来说,这不是抽象的“技术升级”。如果用户在搜索结果页已经读完AI摘要,是否还会点击原网页?如果AI摘要出错,责任如何分配?如果内容生产者的文章被用于回答,却失去访问量,商业循环是否还能维持?这些问题在I/O发布会的节奏里不会停留太久,但它们会在随后每一次搜索改版中出现。

Google还把Gemini推进Workspace。邮件总结、文档生成、表格分析、会议整理,这些功能在舞台上看起来没有实时语音惊艳,却更贴近办公室预算。行业里有一条朴素规律:最会传播的演示赢得注意力,最无聊的流程赢得合同。一个能每周节省员工几小时重复劳动的AI,未必能登上热搜,却可能进入采购清单。

Android同样关键。手机比网页更接近身体。它有摄像头、麦克风、位置、联系人、相册、日历、支付和通知。谁把AI变成手机系统的一层,谁就更接近下一代个人助手。OpenAI拥有ChatGPT品牌和产品速度;Google拥有Android和默认服务。5月的竞争因此不只是模型能力,而是默认入口之争。

五、Astra与Veo:Google也要眼睛和摄像机

在Google I/O的众多更新中,Project Astra最接近GPT-4o带来的直观冲击。Google DeepMind把Project Astra描述为面向未来AI助手的项目。官方演示中,用户拿着手机摄像头在办公环境里移动,系统识别物体、解释代码、辨认发声设备,并在被问到眼镜在哪里时,回忆起刚才画面中眼镜出现的位置。[11]

这段演示的重点不是“识别物体”。图像识别早已不是新闻。真正的变化在于连续感知、短期记忆和实时对话被放在一起。AI不是处理一张静态图片,而是跟随用户视角移动,把视频和语音组合成一段事件时间线,再用于回答后续问题。Google DeepMind在文章中说,其原型代理会持续编码视频帧,把视频和语音输入结合成事件时间线,并缓存信息以便高效调用。[11]

这就是多模态战争更深的一层:AI要从“处理文件”走向“感知环境”。一旦摄像头成为AI的眼睛,手机镜头就不只是拍照工具,而变成现实世界入口。它可以帮助用户找东西、读说明书、识别屏幕内容、辅助学习、协助维修、解释陌生环境。它也可能收集更敏感的上下文:家里的摆设、办公室白板、孩子的脸、桌上的病历、会议室里的文件。

Project Astra把Google多年来积累的资产重新串起来:Android、Lens、Photos、搜索、地图、YouTube、DeepMind模型研究和云端基础设施。OpenAI用GPT-4o证明AI可以像对话对象;Google用Astra证明AI助手也可以嵌入现实感知和移动系统。

同一天,Google DeepMind发布Veo,称其为“our most capable video generation model”。Google介绍说,Veo可以生成超过一分钟的1080p视频,并理解延时摄影、航拍等电影化提示词。[12] 在2月Sora引发巨大讨论之后,Veo明确表明:Google不会把文本生成视频的叙事交给OpenAI独占。

视频生成的表面战场是创意工具。导演可以做预演,广告团队可以生成样片,设计师可以快速试镜头,普通用户可以把一句话变成短片。深层战场则是世界建模。一个视频模型如果能稳定生成符合物理直觉、角色一致、镜头可控的动态场景,它的价值可能延伸到游戏、机器人、自动驾驶仿真、教育内容和虚拟训练环境。

但这里仍需谨慎。公开视频样例通常经过挑选。提示词、失败率、生成成本、版权授权、人物一致性、后期编辑、商业使用限制,往往不会在一段宣传片里完整呈现。生成一段惊艳视频,与支撑一个可靠的影视生产流程,是两件不同的事。

5月的Google没有只回答“我们也有聊天模型”。它回答的是:我们也要AI的眼睛、耳朵、摄像机和默认入口。

六、Sky:当AI太像一个具体的人

GPT-4o发布后,技术讨论很快被另一个话题打断:声音。

5月13日,Sam Altman在X上发布了一个极短的帖子:“her”。[13] 这个词被许多用户和媒体联想到2013年电影《Her》。在那部电影里,Scarlett Johansson为人工智能操作系统Samantha配音。GPT-4o发布后,ChatGPT语音之一Sky被不少人认为与Johansson的声音相似。

这件事把多模态竞争中最尖锐的问题拉到台前:声音不是皮肤,声音就是界面。对一个主打实时语音、陪伴感和自然对话的AI来说,声线会直接塑造用户对系统人格的理解。

OpenAI随后暂停使用Sky声音,并发布文章说明语音选择过程。OpenAI在文中写道:“We believe that AI voices should not deliberately mimic a celebrity’s distinctive voice—Sky’s voice is not an imitation of Scarlett Johansson but belongs to a different professional actress using her own natural speaking voice.”[14] 这句话需要逐字保留其边界:OpenAI称AI声音不应故意模仿名人的独特声音;OpenAI称Sky不是对Scarlett Johansson的模仿,而是另一位专业演员使用自己的自然声音。

5月20日,Scarlett Johansson通过媒体发表声明。据Variety刊发的声明,Johansson称Sam Altman曾在2023年9月邀请她为ChatGPT语音系统配音,她出于个人原因拒绝;她还称,在GPT-4o演示发布前两天,Altman再次联系她的经纪人;当她听到发布后的声音时,她感到“shocked, angered and in disbelief”。[15]

这里不能替任何一方下法律结论。公开材料呈现的是双方声明:OpenAI否认Sky模仿Johansson,并暂停该声音;Johansson方面称自己曾拒绝合作邀请,并公开表达震惊和不满。事件的戏剧性来自这些公开说法之间的张力,而不是外界对任何一方动机的猜测。

Sky争议的重要性也不只在名人。它触及配音演员、歌手、主播、客服、教师和普通用户的共同问题:在AI可以合成自然声音之后,谁有权决定一个声音被如何使用?相似到什么程度构成问题?同意如何记录?训练数据如何授权?平台如何标识合成媒体?如果用户把一个AI声音误认为某个真人,责任边界在哪里?

生成式AI公司希望系统更像人,因为像人意味着低摩擦、易接受、有陪伴感。可系统一旦太像某个具体的人,商业魔法就会碰到同意、身份和表演权利。行业荒诞感在这里格外清楚:产品越成功地消除机器感,越需要向社会证明它没有未经授权地复制一个真人。

GPT-4o让“声音”从功能设置变成平台政治。它不再只是用户选择男声女声的问题,而是AI公司如何处理人格联想、公众信任和个人权利的问题。

七、入口之争比参数更近

5月13日和5月14日只隔一天,却像两种AI未来路线并排展开。

OpenAI的路线是集中爆发。GPT-4o把实时语音、视觉输入和低延迟对话压进一个强烈演示,让ChatGPT从聊天框走向实时交互对象。它的优势是产品感、速度和公众注意力。它的弱点也清楚:演示能力要变成稳定、便宜、安全、合规的大规模产品,还要经过真实用户、复杂环境和长期负载的检验。

Google的路线是体系推进。I/O展示的不是一个孤立模型,而是搜索、手机、邮箱、文档、相册、开发者工具和云服务的共同改造。它的优势是入口、分发和生态;它的风险也更重。搜索摘要给错答案、AI改变网站流量、移动系统收集更多上下文,都不是小功能问题,而会牵动信息生态和商业模式。

这场战争的焦点正在从“谁的模型参数更大”转向“谁掌握用户面对世界时的第一层界面”。参数仍然重要,训练成本仍然重要,算力仍然重要。Stanford HAI对GPT-4和Gemini Ultra训练成本的估算提醒人们,大模型竞赛背后仍是资本密集型工业。[5] 但用户不会每天打开参数表。用户会打开手机、戴上耳机、进入浏览器、拍一张照片、共享一块屏幕、问一句话。

GPT-4o和Project Astra的共同点,是它们都试图缩短人类意图到机器行动之间的距离。过去,用户要把现实世界转译成文字:描述图片、粘贴代码、总结会议、解释场景。现在,AI公司希望用户直接把摄像头、麦克风和屏幕交给模型。

这是一种效率提升,也是一种权力转移。谁处理这些感官输入,谁就可能理解用户的环境、任务、习惯和脆弱时刻。AI入口越自然,数据边界、同意机制和默认设置越需要被重新讨论。

2024年春天的狂飙因此带着双重面孔。Sora让人看到视频生成的想象力,Devin让软件工程自动化进入公众叙事,Llama 3证明开放模型仍在逼近闭源前沿,欧盟AI Act把监管写入制度现实。到了5月,GPT-4o让AI在大众演示中像一个可以插话的对象,Google I/O则用整个生态回应:搜索巨人不会把眼睛、耳朵和摄像头让出去。

故事没有在5月结束。它只是换了战场。

当AI会看、会听、会说,下一场竞争就不再只是模型榜单之争,而是入口之争、默认设置之争、操作系统之争。谁能成为用户面对世界时的第一层界面,谁就握住了下一代智能平台的门票。

参考文献

  1. OpenAI,“Sora: Creating video from text”,2024.02.15。
  2. Cognition,“Introducing Devin, the first AI software engineer”,2024.03.12。
  3. European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024.03.13。
  4. Meta AI,“Introducing Meta Llama 3”,2024.04.18。
  5. Stanford HAI,“AI Index Report 2024”,2024.04。
  6. OpenAI,“Hello GPT-4o”,2024.05.13。
  7. OpenAI,“Spring Update livestream”,2024.05.13。
  8. Google,“Google I/O 2024 Keynote”,2024.05.14。
  9. Google, The Keyword,“100 things we announced at I/O 2024”,2024.05.14。
  10. Google, The Keyword,“Generative AI in Search: Let Google do the searching for you”,2024.05.14。
  11. Google DeepMind,“Project Astra: our vision for the future of AI assistants”,2024.05.14。
  12. Google DeepMind,“Veo: our most capable generative video model”,2024.05.14。
  13. Sam Altman,X/Twitter post,“her”,2024.05.13。
  14. OpenAI,“How the voices for ChatGPT were chosen”,2024.05.19。
  15. Variety,“Scarlett Johansson Says OpenAI Ripped Off Her Voice for ChatGPT After She Declined to Work With Company”,2024.05.20。