Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第26章|真空的尽头:GPT-4.5、Gemini 2.5 与 GPT-5 前夜

一、等待不是安静,是发布页连着发布页

从后来 OpenAI 官方直播索引回看,2025 年春夏的顺序并不神秘:GPT-4.5、o3 与 o4-mini、Codex、ChatGPT agent,随后才是 GPT-5 作为新的主叙事登场。[1] 这意味着本章不能再把 2025 年上半年写成一个空白的“等待 GPT-5”时期。它更像一间加压舱:门还没有打开,里面却已经堆满了模型、订阅档位、API 名称、推理系统、编码助手和多模态承诺。

人工智能行业并没有在 GPT-5 之前停下来。它反而变得更吵。

这种吵,不是早期创业公司式的白噪音,而是前沿实验室正式发布、正式收费、正式进企业采购表的噪音。OpenAI 在 2 月发布 GPT-4.5,4 月连续把 GPT-4.1、o3 和 o4-mini推到开发者与 ChatGPT 用户面前,5 月把 Codex 包装成云端软件工程代理,7 月又推出 ChatGPT agent。Google 在 3 月发布 Gemini 2.5 Pro Experimental,4 月把 Gemini 2.5 Flash 放进开发者视野,6 月宣布 Gemini 2.5 Pro 和 Flash 稳定可用。Meta 在 4 月发布 Llama 4 系列,xAI 在 7 月推出 Grok 4,Mistral 在 6 月发布自己的推理模型 Magistral。[2][3][4][5][6][7][8][9][10][11][12]

这是一种很新的行业节奏。过去,一个大版本模型像钟声:GPT-3、ChatGPT、GPT-4,每一次敲响,市场都能听出方向。到了 2025 年上半年,钟声变成了消息提醒。每隔几周,用户就要重新理解一次:这次是聊天模型,还是推理模型?是 API 模型,还是 ChatGPT 模型?是给 Pro 用户,还是给 Plus 用户?是研究预览,还是稳定版本?是能看图,能写代码,能调用工具,还是能在浏览器里执行任务?

这不是“暴风雨前的宁静”。这是暴风雨前,所有人已经在搬设备、改电路、加固窗户、检查保险条款,还顺手换了三套遥控器。

第二版叙事必须承认一个事实:GPT-5 对读者而言已经不是未知物。真正值得追踪的,是它出现之前,行业如何把“下一代模型”的悬念拆成许多中间产品。OpenAI 没有只让市场等一个名字;Google 没有把舞台让空;开源权重阵营没有安静;面向开发者的编码工具也没有停在演示里。所谓“真空”,不是没有空气,而是空气被抽到足以让每一次发布都带着压力。

这也是 2025 年上半年荒诞而真实的地方:行业等待一个更大的模型,同时又不断购买、测试、迁移、弃用一批“小一号但已经足够复杂”的模型。前沿 AI 公司一边承诺未来会更简单,一边把现在变得更像航空公司票价表。

二、GPT-4.5:半代旗舰的尴尬位置

2025 年 2 月 27 日,OpenAI 发布 GPT-4.5。官方材料把它称为研究预览,强调它是当时 OpenAI 在聊天体验、知识广度、模式识别和自然交互方面最强的模型之一;系统卡则列出一系列安全评估、能力测试与风险说明。[2][3]

如果把 GPT-4.5 放回 2023 年,它很可能会被写成一次大事件。可是它站在 2025 年初,面对的是另一套观众。用户已经被 GPT-4、GPT-4o、o1、o3-mini、DeepSeek-R1、Claude、Gemini 反复训练过。他们不只问“能不能写诗、写代码、解释图片”,也问“延迟多少、价格多少、上下文多长、能不能调用工具、会不会被弃用、在企业里有没有合规说明”。

GPT-4.5 的名字先天带着半代感。它不是 GPT-4,也不是 GPT-5。它像一块路标,写着“前方施工”,但没有说高速何时全线通车。OpenAI 的发布并没有把它塑造成 GPT-5 的替代品,而是把它放在研究预览和高质量对话的位置上。这个定位很克制,也很难逃脱比较。

可真正改变叙事的,不只是 GPT-4.5 本身,而是随后发生的事情。4 月 14 日,OpenAI 发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,明确面向 API,强调编码、指令遵循和长上下文能力。同一篇官方公告中,OpenAI 还说明 GPT-4.5 Preview API 将在 2025 年 7 月 14 日下线,理由是 GPT-4.1 在许多场景下以更低成本和更低延迟提供了强能力。[4]

这条弃用信息比任何排行榜都更能说明半代旗舰的处境。一个 2 月末发布的研究预览,到了 4 月中旬就在 API 路线上被更便宜、更面向生产的模型挤压。对开发者来说,这不是哲学问题,而是迁移计划。代码里写着某个模型名,评测脚本记录着某个延迟,预算表里按某个 token 价格估算,一纸公告就能让这些东西变成倒计时。

GPT-4.5 因此成了一个过渡时代的标本。它证明模型仍然在进步,也证明“更强”不再自动等于“更应该接入”。在真实产品里,能力、成本、稳定性、可用期限、工具支持和企业政策一起决定模型命运。一个模型可以在聊天中更自然,却不一定是客服系统、代码代理、法律审阅或企业知识库的最佳选择。

这就是 2025 年的前沿模型现实:模型发布不再是终点,而是供应链事件。

三、OpenAI 把“一个大模型”拆成三个货架

GPT-4.5 之后,OpenAI 的动作更像在整理一个越来越拥挤的货架。

第一层货架是 API 与通用开发。4 月 14 日的 GPT-4.1 系列面向开发者,强调一百万 token 上下文、编码能力和指令遵循。它不是 ChatGPT 主舞台上的大旗帜,却对开发者非常具体:如果要把模型接进代码库、文档系统、客服后台或企业流程,API 模型的价格、延迟和稳定性比发布会上的一句“更聪明”更重要。[4]

第二层货架是推理。4 月 16 日,OpenAI 发布 o3 和 o4-mini。官方材料把 o3 定位为更强的推理模型,把 o4-mini 定位为速度、成本与性能之间的折中,并强调这些模型可以在 ChatGPT 中结合工具使用,包括浏览、Python、图像理解、文件分析等能力。[5] 这次发布的重点不是让模型更会聊天,而是让模型在回答前更会“做题”、更会分解问题、利用工具和处理多模态输入。

o 系列让“模型”这个词开始显得不够用。用户看到的仍是一段回答,背后可能已经发生了检索、读图、运行代码、查看文件、调用工具和再组织答案。系统的能力不再只来自权重,而来自模型、工具、权限和产品界面的组合。一个不会用工具的强模型,可能在现实任务中输给一个稍弱但能稳定调用工具的系统;一个推理能力很强的模型,也可能因为成本和延迟被挡在大规模产品之外。

第三层货架是编码代理。5 月 16 日,OpenAI 发布 Codex,称其为云端软件工程代理。官方说明中,Codex 可在隔离的云环境里处理代码任务,例如修复 bug、实现功能、回答代码库问题和运行测试;它由 codex-1 驱动,后者被描述为基于 o3、针对软件工程优化的模型版本。发布时,Codex 以研究预览形式向 ChatGPT Pro、Enterprise 和 Team 用户开放,Plus 与 Edu 随后开放。[6]

这不是早期“帮我写一个函数”的代码补全。Codex 的产品形态更接近把任务派给一个远程工程助手:给它一个代码库,让它在沙盒里读文件、改文件、跑测试,然后提交结果供人审阅。这里的关键不是它每次都能成功,而是工作流变了。模型开始进入软件开发的工单系统,而不只是待在聊天窗口里生成片段。

到了 7 月 17 日,OpenAI 又发布 ChatGPT agent,官方称它把网页操作、研究和对话能力结合起来,可以在用户授权下执行更复杂的多步骤任务。[7] 本章只把它作为序列终点附近的信号,不展开它的后续平台化影响;那部分材料将移到后文关于 GPT-5 与 agent 转向的章节。重要的是,在 GPT-5 到来之前,OpenAI 已经公开展示了一个方向:未来的旗舰不是单纯更会说话,而是要把聊天、推理、代码、浏览、文件和行动组织成系统。

等待 GPT-5 的用户,实际上已经被迫先学习一套准 GPT-5 时代的菜单。

四、Google 把压力从侧面压过来

OpenAI 没有独占 2025 年春天的前沿叙事。3 月 25 日,Google 发布 Gemini 2.5 Pro Experimental,官方标题直接把它称为当时最智能的 Gemini 模型,并把 Gemini 2.5 系列描述为“thinking model”路线:模型在回应前进行更强的推理。[8]

这对 Google 很重要。它拥有 Transformer 传统、DeepMind 研究资产、搜索入口、Android、Chrome、YouTube、Workspace 和 Google Cloud。按资产表看,它几乎不该在生成式 AI 叙事里处于追赶位置。但 ChatGPT 之后,公共注意力一度被 OpenAI 拿走。Gemini 2.5 Pro 的发布,是 Google 把“我仍在前沿”重新写到标题里的动作。

Gemini 2.5 Pro 的官方材料强调推理、编码、多模态和长上下文。它支持百万级 token 上下文,Google 还表示更长上下文正在推进。[8] 对企业和开发者而言,长上下文不是一个适合海报的数字那么简单。它意味着模型可能一次读入更多代码库、合同、会议记录、日志、论文或多模态材料。可是长上下文也不是魔法。把一百万 token 放进窗口,不等于模型每次都能稳稳抓住关键证据;上下文越长,评估越难,错误也可能越隐蔽。

4 月,Google 又推出 Gemini 2.5 Flash 预览,把“思考”与低延迟、低成本结合起来。[9] 这条路线很现实:企业不会把所有请求都交给最贵的旗舰模型。大量任务需要的是足够好的推理、可控的价格和稳定吞吐。到 6 月 17 日,Google 宣布 Gemini 2.5 Pro 和 Gemini 2.5 Flash 稳定可用,并推出 Flash-Lite 预览。[10] 这意味着 Google 不只是展示一个顶级模型,而是在补齐分层产品线:旗舰、快速版本、轻量版本、开发者 API、云服务入口和消费端应用。

前沿模型竞争于是从“谁有最大模型”变成“谁能把模型铺成一张网”。OpenAI 有 ChatGPT 与 API,Google 有搜索、Workspace、Android 和 Vertex AI。模型能力相近时,默认入口会变得极其重要。用户不会为了一个小幅榜单优势轻易迁移全部工作流;他们更可能使用已经嵌在邮件、文档、浏览器、手机和云后台里的助手。

Google 的官方材料同样列出 benchmark,但这些数字需要放在谨慎框架里看。2025 年的榜单已经太多:数学、科学问答、代码修复、长上下文、多模态、人类偏好,各有各的测试。公司会选择有利角度展示进步,这并不等于数据无效;它只是提醒读者,benchmark 是地图,不是领土。一个模型在竞赛数学上高分,不等于它适合企业合规审查;一个模型在代码榜上领先,也不等于它能在复杂遗留系统里稳定交付。

Gemini 2.5 的意义,不在于用某一张表宣告胜负,而在于它让 GPT-5 前夜变得不再由 OpenAI 单独定义。OpenAI 如果留下空档,Google 就会把推理模型、长上下文和云端入口填进去。

五、开源权重、公共广场与小语种推理模型

4 月 5 日,Meta 发布 Llama 4 系列。官方文章称其为原生多模态 AI 创新的新阶段,推出 Llama 4 Scout 和 Llama 4 Maverick,并预览更大的 Llama 4 Behemoth。[11] 这是一条与 OpenAI、Google 不完全相同的路线:不是只通过一个闭源 API 出售能力,而是用开放权重把生态扩散出去。

Llama 4 的官方材料强调混合专家架构、多模态能力和长上下文。Scout 被描述为具备超长上下文能力,Maverick 则面向更强的通用助手与多模态任务;Behemoth 在发布时仍是预览,而非可供普通开发者完整调用的产品。[11] 这类细节很重要。开源权重阵营常被写成“闭源巨头之外的自由世界”,但大模型的开放从来不是传统软件开源的简单复刻。权重可以下载,模型可以部署,社区可以微调;训练数据、训练流程、算力成本和许可证边界却未必完全透明。

即便如此,Llama 的现实价值仍然巨大。对许多企业而言,“可控部署”本身就是能力。金融、医疗、政府承包商、制造业和法律服务机构未必愿意把全部数据送进闭源 API。它们关心模型多聪明,也关心数据边界、日志审计、成本上限、供应商锁定和本地化定制。开放权重模型让这些组织多了一张谈判牌:不是所有智能都必须从同一家云端窗口租来。

7 月 9 日,xAI 发布 Grok 4 和 Grok 4 Heavy。[12] 与 Google 的生产力生态、Meta 的开放权重不同,xAI 的优势绑定在 X 平台、实时信息和强烈的品牌传播上。官方发布把 Grok 4 放在前沿模型竞争中,强调推理、工具使用和更强能力。它提醒行业,前沿 AI 的“入口”并不只在办公套件和开发者控制台,也可以在公共舆论广场里。实时性是吸引力,也是风险:越靠近突发信息,越需要来源、纠错和责任边界。

同一时期,欧洲模型公司也没有离场。6 月,Mistral 发布 Magistral,称其为面向推理任务的模型系列,包括开放权重的小型版本和面向企业/API 的中型版本。[13] 它的存在说明,推理模型的概念已经扩散出 OpenAI 的 o 系列。2025 年上半年,“reasoning model”不再是某一家实验室的内部术语,而成了产品目录里的一个类别。

这些非 OpenAI 模型构成了 GPT-5 前夜的横向压力。Google 证明闭源前沿不只有一家;Meta 证明开放权重仍能参与主战场;xAI 证明公共平台可以成为模型分发渠道;Mistral 证明推理模型正在全球化。等待 GPT-5 的行业并不是站在原地看一个门口,而是站在十字路口,被四面八方的发布推着走。

六、普通用户面对的不是智能,是菜单

这一时期最具体的个人影响,不需要编造某个用户在屏幕前皱眉。公开文档已经足够说明问题。

一个 ChatGPT 用户在 2025 年上半年可能看到 GPT-4o、GPT-4.5、o3、o4-mini、o4-mini-high、Deep Research、Codex、Operator 或 ChatGPT agent;不同功能对应 Free、Plus、Pro、Team、Enterprise、Edu 等不同入口和限额。一个 Google 用户则要区分 Gemini app、Gemini Advanced、Google AI Studio、Vertex AI、Gemini 2.5 Pro、Gemini 2.5 Flash、Flash-Lite,以及不同地区、不同产品中的可用性。开发者还要面对模型版本号、上下文长度、工具调用接口、计费方式、速率限制、弃用日期和迁移指南。[4][5][6][7][8][9][10]

这就是人工智能产品化后的行业幽默:公司说要让 AI “just work”,用户却先要做一张模型族谱。

订阅决策也变得更像采购。Plus 是否够用?Pro 是否值得?团队版是否只是权限管理,还是能拿到关键模型?企业版是否提供数据控制和合规条款?如果用 API,应该把复杂任务路由给 o3,日常任务交给 mini 或 Flash,代码任务交给 Codex 或专门的代码模型,长文档交给长上下文模型,还是直接等 GPT-5?这些问题没有一个能靠“最新模型最强”解决。

开发者的处境更具体。GPT-4.5 Preview API 的弃用日期给了一个清晰例子:模型发布后不到两个月,迁移时钟就开始响。[4] 对实验项目来说,这只是改一行 model name;对企业系统来说,它可能意味着重新跑评测、重算成本、更新合规文件、修改提示词、调整缓存、检查失败案例、重新培训内部用户。模型能力越快进步,围绕模型建立的业务系统越容易变成移动靶。

编码工具让这种移动靶进一步加速。OpenAI 的 Codex 把软件工程任务放进云端代理;GitHub 在 6 月宣布 Copilot coding agent 向 Copilot Business 用户开放,把“给 AI 派工单”的模式推向更多企业开发流程。[14] 这类工具并不是简单替代程序员,而是改变代码审查、测试、任务分配和权限边界。开发团队必须决定:哪些仓库能让代理读取?哪些测试必须通过?谁批准合并?代理生成的安全漏洞由谁负责?

用户疲劳因此不是对技术进步的抱怨,而是系统复杂性的结果。每个模型都可能有道理,每个版本都可能在某些测试上更强,每个订阅档位都有自己的说明。问题在于,人类的工作流没有跟着每周发布自动重构。一个律师事务所、医院、学校、客服中心或软件团队,不能因为模型菜单变化就每月重写一次责任制度。

GPT-5 前夜的真正个人体验,常常不是“未来即将到来”的宏大震动,而是一个很小的问题:今天到底该选哪个?

七、榜单之后,是系统的压力

2024 年底,路透社曾报道,OpenAI 等领先实验室正在寻找让 AI 继续变聪明的新路径,因为单纯扩大训练规模的收益面临更复杂的限制。[15] 到 2025 年上半年,公开发布给出了一个答案:实验室没有停止扩大模型,但它们同时把推理时计算、工具调用、长上下文、代码代理、多模态和产品分层推到前台。

这不等于“前沿停滞”,也不等于“AGI 近在眼前”。它说明进步的形态变了。GPT-4 时代最容易讲的故事是一个更大的聊天模型震动世界;2025 年上半年的故事则更像系统工程:哪个模型负责推理,哪个模型负责低成本调用,哪个工具负责浏览,哪个代理负责代码,哪个产品层负责权限,哪个订阅档位负责商业化。

benchmark 在这里仍然有价值,但不能代替判断。前沿公司发布的测试成绩可以显示某些任务上的进步,也可能帮助研究者发现能力边界。可是榜单无法完全回答真实部署中的问题:模型在长上下文中是否遗漏关键条款?代码代理修改文件后是否引入隐蔽漏洞?工具调用失败时系统能否回滚?模型引用来源是否可审计?企业数据是否被用于训练?用户是否理解自己授权了什么?

这就是“真空的尽头”。GPT-5 到来之前,行业已经不再只等一个更强的回答者,而是在等待一个能把这些碎片重新组织起来的系统名称。OpenAI 的 GPT-4.5、GPT-4.1、o3、o4-mini、Codex 和 ChatGPT agent,Google 的 Gemini 2.5 Pro 与 Flash,Meta 的 Llama 4,xAI 的 Grok 4,Mistral 的 Magistral,共同把前沿 AI 从单一模型竞赛推向产品矩阵竞赛。

从第二版叙事看,GPT-5 的意义会在后文展开;本章的任务不是假装它仍在雾中,而是说明雾里已经塞满了机器。等那个更大的名字出现时,市场要比较的已不只是模型聪明程度,还包括价格、延迟、工具、权限、代理能力、开发者生态、企业控制和责任结构。

所谓等待,已经被产业自己改造成了压力测试。

补丁说明

参考文献

  1. OpenAI,OpenAI Live,2025。
  2. OpenAI,Introducing GPT-4.5,2025-02-27。
  3. OpenAI,GPT-4.5 System Card,2025-02-27。
  4. OpenAI,Introducing GPT-4.1 in the API,2025-04-14。
  5. OpenAI,Introducing OpenAI o3 and o4-mini,2025-04-16。
  6. OpenAI,Introducing Codex,2025-05-16。
  7. OpenAI,Introducing ChatGPT agent,2025-07-17。
  8. Google,Gemini 2.5: Our most intelligent AI model,2025-03-25。
  9. Google AI for Developers,Gemini 2.5 Flash Preview release notes,2025-04-17。
  10. Google AI for Developers,Gemini 2.5 Pro and Flash stable releases,2025-06-17。
  11. Meta AI,The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation,2025-04-05。
  12. xAI,Grok 4,2025-07-09。
  13. Mistral AI,Magistral,2025-06-10。
  14. GitHub Blog Changelog,GitHub Copilot coding agent is now available for Copilot Business users,2025-06-24。
  15. Reuters,OpenAI and others seek new path to smarter AI as current methods hit limitations,2024-11-11。