第26章｜真空的尽头：GPT-4.5、Gemini 2.5 与 GPT-5 前夜

一、等待不是安静，是发布页连着发布页

从后来 OpenAI 官方直播索引回看，2025 年春夏的顺序并不神秘：GPT-4.5、o3 与 o4-mini、Codex、ChatGPT agent，随后才是 GPT-5 作为新的主叙事登场。[1] 这意味着本章不能再把 2025 年上半年写成一个空白的“等待 GPT-5”时期。它更像一间加压舱：门还没有打开，里面却已经堆满了模型、订阅档位、API 名称、推理系统、编码助手和多模态承诺。

人工智能行业并没有在 GPT-5 之前停下来。它反而变得更吵。

这种吵，不是早期创业公司式的白噪音，而是前沿实验室正式发布、正式收费、正式进企业采购表的噪音。OpenAI 在 2 月发布 GPT-4.5，4 月连续把 GPT-4.1、o3 和 o4-mini推到开发者与 ChatGPT 用户面前，5 月把 Codex 包装成云端软件工程代理，7 月又推出 ChatGPT agent。Google 在 3 月发布 Gemini 2.5 Pro Experimental，4 月把 Gemini 2.5 Flash 放进开发者视野，6 月宣布 Gemini 2.5 Pro 和 Flash 稳定可用。Meta 在 4 月发布 Llama 4 系列，xAI 在 7 月推出 Grok 4，Mistral 在 6 月发布自己的推理模型 Magistral。[2][3][4][5][6][7][8][9][10][11][12]

这是一种很新的行业节奏。过去，一个大版本模型像钟声：GPT-3、ChatGPT、GPT-4，每一次敲响，市场都能听出方向。到了 2025 年上半年，钟声变成了消息提醒。每隔几周，用户就要重新理解一次：这次是聊天模型，还是推理模型？是 API 模型，还是 ChatGPT 模型？是给 Pro 用户，还是给 Plus 用户？是研究预览，还是稳定版本？是能看图，能写代码，能调用工具，还是能在浏览器里执行任务？

这不是“暴风雨前的宁静”。这是暴风雨前，所有人已经在搬设备、改电路、加固窗户、检查保险条款，还顺手换了三套遥控器。

第二版叙事必须承认一个事实：GPT-5 对读者而言已经不是未知物。真正值得追踪的，是它出现之前，行业如何把“下一代模型”的悬念拆成许多中间产品。OpenAI 没有只让市场等一个名字；Google 没有把舞台让空；开源权重阵营没有安静；面向开发者的编码工具也没有停在演示里。所谓“真空”，不是没有空气，而是空气被抽到足以让每一次发布都带着压力。

这也是 2025 年上半年荒诞而真实的地方：行业等待一个更大的模型，同时又不断购买、测试、迁移、弃用一批“小一号但已经足够复杂”的模型。前沿 AI 公司一边承诺未来会更简单，一边把现在变得更像航空公司票价表。

二、GPT-4.5：半代旗舰的尴尬位置

2025 年 2 月 27 日，OpenAI 发布 GPT-4.5。官方材料把它称为研究预览，强调它是当时 OpenAI 在聊天体验、知识广度、模式识别和自然交互方面最强的模型之一；系统卡则列出一系列安全评估、能力测试与风险说明。[2][3]

如果把 GPT-4.5 放回 2023 年，它很可能会被写成一次大事件。可是它站在 2025 年初，面对的是另一套观众。用户已经被 GPT-4、GPT-4o、o1、o3-mini、DeepSeek-R1、Claude、Gemini 反复训练过。他们不只问“能不能写诗、写代码、解释图片”，也问“延迟多少、价格多少、上下文多长、能不能调用工具、会不会被弃用、在企业里有没有合规说明”。

GPT-4.5 的名字先天带着半代感。它不是 GPT-4，也不是 GPT-5。它像一块路标，写着“前方施工”，但没有说高速何时全线通车。OpenAI 的发布并没有把它塑造成 GPT-5 的替代品，而是把它放在研究预览和高质量对话的位置上。这个定位很克制，也很难逃脱比较。

可真正改变叙事的，不只是 GPT-4.5 本身，而是随后发生的事情。4 月 14 日，OpenAI 发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，明确面向 API，强调编码、指令遵循和长上下文能力。同一篇官方公告中，OpenAI 还说明 GPT-4.5 Preview API 将在 2025 年 7 月 14 日下线，理由是 GPT-4.1 在许多场景下以更低成本和更低延迟提供了强能力。[4]

这条弃用信息比任何排行榜都更能说明半代旗舰的处境。一个 2 月末发布的研究预览，到了 4 月中旬就在 API 路线上被更便宜、更面向生产的模型挤压。对开发者来说，这不是哲学问题，而是迁移计划。代码里写着某个模型名，评测脚本记录着某个延迟，预算表里按某个 token 价格估算，一纸公告就能让这些东西变成倒计时。

GPT-4.5 因此成了一个过渡时代的标本。它证明模型仍然在进步，也证明“更强”不再自动等于“更应该接入”。在真实产品里，能力、成本、稳定性、可用期限、工具支持和企业政策一起决定模型命运。一个模型可以在聊天中更自然，却不一定是客服系统、代码代理、法律审阅或企业知识库的最佳选择。

这就是 2025 年的前沿模型现实：模型发布不再是终点，而是供应链事件。

三、OpenAI 把“一个大模型”拆成三个货架

GPT-4.5 之后，OpenAI 的动作更像在整理一个越来越拥挤的货架。

第一层货架是 API 与通用开发。4 月 14 日的 GPT-4.1 系列面向开发者，强调一百万 token 上下文、编码能力和指令遵循。它不是 ChatGPT 主舞台上的大旗帜，却对开发者非常具体：如果要把模型接进代码库、文档系统、客服后台或企业流程，API 模型的价格、延迟和稳定性比发布会上的一句“更聪明”更重要。[4]

第二层货架是推理。4 月 16 日，OpenAI 发布 o3 和 o4-mini。官方材料把 o3 定位为更强的推理模型，把 o4-mini 定位为速度、成本与性能之间的折中，并强调这些模型可以在 ChatGPT 中结合工具使用，包括浏览、Python、图像理解、文件分析等能力。[5] 这次发布的重点不是让模型更会聊天，而是让模型在回答前更会“做题”、更会分解问题、利用工具和处理多模态输入。

o 系列让“模型”这个词开始显得不够用。用户看到的仍是一段回答，背后可能已经发生了检索、读图、运行代码、查看文件、调用工具和再组织答案。系统的能力不再只来自权重，而来自模型、工具、权限和产品界面的组合。一个不会用工具的强模型，可能在现实任务中输给一个稍弱但能稳定调用工具的系统；一个推理能力很强的模型，也可能因为成本和延迟被挡在大规模产品之外。

第三层货架是编码代理。5 月 16 日，OpenAI 发布 Codex，称其为云端软件工程代理。官方说明中，Codex 可在隔离的云环境里处理代码任务，例如修复 bug、实现功能、回答代码库问题和运行测试；它由 codex-1 驱动，后者被描述为基于 o3、针对软件工程优化的模型版本。发布时，Codex 以研究预览形式向 ChatGPT Pro、Enterprise 和 Team 用户开放，Plus 与 Edu 随后开放。[6]

这不是早期“帮我写一个函数”的代码补全。Codex 的产品形态更接近把任务派给一个远程工程助手：给它一个代码库，让它在沙盒里读文件、改文件、跑测试，然后提交结果供人审阅。这里的关键不是它每次都能成功，而是工作流变了。模型开始进入软件开发的工单系统，而不只是待在聊天窗口里生成片段。

到了 7 月 17 日，OpenAI 又发布 ChatGPT agent，官方称它把网页操作、研究和对话能力结合起来，可以在用户授权下执行更复杂的多步骤任务。[7] 本章只把它作为序列终点附近的信号，不展开它的后续平台化影响；那部分材料将移到后文关于 GPT-5 与 agent 转向的章节。重要的是，在 GPT-5 到来之前，OpenAI 已经公开展示了一个方向：未来的旗舰不是单纯更会说话，而是要把聊天、推理、代码、浏览、文件和行动组织成系统。

等待 GPT-5 的用户，实际上已经被迫先学习一套准 GPT-5 时代的菜单。

四、Google 把压力从侧面压过来

OpenAI 没有独占 2025 年春天的前沿叙事。3 月 25 日，Google 发布 Gemini 2.5 Pro Experimental，官方标题直接把它称为当时最智能的 Gemini 模型，并把 Gemini 2.5 系列描述为“thinking model”路线：模型在回应前进行更强的推理。[8]

这对 Google 很重要。它拥有 Transformer 传统、DeepMind 研究资产、搜索入口、Android、Chrome、YouTube、Workspace 和 Google Cloud。按资产表看，它几乎不该在生成式 AI 叙事里处于追赶位置。但 ChatGPT 之后，公共注意力一度被 OpenAI 拿走。Gemini 2.5 Pro 的发布，是 Google 把“我仍在前沿”重新写到标题里的动作。

Gemini 2.5 Pro 的官方材料强调推理、编码、多模态和长上下文。它支持百万级 token 上下文，Google 还表示更长上下文正在推进。[8] 对企业和开发者而言，长上下文不是一个适合海报的数字那么简单。它意味着模型可能一次读入更多代码库、合同、会议记录、日志、论文或多模态材料。可是长上下文也不是魔法。把一百万 token 放进窗口，不等于模型每次都能稳稳抓住关键证据；上下文越长，评估越难，错误也可能越隐蔽。

4 月，Google 又推出 Gemini 2.5 Flash 预览，把“思考”与低延迟、低成本结合起来。[9] 这条路线很现实：企业不会把所有请求都交给最贵的旗舰模型。大量任务需要的是足够好的推理、可控的价格和稳定吞吐。到 6 月 17 日，Google 宣布 Gemini 2.5 Pro 和 Gemini 2.5 Flash 稳定可用，并推出 Flash-Lite 预览。[10] 这意味着 Google 不只是展示一个顶级模型，而是在补齐分层产品线：旗舰、快速版本、轻量版本、开发者 API、云服务入口和消费端应用。

前沿模型竞争于是从“谁有最大模型”变成“谁能把模型铺成一张网”。OpenAI 有 ChatGPT 与 API，Google 有搜索、Workspace、Android 和 Vertex AI。模型能力相近时，默认入口会变得极其重要。用户不会为了一个小幅榜单优势轻易迁移全部工作流；他们更可能使用已经嵌在邮件、文档、浏览器、手机和云后台里的助手。

Google 的官方材料同样列出 benchmark，但这些数字需要放在谨慎框架里看。2025 年的榜单已经太多：数学、科学问答、代码修复、长上下文、多模态、人类偏好，各有各的测试。公司会选择有利角度展示进步，这并不等于数据无效；它只是提醒读者，benchmark 是地图，不是领土。一个模型在竞赛数学上高分，不等于它适合企业合规审查；一个模型在代码榜上领先，也不等于它能在复杂遗留系统里稳定交付。

Gemini 2.5 的意义，不在于用某一张表宣告胜负，而在于它让 GPT-5 前夜变得不再由 OpenAI 单独定义。OpenAI 如果留下空档，Google 就会把推理模型、长上下文和云端入口填进去。

五、开源权重、公共广场与小语种推理模型

4 月 5 日，Meta 发布 Llama 4 系列。官方文章称其为原生多模态 AI 创新的新阶段，推出 Llama 4 Scout 和 Llama 4 Maverick，并预览更大的 Llama 4 Behemoth。[11] 这是一条与 OpenAI、Google 不完全相同的路线：不是只通过一个闭源 API 出售能力，而是用开放权重把生态扩散出去。

Llama 4 的官方材料强调混合专家架构、多模态能力和长上下文。Scout 被描述为具备超长上下文能力，Maverick 则面向更强的通用助手与多模态任务；Behemoth 在发布时仍是预览，而非可供普通开发者完整调用的产品。[11] 这类细节很重要。开源权重阵营常被写成“闭源巨头之外的自由世界”，但大模型的开放从来不是传统软件开源的简单复刻。权重可以下载，模型可以部署，社区可以微调；训练数据、训练流程、算力成本和许可证边界却未必完全透明。

即便如此，Llama 的现实价值仍然巨大。对许多企业而言，“可控部署”本身就是能力。金融、医疗、政府承包商、制造业和法律服务机构未必愿意把全部数据送进闭源 API。它们关心模型多聪明，也关心数据边界、日志审计、成本上限、供应商锁定和本地化定制。开放权重模型让这些组织多了一张谈判牌：不是所有智能都必须从同一家云端窗口租来。

7 月 9 日，xAI 发布 Grok 4 和 Grok 4 Heavy。[12] 与 Google 的生产力生态、Meta 的开放权重不同，xAI 的优势绑定在 X 平台、实时信息和强烈的品牌传播上。官方发布把 Grok 4 放在前沿模型竞争中，强调推理、工具使用和更强能力。它提醒行业，前沿 AI 的“入口”并不只在办公套件和开发者控制台，也可以在公共舆论广场里。实时性是吸引力，也是风险：越靠近突发信息，越需要来源、纠错和责任边界。

同一时期，欧洲模型公司也没有离场。6 月，Mistral 发布 Magistral，称其为面向推理任务的模型系列，包括开放权重的小型版本和面向企业/API 的中型版本。[13] 它的存在说明，推理模型的概念已经扩散出 OpenAI 的 o 系列。2025 年上半年，“reasoning model”不再是某一家实验室的内部术语，而成了产品目录里的一个类别。

这些非 OpenAI 模型构成了 GPT-5 前夜的横向压力。Google 证明闭源前沿不只有一家；Meta 证明开放权重仍能参与主战场；xAI 证明公共平台可以成为模型分发渠道；Mistral 证明推理模型正在全球化。等待 GPT-5 的行业并不是站在原地看一个门口，而是站在十字路口，被四面八方的发布推着走。

六、普通用户面对的不是智能，是菜单

这一时期最具体的个人影响，不需要编造某个用户在屏幕前皱眉。公开文档已经足够说明问题。

一个 ChatGPT 用户在 2025 年上半年可能看到 GPT-4o、GPT-4.5、o3、o4-mini、o4-mini-high、Deep Research、Codex、Operator 或 ChatGPT agent；不同功能对应 Free、Plus、Pro、Team、Enterprise、Edu 等不同入口和限额。一个 Google 用户则要区分 Gemini app、Gemini Advanced、Google AI Studio、Vertex AI、Gemini 2.5 Pro、Gemini 2.5 Flash、Flash-Lite，以及不同地区、不同产品中的可用性。开发者还要面对模型版本号、上下文长度、工具调用接口、计费方式、速率限制、弃用日期和迁移指南。[4][5][6][7][8][9][10]

这就是人工智能产品化后的行业幽默：公司说要让 AI “just work”，用户却先要做一张模型族谱。

订阅决策也变得更像采购。Plus 是否够用？Pro 是否值得？团队版是否只是权限管理，还是能拿到关键模型？企业版是否提供数据控制和合规条款？如果用 API，应该把复杂任务路由给 o3，日常任务交给 mini 或 Flash，代码任务交给 Codex 或专门的代码模型，长文档交给长上下文模型，还是直接等 GPT-5？这些问题没有一个能靠“最新模型最强”解决。

开发者的处境更具体。GPT-4.5 Preview API 的弃用日期给了一个清晰例子：模型发布后不到两个月，迁移时钟就开始响。[4] 对实验项目来说，这只是改一行 model name；对企业系统来说，它可能意味着重新跑评测、重算成本、更新合规文件、修改提示词、调整缓存、检查失败案例、重新培训内部用户。模型能力越快进步，围绕模型建立的业务系统越容易变成移动靶。

编码工具让这种移动靶进一步加速。OpenAI 的 Codex 把软件工程任务放进云端代理；GitHub 在 6 月宣布 Copilot coding agent 向 Copilot Business 用户开放，把“给 AI 派工单”的模式推向更多企业开发流程。[14] 这类工具并不是简单替代程序员，而是改变代码审查、测试、任务分配和权限边界。开发团队必须决定：哪些仓库能让代理读取？哪些测试必须通过？谁批准合并？代理生成的安全漏洞由谁负责？

用户疲劳因此不是对技术进步的抱怨，而是系统复杂性的结果。每个模型都可能有道理，每个版本都可能在某些测试上更强，每个订阅档位都有自己的说明。问题在于，人类的工作流没有跟着每周发布自动重构。一个律师事务所、医院、学校、客服中心或软件团队，不能因为模型菜单变化就每月重写一次责任制度。

GPT-5 前夜的真正个人体验，常常不是“未来即将到来”的宏大震动，而是一个很小的问题：今天到底该选哪个？

七、榜单之后，是系统的压力

2024 年底，路透社曾报道，OpenAI 等领先实验室正在寻找让 AI 继续变聪明的新路径，因为单纯扩大训练规模的收益面临更复杂的限制。[15] 到 2025 年上半年，公开发布给出了一个答案：实验室没有停止扩大模型，但它们同时把推理时计算、工具调用、长上下文、代码代理、多模态和产品分层推到前台。

这不等于“前沿停滞”，也不等于“AGI 近在眼前”。它说明进步的形态变了。GPT-4 时代最容易讲的故事是一个更大的聊天模型震动世界；2025 年上半年的故事则更像系统工程：哪个模型负责推理，哪个模型负责低成本调用，哪个工具负责浏览，哪个代理负责代码，哪个产品层负责权限，哪个订阅档位负责商业化。

benchmark 在这里仍然有价值，但不能代替判断。前沿公司发布的测试成绩可以显示某些任务上的进步，也可能帮助研究者发现能力边界。可是榜单无法完全回答真实部署中的问题：模型在长上下文中是否遗漏关键条款？代码代理修改文件后是否引入隐蔽漏洞？工具调用失败时系统能否回滚？模型引用来源是否可审计？企业数据是否被用于训练？用户是否理解自己授权了什么？

这就是“真空的尽头”。GPT-5 到来之前，行业已经不再只等一个更强的回答者，而是在等待一个能把这些碎片重新组织起来的系统名称。OpenAI 的 GPT-4.5、GPT-4.1、o3、o4-mini、Codex 和 ChatGPT agent，Google 的 Gemini 2.5 Pro 与 Flash，Meta 的 Llama 4，xAI 的 Grok 4，Mistral 的 Magistral，共同把前沿 AI 从单一模型竞赛推向产品矩阵竞赛。

从第二版叙事看，GPT-5 的意义会在后文展开；本章的任务不是假装它仍在雾中，而是说明雾里已经塞满了机器。等那个更大的名字出现时，市场要比较的已不只是模型聪明程度，还包括价格、延迟、工具、权限、代理能力、开发者生态、企业控制和责任结构。

所谓等待，已经被产业自己改造成了压力测试。

补丁说明

参考文献

OpenAI，OpenAI Live，2025。
OpenAI，Introducing GPT-4.5，2025-02-27。
OpenAI，GPT-4.5 System Card，2025-02-27。
OpenAI，Introducing GPT-4.1 in the API，2025-04-14。
OpenAI，Introducing OpenAI o3 and o4-mini，2025-04-16。
OpenAI，Introducing Codex，2025-05-16。
OpenAI，Introducing ChatGPT agent，2025-07-17。
Google，Gemini 2.5: Our most intelligent AI model，2025-03-25。
Google AI for Developers，Gemini 2.5 Flash Preview release notes，2025-04-17。
Google AI for Developers，Gemini 2.5 Pro and Flash stable releases，2025-06-17。
Meta AI，The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation，2025-04-05。
xAI，Grok 4，2025-07-09。
Mistral AI，Magistral，2025-06-10。
GitHub Blog Changelog，GitHub Copilot coding agent is now available for Copilot Business users，2025-06-24。
Reuters，OpenAI and others seek new path to smarter AI as current methods hit limitations，2024-11-11。

Keyboard shortcuts

智能涌动