第5章｜GPT-4登场：黑箱、考试和多模态的春雷

一、三月十四日的春雷

2023年3月14日，OpenAI没有用一场乔布斯式的舞台仪式宣布GPT-4。春雷是从网页、PDF和直播视频里同时传出来的。

前一个月，Google还在Bard演示失误的阴影里。那件事在上一章已经铺开：据路透社报道，Google用于展示Bard的材料中，把詹姆斯·韦布空间望远镜同“太阳系外行星第一张照片”错误关联；同日报道还把这次失误与当天Alphabet股价下跌放在同一篇新闻里描述。[1] 这不应被简化成“一张错误天文图导致千亿美元蒸发”的机械因果。资本市场的价格从来不是单一变量的温度计。但在2023年2月至3月的生成式AI竞赛中，这个失误确实成了一个行业信号：发布节奏、模型能力和公众信任，开始彼此牵连。

就在这种空气里，OpenAI发布了博客《GPT-4》，公布《GPT-4 Technical Report》，同时放出《GPT-4 System Card》。三份材料承担三种功能：博客面向公众和客户，技术报告面向研究者与开发者，System Card面向安全社区、政策制定者以及所有关心模型失控边界的人。[2][3][4]

OpenAI在博客标题下给出一句产品定位：“GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses.”[2] 这句话把两个方向绑在一起：更强，也要更安全；更有用，也意味着更可能被放进真实流程。它不是简单宣布ChatGPT有了新版本，而是在告诉市场：竞争不再只是聊天窗口的口才竞赛，而是模型能力本身的跃迁。

技术报告的摘要更冷静。OpenAI写道：“We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs.”[3] 这句话里有三个关键限制。第一，GPT-4是大规模模型；第二，它是多模态模型，可以接受图像和文本输入；第三，它的输出仍然是文本。OpenAI展示的是未来的门缝，不是把整扇门立刻拆下来交给所有人。

发布材料同时承认，GPT-4并不可靠到可以被神化。OpenAI称，在内部评估中，GPT-4相较GPT-3.5少82%回应不允许内容请求，并且在内部事实性评估中产生事实性回答的可能性提高40%。[2] 这些数字适合标题，也必须带着限定阅读：这是OpenAI自己的内部评估，不是所有场景、所有语言、所有用户任务中的普遍保证。

因此，3月14日这一天的真正声响，不是“一个聊天机器人升级了”。它像一次能力公告：模型会考试，会写代码，会读图，会处理更复杂指令，会接入产品，会被放进教育和无障碍场景；同时，它仍然会幻觉，会犯推理错误，会被诱导，也会让外界越来越难看清它的内部结构。兴奋与怀疑从同一天开始结伴而行。

二、考试成绩表：机器进入人类筛选体系

GPT-4发布材料中最容易被传播的，不是模型架构，也不是训练细节，而是一张考试成绩表。

OpenAI在博客和技术报告中写道，GPT-4在若干专业和学术基准测试上表现出“human-level performance”。其中最醒目的例子，是模拟律师资格考试。OpenAI称，GPT-4的成绩大约位于考生前10%，而GPT-3.5大约位于后10%。[2][3] 这组对比被无数人转述，因为它简洁、戏剧性强，而且带有一种制度反讽：人类社会长期用考试筛选人，2023年春天，考试忽然成了模型发布材料里的橱窗。

技术报告还列出其他考试表现。GPT-4在LSAT中约处第88百分位；SAT Evidence-Based Reading and Writing约第93百分位，SAT Math约第89百分位；GRE Verbal约第99百分位，GRE Quantitative约第80百分位，GRE Writing约第54百分位。[3] 这些数字来自OpenAI报告中的测试表格，不等同于真实职业能力，也不能推出“模型就是律师、医生或研究生”。但它们足以改变许多人理解模型能力的尺度。

荒诞感由此出现。法学院、研究生院、职业资格、标准化考试机构、招聘系统，都围绕分数建立了复杂而庄严的流程。一个模型没有上课，没有缴学费，没有走进考场，也不承担职业责任，却被放进同一套评价体系里，作为能力证明的一部分展示给世界。行业没有嘲笑学生，也没有嘲笑考试机构；荒诞来自制度本身突然被一台机器借用。

OpenAI还报告，GPT-4在MMLU上的准确率为86.4%，高于GPT-3.5的70.0%。[3] MMLU覆盖57个学科领域，包括数学、法律、医学、伦理学、计算机科学等。这个基准的意义不在于证明模型“懂得一切”，而在于显示它在跨领域任务上的广度提高。过去很多AI系统擅长窄任务，GPT-4展示的则是一种更通用的答题能力。

但高分表格必须被放回基准测试的框架内。基准可能受到训练数据污染影响；考试题并不等于真实世界任务；模型可能擅长格式化问题，却在开放场景中给出自信的错误。OpenAI在技术报告中承认，GPT-4仍然“hallucinates facts and makes reasoning errors”。[3] 这句承认像一只刹车片，压在所有漂亮百分位数旁边。

对学生来说，这意味着“会做题”这件事被重新定价。对教师来说，作业、测验和课堂反馈需要重新设计。对专业机构来说，考试作为能力代理指标的地位受到外部压力。对创业者来说，这些分数又是新的路演语言：如果模型能在传统筛选体系里拿高分，它也许能被包装进辅导、合规、法律检索、医疗问答、编程助手和企业培训。考试成绩表于是变成了2023年AI产业的一个奇观：人类用来管理人的制度，突然被用来宣传机器的能力。

三、黑箱：越强，越少被看见

如果说考试成绩制造了震撼，那么技术报告中的一段说明制造了不安。

OpenAI在《GPT-4 Technical Report》中写道：“Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.”[3]

这句话是GPT-4时代的关键注脚。OpenAI告诉外界：模型很强，成绩可以列出来，案例可以展示，API可以申请，但关于架构、参数规模、硬件、训练算力、数据构成和训练方法，报告不再继续披露。

在机器学习研究传统里，论文长期承载一种可复现理想。研究者写清模型结构、数据、超参数、训练过程和评测方法，其他研究者据此验证、批评和改进。GPT-4的技术报告仍像论文，有摘要、表格、基准和限制说明；但它同时又不像传统论文，因为最核心的制作细节被遮住了。它更像一种混合文本：一部分是科研报告，一部分是产品白皮书，一部分是安全披露，一部分是竞争环境下的有限透明。

OpenAI给出的理由是竞争和安全。竞争很好理解。训练前沿模型需要巨额算力、工程经验、数据处理能力和部署基础设施，公开过多细节等于向竞争者赠送路线图。安全也容易理解。模型越强，潜在滥用越复杂；公开能力边界、训练方式和绕过方法，可能降低恶意使用门槛。

但理由成立，不等于矛盾消失。GPT-4越有能力进入社会，社会越需要理解它；它越有能力，OpenAI越有动力减少公开细节。这个张力不是GPT-4独有，却在GPT-4发布时变得清晰。一个普通软件的黑箱，通常只影响某个功能；一个通用语言模型的黑箱，可能同时进入搜索、教育、办公、代码、客服、法律信息、医疗问答和舆论生产。

System Card承担了另一种透明度。OpenAI在其中讨论幻觉、偏见、隐私、网络安全、化学和生物风险、模型自主行为倾向、经济影响、越狱绕过等问题，并称发布前与50多名外部专家合作进行对抗性测试和风险评估，领域包括AI对齐、网络安全、生物风险和国际安全等。[4] 这不是广告文案，而是一份风险账本。

账本存在本身说明，OpenAI知道GPT-4不能只按普通消费软件处理。文字处理器出错，通常是排版乱了；地图软件出错，可能把人带到错误路口；通用语言模型出错，则可能用流畅语言进入判断、建议、解释和决策流程。它的输出不是单个按钮功能，而是一种可以被嵌入各行业的“能力”。

这里也出现了时代中的个体位置。企业里的合规负责人需要判断哪些问题能让模型回答；大学教师需要决定什么作业仍能衡量学生能力；独立开发者需要在API文档和等待名单之间设计新产品；普通用户则要学会分辨一段流畅文字究竟是答案、猜测还是幻觉。GPT-4的黑箱不是只困扰研究者，它开始成为很多岗位日常判断的一部分。

四、多模态：模型越出文字边界

GPT-4发布日最能点燃想象力的，是多模态。

OpenAI在博客和技术报告中都强调，GPT-4可以接受图像和文本输入，并输出文本。[2][3] 这意味着用户不必把世界全部翻译成文字再交给模型。图像可以成为任务上下文的一部分：一张图里有什么，图中物体之间有什么关系，一张截图应该如何解释，一份草图能不能转成某种设计或代码。

3月14日，OpenAI还举行了面向开发者的公开视频演示。OpenAI总裁Greg Brockman在直播中展示GPT-4的指令跟随、代码生成和图像理解能力。[5] 其中最容易传播的片段，是把手绘网页草图交给模型，让它生成可运行网页代码。这个场景带着典型的2023年互联网荒诞感：过去从想法到网页，需要需求、设计、前端、测试、修改、再修改；演示里，一张纸、一段提示词和一个模型把流程压缩成几分钟。

这不是说软件工程被取消了。能跑的原型和可维护、可扩展、可审计的系统之间仍有距离。真正的产品还要处理安全、权限、性能、边界条件、用户体验和维护成本。可是对开发者、小团队和产品经理来说，原型阶段的门槛被明显推低。一个人可以更快把想法变成可展示的东西，再决定它是否值得投入更多工程资源。

OpenAI没有把视觉能力立刻完整交给所有用户。博客说明，图像输入能力仍处于研究预览阶段，并未在发布时普遍向公众开放。[2] 这体现了GPT-4发布叙事中的双重性：展示未来，同时控制未来进入市场的速度。

这种克制并不只是产品排队。视觉能力天然牵涉更多敏感场景。文本模型已经会生成错误答案；如果模型开始解释图像，错误可能进入医疗图像、药品标签、身份线索、地理位置、儿童安全、版权内容和无障碍辅助。模型把一张休闲照片说错，后果也许只是尴尬；把交通标识、过敏信息或药品说明说错，后果就可能改变性质。

多模态因此不是一个炫技功能，而是一扇门。门后是更自然的人机交互：用户拍照、上传截图、圈出图像、让模型解释世界的一部分。门后也是更复杂的责任分配：当模型看错、漏看、误解或过度自信时，谁来发现错误，谁来承担损害，谁来决定哪些视觉任务不能交给它。

Greg Brockman在发布日扮演的角色，也不只是公司高管。他是OpenAI面向开发者世界的展示窗口。研究报告告诉人们模型得了多少分，直播演示告诉人们这些能力如何变成应用。前者给产业一个坐标，后者给开发者一个诱惑：如果文本框能读图、写代码、解释意图，那么产品边界就不再由旧界面决定。

五、Bing：搜索战争的底盘露出来

同一天，微软揭开了2月留下的悬念。

2023年3月14日，Microsoft Bing Blog发布文章《Confirmed: the new Bing runs on OpenAI’s GPT-4》。文章写道：“We are happy to confirm that the new Bing is running on GPT-4, customized for search.”[6] 这句话把上一章的搜索战争和本章的能力跃迁接上了。

2月微软发布新版Bing和Edge时，只说底层使用了下一代OpenAI大语言模型，并针对搜索进行了定制。GPT-4正式发布后，微软确认新版Bing运行在GPT-4的定制版本之上。[6] 这意味着，GPT-4不是发布之后才开始寻找产品入口；在很多用户知道它名字之前，它已经以定制形态进入搜索预览。

搜索是残酷的测试场。用户问题开放、混乱、即时，很多问题没有单一标准答案；搜索还牵涉网页来源、时效性、广告商业模式、版权、引用和信息可信度。把GPT-4放进Bing，不只是让聊天机器人多一个入口，而是把大模型接到互联网信息分发的一条主干上。

这也是微软与OpenAI联盟的结构优势。OpenAI提供模型能力，微软提供云基础设施、资本、企业客户关系和入口产品。GPT-4发布时，OpenAI面向ChatGPT Plus用户和开发者开放受限访问，API使用还需要等待名单。[2] 与此同时，微软已经把定制版GPT-4嵌进Bing预览。一个渠道面向订阅用户和开发者，一个渠道面向搜索入口，两者互相证明。

Google面对的压力因此不再只是“Bard能不能回答得更好”。问题扩大为：谁能在模型能力、产品稳定性、基础设施、风险控制和发布节奏上同时跑起来。Google不缺AI研究传统，也不缺Transformer历史地位；但2023年春天，市场衡量的是能力能否进入产品，产品能否承受公众试用，公众试用又会不会立刻变成声誉风险。

新Bing也暴露了聊天式搜索的悖论。传统搜索把网页列出来，用户自己点击、比较、判断，责任在搜索引擎、网页作者和用户之间分散。聊天式搜索把信息包装成自然语言答案，体验更顺滑，责任也更集中。它越像一个权威助手，错的时候越难用“只是列出链接”来解释。

GPT-4给Bing带来了叙事火力。微软不必只说自己做了一个新界面，它可以说底层模型已经进入新一代；OpenAI也不必只展示考试表格，它可以指向一个真实入口：模型已经在搜索里被试用。搜索战争从此不再只是搜索战争，它变成模型、云、浏览器、开发者生态和信任机制的交汇点。

六、Khanmigo与Virtual Volunteer：能力开始寻找社会入口

如果GPT-4只停留在考试成绩和开发者演示里，它会像一次技术圈烟花。3月14日前后，OpenAI和合作伙伴开始把它放进更具体的社会场景：教育、无障碍辅助和生产力流程。

Khan Academy在GPT-4发布日宣布推出由GPT-4驱动的学习向导Khanmigo。[7] Khan Academy不是普通AI创业公司，而是长期提供在线教育资源的非营利教育平台。它把GPT-4放进教育语境时，重点不是鼓励学生把答案外包给模型，而是尝试让模型扮演学习引导者和教师助手。

Sal Khan后来在TED演讲《How AI could save (not destroy) education》中继续讲述这条路线。[8] 标题本身就压着2023年教育界的矛盾：AI可能帮助教育，也可能破坏教育。前几章已经写过，学校和教师最先感受到的是作弊、代写、作业失效和检测困难。GPT-4出现后，Khan Academy试图给出另一种产品叙事：如果模型不直接替学生完成作业，而是追问、提示、解释、改写教学材料，它也许能成为个性化辅导的一部分。

兴奋来自一个长期瓶颈。教育受制于师生比，一个老师很难同时给几十名学生提供即时、耐心、个性化的反馈。一个足够强的AI辅导系统，看起来像是在攻击这个瓶颈：它可以换一种说法解释概念，生成练习题，追问学生推理过程，帮助教师准备课堂材料。

怀疑也必须在同一页上。教育不是把答案从一端传到另一端。它还包括动机、关系、挫折、判断、价值观、同伴互动和社会化。模型可能解释得好，也可能自信地解释错；它可能鼓励学生思考，也可能让学生更依赖即时反馈。Khanmigo的意义不在于宣布AI教育已经成功，而在于把GPT-4从“会考试的机器”推进到“可能参与学习过程的系统”。

另一个更具象的场景来自Be My Eyes。OpenAI在发布日介绍，Be My Eyes使用GPT-4推动视觉无障碍场景，推出Virtual Volunteer功能，让用户通过图像获得模型生成的视觉解释和帮助。[9] Be My Eyes原本通过志愿者视频通话帮助盲人和低视力用户识别现实世界中的视觉信息。GPT-4的视觉能力让一种新流程出现：模型先解释图像，必要时再连接人工帮助。

这个案例重要，是因为它把多模态从演示台带进日常细节。图片可能是一件衣服、一台家电、一份菜单、一个冰箱内部、一张网页截图、一条街道标识。对视力正常的人来说，这些信息像背景噪音一样随手可得；对盲人和低视力用户来说，它们常常需要他人协助才能获得。模型如果可靠，日常生活中的一部分摩擦就可能被降低。

但无障碍场景也提醒人们，错误并不总是轻微。把衣服颜色说错，代价有限；把药品标签、食品过敏信息、交通标识或紧急提示说错，后果就不同。GPT-4视觉能力在发布时仍受限制，OpenAI选择通过合作伙伴展示，也说明它没有把这项能力当作普通聊天功能随意释放。[2][9]

Khanmigo和Virtual Volunteer共同说明，GPT-4发布后，问题从“模型有多强”转向“模型在哪里有用”。强是一种潜能，有用需要场景、流程、责任和边界。每当模型嵌进一个真实服务，都会出现新的操作问题：谁审核输出，谁支付成本，谁处理错误，谁决定它什么时候应该回答，什么时候必须闭嘴。

七、春雷之后，战场扩大

GPT-4不是终点。它更像一声把战场边界震开的春雷。

在它之前，公众讨论生成式AI，常常围绕聊天窗口展开：它会写诗、写邮件、写代码、写作业，也会胡说八道。GPT-4之后，讨论重心开始移动。考试成绩告诉人们，模型进入了人类能力评价体系；多模态演示告诉人们，模型不必永远困在文本输入里；Bing确认告诉人们，模型已经成为搜索入口的底层动力之一；Khan Academy和Be My Eyes告诉人们，模型可能进入教育和辅助生活。

3月下旬，微软研究院作者团队在arXiv发布论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》。标题里的“sparks”迅速成为争议词。[10] 这不是学界共识，也不是监管结论，更不是证明GPT-4已经拥有通用人工智能。它更像2023年春天气氛的一个标记：一些研究者认为GPT-4表现出超出传统窄任务系统的广泛能力，另一些人则提醒，基准测试、演示和主观观察不足以证明真正理解、稳定推理或自主智能。

兴奋和怀疑从此绑在一起。只兴奋，会把模型能力误读成魔法；只怀疑，又会低估能力曲线对制度的冲击。GPT-4重要的地方，恰恰是它同时给两边提供证据。它足够强，强到让律师考试、编程演示、图像理解、搜索入口、教育辅导和无障碍辅助都成为真实议题；它也足够不透明、不稳定，足以让安全、监管、隐私、版权和责任问题无法被忽略。

OpenAI的发布方式本身，就是这一时代的缩影。它展示成绩，但隐藏训练细节；它开放文本能力，但限制图像能力；它强调安全改进，但承认幻觉和风险；它拥抱开发者生态，同时用等待名单和访问控制管理扩散速度。GPT-4像一台发动机，发布日不是把发动机图纸交给全行业，而是把发动机装进几辆车，让公众先听见轰鸣。

从GPT-4开始，AI公司的竞争不再只是聊天窗口竞争。聊天窗口仍然重要，因为它是普通人接触模型最直接的入口。但真正的竞争扩展到更深处：谁有足够算力训练下一代模型；谁能获得高质量数据并处理数据风险；谁能把模型接进搜索、办公、编程、教育、医疗和硬件；谁能吸引开发者围绕API建设生态；谁能在监管到来前建立可信安全叙事；谁能在模型犯错时承担代价而不失去用户信任。

Google在Bard演示失误后感到压力，说明仓促展示会被市场放大检验。OpenAI发布GPT-4，说明能力跃迁会重塑竞争坐标。但GPT-4也把另一个问题推到台前：当最强模型越来越像基础设施，而外界越来越难看清其内部，社会应该如何监督一种既有商业价值、又有公共影响的黑箱能力？

春雷之后，雨没有立刻落完。它只是告诉所有人，云层已经变厚，战场已经扩大。

参考文献

Reuters，“Google AI chatbot Bard offers inaccurate information in company ad”，2023-02-08。
OpenAI Blog，“GPT-4”，2023-03-14。
OpenAI，“GPT-4 Technical Report”，2023-03。
OpenAI，“GPT-4 System Card”，2023-03。
OpenAI / YouTube，“GPT-4 Developer Livestream”，2023-03-14。
Microsoft Bing Blog，“Confirmed: the new Bing runs on OpenAI’s GPT-4”，2023-03-14。
Khan Academy，“Khan Academy announces GPT-4 powered learning guide Khanmigo”，2023-03-14。
TED，Sal Khan，“How AI could save (not destroy) education”，2023。
OpenAI Customer Stories，“Be My Eyes uses GPT-4 to transform visual accessibility”，2023-03-14。
Microsoft Research / arXiv，“Sparks of Artificial General Intelligence: Early experiments with GPT-4”，2023-03。

Keyboard shortcuts

智能涌动