第25章|AI 进入医院、课堂与实验室:从炫技到专业系统
一、演示之后,轮到签名
2025年1月23日,OpenAI 发布 Operator。官方材料把它放在“research preview”的位置:这个系统可以在浏览器里查看页面、点击按钮、填写表单,替用户完成某些网页任务;在涉及登录凭据、付款、发送邮件等敏感动作时,产品说明强调需要用户接管或确认。[1]
这是一种很有时代感的场景。人工智能不再只是写一段答案,而是把答案推进网页表单,靠近现实系统。一个模型会说话,最多让人担心它胡说;一个模型会点按钮,问题就从“它答得对不对”变成“它有没有权限这样做”。
2月2日,OpenAI 又发布 Deep Research,官方称它可以在网上进行多步骤检索、阅读和综合,并生成带引用的研究报告。[2] 这类产品展示的是另一种方向:模型不仅回答问题,还开始扮演研究助理、资料员和流程执行者。演示足够流畅,足以让人兴奋;但一旦把它移进医院、课堂和实验室,掌声后面很快出现一串不适合发布会大屏幕的问题:
谁授权它读取这些资料?
谁检查它的输出?
谁在最终文件上签名?
如果它错了,责任落在哪里?
如果它大部分时候是对的,人会不会在少数关键错误面前放松警惕?
这就是2025年初专业场景里的真实戏剧。戏剧不在于“AI 替代医生、教师、科学家”这一类夸张口号,而在于一种更麻烦的重排:AI 进入工作流,却没有替人类带走责任。它生成草稿,医生签署;它辅助备课,教师评分;它提出候选算法,研究者验证。工具变强了,问责也变细了。
同一个按钮,在消费互联网里可能只是买一袋猫粮;在医院系统里可能关联病历;在学校系统里可能影响成绩;在实验室里可能变成论文图表和后续实验。专业系统并不反对聪明的机器。它们只是会用一种近乎冷酷的方式追问聪明:你在什么范围内工作,依据是什么,日志在哪里,谁复核,谁负责?
本章只看三个具体场景。一个是临床文书里的环境式 AI 书记员;一个是加州州立大学系统在2025年2月宣布向师生提供 ChatGPT Edu;一个是 Google DeepMind 在2025年5月发布的 AlphaEvolve 式算法发现工作流。它们都不足以代表整个医疗、教育或科研行业。它们的意义恰恰在于具体:AI 不再飘在“行业转型”的口号里,而是被塞进一个个带权限、流程和签名的格子。
二、病历里的草稿,不是诊断书
2025年1月,美国食品药品监督管理局发布关于 AI-enabled device software functions 的生命周期管理和上市提交建议草案。文件讨论的是一种监管者很熟悉、但产品发布会很少愿意停留的事情:AI 医疗软件不只是上线那一刻要看性能,它还可能在生命周期中更新、漂移、适应新环境,因此需要在设计、验证、监测和变更管理上说明清楚。[3]
这份草案给医院里的 AI 热潮泼了一盆必要的冷水。医疗场景欢迎效率,但效率不能自动替代验证。一个系统如果只是整理文书,风险边界与一个介入临床判断的软件不同;一个系统如果会影响诊断、治疗或分诊,监管问题就不能被“它只是建议”几个字轻轻带过。
在真实医院里,生成式 AI 较早落地的常常不是“自动诊断”,而是更琐碎、更沉重、也更容易理解的工作:病历文书。
《NEJM Catalyst》在2024年发表过一篇关于环境式人工智能书记员的文章,描述 The Permanente Medical Group 的部署经验。这个系统的流程并不神秘:在取得患者同意后,它记录门诊中的医患交流,生成临床记录草稿,再由医生审阅、修改并签署。文章称,在部署初期的十周内,数千名医生和临床人员在数十万次就诊中使用了这一工具。[4]
这里的关键词不是“AI 医生”,而是“草稿”。
病人看到的仍然是医生。医生仍然问诊、查体、解释和决策。AI 所做的是把对话转成一份初步笔记,让医生少在电子病历系统里敲一些键。美国医疗体系里,临床文书负担长期被认为是职业倦怠的重要来源之一;如果一个系统能把医生从键盘前解放一点出来,它当然有价值。
但草稿也是一种危险物。它看起来整齐,语气专业,格式像病历,医学术语摆放得体。正因为它像一份合格文件,医生才更需要记住它仍然只是草稿。一个否认症状被写成存在症状,一个药物剂量被听错,一个既往史被遗漏,在普通文档里是错误,在病历里就是风险入口。
这类工具的荒诞感来自它的双重身份:医院买它是为了减少医生负担;为了安全,医生又必须检查它生成的内容。检查太粗,风险上升;检查太细,节省的时间被拿走。所谓“人类在回路中”,不是把医生的名字挂在最后一页就结束,而是要给医生足够时间、界面和训练去发现机器的错误。
到2025年3月,微软发布 Dragon Copilot,官方把它描述为面向临床工作流的 AI 助手,并把此前的语音识别、临床文书和 DAX Copilot 等能力整合到新的产品叙事中。[5] 这是供应商对医疗文书市场的一个强烈信号。但供应商发布材料只能证明产品如何自我定位,不能单独证明患者结局改善、诊断质量提高或医生长期负担下降。专业系统里,宣传语需要被转化成研究设计、实施数据、错误审计和责任安排。
世界卫生组织在2024年关于健康领域大型多模态模型的指南中,把风险列得很直接:不准确或虚假内容、偏见、隐私泄露、网络安全、过度依赖,以及未经充分验证就用于临床任务。[6] 这些词在普通科技报道里可能显得保守,在医院里却很具体。病人是否知道对话被 AI 处理?音频和文本保存多久?模型供应商是否接触数据?医生修改了哪些内容?原始记录能否追溯?如果病历草稿漏写过敏史,最终责任如何认定?
于是,AI 进入门诊时,并没有像科幻小说那样坐上医生椅。它更像一位被允许旁听的书记员:能听,能写,不能签字。
三、患者听见的,是同意;医生留下的,是签名
在环境式 AI 书记员的流程里,患者遇到 AI 的第一个动作通常不是惊叹,而是同意。
这是一种非常普通却重要的专业礼节。医生或医疗机构需要说明:这次问诊可能由 AI 工具辅助记录;患者可以同意,也可能有拒绝的选择;AI 生成的内容不会直接成为最终病历,医生会审阅并签署。相比发布会里的流畅演示,这个场景显得笨拙:先讲用途,再讲限制,再继续问诊。可笨拙正是医疗系统保护人的方式。
患者的体验可能因此改善。医生不必一直盯着屏幕,谈话中少一些键盘声,问诊后的文书时间可能缩短。TPMG 的案例报告中也提到医生和患者对这种工具的积极反馈。[4] 但这里仍然要把边界说清:这类实施报告不是随机对照临床试验,不能据此推出“AI 改善医疗结果”的普遍结论。它证明的是一个具体组织在特定流程中引入 AI 文书工具,并观察到使用规模和反馈;它没有把整个医疗行业都交给模型。
医生留下的最后动作仍然是签名。这个动作在纸面上很简单,在制度上很重。签名意味着医生确认这份记录可以进入病历,意味着后续诊疗、保险编码、转诊沟通和法律审查可能都以它为依据。AI 如果把一句话写错,错误不会因为来源是模型就自动变轻。它进入病历后,就会像其他文书错误一样沿着系统流动。
这也是专业 AI 与消费 AI 的分界。消费软件常常把“用户自行判断”写进条款,然后在大规模使用中快速迭代。医院没有这种奢侈。一个文书工具看似低风险,因为它不直接开药、不直接诊断;但病历是医疗系统的记忆。记忆写错,后面的人就可能在错误记忆上继续工作。
FDA 在2025年草案中讨论生命周期管理,并不只是为了给企业增加表格。AI 医疗软件可能在不同医院、不同科室、不同口音、不同噪声环境中表现不同;模型更新后,旧的验证结果是否还成立,也需要被说明。[3] 对医院而言,采购 AI 不只是购买一个软件席位,而是接受一套持续监测义务:错误样本如何收集,医生如何反馈,版本如何变更,性能如何复查。
如果把这个场景压缩成一句话,那就是:AI 可以帮医生写得更快,但医生不能因此读得更少。
四、课堂从恐慌走向制度化使用
教育场景里的转折同样发生在流程层面。
生成式 AI 刚进入学校时,许多机构首先看到作弊风险。这个反应并不荒谬:如果作业主要表现为一篇可提交文本,而机器能够快速生成可提交文本,学校当然会紧张。只是到了2025年,一些教育机构开始从“要不要禁止”转向更困难的问题:如果学生终究会使用 AI,学校如何规定、训练、监督和评价?
2025年1月,美国教育部教育技术办公室发布《Designing for Education with Artificial Intelligence: An Essential Guide for Developers》。这份文件面向开发者,但它反复指向学校真正关心的问题:教育 AI 应当服务教学目标,尊重教师和学生的角色,关注隐私、安全、公平、可解释性和证据,而不是把课堂当作通用聊天机器人的试验田。[7]
一个月后,加州州立大学系统宣布与 OpenAI 合作,向其23个校区的学生、教师和员工提供 ChatGPT Edu。CSU 官方材料给出的规模是约46万名学生和6.3万名教职员工,并把它放在系统层面的 AI 计划中,包含工具访问、培训和支持资源。[8] OpenAI 同日发布材料,称这是当时 ChatGPT 最大规模的单一机构部署之一;这一表述来自供应商和合作方,应当被视为部署规模的官方说法,而不是学习效果的独立证明。[9]
这件事的重要性不在于“大学拥抱 AI”这种宽泛判断,而在于它把 AI 从个人账号变成了机构安排。个人学生偷偷使用一个公开聊天机器人,与学校采购一个有教育版管理能力的服务,不是同一件事。后者会引出一整套具体问题:账号由谁管理,数据如何保护,教师如何知道学生使用范围,课程政策如何写,哪些作业允许 AI 辅助,哪些考核必须独立完成。
据路透社2025年2月报道,这一合作发生在高校从早期禁用和混乱走向更正式采用的背景中。[10] 但正式采用并不等于教学问题解决。一个学校可以给所有人开通 AI 工具,却仍然不知道怎样衡量学生是否真正学会了写作、推理、编程或批判性阅读。技术部署只是第一步,教学设计才是难处。
教师遇到的 AI,不像发布会里的家教那样永远耐心、永远正确。它更像一位能力很强但需要看管的助教:可以帮忙生成练习题,可以协助改写讲义,可以给学生提供解释,可以让学生练习语言表达;也可能编出错误参考文献,给出过度简化的解释,或让学生把“获得答案”误认为“完成学习”。
学生遇到的 AI,也不是单纯的作弊机器。对一个第一代大学生、英语非母语学生、夜里打工后才有时间学习的学生来说,一个随时可用的解释工具可能确实有帮助。问题在于,帮助和替代之间的边界并不会自动出现。它需要教师把规则写进作业:哪些环节可以用 AI 讨论,哪些文字必须自己完成,是否需要披露使用方式,是否要提交草稿、过程记录或课堂口头解释。
教育领域的荒诞感在这里最明显。过去十几年,教育科技不断承诺“个性化学习”,常常把学生变成仪表盘上的进度条。生成式 AI 终于带来了更像自然语言家教的界面,却同时让传统作业的可信度摇晃。它既可能是补习资源,也可能是代写枪手;区别不只在模型,更在课程目标、教师判断和评价制度。
因此,CSU 的案例不应被写成“AI 改变教育”的胜利宣言。更准确的说法是:一个大型公立大学系统在2025年选择把 AI 使用纳入机构管理,而不是把它完全留在学生个人账号和灰色地带。至于它能否改善学习,还要看课程、教师培训、学生支持、隐私治理和后续评估。
五、实验室里的加速器,先要有计分器
科研场景里,AI 的作用看起来更接近“加速”。但科学系统对加速有自己的脾气:跑得快不够,结果还得能复现。
2025年2月,Google Research 发布“AI co-scientist”相关材料,把它描述为一个基于 Gemini 2.0 的多智能体系统,可以帮助研究者生成假设、进行文献综合并提出实验方向。[11] 这样的叙事容易让人联想到一位自动科学家。但在专业流程里,更可靠的理解是:它可以扩展候选想法的数量,不能替代实验验证和同行审查。
5月,Google DeepMind 发布 AlphaEvolve,称其为由 Gemini 驱动的算法发现智能体。官方材料介绍的核心机制,不是让模型自由写论文,而是让模型生成候选程序,再由自动化评估器测试和打分;系统在迭代中保留更好的候选,继续变异和改进。Google DeepMind 把它用于数学算法和自身计算基础设施优化等例子;这些成效来自供应商发布材料,应当标注为 Google DeepMind 的官方说法,而不是独立行业结论。[12]
AlphaEvolve 的专业意义在于“计分器”。很多研究问题并不适合让语言模型凭口才解决。它们需要可执行代码、测试集、约束条件和明确目标函数。模型提出一个候选算法,评估器运行它,检查正确性,测量效率。如果答案错了,测试会把它打下来;如果答案更快,还要继续确认它不是利用了测试漏洞。这里的 AI 更像一台会不断交作业的机器,而研究者的工作变成了设计题目、写评估器、检查异常、证明结果、复现实验。
这和聊天框里的“请解释某篇论文”完全不同。聊天框给出的是语言,AlphaEvolve 式流程要求候选方案能被机器执行和评分。模型的创造性被放进约束里,才有机会变成科学或工程进展。没有约束,所谓“灵感”可能只是流畅幻觉;有了约束,AI 生成的大量候选至少要先过测试这一关。
但测试也不是上帝。一个自动评估器只能衡量它被设计来衡量的东西。研究者如果把目标函数写窄了,系统可能优化出不符合真实需求的方案;如果测试覆盖不足,候选程序可能在未测试条件下失败;如果结果要进入论文,还需要公开方法、数据、代码、评估细节和失败边界。科学共同体不会因为输出来自 AI 就免除复现要求,反而可能提出更多问题:提示词是什么,模型版本是什么,随机种子如何处理,候选筛选过程是否可追踪,负结果是否被报告。
这就是实验室中的个人影响。研究者获得的不是一位替自己署名的同事,而是一台把候选空间突然扩大的机器。它可能让一个人一天看到过去一周才会尝试的方案,也可能把审查负担同步放大。过去,瓶颈在想法数量;现在,瓶颈可能变成验证能力。
科研 AI 最令人兴奋的地方不在于它绕开科学方法,而在于它在某些明确问题上把科学方法推进得更快。它也最值得怀疑,因为速度越快,越容易把“产生候选”误写成“完成发现”。实验室欢迎加速器,但加速器必须接在刹车、仪表盘和记录仪上。
六、监管文件里的冷水,正是系统的地基
到2025年春天,医院、课堂和实验室面对的是同一种结构性问题:AI 能把专业工作的一部分做得更快,但专业系统不能只按速度采购。
欧盟《人工智能法案》在2024年正式公布,采用基于风险的监管框架。教育和职业培训中的某些 AI 系统、作为医疗器械或其安全组成部分的 AI 系统,都可能落入高风险框架,需要满足风险管理、数据治理、技术文档、透明度、人工监督、准确性、稳健性和网络安全等要求。[13] 这类规定读起来不像创新故事,却定义了创新能否进入制度深处。
医疗里的关键是临床责任。AI 生成病历草稿,医生要审阅签署;AI 辅助分诊或诊断,机构要弄清监管属性、验证证据和适用人群;AI 供应商宣称节省时间,医院还要问节省的是谁的时间、增加的是谁的风险。医生签名不是橡皮图章,患者同意也不是装饰文本。
教育里的关键是学习责任。AI 可以帮助解释和练习,教师仍要判断学生是否掌握了能力;学校可以采购工具,不能把教育公平外包给一个聊天框;学生可以使用辅助系统,但课程规则必须说明何为协助、何为代写、何为必须披露。成绩单上不会写“由模型共同完成”,最后负责评价的人仍是教师和学校。
科研里的关键是知识责任。AI 可以提出假设、写代码、筛选候选;论文作者仍要保证结果可复查,实验仍要能重复,代码和数据仍要经得起同行追问。一个模型生成了漂亮方案,并不意味着这个方案自动成为科学事实。科学事实不是由语言流畅度授予的,而是由证据、方法和共同体审查支撑的。
专业系统里的“人在回路中”也需要警惕变成空话。真正的人类监督要有条件:人要看得懂系统输出,人要有时间检查,人要知道常见错误,人要能推翻模型建议,人要不因组织效率压力而被迫盖章。如果所有流程都要求人负责,却不给人足够能力和时间,那么“人类负责”就会从安全机制滑向责任转嫁。
这就是2025年AI专业化的冷峻面。技术公司把模型包装成助手,机构把助手嵌进流程,监管者要求流程可审计,专业人员在最后签字。每一方都说自己没有完全放手,但风险可能正是在这些“没有完全”之间移动。
七、从炫技到专业系统
2025年1月至5月,人工智能行业仍然热闹。Operator 会点网页按钮,Deep Research 会组织资料,医疗文书工具进入门诊,大学系统开始采购教育版聊天机器人,算法发现系统把语言模型接到自动评估器上。它们都让人看到同一个方向:AI 正从演示台进入工作台。
但工作台不是舞台。
在舞台上,模型只要完成一个令人惊讶的任务;在工作台上,它要被放进权限、日志、培训、验证、采购、隐私、监管和责任链。医院不会因为模型会写医学术语就交出诊疗权;学校不会因为模型会讲题就自动获得学习效果;实验室不会因为模型能生成假设就跳过复现。专业系统的保守,常常不是拒绝创新,而是在保护那些不能用“再试一次”轻易修复的后果。
这并不意味着 AI 的影响被高估。恰恰相反,一旦它被专业系统认真吸收,影响可能比消费级炫技更深。一个可靠的文书助手可能改变医生每天和屏幕相处的时间;一个政策绑定的教育 AI 可能改变教师布置作业和学生寻求帮助的方式;一个带自动评估器的研究智能体可能改变算法搜索的节奏。只是这些改变不会像发布会那样干净,它们会带着培训手册、审批表、错误报告和会议纪要一起出现。
2025年的关键词不是“替代”,而是“协助下的问责”。
AI 帮忙写,谁签?
AI 帮忙教,谁评?
AI 帮忙发现,谁证明?
当这些问题被认真提出时,人工智能才真正开始进入医院、课堂和实验室。炫技让人相信机器会做事;专业系统要求机器做事之后,还能被检查、被限制、被追责。前者制造兴奋,后者制造现实。
参考文献
- OpenAI,Introducing Operator,2025.01.23。
- OpenAI,Introducing deep research,2025.02.02。
- U.S. Food and Drug Administration,Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations; Draft Guidance for Industry and Food and Drug Administration Staff,2025.01.07。
- NEJM Catalyst,Ambient Artificial Intelligence Scribes to Alleviate the Burden of Clinical Documentation,2024。
- Microsoft,Introducing Dragon Copilot: Your AI assistant for clinical workflow,2025.03.03。
- World Health Organization,Ethics and governance of artificial intelligence for health: Guidance on large multi-modal models,2024.01.18。
- U.S. Department of Education, Office of Educational Technology,Designing for Education with Artificial Intelligence: An Essential Guide for Developers,2025.01。
- California State University,The CSU Makes AI Available to 460,000 Students and 63,000 Faculty and Staff,2025.02.04。
- OpenAI,California State University and OpenAI launch the largest deployment of ChatGPT to date,2025.02.04。
- Reuters,OpenAI to bring ChatGPT to California State University students and faculty,2025.02.04。
- Google Research,Accelerating scientific breakthroughs with an AI co-scientist,2025.02.19。
- Google DeepMind,AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms,2025.05.14。
- European Union,Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence,2024.07.12。