Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第25章|AI 进入医院、课堂与实验室:从炫技到专业系统

一、演示之后,轮到签名

2025年1月23日,OpenAI 发布 Operator。官方材料把它放在“research preview”的位置:这个系统可以在浏览器里查看页面、点击按钮、填写表单,替用户完成某些网页任务;在涉及登录凭据、付款、发送邮件等敏感动作时,产品说明强调需要用户接管或确认。[1]

这是一种很有时代感的场景。人工智能不再只是写一段答案,而是把答案推进网页表单,靠近现实系统。一个模型会说话,最多让人担心它胡说;一个模型会点按钮,问题就从“它答得对不对”变成“它有没有权限这样做”。

2月2日,OpenAI 又发布 Deep Research,官方称它可以在网上进行多步骤检索、阅读和综合,并生成带引用的研究报告。[2] 这类产品展示的是另一种方向:模型不仅回答问题,还开始扮演研究助理、资料员和流程执行者。演示足够流畅,足以让人兴奋;但一旦把它移进医院、课堂和实验室,掌声后面很快出现一串不适合发布会大屏幕的问题:

谁授权它读取这些资料?
谁检查它的输出?
谁在最终文件上签名?
如果它错了,责任落在哪里?
如果它大部分时候是对的,人会不会在少数关键错误面前放松警惕?

这就是2025年初专业场景里的真实戏剧。戏剧不在于“AI 替代医生、教师、科学家”这一类夸张口号,而在于一种更麻烦的重排:AI 进入工作流,却没有替人类带走责任。它生成草稿,医生签署;它辅助备课,教师评分;它提出候选算法,研究者验证。工具变强了,问责也变细了。

同一个按钮,在消费互联网里可能只是买一袋猫粮;在医院系统里可能关联病历;在学校系统里可能影响成绩;在实验室里可能变成论文图表和后续实验。专业系统并不反对聪明的机器。它们只是会用一种近乎冷酷的方式追问聪明:你在什么范围内工作,依据是什么,日志在哪里,谁复核,谁负责?

本章只看三个具体场景。一个是临床文书里的环境式 AI 书记员;一个是加州州立大学系统在2025年2月宣布向师生提供 ChatGPT Edu;一个是 Google DeepMind 在2025年5月发布的 AlphaEvolve 式算法发现工作流。它们都不足以代表整个医疗、教育或科研行业。它们的意义恰恰在于具体:AI 不再飘在“行业转型”的口号里,而是被塞进一个个带权限、流程和签名的格子。

二、病历里的草稿,不是诊断书

2025年1月,美国食品药品监督管理局发布关于 AI-enabled device software functions 的生命周期管理和上市提交建议草案。文件讨论的是一种监管者很熟悉、但产品发布会很少愿意停留的事情:AI 医疗软件不只是上线那一刻要看性能,它还可能在生命周期中更新、漂移、适应新环境,因此需要在设计、验证、监测和变更管理上说明清楚。[3]

这份草案给医院里的 AI 热潮泼了一盆必要的冷水。医疗场景欢迎效率,但效率不能自动替代验证。一个系统如果只是整理文书,风险边界与一个介入临床判断的软件不同;一个系统如果会影响诊断、治疗或分诊,监管问题就不能被“它只是建议”几个字轻轻带过。

在真实医院里,生成式 AI 较早落地的常常不是“自动诊断”,而是更琐碎、更沉重、也更容易理解的工作:病历文书。

《NEJM Catalyst》在2024年发表过一篇关于环境式人工智能书记员的文章,描述 The Permanente Medical Group 的部署经验。这个系统的流程并不神秘:在取得患者同意后,它记录门诊中的医患交流,生成临床记录草稿,再由医生审阅、修改并签署。文章称,在部署初期的十周内,数千名医生和临床人员在数十万次就诊中使用了这一工具。[4]

这里的关键词不是“AI 医生”,而是“草稿”。

病人看到的仍然是医生。医生仍然问诊、查体、解释和决策。AI 所做的是把对话转成一份初步笔记,让医生少在电子病历系统里敲一些键。美国医疗体系里,临床文书负担长期被认为是职业倦怠的重要来源之一;如果一个系统能把医生从键盘前解放一点出来,它当然有价值。

但草稿也是一种危险物。它看起来整齐,语气专业,格式像病历,医学术语摆放得体。正因为它像一份合格文件,医生才更需要记住它仍然只是草稿。一个否认症状被写成存在症状,一个药物剂量被听错,一个既往史被遗漏,在普通文档里是错误,在病历里就是风险入口。

这类工具的荒诞感来自它的双重身份:医院买它是为了减少医生负担;为了安全,医生又必须检查它生成的内容。检查太粗,风险上升;检查太细,节省的时间被拿走。所谓“人类在回路中”,不是把医生的名字挂在最后一页就结束,而是要给医生足够时间、界面和训练去发现机器的错误。

到2025年3月,微软发布 Dragon Copilot,官方把它描述为面向临床工作流的 AI 助手,并把此前的语音识别、临床文书和 DAX Copilot 等能力整合到新的产品叙事中。[5] 这是供应商对医疗文书市场的一个强烈信号。但供应商发布材料只能证明产品如何自我定位,不能单独证明患者结局改善、诊断质量提高或医生长期负担下降。专业系统里,宣传语需要被转化成研究设计、实施数据、错误审计和责任安排。

世界卫生组织在2024年关于健康领域大型多模态模型的指南中,把风险列得很直接:不准确或虚假内容、偏见、隐私泄露、网络安全、过度依赖,以及未经充分验证就用于临床任务。[6] 这些词在普通科技报道里可能显得保守,在医院里却很具体。病人是否知道对话被 AI 处理?音频和文本保存多久?模型供应商是否接触数据?医生修改了哪些内容?原始记录能否追溯?如果病历草稿漏写过敏史,最终责任如何认定?

于是,AI 进入门诊时,并没有像科幻小说那样坐上医生椅。它更像一位被允许旁听的书记员:能听,能写,不能签字。

三、患者听见的,是同意;医生留下的,是签名

在环境式 AI 书记员的流程里,患者遇到 AI 的第一个动作通常不是惊叹,而是同意。

这是一种非常普通却重要的专业礼节。医生或医疗机构需要说明:这次问诊可能由 AI 工具辅助记录;患者可以同意,也可能有拒绝的选择;AI 生成的内容不会直接成为最终病历,医生会审阅并签署。相比发布会里的流畅演示,这个场景显得笨拙:先讲用途,再讲限制,再继续问诊。可笨拙正是医疗系统保护人的方式。

患者的体验可能因此改善。医生不必一直盯着屏幕,谈话中少一些键盘声,问诊后的文书时间可能缩短。TPMG 的案例报告中也提到医生和患者对这种工具的积极反馈。[4] 但这里仍然要把边界说清:这类实施报告不是随机对照临床试验,不能据此推出“AI 改善医疗结果”的普遍结论。它证明的是一个具体组织在特定流程中引入 AI 文书工具,并观察到使用规模和反馈;它没有把整个医疗行业都交给模型。

医生留下的最后动作仍然是签名。这个动作在纸面上很简单,在制度上很重。签名意味着医生确认这份记录可以进入病历,意味着后续诊疗、保险编码、转诊沟通和法律审查可能都以它为依据。AI 如果把一句话写错,错误不会因为来源是模型就自动变轻。它进入病历后,就会像其他文书错误一样沿着系统流动。

这也是专业 AI 与消费 AI 的分界。消费软件常常把“用户自行判断”写进条款,然后在大规模使用中快速迭代。医院没有这种奢侈。一个文书工具看似低风险,因为它不直接开药、不直接诊断;但病历是医疗系统的记忆。记忆写错,后面的人就可能在错误记忆上继续工作。

FDA 在2025年草案中讨论生命周期管理,并不只是为了给企业增加表格。AI 医疗软件可能在不同医院、不同科室、不同口音、不同噪声环境中表现不同;模型更新后,旧的验证结果是否还成立,也需要被说明。[3] 对医院而言,采购 AI 不只是购买一个软件席位,而是接受一套持续监测义务:错误样本如何收集,医生如何反馈,版本如何变更,性能如何复查。

如果把这个场景压缩成一句话,那就是:AI 可以帮医生写得更快,但医生不能因此读得更少。

四、课堂从恐慌走向制度化使用

教育场景里的转折同样发生在流程层面。

生成式 AI 刚进入学校时,许多机构首先看到作弊风险。这个反应并不荒谬:如果作业主要表现为一篇可提交文本,而机器能够快速生成可提交文本,学校当然会紧张。只是到了2025年,一些教育机构开始从“要不要禁止”转向更困难的问题:如果学生终究会使用 AI,学校如何规定、训练、监督和评价?

2025年1月,美国教育部教育技术办公室发布《Designing for Education with Artificial Intelligence: An Essential Guide for Developers》。这份文件面向开发者,但它反复指向学校真正关心的问题:教育 AI 应当服务教学目标,尊重教师和学生的角色,关注隐私、安全、公平、可解释性和证据,而不是把课堂当作通用聊天机器人的试验田。[7]

一个月后,加州州立大学系统宣布与 OpenAI 合作,向其23个校区的学生、教师和员工提供 ChatGPT Edu。CSU 官方材料给出的规模是约46万名学生和6.3万名教职员工,并把它放在系统层面的 AI 计划中,包含工具访问、培训和支持资源。[8] OpenAI 同日发布材料,称这是当时 ChatGPT 最大规模的单一机构部署之一;这一表述来自供应商和合作方,应当被视为部署规模的官方说法,而不是学习效果的独立证明。[9]

这件事的重要性不在于“大学拥抱 AI”这种宽泛判断,而在于它把 AI 从个人账号变成了机构安排。个人学生偷偷使用一个公开聊天机器人,与学校采购一个有教育版管理能力的服务,不是同一件事。后者会引出一整套具体问题:账号由谁管理,数据如何保护,教师如何知道学生使用范围,课程政策如何写,哪些作业允许 AI 辅助,哪些考核必须独立完成。

据路透社2025年2月报道,这一合作发生在高校从早期禁用和混乱走向更正式采用的背景中。[10] 但正式采用并不等于教学问题解决。一个学校可以给所有人开通 AI 工具,却仍然不知道怎样衡量学生是否真正学会了写作、推理、编程或批判性阅读。技术部署只是第一步,教学设计才是难处。

教师遇到的 AI,不像发布会里的家教那样永远耐心、永远正确。它更像一位能力很强但需要看管的助教:可以帮忙生成练习题,可以协助改写讲义,可以给学生提供解释,可以让学生练习语言表达;也可能编出错误参考文献,给出过度简化的解释,或让学生把“获得答案”误认为“完成学习”。

学生遇到的 AI,也不是单纯的作弊机器。对一个第一代大学生、英语非母语学生、夜里打工后才有时间学习的学生来说,一个随时可用的解释工具可能确实有帮助。问题在于,帮助和替代之间的边界并不会自动出现。它需要教师把规则写进作业:哪些环节可以用 AI 讨论,哪些文字必须自己完成,是否需要披露使用方式,是否要提交草稿、过程记录或课堂口头解释。

教育领域的荒诞感在这里最明显。过去十几年,教育科技不断承诺“个性化学习”,常常把学生变成仪表盘上的进度条。生成式 AI 终于带来了更像自然语言家教的界面,却同时让传统作业的可信度摇晃。它既可能是补习资源,也可能是代写枪手;区别不只在模型,更在课程目标、教师判断和评价制度。

因此,CSU 的案例不应被写成“AI 改变教育”的胜利宣言。更准确的说法是:一个大型公立大学系统在2025年选择把 AI 使用纳入机构管理,而不是把它完全留在学生个人账号和灰色地带。至于它能否改善学习,还要看课程、教师培训、学生支持、隐私治理和后续评估。

五、实验室里的加速器,先要有计分器

科研场景里,AI 的作用看起来更接近“加速”。但科学系统对加速有自己的脾气:跑得快不够,结果还得能复现。

2025年2月,Google Research 发布“AI co-scientist”相关材料,把它描述为一个基于 Gemini 2.0 的多智能体系统,可以帮助研究者生成假设、进行文献综合并提出实验方向。[11] 这样的叙事容易让人联想到一位自动科学家。但在专业流程里,更可靠的理解是:它可以扩展候选想法的数量,不能替代实验验证和同行审查。

5月,Google DeepMind 发布 AlphaEvolve,称其为由 Gemini 驱动的算法发现智能体。官方材料介绍的核心机制,不是让模型自由写论文,而是让模型生成候选程序,再由自动化评估器测试和打分;系统在迭代中保留更好的候选,继续变异和改进。Google DeepMind 把它用于数学算法和自身计算基础设施优化等例子;这些成效来自供应商发布材料,应当标注为 Google DeepMind 的官方说法,而不是独立行业结论。[12]

AlphaEvolve 的专业意义在于“计分器”。很多研究问题并不适合让语言模型凭口才解决。它们需要可执行代码、测试集、约束条件和明确目标函数。模型提出一个候选算法,评估器运行它,检查正确性,测量效率。如果答案错了,测试会把它打下来;如果答案更快,还要继续确认它不是利用了测试漏洞。这里的 AI 更像一台会不断交作业的机器,而研究者的工作变成了设计题目、写评估器、检查异常、证明结果、复现实验。

这和聊天框里的“请解释某篇论文”完全不同。聊天框给出的是语言,AlphaEvolve 式流程要求候选方案能被机器执行和评分。模型的创造性被放进约束里,才有机会变成科学或工程进展。没有约束,所谓“灵感”可能只是流畅幻觉;有了约束,AI 生成的大量候选至少要先过测试这一关。

但测试也不是上帝。一个自动评估器只能衡量它被设计来衡量的东西。研究者如果把目标函数写窄了,系统可能优化出不符合真实需求的方案;如果测试覆盖不足,候选程序可能在未测试条件下失败;如果结果要进入论文,还需要公开方法、数据、代码、评估细节和失败边界。科学共同体不会因为输出来自 AI 就免除复现要求,反而可能提出更多问题:提示词是什么,模型版本是什么,随机种子如何处理,候选筛选过程是否可追踪,负结果是否被报告。

这就是实验室中的个人影响。研究者获得的不是一位替自己署名的同事,而是一台把候选空间突然扩大的机器。它可能让一个人一天看到过去一周才会尝试的方案,也可能把审查负担同步放大。过去,瓶颈在想法数量;现在,瓶颈可能变成验证能力。

科研 AI 最令人兴奋的地方不在于它绕开科学方法,而在于它在某些明确问题上把科学方法推进得更快。它也最值得怀疑,因为速度越快,越容易把“产生候选”误写成“完成发现”。实验室欢迎加速器,但加速器必须接在刹车、仪表盘和记录仪上。

六、监管文件里的冷水,正是系统的地基

到2025年春天,医院、课堂和实验室面对的是同一种结构性问题:AI 能把专业工作的一部分做得更快,但专业系统不能只按速度采购。

欧盟《人工智能法案》在2024年正式公布,采用基于风险的监管框架。教育和职业培训中的某些 AI 系统、作为医疗器械或其安全组成部分的 AI 系统,都可能落入高风险框架,需要满足风险管理、数据治理、技术文档、透明度、人工监督、准确性、稳健性和网络安全等要求。[13] 这类规定读起来不像创新故事,却定义了创新能否进入制度深处。

医疗里的关键是临床责任。AI 生成病历草稿,医生要审阅签署;AI 辅助分诊或诊断,机构要弄清监管属性、验证证据和适用人群;AI 供应商宣称节省时间,医院还要问节省的是谁的时间、增加的是谁的风险。医生签名不是橡皮图章,患者同意也不是装饰文本。

教育里的关键是学习责任。AI 可以帮助解释和练习,教师仍要判断学生是否掌握了能力;学校可以采购工具,不能把教育公平外包给一个聊天框;学生可以使用辅助系统,但课程规则必须说明何为协助、何为代写、何为必须披露。成绩单上不会写“由模型共同完成”,最后负责评价的人仍是教师和学校。

科研里的关键是知识责任。AI 可以提出假设、写代码、筛选候选;论文作者仍要保证结果可复查,实验仍要能重复,代码和数据仍要经得起同行追问。一个模型生成了漂亮方案,并不意味着这个方案自动成为科学事实。科学事实不是由语言流畅度授予的,而是由证据、方法和共同体审查支撑的。

专业系统里的“人在回路中”也需要警惕变成空话。真正的人类监督要有条件:人要看得懂系统输出,人要有时间检查,人要知道常见错误,人要能推翻模型建议,人要不因组织效率压力而被迫盖章。如果所有流程都要求人负责,却不给人足够能力和时间,那么“人类负责”就会从安全机制滑向责任转嫁。

这就是2025年AI专业化的冷峻面。技术公司把模型包装成助手,机构把助手嵌进流程,监管者要求流程可审计,专业人员在最后签字。每一方都说自己没有完全放手,但风险可能正是在这些“没有完全”之间移动。

七、从炫技到专业系统

2025年1月至5月,人工智能行业仍然热闹。Operator 会点网页按钮,Deep Research 会组织资料,医疗文书工具进入门诊,大学系统开始采购教育版聊天机器人,算法发现系统把语言模型接到自动评估器上。它们都让人看到同一个方向:AI 正从演示台进入工作台。

但工作台不是舞台。

在舞台上,模型只要完成一个令人惊讶的任务;在工作台上,它要被放进权限、日志、培训、验证、采购、隐私、监管和责任链。医院不会因为模型会写医学术语就交出诊疗权;学校不会因为模型会讲题就自动获得学习效果;实验室不会因为模型能生成假设就跳过复现。专业系统的保守,常常不是拒绝创新,而是在保护那些不能用“再试一次”轻易修复的后果。

这并不意味着 AI 的影响被高估。恰恰相反,一旦它被专业系统认真吸收,影响可能比消费级炫技更深。一个可靠的文书助手可能改变医生每天和屏幕相处的时间;一个政策绑定的教育 AI 可能改变教师布置作业和学生寻求帮助的方式;一个带自动评估器的研究智能体可能改变算法搜索的节奏。只是这些改变不会像发布会那样干净,它们会带着培训手册、审批表、错误报告和会议纪要一起出现。

2025年的关键词不是“替代”,而是“协助下的问责”。

AI 帮忙写,谁签?
AI 帮忙教,谁评?
AI 帮忙发现,谁证明?

当这些问题被认真提出时,人工智能才真正开始进入医院、课堂和实验室。炫技让人相信机器会做事;专业系统要求机器做事之后,还能被检查、被限制、被追责。前者制造兴奋,后者制造现实。

参考文献

  1. OpenAI,Introducing Operator,2025.01.23。
  2. OpenAI,Introducing deep research,2025.02.02。
  3. U.S. Food and Drug Administration,Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations; Draft Guidance for Industry and Food and Drug Administration Staff,2025.01.07。
  4. NEJM Catalyst,Ambient Artificial Intelligence Scribes to Alleviate the Burden of Clinical Documentation,2024。
  5. Microsoft,Introducing Dragon Copilot: Your AI assistant for clinical workflow,2025.03.03。
  6. World Health Organization,Ethics and governance of artificial intelligence for health: Guidance on large multi-modal models,2024.01.18。
  7. U.S. Department of Education, Office of Educational Technology,Designing for Education with Artificial Intelligence: An Essential Guide for Developers,2025.01。
  8. California State University,The CSU Makes AI Available to 460,000 Students and 63,000 Faculty and Staff,2025.02.04。
  9. OpenAI,California State University and OpenAI launch the largest deployment of ChatGPT to date,2025.02.04。
  10. Reuters,OpenAI to bring ChatGPT to California State University students and faculty,2025.02.04。
  11. Google Research,Accelerating scientific breakthroughs with an AI co-scientist,2025.02.19。
  12. Google DeepMind,AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms,2025.05.14。
  13. European Union,Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence,2024.07.12。