第2章|百万用户与作业风暴:机器坐进教室、办公室和论坛
一、程序员先听见警报
ChatGPT刚刚让普通用户惊呼“它会写代码”,程序员社区却先发现了另一个事实:它也会高速制造貌似正确的错误。
2022年12月5日,Stack Overflow的Meta社区发布了一条临时政策,标题没有绕弯:“Temporary policy: ChatGPT is banned”。公告写道:“Use of ChatGPT generated text for posts on Stack Overflow is temporarily banned.”——在Stack Overflow发帖使用ChatGPT生成文本被临时禁止。管理团队给出的核心理由,不是ChatGPT完全无用,而是它的答案太容易披上有用的外衣。公告称:“the average rate of getting correct answers from ChatGPT is too low”,而发布由ChatGPT生成的答案,对网站和那些寻找正确答案的用户“substantially harmful”。[1]
这条政策的关键词是“temporarily”。它不是一次技术判决书,也不是对大语言模型长期价值的否定。它更像一张社区防汛通知:水已经进来了,先把闸门关上。
Stack Overflow不是普通闲聊论坛。它更像一个被搜索引擎嵌入全球软件开发流程的公共工具箱。有人报错,有人回答;有人补充,有人投票;多年之后,另一个开发者把错误信息复制进搜索框,又被带回某个旧答案。它的价值并不只在实时问答,而在长期累积。一个回答如果被投票、编辑、评论、纠错,就会变成后来许多人的路标。
这个系统当然从来不完美。程序员世界并不缺错误回答、过时解决方案、复制粘贴、半懂不懂的建议,以及那句充满古典气息的“在我机器上可以运行”。但旧秩序有一个前提:错误出现的速度大体仍在人类治理能力之内。版主、投票者、提问者和后来者,可以在一定时间里把错误识别出来、压下去、改掉,或者至少在评论区留下警告。
ChatGPT改变的是速度和成本。
过去,一个用户要编造一段看似可信的技术答案,至少要组织语句、模拟专业口吻、写出代码块、补上解释。现在,一个对话框可以在几秒钟内生成缩进良好、术语齐全、语气笃定的回答。问题不在于每一条都错,而在于它们足够像真答案,需要懂行的人花时间辨别。一个错误如果写得粗糙,社区可以很快扫掉;一个错误如果写得像教程,治理成本就会骤然上升。
OpenAI在发布ChatGPT的博客里其实已经承认过这个限制。公司写道:“ChatGPT sometimes writes plausible-sounding but incorrect or nonsensical answers.”——ChatGPT有时会写出听起来合理、但错误或无意义的答案。[2] 在产品说明中,这是一条“局限性”;在Stack Overflow那里,它变成了公共知识库的污染风险。因为程序员社区里的“听起来合理”不是文学修辞,而是可能被复制进终端、提交进代码库、带进生产环境的东西。
讽刺由此形成:ChatGPT最早被大众称赞的能力之一,是它会写代码;最早对它按下暂停键的地方之一,恰恰是程序员问答社区。它的生产力和污染力来自同一个引擎。它能帮助用户绕过空白页,也能帮助用户绕过理解本身。
二、百万用户不是科幻数字
如前章所述,ChatGPT的扩散速度很快。2022年12月5日,OpenAI首席执行官Sam Altman在社交平台写道:“ChatGPT launched on wednesday. today it crossed 1 million users!”[3] 从11月30日到12月5日,五天。一个对话框跨过了一百万用户。
在本章里,这个数字不再作为发布奇观展开,而是作为社会压力的起点。一个产品团队看到的是增长曲线;一个论坛治理团队看到的是待审核文本的洪水。两件事同时成立。采用越快,外部性也越快。
公众并不是通过“人工通用智能”的定义认识ChatGPT的。多数人的入口更朴素:打开网页,输入一句话,让它写邮件、解释代码、起草计划、生成故事开头、把难懂概念讲得简单一些。它没有机器人身体,没有自动驾驶汽车那样的传感器和车轮,也没有AlphaGo那种可以直播胜负的棋盘。它是一种嵌在打字动作里的技术。人们不是围观它,而是把小任务交给它。
OpenAI在发布博客中写道:“The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests.”[2] 这句话在产品材料里描述的是对话能力;在现实世界里,却像一份理想助理的岗位说明:能接话,能修改,能解释,能在某些时候说“不”。
但真实世界不会按照产品说明书使用工具。用户不会只问演示问题,也不会总在风险边界内停下。有人把它当搜索引擎,有人把它当私人教师,有人把它当代码助手,有人把它当不会抱怨的实习生。行业荒诞感就在这里:一个被标成“研究预览”的系统,转眼被拉去承担作业辅导、技术支持、文案外包、论坛问答和办公室润色;一个在说明中提醒自己会胡说的产品,被许多人当作答案机器。
这不是个体轻信造成的简单笑话。现代学校和办公室本来就充满可模板化文本。报告有格式,邮件有格式,作文有格式,客服回复有格式,代码注释也有格式。ChatGPT进入这些地方,并不需要拥有人的全部能力。它只要足够擅长生产“像那么回事”的文本,就能立刻嵌入大量日常流程。
于是,问题从“模型能不能回答”变成了“当所有人都能让模型回答时,社会系统如何承受这些回答”。在开放网页里,它像玩具;在Stack Overflow里,它像知识库污染源;在学校里,它是作弊工具或教学工具;在办公室里,它是提效软件、风险入口,也是责任归属难题。机器没有改变形状,场景改变了它的含义。
Stack Overflow的临时禁令,给后来许多争议写下了样板:不是机器全面失败,也不是机器全面胜利,而是机器足够有用,以至于人们愿意使用;又足够不可靠,以至于机构不得不防守。
三、封锁键按进学校网络
2023年1月初,镜头从程序员论坛切到纽约市公立学校系统。
据Chalkbeat New York在2023年1月3日报道,纽约市教育部门限制学校设备和网络访问ChatGPT。报道转述教育部门发言人Jenna Lyle的说法:“Due to concerns about negative impacts on student learning, and concerns regarding the safety and accuracy of content, access to ChatGPT is restricted on New York City Public Schools’ networks and devices.”她还表示,这个工具也许能给出快速、容易的答案,但不会建立批判性思维和解决问题能力,而这些能力对学业和终身成功至关重要。[4]
这是教育系统面对ChatGPT时最典型的第一反应:封锁。
它并不难理解。学校里的写作作业、阅读理解、问答题、编程练习,长期依赖一个前提:学生提交的文字至少大体来自学生本人。教师可以怀疑代写,可以识别整段抄袭,可以用搜索引擎查重复内容;但ChatGPT制造的是新文本,不是简单复制。它不会像传统抄袭那样留下完整来源,也不会像拼贴那样暴露明显接缝。它可以按要求写一篇五段式作文,可以把语气改得更像学生,可以把答案压缩到指定字数,还可以在被提醒后重写。
纽约市教育部门列出的担忧,覆盖了教育系统最敏感的几条线:学生学习、内容安全、答案准确性。作弊只是其中最容易被看见的问题。更深层的问题是,如果机器可以替学生完成外显成果,教师如何判断学习是否发生?如果机器给出的信息不可靠,而学生又没有足够能力辨别,作业就可能从训练变成包装。学校原本用来分配分数、证明能力、筛选机会的文本,突然变得不再稳定。
这场封锁也显示出教育制度的反应速度。ChatGPT在2022年11月30日发布;12月5日,Stack Overflow宣布临时禁令;1月初,纽约市公立学校系统限制访问。一个多月,技术争议已经从程序员社区进入美国最大规模的地方公立学校系统之一。机器从论坛答案走向作业作文,中间没有经过科幻电影式的过渡。
它只是被学生和教师发现了。
这里的荒诞感不在于学校保守。相反,学校的动作非常现代:设备、网络、访问权限,一切都通过管理系统完成。一个教育系统面对一夜之间会写作文的机器时,最快能执行的动作不是重写评价体系,而是按下封锁键。封锁键清晰、可审计、可公告;重写作业制度则漫长、混乱、昂贵,并且立刻会遇到教师工作量、学生公平、家长期待和考试体系的共同摩擦。
但封锁也有边界。Chalkbeat报道中的限制对象,是纽约市公立学校的网络和设备。[4] 这意味着政策可以管理校园基础设施,却不能自动管理学生离开校园后的每一个入口。学校可以屏蔽网站,却无法仅靠屏蔽解释未来每一份作业应当如何完成。更重要的是,封锁无法回答一个问题:如果这类工具不会消失,学生究竟应该被训练成远离它,还是训练成理解它、使用它、怀疑它?
这个问题很快把教育舆论推向第二个转折。
四、禁止,还是教学
2023年1月,《纽约时报》科技专栏作者Kevin Roose发表观点文章,标题就是立场:“Don’t Ban ChatGPT in Schools. Teach With It.”[5] 这是一篇评论文章,不是新闻报道;它的重要性不在于提供了一个最终答案,而在于代表了当时教育讨论中的另一种声音:学校不应只把ChatGPT当成需要驱逐的作弊机器,也应把它当成学生必须理解的新工具。
争议于是从“是否封锁网站”转成“如何定义学习”。
支持封禁的一方有充分理由。ChatGPT可以代写作文、回答题目、生成阅读摘要,教师很难用传统查重方法识别。它还可能生成错误信息,甚至编造引用。OpenAI自己的发布说明已经提醒,模型会写出看似合理但错误或无意义的答案。[2] 在学校场景中,这种错误不只是技术瑕疵。一个学生如果把错误答案提交上去,教师看到的是一份作业;如果错误没有被发现,分数系统就可能奖励包装能力,而不是理解能力。
但主张教学的一方同样抓住了现实。ChatGPT并不是一张小抄,而是一类新型通用文本工具。禁止它,可能像禁止计算器、搜索引擎或拼写检查一样,只能暂时维持旧评价方式的表面完整。教师也可能用它备课、生成讨论题、改写阅读材料、设计不同难度的练习,或为学生提供初步反馈。作弊工具和教学助手,在这里可能是同一个东西。
OpenAI后来面向教育者发布“Educator considerations for ChatGPT”,把教育使用放进单独说明之中。[6] 这类材料不能替教师解决所有难题,却表明技术公司已经意识到:学校不是普通用户群。教育场景里的每一次输出,都可能进入评价、纪律、隐私和公平的链条。一个教师如果要求学生披露使用AI,就必须说明怎样使用算辅助、怎样使用算代写;一个学校如果要求教师借助检测工具,就必须面对误判带来的申诉和信任问题。
教师的两难因此具有制度性,而不是个人偏好问题。完全禁止,可能保护作业完整性,却失去训练学生识别和使用新工具的机会;完全开放,可能鼓励探索,也可能让评价失真。旧作业体系要求学生把思考写成文字,教师通过文字判断理解。ChatGPT把这一关系打松了。学生可以先让机器生成草稿,再修改;可以让机器列提纲,再补充;也可以在理解不足的情况下调整语气交差。写作不再天然证明思考,至少不再以过去那种简单方式证明。
在这件事上,学校比办公室更难躲。办公室可以把ChatGPT叫作生产力工具,把风险写进合规手册;学校却必须回答“学习本身是什么”。一篇作文到底是训练表达,训练思考,训练检索,还是训练在工具存在时作出判断?如果答案发生变化,评分、课程和学术诚信也必须跟着变化。
这也是为什么教育系统的争议来得那么快:它不是附属问题,而是ChatGPT对社会信任结构的第一次大规模压力测试。
五、办公室里的新同事
当学校忙着讨论封锁,办公室和论坛已经给ChatGPT安排了工位。
它没有员工号,也没有劳动合同,却开始承担许多“先写一版”的工作:写脚本、解释报错、改邮件、生成文案、总结材料、把长文本压短、把正式语气改得轻松、把零散要点整理成段落。公众不是先通过AGI论文认识ChatGPT,而是在日常劳动里认识它。一个人不必理解Transformer架构,也能理解“帮我把这封邮件写得礼貌一点”。
这正是它扩散的原因。许多白领工作并不要求每句话都原创,而要求足够快、足够得体、足够符合格式。ChatGPT擅长填补这种空白。它可以提供第一稿,哪怕第一稿需要改;它可以生成备选标题,哪怕其中大半平庸;它可以解释陌生术语,哪怕解释需要核查。它的价值不一定是最终答案,而是把“从零开始”的摩擦变成“从一版开始”的修订。
程序员最早感受到这种双重性。Stack Overflow的禁令说明,ChatGPT生成技术答案的成本极低;这对个体是便利,对公共知识库却可能是负担。[1] 在私人工作流里,一个开发者可以让它解释错误、生成样例、改写函数,然后自己测试;在公共论坛里,大量未经验证的生成答案会把审核成本转嫁给社区。相同能力在不同制度中产生相反效果。
办公室也如此。让ChatGPT润色内部邮件,风险可能较低;让它生成法律意见、医疗建议、财务判断,风险陡然升高。让它总结公开材料,可能节省时间;让它处理机密信息,则牵涉数据泄露。让它写广告文案,可能提高产量;让它凭空编造产品功效,就可能把幻觉变成合规问题。
这一阶段的ChatGPT像一个异常热情的新同事:随叫随到,从不嫌任务小,语气稳定,产出迅速;但它也会一本正经地犯错,会把不存在的引用写得像期刊目录,会在不知道时仍然给出完整答案。行业荒诞感就在这里:过去公司花费大量时间训练员工不要胡乱承诺、不要编造事实、不要泄露信息;现在,一个能在几秒钟内完成十份草稿的工具,把这些培训目标重新摆到每个输入框前。
OpenAI把ChatGPT定义为研究预览版,并邀请用户反馈问题。[2] 但用户的采用速度超过了传统“预览”的含义。研究预览通常暗示小范围试用、迭代和观察;百万用户意味着社会已经开始把它当工具。产品说明里的局限还在页面上,现实中的使用场景已经从代码扩展到作业、简历、邮件、论坛、营销、客服和内容生产。
这不是单纯的技术外溢,而是组织边界被输入框穿透。过去,一个新软件进入公司,往往需要采购、审批、培训、IT配置。ChatGPT的早期形态只需要浏览器。员工可以先用,再解释;学生可以先用,再等待规则;论坛用户可以先发帖,再让版主清理。制度反应总是慢半拍,因为它要管理的是集体后果,而用户感受到的是个人收益。
因此,ChatGPT的早期冲突并不发生在未来主义场景里,而发生在最普通的文字劳动中。它没有先替代一个行业,却先扰乱了许多行业判断文本可信度的方式。
六、检测器登场,又退半步
当机器文本进入作业和办公室,一个新问题立刻出现:如何识别它?
2023年1月31日,OpenAI发布“New AI classifier for indicating AI-written text”。这是一个AI Text Classifier,用来帮助判断一段文本是否可能由AI生成。它的出现本身就是时代信号:社会已经需要一种“机器写作鉴别器”。如果没有作业风暴、论坛污染和办公室风险,这样的工具不会这么快变成公共议题。
但OpenAI在同一篇发布说明里先泼了冷水。公司写道:“Our classifier is not fully reliable.” 在评估中,对于一组英文文本,分类器只能把26%的AI生成文本正确识别为“likely AI-written”;同时,它会把9%的人类写作错误标记为AI写作。[7]
这两个数字让现实落差变得清楚。26%的识别率意味着,大量机器文本会漏过去;9%的误判率意味着,一部分真实人类写作会被冤枉。对于普通内容审核,这已经麻烦;对于学校纪律处分,这尤其危险。一个学生如果被错误指认为使用AI,后果不只是一次技术误差,而可能是学术诚信记录、师生信任和申诉程序。检测器看起来像解决方案,但它自身也需要被怀疑。
OpenAI还提醒,这个分类器不应作为主要决策工具使用,尤其不适合短文本,并且没有在非英文文本上充分评估。[7] 这几条限制几乎直接击中了真实使用场景。学生作业可能长短不一;论坛答案常常包含代码、片段和解释;办公室邮件可能很短;全球用户并不只写英文。机器文本识别的需求越广,分类器的适用边界越显眼。
于是,第三个转折出现了:社会想用工具解决机器写作带来的信任问题,但工具本身不能提供足够确定性。
这并不奇怪。大语言模型生成的不是固定水印,而是概率文本。它模仿人类语言分布,而人类写作本来就高度多样。一个学生写得模板化,可能像机器;一个机器经过提示调整,可能像学生。一个客服回复本来就程式化,检测器很难知道它是员工照模板写的,还是模型生成的。文本不像指纹,没有天然唯一性。
检测器的困难也反过来说明ChatGPT为什么冲击这么大。它不是生成粗糙乱码的系统,而是生成可进入正常文本生态的系统。它的输出足够像文章、答案、邮件和说明,才使人需要鉴别;它又不够稳定可靠,才使鉴别变得重要。可信与不可信,在这里缠在一起。
在Stack Overflow,社区选择临时禁止ChatGPT生成内容,因为治理者无法承担逐条验证的成本。[1] 在纽约市学校,教育部门选择限制访问,因为制度需要先保护学习和安全边界。[4] 在OpenAI这里,公司选择发布分类器,又同时承认分类器不完全可靠。[7] 三个场景看似分散,其实回应的是同一个问题:当生成文本的成本下降,验证文本的成本由谁承担?
答案并不美妙。往往是教师、版主、编辑、经理、同事、读者,以及被误判的人承担。
七、不是天外来客
到2023年1月底,ChatGPT已经完成了它进入社会的第一轮角色分裂。
在OpenAI的叙事里,它仍然是研究预览,是对话式模型,是通往更强AI系统的一次部署实验。[2] 在Sam Altman那句社交媒体文字里,它是五天跨过百万用户的增长奇观。[3] 在Stack Overflow,它是高产的潜在污染源。[1] 在纽约市公立学校系统,它是影响学习、准确性和安全的风险入口。[4] 在教育评论者那里,它又可能成为必须被纳入课堂的新工具。[5] 在办公室,它已经像新同事一样坐下:会干活,会犯错,会帮忙,也会惹麻烦。
这比“天外来客”的故事更复杂。天外来客可以被迎接或驱逐;新同事却要被分配权限、培训流程、设定责任、评估绩效,还要决定哪些任务能交给它,哪些任务必须由人签字。ChatGPT的早期争议之所以猛烈,正因为它不是遥远技术,而是直接挤进了已有制度的缝隙。
它进入论坛,暴露公共知识库对低成本文本污染的脆弱;它进入学校,迫使教师重新区分写作、思考和评价;它进入办公室,让组织面对效率和责任之间的旧矛盾;它催生检测器,又证明检测器不能简单恢复过去的确定性。
兴奋和怀疑在这里必须并存。只写兴奋,就会忽略那些看似正确的错误如何堆高治理成本;只写怀疑,又解释不了为什么百万用户会在几天内涌入。ChatGPT不是因为完美而扩散,而是因为足够好用;它不是因为邪恶而被封锁,而是因为足够容易被滥用。技术史上许多真正改变日常的工具,最初都不是以宏大面貌出现,而是以小任务、低摩擦和高频使用占领现实。
2022年12月5日,Stack Overflow按下临时禁令。同一天,OpenAI宣布ChatGPT跨过百万用户。一个是刹车,一个是油门。2023年1月,纽约市学校系统封锁访问,OpenAI发布文本分类器,教育舆论开始争论禁止还是教学。刹车和油门继续同时存在。
这就是本章留下的伏笔:ChatGPT坐进教室、办公室和论坛之后,争论不再属于实验室。接下来,所有人都要在同一个问题前排队——如果机器已经能生产语言,谁来决定这些语言可以被相信、被评分、被发表、被用于工作?
新同事已经入职。麻烦的是,它没有只坐在一个部门。
参考文献
- Stack Overflow Meta, “Temporary policy: ChatGPT is banned”, 2022-12-05。
- OpenAI Blog, “Introducing ChatGPT”, 2022-11-30。
- Sam Altman, “ChatGPT launched on wednesday. today it crossed 1 million users!”, 2022-12-05。
- Chalkbeat New York, “NYC education department blocks ChatGPT on school devices, networks”, 2023-01-03。
- The New York Times, Kevin Roose, “Don’t Ban ChatGPT in Schools. Teach With It.”, 2023-01-12。
- OpenAI Help Center, “Educator considerations for ChatGPT”, 2023。
- OpenAI Blog, “New AI classifier for indicating AI-written text”, 2023-01-31。