Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第8章|北京、杭州、深圳先后开火:中国大模型的发布会季

一、北京的第一枪

2023年3月16日,北京,百度把“中国有没有自己的ChatGPT”这个问题搬上了舞台。

在此之前,答案一直散落在论文、实验室、融资新闻和公司战略口号里。前几章已经写过,ChatGPT把聊天框变成了全球技术竞赛的入口;GPT-4又在3月14日把能力坐标向上推了一格。两天后,百度发布文心一言。这个时间差让发布会天然带着压力:它不只是在介绍一个产品,而是在接受一次行业公开测验。

按照百度当天发布的官方材料,文心一言展示了五类能力:文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。[1] 这些能力名称并不陌生。过去几年,“预训练模型”“知识增强”“自然语言处理”“多模态”已经反复出现在技术白皮书和产业论坛里。但2023年春天,公众的检验方式变了。观众不再满足于听一家公司解释技术路线,他们等待的是一个更直接的结果:输入一句话,模型能否给出像样回答。

百度给文心一言安排的叙事并不是“突然出现的聊天机器人”。官方材料称,文心一言是基于百度文心大模型技术推出的生成式AI产品,百度也把它放进搜索、智能云、自动驾驶、办公、内容生产等更长的产品线里解释。[1] 这符合百度的历史位置。百度的AI故事不是从ChatGPT之后才开始,它有搜索、知识图谱、语音识别、飞桨深度学习平台、Apollo自动驾驶和百度智能云这些长期积累。发布会的任务,是把这些积累重新组织成一个面向公众的新名字:文心一言。

但大模型发布会的难处正在这里。技术积累是一种慢证据,发布会却是快审判。观众不会在会场里重新阅读模型论文,也不会从2019年的ERNIE演进史开始耐心追溯。ChatGPT已经把用户教育完成了:一个聊天窗口,一段自然语言,一个等待中的光标,就足以形成判断。对许多普通用户来说,“能不能用”比“从哪里来”更重要。

李彦宏在台上按模块展示。文学创作对应文本生成,商业文案对应营销和办公,数理逻辑对应推理能力,中文理解对应本土语义和文化知识,多模态生成则把想象扩展到文本与图像等形态之间。发布会每进入一个模块,实际都在回答同一个问题:中国公司能否把大语言模型从研究项目推向公众产品。

这也是中国大模型发布会季的发令枪。它不是一个手机新品,不是一次搜索改版,也不是一场云服务升级。文心一言一出现,就被放进ChatGPT和GPT-4的参照系里。投资者、媒体、开发者、企业客户、同行公司都在等。每个人手里都有一把尺子,但尺子的刻度并不一样:投资者看增长叙事,开发者看接口和能力,企业客户看能否落地,普通用户看回答是否像人,监管部门看服务边界。

百度抢在了最前面,也因此最先承受了所有人的测量。

二、演示之后,股价先说话

发布会结束后,百度同时得到两个标签。

第一个标签是“第一枪”。在中国主要互联网公司中,百度是最早以正式发布会正面推出对标ChatGPT产品的大厂之一。这个位置很重要。2023年春天,大模型成了科技公司必须回答的时代问题。谁迟迟不回答,谁就会被怀疑掉队;谁先回答,谁就能抢到叙事中心。

第二个标签是“未完成”。路透社在发布会当天报道,百度展示文心一言时使用了预录演示,投资者对展示形式和产品成熟度反应谨慎,百度港股盘中一度下跌近10%。[2] 彭博社同日也报道,发布会没有完全满足部分投资者对实时互动演示的期待。[3] 这些报道不能被简化成“百度失败”。资本市场价格从来不是单一变量的温度计,发布会表现、市场预期、科技股情绪和投资者风险偏好都会同时进入价格。但它们确实记录了一个事实:第一枪打响之后,最先响起的回声不是掌声,而是交易屏幕上的曲线。

这就是先发者困境。太早发布,产品会被拿来和刚刚震动世界的GPT-4比较;太晚发布,又会被质疑没有能力正面参赛。大模型不像手机。手机发布会可以展示芯片、屏幕、影像、续航、价格,用户有成熟的比较框架。大模型的能力边界更滑:一个问题答得好,不能证明模型可靠;一个问题答得差,却足以成为传播广泛的截图。企业倾向于控制演示,市场又把“控制演示”解释为“不够成熟”。

发布会季的行业荒诞感也在这里浮现。过去十年,中国互联网公司常被说成擅长把小功能做成大舞台。到了大模型时代,舞台真的变成压力测试。CEO在台上展示几行回答,屏幕后面却是训练数据、GPU集群、推理延迟、内容安全、提示词工程、产品接入、云服务计费和合规流程。观众看到的是一句生成文本,企业背后要调度的是一套工业系统。

百度后续并没有停在3月16日。发布会之后,文心一言以邀请测试和企业合作等方式推进。到2023年8月31日,百度宣布文心一言向全社会开放,用户可以通过官网和应用商店下载体验。[4] 这个日期已经在《生成式人工智能服务管理暂行办法》施行之后,意味着文心一言从发布会展示走向公开服务时,还要跨过制度边界。

因此,3月16日更适合被写成一个显影时刻,而不是胜负判决。百度把中国大模型的焦虑显影出来,也把抢跑的代价显影出来。先发者得到声量,也先得到质疑;先把牌摊开,也先接受所有人的挑剔。

对百度内部的工程师、产品经理和云业务销售来说,发布会之后的工作并不会随着灯光熄灭而结束。公开材料能看到的是产品开放、生态合作和能力迭代;看不到但可以由产业逻辑确认的是,大模型从演示走向服务,需要不断处理延迟、成本、幻觉、安全、客户需求和灰度开放。发布会是一个时点,产品化是一条长坡。

三、阿里云的答案:模型落进云和办公桌

不到一个月后,阿里给出了另一种答案。

2023年4月11日,阿里云在阿里云峰会上发布通义千问。阿里云官方英文新闻稿标注的地点是北京。[5] 这一点需要写清楚:不能因为阿里巴巴的总部在杭州,就把发布会现场写成杭州。但杭州仍然是这场发布的产业腹地。阿里的电商、云计算、钉钉、智能硬件和商家服务体系,长期从杭州向全国外延。北京台上发布的模型,背后连接的是一个从杭州生长出来的商业生态。

张勇当时担任阿里巴巴集团董事会主席兼CEO,并兼任阿里云智能集团CEO。阿里云官方新闻稿中引用张勇的话:“We are at a technological watershed moment driven by generative AI and cloud computing.”[5] 这句话把阿里的路线讲得很清楚:生成式AI不是孤立的聊天产品,它和云计算一起构成新的技术分水岭。

百度的路线更容易被理解为从搜索、知识和信息入口出发:用户提出问题,模型给出回答,背后连接搜索、知识库和内容生态。阿里的路线则首先落在云和企业应用:模型不只是站在舞台中央,它要被接进钉钉、天猫精灵、阿里云和商家工具。

阿里云官方材料称,通义千问将接入阿里巴巴旗下产品,并首先进入钉钉和天猫精灵等场景。[5] 钉钉代表办公桌。会议纪要、邮件草拟、商业方案、应用生成、流程协同,这些场景没有“AI写诗”那样适合传播,却更接近企业付费。企业用户并不总是需要模型一次回答惊艳世界,他们更关心它能否少开一次会、少写一封重复邮件、少整理一份纪要、少问一次流程入口。

天猫精灵代表家庭和硬件入口。智能音箱曾经承载过一轮“语音助手改变人机交互”的想象,但在大模型之前,多数语音助手仍停留在天气查询、播放音乐、家居控制和固定技能调用。通义千问接入后,阿里希望让语音助手具备更强的对话和生成能力。[5] 这条路的难处也明显:家庭硬件要求响应稳定、内容安全、延迟可控,不能像网页聊天那样允许用户反复试错。

阿里发布通义千问时,集团刚经历组织结构调整。2023年3月,阿里巴巴宣布启动“1+6+N”组织变革,设立阿里云智能、淘宝天猫商业、本地生活、菜鸟、国际数字商业、大文娱等业务集团。[6] 在这个背景下,通义千问不只是一个模型,也是一种战略证明:如果大模型成为企业数字化的新底座,云厂商就不能只卖服务器、数据库和带宽,还要卖模型能力、推理服务、行业解决方案和开发工具。

同一天,另一条线也出现了。2023年4月11日,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,向社会公开征求意见。[7] 一边是阿里云宣布大模型进入办公、硬件和云服务,另一边是监管部门开始为生成式AI服务划线。发布会季从这一天起有了清晰的双线叙事:企业说“能力会进入所有产品”,监管说“服务必须有边界”。

这不是偶然碰撞。大模型越像基础设施,就越不可能只由发布会定义。它进入办公、教育、客服、营销、政务和家庭时,会处理用户输入,会生成影响判断的内容,会嵌入企业流程。云厂商尤其如此:一旦模型以API、私有化部署或行业方案形式服务客户,责任就不只在“模型能不能回答”,还在客户如何调用、数据如何存储、结果如何分发、风险如何追溯。

百度和阿里在春天给出了两种中国式路线。百度抢下公共叙事,阿里把模型压进云和办公生态。一个更像回答“我们有没有自己的ChatGPT”,一个更像回答“ChatGPT式能力怎样变成企业工具”。两种答案都还不完整,但都足以把更多公司推向牌桌。

四、没有舞台的发布会:ChatGLM与百川

发布会季不只发生在酒店会场、峰会舞台和直播间。2023年春夏,另一类发布会发生在GitHub页面、模型仓库、技术报告和开发者社区里。

智谱AI与清华大学技术团队THUDM推出的ChatGLM-6B,是这一阶段最受关注的国产开源模型之一。项目GitHub页面介绍,ChatGLM-6B是一个开源、支持中英双语问答的对话语言模型,参数规模约62亿;项目也说明可通过量化等方式降低本地部署门槛。[8] 对许多开发者来说,这类模型的意义不在于舞台演示,而在于能否下载、能否运行、能否微调、能否接入自己的应用。

这是一种完全不同的发布会体验。大厂发布会讲生态、合作伙伴和未来愿景;开源仓库讲环境配置、显存需求、推理脚本、许可证、已知问题和提交记录。前者面向镜头,后者面向终端窗口。前者讲“将全面接入”,后者讲“依赖安装失败”和“CUDA out of memory”。行业荒诞而真实的一面是:很多开发者判断一个模型能不能用,第一步不是看CEO讲话,而是看自己手里的显卡会不会爆显存。

ChatGLM-6B把大模型从少数云端巨舰拉近到实验室、创业团队和个人电脑。它不意味着“人人都能训练基础模型”,也不能被夸张成“开源追平闭源”。它的意义更具体:让中文对话模型变成可以下载、运行、测试和改造的软件工程对象。对高校学生、独立开发者、小公司技术负责人来说,这种可接触性本身就是生产力。一个本地模型也许回答不如闭源旗舰稳定,但它可以离线试验,可以接企业私有数据,可以被拆开调参,可以在issue区被公开抱怨。

同一时期,王小川创立的百川智能进入牌桌。王小川曾长期担任搜狗CEO,他的职业履历与中文搜索、输入法和问答技术紧密相连。2023年4月,百川智能成立;6月,百川发布Baichuan-7B开源模型。官方发布材料称,Baichuan-7B参数规模为70亿,训练数据量约1.2万亿tokens,支持中英文,并开放用于研究和商业用途。[9] 9月,百川又发布Baichuan 2系列模型,技术报告披露其包括70亿和130亿参数规模版本,训练数据量约2.6万亿tokens。[10]

从搜狗到百川,这条转身具有时代意味。搜索引擎曾经是互联网信息入口,输入法曾经是中文用户表达入口。ChatGPT之后,自然语言界面被重新想象成软件入口。王小川进入大模型创业,不只是个人职业选择,也是旧信息入口向新智能入口迁移的缩影。

开源成为关键词,但“开源”本身并不简单。2023年的大模型社区里,开源至少有三层含义:代码是否开放,模型权重是否开放,商业使用是否被许可。不同项目在许可证、商用限制、数据披露和安全责任上的做法并不相同。对中国团队而言,开源还有一层现实意义:在最强闭源模型不可见、海外API可得性和成本存在不确定性、企业客户又常常要求私有化部署的情况下,一个能本地运行、能微调、能审计的模型,可能成为实际采购中的重要选项。

GitHub于是变成另一种发布会场。README像产品说明书,技术报告像成绩单,issue区像售后现场。有人报告部署问题,有人比较显存占用,有人追问许可证,有人提交推理脚本。大模型从实验室成果变成可下载、可复现、可抱怨的软件项目。舞台灯光不在,围观者也不再鼓掌;他们复制命令,等待进度条,然后在报错信息里判断时代是否真的来了。

五、创业公司的窄门

2023年春夏,中国大模型创业公司得到一种罕见待遇:刚成立不久,就被拿来和全球最强技术公司比较。

智谱、百川之外,MiniMax、月之暗面、零一万物、阶跃星辰等公司陆续成为资本和媒体关注对象。它们面对的并不是单一技术题,而是一组同时压来的约束:融资、人才、GPU、数据、产品、分发和合规。

首先是算力。大模型训练需要高端GPU、稳定集群、工程调度和持续资金。2022年10月,美国商务部工业与安全局发布针对先进计算芯片和半导体制造相关项目的出口管制规则,限制部分先进计算芯片及相关技术向中国出口。[11] 到2023年,这已经成为中国AI公司无法绕开的背景条件。大厂可以依靠多年采购、云资源和资本开支建立算力池;创业公司则必须在融资节奏、训练计划和推理成本之间反复权衡。

其次是数据。中文大模型不是把英文互联网语料翻译一遍就能解决。中文互联网有自己的结构:百科、问答、论坛、网文、电商评论、政务文本、教育资料、短视频字幕、企业文档。数据越贴近场景,越可能涉及版权、隐私和授权;数据越干净,规模越难堆;数据越大,清洗成本越高。发布会上“训练了多少tokens”是一行数字,工程里则意味着采集、去重、过滤、标注、评估和安全处理。

再次是产品。ChatGPT给行业带来一个强烈诱惑:只要模型足够强,一个聊天框就可能成为超级入口。但中国创业公司很快面对更朴素的问题:谁付钱?个人用户愿不愿意订阅,企业客户愿不愿意试点,私有化部署能不能交付,API调用收入能不能覆盖推理成本。大模型创业不是只比模型分数,还比销售、交付、现金流和客户成功。

最后是合规。大模型不是普通App。它会生成政治、医疗、法律、教育、金融等敏感内容,会处理用户输入,可能连接企业知识库,也可能输出错误建议。一个幻觉回答,放在聊天截图里是笑话;放进客服、投研、政务或医疗场景里,就是事故隐患。

这让中国的大模型创业呈现出一种奇特景象:公司成立时讲AGI,融资材料里讲基础模型,客户现场谈知识库和客服机器人,法务合规问数据授权、内容安全和备案流程。几种时间尺度叠在一起——十年技术愿景、三年资本周期、一个季度的产品交付、当天必须修掉的安全问题。

海外开源也持续施压。2023年7月,Meta与微软宣布推出Llama 2,并称其可免费用于研究和商业用途,具体使用仍受许可证约束。[12] 这迅速成为全球开源大模型生态的重要节点。对中国团队来说,这既是参考,也是压力。全球社区每天都在更新权重、微调方法、推理框架和评测结果,任何一家公司的发布会热度都很快会被下一次模型更新稀释。

创业公司的窄门因此非常具体。门的一边是巨大的想象力:自然语言可能重构软件、搜索、办公和行业知识。门的另一边是坚硬的约束:芯片买不到最想要的,数据不能随便用,模型会胡说,客户要效果,监管要责任,投资人要进度。2023年春夏,中国创业公司进入牌桌,但牌桌并不平整。

在这张牌桌旁,个体的位置也在变化。独立开发者开始把周末项目改成“接一个国产模型试试”;企业信息化负责人被老板要求研究“公司能不能上大模型”;售前工程师要把模型能力翻译成客户听得懂的业务流程;合规人员则要把“生成式AI”拆成个人信息、版权、算法备案和内容安全。时代的宏大词汇,最后都落到具体的人手里,变成命令行、采购单、测试报告和风险清单。

六、监管的另一只手

如果说3月16日百度发布文心一言是企业竞速的发令枪,那么7月13日公布的《生成式人工智能服务管理暂行办法》,就是发布会季的另一只手。

2023年7月13日,国家互联网信息办公室、国家发展和改革委员会、教育部、科技部、工业和信息化部、公安部、国家广播电视总局联合公布《生成式人工智能服务管理暂行办法》,自2023年8月15日起施行。[13] 这是中国针对生成式AI服务的重要制度文件。它把发布会上的宏大叙事,拆成服务提供者必须承担的具体义务。

《暂行办法》规定,利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务,适用该办法。[13] 这个范围很关键:面向社会公众开放的生成式AI服务,与企业内部研发、非公众服务,并不完全处在同一监管强度下。国家网信办有关负责人答记者问时称,《暂行办法》坚持发展和安全并重、促进创新和依法治理相结合。[14]

制度边界主要落在几类问题上。

第一,内容安全。生成式AI服务提供者需要依法承担网络信息内容生产者责任,采取有效措施防止生成违法不良信息。[13] 大模型不是传统搜索结果列表,它会以更像“回答”的方式输出内容。用户往往把回答当作整理后的结论,这种形态放大了服务提供者的责任。

第二,训练数据合规。《暂行办法》要求开展训练数据处理活动时遵守法律法规,涉及个人信息的应当依法取得个人同意或者符合法律、行政法规规定的其他情形,涉及知识产权的不得侵害他人合法权益。[13] 这直接触及大模型训练的底层燃料。过去互联网产品常把数据当作增长资源,大模型时代则必须回答数据从哪里来、有没有授权、能不能用于训练、是否包含个人信息。

第三,安全评估和算法备案。对于具有舆论属性或者社会动员能力的生成式人工智能服务,提供者应当按照国家有关规定开展安全评估,并履行算法备案、变更和注销备案手续。[13] 这意味着模型上线不只是工程发布,还包括制度流程。发布会上的“即将开放”,在现实中要经过备案、测试、灰度、风控和持续监测。

第四,用户权益和未成年人保护。生成式AI服务进入教育、娱乐、社交和办公场景后,用户可能分不清内容来自人还是机器,也可能把模型输出当成专业建议。监管要求服务提供者建立投诉举报机制、保护个人信息、采取措施提升生成内容准确性和可靠性。[13] 这些要求并不华丽,却决定了大模型能否从演示走向日常服务。

监管没有让发布会季停止,反而改变了竞争维度。2023年8月31日,百度宣布文心一言向全社会开放。[4] 这说明制度边界形成后,企业仍在推进产品;但推进方式已经不同。模型能力、产品体验、内容安全、备案状态和企业责任,成为同一张成绩单上的不同科目。

从这以后,中国大模型公司不能只问“参数多少、榜单第几、能不能写诗”。它们还要问:训练数据能否解释,输出风险能否控制,企业客户能否私有化部署,面向公众的应用能否完成备案,生成内容出了问题谁负责。监管不是赛道之外的障碍物,而是赛道本身的一部分。

七、发布会季结束,真正的竞争开始

到2023年夏末,中国大模型发布会季已经完成第一轮显影。

北京有百度抢先开火,也有监管部门划出边界;杭州作为阿里生态腹地,把大模型拖进云、办公、电商和硬件系统;深圳的牌则在稍晚时候亮到桌面上。2023年9月7日,腾讯在全球数字生态大会上正式发布混元大模型。[15] 这个时间已经越过春夏发布会季,但它说明同一轮行业压力仍在向前传导。所谓“同日开火”更接近当时的行业体感,而不是严格日历事实:每家公司都像被同一声枪响催促,只是扣动扳机的日期不同。

第一轮竞争比的是谁敢发布,第二轮竞争比的是谁能持续迭代,第三轮竞争比的是谁能真正用起来。

“用起来”比“发布出来”困难得多。办公场景要求模型理解组织流程,客服场景要求低成本和低幻觉,搜索场景要求事实准确和来源可追溯,教育场景要求安全和因材施教,政务场景要求稳定、可控和责任清晰,工业场景要求接入真实数据和业务系统。模型回答一句话很容易,进入流程很难;生成一段文案很容易,承担业务结果很难。

发布会季也让一个事实变得清楚:中国大模型不会简单复制OpenAI路线。美国市场有OpenAI、微软、Google、Anthropic,也有Meta推动开源生态;中国市场则叠加了云厂商竞争、超级App生态、企业私有化需求、本土数据、国产算力和监管备案。每家公司都说自己在做基础模型,但真正的护城河可能出现在完全不同的地方:搜索入口、办公软件、云服务合同、行业知识库、智能硬件、开发者生态,或者合规交付能力。

这不是令人泄气的结论,反而更接近产业真实。技术革命从来不是只由一次演示决定。蒸汽机不是在第一次轰鸣时改变世界,电力不是在第一次点灯时改造工厂,互联网也不是在第一个网页出现时完成商业化。大模型发布会季的意义,在于它把中国公司推入同一条河流:每个人都知道对岸有GPT-4,每个人也都知道脚下有自己的泥沙、石头和暗流。

兴奋与怀疑必须同时保留。兴奋来自模型确实展示了新的软件形态:人可以用自然语言调动工具、文档、知识和流程。怀疑来自同样坚硬的事实:模型仍会幻觉,算力仍受限制,数据仍有边界,商业化仍需验证,监管仍会持续演进。

3月16日,百度在北京打响第一枪;4月11日,阿里云把通义千问放进云和办公生态;春夏之间,智谱、百川等创业公司把模型仓库变成另一种发布会;7月13日,监管文件把竞赛规则写进制度文本;9月,腾讯混元把深圳的火线推到公众面前。发布会季结束后,中国大模型行业从“谁先发布”转向“谁能被每天使用”。

下一枪不一定在舞台上。它可能出现在一份自动整理的会议纪要里,一次没有转人工的客服对话里,一套企业知识库的检索结果里,或者一个通过备案、上线、被用户反复打开的普通应用里。

参考文献

  1. 百度,文心一言发布会官方材料及新闻稿,2023-03-16。
  2. Reuters, “Baidu shares fall after revealing China ChatGPT rival Ernie Bot”, 2023-03-16。
  3. Bloomberg, “Baidu’s ChatGPT-Style Bot Debut Disappoints Investors”, 2023-03-16。
  4. 百度,文心一言向全社会开放相关公告,2023-08-31。
  5. Alibaba Cloud, “Alibaba Cloud unveils Tongyi Qianwen, its latest large language model”, 2023-04-11。
  6. 阿里巴巴集团,阿里巴巴启动“1+6+N”组织变革相关公告,2023-03-28。
  7. 国家互联网信息办公室,《生成式人工智能服务管理办法(征求意见稿)》公开征求意见通知,2023-04-11。
  8. THUDM / GitHub, “ChatGLM-6B: An Open Bilingual Dialogue Language Model”, 2023。
  9. 百川智能,Baichuan-7B官方发布材料,2023-06。
  10. Baichuan Inc., “Baichuan 2: Open Large-scale Language Models”, 2023-09。
  11. U.S. Department of Commerce, Bureau of Industry and Security, “Implementation of Additional Export Controls: Certain Advanced Computing and Semiconductor Manufacturing Items; Supercomputer and Semiconductor End Use; Entity List Modification”, 2022-10-07。
  12. Meta, “Meta and Microsoft Introduce the Next Generation of Llama”, 2023-07-18。
  13. 国家互联网信息办公室等,《生成式人工智能服务管理暂行办法》,2023-07-13发布,2023-08-15施行。
  14. 国家互联网信息办公室,国家网信办有关负责人就《生成式人工智能服务管理暂行办法》答记者问,2023-07-13。
  15. 腾讯,腾讯混元大模型正式亮相相关发布材料,2023-09-07。