Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第16章|从 Sora 到 Devin:AI 开始闯入现实世界

一、东京街头的访问权限

一个女人走在东京街头。提示词说,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色手袋,戴着太阳镜,抹着红色口红。街道两侧是温暖发光的霓虹灯和会动的城市招牌,潮湿路面反射着彩色灯光,许多行人在周围走动。镜头跟随她向前,像一部都市电影的开场。

女人不存在,街道不存在,摄影机也不存在。它们出现在OpenAI于2024年2月15日发布的Sora技术预览页面上。[1]

如前章所述,Sora不是一次面向所有用户开放的产品上线。OpenAI页面的标题是“Sora: Creating video from text”。公司给出的定义很简短:“Sora is an AI model that can create realistic and imaginative scenes from text instructions.”它还写道,Sora可以生成最长一分钟的视频,同时保持视觉质量并遵循用户提示。[1] 在当时的访问范围上,OpenAI也写得清楚:Sora正在提供给红队测试者,用于评估潜在危害或风险;公司也让一部分视觉艺术家、设计师和电影制作者接触模型,以获得反馈。[1]

这便形成了2024年春天AI行业的一种典型荒诞:最让行业震动的工具,绝大多数人不能使用;最像现实世界的影像,来自一个尚未公开接受现实世界检验的系统。

OpenAI在同一页上给Sora安排了更大的技术叙事:“We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.”[1] 这句话后来被不断压缩成“世界模型”。严格说,OpenAI没有证明Sora已经拥有一个完备的世界模型,它说的是正在教AI理解并模拟运动中的物理世界。这个限定很重要。2024年的行业传播常常把方向说成终点,把演示说成产品,把一组精选样片说成稳定能力。

OpenAI的技术报告标题更进一步:“Video generation models as world simulators”。报告称,视频和图像可以被压缩到潜在空间,再切分成“spacetime patches”,让模型在统一的数据表示上训练。[2] 它还写道:“Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.”[2] 这句话的关键词同样不是“已经建成”,而是“promising path”。道路显得诱人,但路面还没有铺完。

OpenAI也列出局限。Sora可能难以准确模拟复杂场景中的物理规律,可能不理解特定因果关系;例如,一个人咬一口饼干后,饼干上可能不会留下咬痕。模型也可能混淆左右方向,或难以精确描述随时间展开的事件。[1] 这些失败样例没有削弱Sora的传播效果,反而暴露出视频生成比文本生成更残酷的一面:文字幻觉可以藏在知识细节里,视觉幻觉会直接出现在腿、手、光影、轨迹和物体交互上。一个系统可以生成猛犸象穿过雪原,却可能无法稳定处理一块饼干的缺口。这不是对模型的嘲笑,而是现实世界的考试题过于具体。

Sora发布后,Sam Altman在X上向网友征集提示词,并展示部分生成结果。[3] 这种互动把技术预览变成了社交媒体上的即兴秀。网友给出离奇场景,模型返回可观看的视频片段;未来被压缩成几十秒,适合转发,也适合投射想象。失败样本、提示词筛选、生成次数和人工选择则留在屏幕之外。

Sora带来的变化,不只是“文生视频更好看了”。它把AI从聊天框推向镜头,从回答问题推向构造场景。过去一年里,人们问模型能否写邮件、总结文件、解释代码;到了2024年2月,问题开始变成:模型能否生成空间、运动和看似服从物理规律的连续世界。这个问题一旦出现,影视、广告、游戏、教育、机器人训练、仿真系统和法律行业都会听见敲门声。

二、创作者先被请进去

3月,OpenAI发布“Sora: first impressions”,展示一批视觉艺术家、设计师、创意导演和电影制作者接触Sora后的作品与反馈。[4] 这一步比技术报告更接近产业现场。视频生成模型如果要进入现实工作流,评审者不会只问“像不像”,还会问“能不能改”“能不能控”“能不能交付”“能不能署名”“能不能过法务”。

OpenAI页面上的早期作品带有明显的概念实验性质。它们不是传统意义上的完整院线电影,也不是经过大规模商业验收的生产流程,而是用Sora探索短片、动画、视觉拼贴和概念影像。对创作者来说,价值首先出现在“前期想象”这一层。过去,一个镜头要变成可看的画面,需要摄影棚、外景、演员、灯光、美术、道具、绿幕、后期和预算;现在,至少在概念阶段,提示词可以先把画面召唤出来。

这对独立创作者尤其敏感。影视行业常说创意无价,但把创意拍出来很贵。Sora让这句话出现裂缝:昂贵的部分没有消失,却可能被提前、压缩、替代或重新分配。一个没有大预算的导演,可以更快做出视觉提案;一个设计师,可以把抽象情绪变成动态参考;一个广告团队,可以在客户会议前生成多种风格方向。工具还没有普及,工作方式已经被想象重新报价。

但“first impressions”这个标题也带着保留。第一印象不是长期合同,样片不是流水线。影视制作要求角色一致、服装连续、镜头可控、版权清晰、修改可追踪、客户可验收。Sora页面展示的是模型能力的高光时刻,而不是一个完整剧组在交片 deadline 前与模型反复拉扯的过程。现实中的创作者很快会遇到更细的问题:同一个角色能否跨镜头稳定保持?一个品牌logo能否被正确呈现?一个客户要求“这里再克制一点”,提示词怎样转化成可控修改?如果画面像某个艺术家的风格,权利边界在哪里?

2024年春天,创作者被请进样片房,也被请进了一场尚未写完合同的实验。对他们而言,Sora不是单纯的敌人或朋友,而是一种改变谈判位置的工具。能使用它的人可能获得新的表达杠杆;不能使用它的人会担心市场价格被别人压低;作品曾经出现在互联网上的人,还会追问自己的影像是否已经成为训练数据的一部分。

这使Sora不同于一款普通创意软件。Photoshop、Premiere、After Effects改变了制作流程,但它们通常不需要吞下整个公共视觉文化作为训练基础。生成式视频模型把“工具”和“素材库”的边界搅在一起:它像工具一样接受指令,又像某种浓缩的视觉记忆库一样输出画面。创作者第一次看到Sora时,看到的不只是一台机器,也看到自己行业过去几十年积累的影像语言正在被机器重新组合。

三、好莱坞门口的价格表

Sora真正进入影视圈公共讨论,是因为一个很具体的产业动作。

2024年2月,《好莱坞报道者》采访Tyler Perry时写道,Perry在看到Sora能力后,将亚特兰大工作室一项约8亿美元的扩建计划暂时搁置。[5] 报道标题引用他的担忧:“Jobs Are Going to Be Lost”。这里必须谨慎:一项扩建计划被搁置,不能简单归结为Sora单一因素造成的产业转折;但Perry的公开表态说明,Sora技术预览已经足以影响一位大型影视从业者对未来投资的判断。

这个判断背后不是抽象的“AI替代人类”,而是工作岗位的分解。摄影棚扩建意味着建筑、布景、灯光、道具、运输、安保、群演、后期和周边服务。生成视频如果在某些场景中减少外景拍摄、布景搭建或初步特效需求,影响不会均匀落在“影视行业”四个字上,而会落到不同工种、不同城市、不同合同周期上。技术演示越惊艳,越容易让资本提前调整预算;而预算调整往往比产品成熟更早触及劳动者。

3月,彭博社报道称,OpenAI计划在洛杉矶与电影制片厂、高管和人才经纪机构会面,展示Sora并鼓励影视行业采用这项技术。[6] 这不是技术公司第一次进入好莱坞,也不是好莱坞第一次面对新技术。有声电影、电视、录像带、数字摄影、CGI、虚拟制作和流媒体都曾改变这个行业。生成式AI的不同之处在于,它同时触碰了成本、版权、工会、肖像、表演和风格。

好莱坞在2023年刚刚经历编剧和演员罢工,AI相关条款已经进入劳资谈判。Sora出现后,争议从文本、剧本和声音扩展到镜头与影像。一个制片厂可能希望用AI降低概念设计成本;一个演员可能担心自己的形象被复制;一个导演可能希望快速生成分镜;一个视觉特效从业者可能担心初级任务被压价;一个版权律师则会要求确认训练数据、输出归属和侵权责任。行业没有被分成整齐的两边,每个人的位置都可能随项目、合同和预算变化。

训练数据问题让这种复杂性更尖锐。OpenAI在Sora技术预览和技术报告中没有公开完整训练数据清单。[1][2] 对模型公司而言,训练数据细节涉及竞争、安全和商业秘密;对创作者而言,它涉及作品是否被未经许可地用于训练。2023年12月,《纽约时报》在美国纽约南区联邦地区法院起诉Microsoft和OpenAI,诉状主张被告未经许可使用该报受版权保护的内容训练模型,并在输出中复制或近似复制时报内容。[7] 这仍是诉讼中的主张,不是法院结论。但它已经把生成式AI的版权冲突推到公共记录里。

到了Sora,版权争议不再只是“文章是否被模型学习”。它变成了镜头运动、构图、灯光、角色风格、动画语言和影像资料是否被学习。影视公司一方面担心自己的素材被训练,另一方面又可能希望使用模型降低新项目成本;创作者一方面担心工作被替代,另一方面也可能希望借助工具扩大表达范围。行业荒诞感正在这里出现:同一个人可以反对未经授权的数据训练,同时要求团队尽快研究AI预演流程;同一家公司可以主张保护片库版权,同时评估用生成视频压缩制作成本。

Sora敲开好莱坞大门时,门后不是简单的欢迎或抵制,而是一张价格表、一份工会协议、一堆授权合同和一群等待下一份工作的个体。

四、终端里出现“第一位AI软件工程师”

Sora发布后不到一个月,AI行业的镜头从东京街头切到代码仓库。

2024年3月12日,Cognition发布Devin。公司官网文章标题写道:“Introducing Devin, the first AI software engineer”。[8] 在叙述中必须保留这个归属:这是Cognition对Devin的称呼,不是行业共识,也不是经过法律、组织和劳动市场共同承认的职业身份。

Devin演示的吸引力来自界面变化。过去一年,许多人已经习惯让ChatGPT解释报错、写函数、补全脚本,GitHub Copilot也早已进入程序员日常。但Cognition展示的不是一个只在聊天框里回答问题的系统,而是一个拥有命令行、代码编辑器和浏览器的代理。它接收任务,制定计划,查阅文档,读代码,运行命令,观察错误,修改文件,再次测试,最后汇报结果。[8]

这套流程击中的不是编程竞赛的炫技,而是软件工程中最普通、也最消耗时间的劳动:进入一个陌生项目,理解环境,安装依赖,复现问题,搜索资料,试错,修复,再把结果交给别人审查。一个能在这些步骤之间来回移动的系统,看起来就不再像“问答工具”,而像一个开始占用工单的工作角色。

Cognition在发布文中称,Devin可以学习不熟悉的技术,可以端到端构建和部署应用,可以自主发现并修复bug,也可以为成熟生产代码库贡献修复。[8] 公司还引用SWE-bench成绩。SWE-bench是一个基于真实GitHub issue和对应pull request构建的软件工程基准,要求系统根据问题描述修改代码库并通过测试。[9] Cognition称,Devin在该基准上无辅助解决了13.86%的问题,超过此前1.96%的最好成绩。[8]

这个数字需要放在正确位置。13.86%不是“AI软件工程师已经取代程序员”的证据。它说明,在一类公开基准任务中,代理式系统相对前代方法取得了明显进展。SWE-bench比许多传统编程题更接近真实工程,因为它要求系统进入已有代码库,而不只是写一个孤立函数。但它仍然是基准,不是公司生产环境。真实工程还包括权限、遗留系统、模糊需求、上线窗口、监控告警、合规审查、客户沟通、跨团队协调和长期维护。

Devin带来的传播力量不依赖这些限定。人们看到的是AI自己打开浏览器、自己读文档、自己在终端里失败、自己修复失败。失败在这里反而增加了真实感,因为软件工程本来就是与报错、依赖和环境配置长期相处的职业。一个从来不报错的演示像魔术;一个会报错再修的演示更像劳动。

这正是Agent叙事在2024年春天获得商业重量的原因。AI不再只是回答者,而被包装成执行者。副驾驶默认有人类坐在驾驶位上;代理则暗示它可以领取任务、使用工具、推进流程并交付结果。资本市场需要ChatGPT之后的新故事,企业客户需要把生成式AI从演示间带进损益表,创业公司需要证明自己不是大模型API外面的一层薄壳。Devin提供了一个极易传播的符号:AI员工。

但软件工程师恰好是最熟悉演示的人群之一。他们知道demo可以精心选择,知道脚手架可以藏起来,知道“能跑一次”和“每天可靠运行”之间有一条长路。Cognition把Devin带进这个职业,也把它带进了一种会逐帧审讯演示视频的文化。

五、工程师反向审讯

Devin发布后,开发者社区的反应并不只有惊叹。Hacker News上关于Cognition发布帖的讨论迅速展开,许多评论围绕演示任务选择、可复现性、SWE-bench含义、真实生产环境复杂度、可用性和“AI software engineer”称呼本身展开。[10] 社区讨论不能单独证明Devin真实能力如何,却能证明一件事:Agent热潮第一次遭遇了工程师文化的公开审查。

随后,一些技术内容创作者开始复盘Devin公开视频。YouTube频道Internet of Bugs在2024年4月发布视频,对演示流程提出质疑,讨论任务是否被精心挑选、宣传口号是否被视频充分支持等问题。[11] 这些复盘同样不能被写成“Devin被证伪”。公开视频和社区分析不足以替代独立、大规模、可复现的产品评测。更准确的说法是:Devin让行业看见了一个诱人的代理形象,也让开发者社区开始要求证据的颗粒度。

审讯首先针对“演示”和“产品”的距离。Cognition发布时,Devin并未向所有公众开放,而是提供早期访问申请。[8] 外界看到的是公司选择展示的任务,而不是开放用户在各种混乱项目中反复测试后的稳定表现。Sora也是如此。2024年春天最具冲击力的两个AI故事,都不是完全公开可用的成熟产品,而是受控展示。技术公司有权这样发布,观察者也有理由把“可展示能力”和“可依赖能力”分开。

第二层审讯针对“基准”和“工作”的距离。SWE-bench的重要性在于它把AI带进真实代码库问题,但真实工程不是只有issue和测试。一个企业项目里,问题描述可能来自客户一句含糊抱怨;复现环境可能需要内部权限;修复方案可能涉及安全、法务、性能和商业优先级;上线后还要面对监控、回滚和责任追踪。一个代理能在开源仓库任务上取得进步,并不意味着它能在银行核心系统、医疗软件或大型电商平台中自主行动。

第三层审讯针对“自主”这个词。Devin演示中的系统会计划、使用工具并反馈进度,但任务由人类定义,结果仍需人类审查。[8] 从组织意义上看,这更像自动化程度更高的工程助手,而不是能承担责任的员工。员工会签署合同,接受管理,承担纪律和法律后果;AI系统不会。客户采购时最终要问的不是标题是否响亮,而是:代码出错谁负责?漏洞进入生产环境谁承担?凭证泄露怎么办?生成代码是否引入许可证风险?AI提交的补丁由谁审查?审查者如果过度信任,又算谁的责任?

这里的个体不是抽象的“程序员群体”。它可以是维护开源项目的志愿者,突然收到一批由AI生成的pull request;可以是创业公司的两名工程师,面对投资人要求“用Agent提高研发效率”;可以是大公司里的值班工程师,在凌晨三点处理一个自动化修改引发的告警;也可以是刚入行的初级开发者,发现过去用于练手的修bug、写脚本、补测试任务正在被工具重新定价。公开材料不能替这些人编造具体经历,但行业变化的压力会沿着这些岗位传导。

工程师的怀疑并不等同于保守。相反,它可能是Agent进入现实世界前必须经历的测试。聊天机器人可以用“回答仅供参考”缓冲责任;代码代理一旦修改仓库,就会触碰测试、依赖、漏洞、许可证、性能和线上稳定性。它不只是生成文本,而是在生产系统里留下diff。diff可以被git记录,也可以把值班手机叫醒。

Sora和Devin在这里形成呼应。视频模型的错误会出现在画面里,代码代理的错误会出现在运行结果里。它们都比聊天框更接近现实,也都更难用“模型偶尔会犯错”轻轻带过。AI开始做事,责任密度也随之上升。

六、规则坐上主席台

Devin发布第二天,欧洲议会把另一种力量推到桌面上。

2024年3月13日,欧洲议会通过《人工智能法案》。欧洲议会新闻稿称,议员以523票赞成、46票反对、49票弃权通过这项法律。[12] 前一章已经写过AI Act在算力和产业政策背景中的位置;放在本章,它更像是对Sora和Devin的提醒:AI一旦进入现实世界,就不再只是模型公司、开发者和投资人的内部游戏。

AI Act采用风险分级思路。新闻稿列出,法案禁止若干被视为不可接受风险的AI用途,包括基于敏感特征的生物识别分类、无目标抓取互联网或监控录像中的人脸图像来建立面部识别数据库、工作场所和学校中的情绪识别、社会评分,以及仅基于画像或个人特征的某些预测性警务等。[12] 对高风险AI系统,法案要求风险管理、数据治理、技术文档、记录保存、透明度、人类监督、准确性和网络安全等义务;对通用人工智能模型,也设置透明度和相关要求。[12]

这些法律语言放回Sora和Devin身上,突然不再抽象。生成视频涉及深伪、身份冒充、误导性内容、色情滥用、版权和来源标识;代码代理涉及安全漏洞、关键系统、权限管理、自动化决策和责任归属。过去,AI公司可以主要围绕能力讲故事;一旦产品进入工作流,就必须谈审计、投诉、日志、可解释记录和事故处理。

OpenAI在Sora页面中提到红队测试、检测分类器和内容来源标准等措施。[1] Cognition在Devin发布时采用早期访问方式,而不是立即全面开放。[8] 这些做法可以被理解为公司知道风险存在。但公司自我约束与法律义务不是同一回事。前者由公司设置边界,后者由公共制度设定底线。现实世界不是一个无限沙盒,尤其当AI系统开始影响就业、教育、公共服务、执法、媒体和基础设施时。

AI Act不会自动解决所有问题。企业会担心合规成本,开源社区会追问义务边界,监管者还要制定执行细则,成员国还要建立监督机制。但时间点本身已经说明:当AI行业把“real-world interaction”写进路线图,现实世界也会把风险分级、透明度和责任写进AI路线图。

七、开源权重从另一边拆墙

监管从一侧施压,开源权重从另一侧改变竞争结构。

2024年4月18日,Meta发布Llama 3,推出8B和70B参数规模的预训练与指令微调模型。[13] Meta称,Llama 3相较Llama 2有显著提升,并向开发者开放模型权重。这里也需要限定:Llama系列不是无条件的公共领域软件,它带有Meta自己的许可条款;但在产业竞争中,开放权重已经足以降低许多团队进入应用层创新的门槛。

Meta披露,Llama 3使用超过15万亿token训练,训练数据规模约为Llama 2的七倍,其中代码数据约为Llama 2的四倍;它还采用了128K词表的tokenizer,并改进了后训练流程。[13] 这些细节说明,开放权重并不意味着低成本童话。前沿模型仍然需要数据、算力和工程系统支撑。Stanford HAI的《AI Index Report 2024》估算,GPT-4训练成本约为7800万美元,Gemini Ultra约为1.91亿美元;报告还显示,2023年生成式AI相关私人投资达到252亿美元,接近前一年的八倍。[14]

这些数字给2024年春天的热潮加上了另一层背景。Sora是闭源技术预览,Devin是早期访问的代理产品,Llama 3则把可下载、可部署、可微调的权重交给更广泛的开发者、研究者和企业。三者不是同一种产品,却共同推动AI离开聊天框:一个进入视频和视觉世界,一个进入终端和代码仓库,一个进入更多人的本地机器、云实例和企业内网。

开放权重对闭源神话的压力在于,它削弱了“只有少数实验室能定义未来”的叙事。一个企业可以不完全等待某个封闭API的路线图,而是在开放模型基础上做私有部署、行业微调和安全控制。一个创业团队可以把Agent框架接在开放模型上,围绕具体工作流优化。一个研究团队可以更系统地评估模型偏见、安全和能力边界。闭源前沿模型仍然强大,但它们不再独占想象力。

这对Sora和Devin代表的方向同样重要。未来的视频生成工具可能调用闭源模型,也可能建立在开放多模态模型之上;未来的代码代理可能使用商业API,也可能使用企业私有部署的大模型。监管要求可审计,企业要求数据不外流,安全团队要求权限可控,开发者要求可调试和可替换,这些现实条件都会让开放权重变得更有吸引力。

于是,2024年春天的AI竞争不再只是模型参数和榜单成绩的竞赛。它变成了一场夹击:监管要求模型公司解释责任,开放权重要求闭源公司解释不可替代性。前者问“你凭什么这样进入社会”,后者问“开发者为什么必须等你”。

八、谁能可靠地做事

从Sora到Devin,AI行业在2024年春天越过了一条心理边界。

Sora把AI推向镜头。它让不存在的东京街头变成全球讨论的样片,让创作者看到低成本视觉想象力,也让影视行业看到版权、劳动、深伪和生产流程的重估。它把“模拟运动中的物理世界”写进技术叙事,但它公开承认的失败也提醒外界:世界不是只靠像素就能彻底理解。

Devin把AI推向终端和代码仓库。Cognition称它为“第一位AI软件工程师”,并用演示展示一个会查文档、运行命令、修改代码、修复错误的代理。它让Agent叙事第一次获得大众传播中的具体形象,也让开发者社区立刻开始审讯:演示是否可复现,基准是否等同真实工作,自主性的边界在哪里,出错谁负责。

同一时期,欧洲议会通过AI Act,Meta发布Llama 3。一个来自制度,一个来自开放权重。它们共同说明,AI进入现实世界后,不可能只按照模型公司自己的节奏前进。法律会要求风险分级和透明度,企业会要求安全和责任,开发者会要求可控和可复现,开源生态会不断降低后来者进入牌桌的门槛。

兴奋没有消失。Sora的样例仍像未来电影的预告片;Devin的演示仍让人第一次直观看见“AI同事”的轮廓。怀疑也没有消失。技术预览不是普及产品,演示视频不是长期可靠性,基准成绩不是组织责任,开放权重也不是免费奇迹。

2024年春天,AI行业终于不满足于聊天框。它开始走向摄像机、时间线、终端、代码仓库、工作流、版权合同和法律条文。也正是在这个时刻,一个更困难的问题浮出水面:谁能让AI真正可靠地做事,并且为它做的事负责?

这个问题不会停在影视和软件行业。它很快会进入企业采购、安全审计、办公系统、客服流程、云平台和资本市场。AI不再只是回答者,它开始申请权限。现实世界的门开了一条缝,门后站着的不是一个单独的模型,而是一整套组织、制度和责任。

参考文献

  1. OpenAI,“Sora: Creating video from text”,2024.02.15。
  2. OpenAI,“Video generation models as world simulators”,2024.02。
  3. Sam Altman,X/Twitter posts soliciting Sora prompts after Sora announcement,2024.02.15。
  4. OpenAI,“Sora: first impressions”,2024.03。
  5. The Hollywood Reporter,“Tyler Perry Puts $800M Studio Expansion on Hold After Seeing OpenAI’s Sora: ‘Jobs Are Going to Be Lost’”,2024.02.22。
  6. Bloomberg,“OpenAI Courts Hollywood in Meetings With Film Studios, Directors”,2024.03.22。
  7. U.S. District Court, Southern District of New York,“The New York Times Company v. Microsoft Corporation, OpenAI, Inc. et al., Complaint”,2023.12.27。
  8. Cognition,“Introducing Devin, the first AI software engineer”,2024.03.12。
  9. SWE-bench,“SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”,2023。
  10. Hacker News,“Introducing Devin, the first AI software engineer”,2024.03.12。
  11. Internet of Bugs,“Devin: The AI Software Engineer is a Lie”,2024.04。
  12. European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024.03.13。
  13. Meta AI,“Introducing Meta Llama 3”,2024.04.18。
  14. Stanford HAI,“AI Index Report 2024”,2024.04。