第16章|从 Sora 到 Devin:AI 开始闯入现实世界
一、东京街头的访问权限
一个女人走在东京街头。提示词说,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色手袋,戴着太阳镜,抹着红色口红。街道两侧是温暖发光的霓虹灯和会动的城市招牌,潮湿路面反射着彩色灯光,许多行人在周围走动。镜头跟随她向前,像一部都市电影的开场。
女人不存在,街道不存在,摄影机也不存在。它们出现在OpenAI于2024年2月15日发布的Sora技术预览页面上。[1]
如前章所述,Sora不是一次面向所有用户开放的产品上线。OpenAI页面的标题是“Sora: Creating video from text”。公司给出的定义很简短:“Sora is an AI model that can create realistic and imaginative scenes from text instructions.”它还写道,Sora可以生成最长一分钟的视频,同时保持视觉质量并遵循用户提示。[1] 在当时的访问范围上,OpenAI也写得清楚:Sora正在提供给红队测试者,用于评估潜在危害或风险;公司也让一部分视觉艺术家、设计师和电影制作者接触模型,以获得反馈。[1]
这便形成了2024年春天AI行业的一种典型荒诞:最让行业震动的工具,绝大多数人不能使用;最像现实世界的影像,来自一个尚未公开接受现实世界检验的系统。
OpenAI在同一页上给Sora安排了更大的技术叙事:“We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.”[1] 这句话后来被不断压缩成“世界模型”。严格说,OpenAI没有证明Sora已经拥有一个完备的世界模型,它说的是正在教AI理解并模拟运动中的物理世界。这个限定很重要。2024年的行业传播常常把方向说成终点,把演示说成产品,把一组精选样片说成稳定能力。
OpenAI的技术报告标题更进一步:“Video generation models as world simulators”。报告称,视频和图像可以被压缩到潜在空间,再切分成“spacetime patches”,让模型在统一的数据表示上训练。[2] 它还写道:“Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.”[2] 这句话的关键词同样不是“已经建成”,而是“promising path”。道路显得诱人,但路面还没有铺完。
OpenAI也列出局限。Sora可能难以准确模拟复杂场景中的物理规律,可能不理解特定因果关系;例如,一个人咬一口饼干后,饼干上可能不会留下咬痕。模型也可能混淆左右方向,或难以精确描述随时间展开的事件。[1] 这些失败样例没有削弱Sora的传播效果,反而暴露出视频生成比文本生成更残酷的一面:文字幻觉可以藏在知识细节里,视觉幻觉会直接出现在腿、手、光影、轨迹和物体交互上。一个系统可以生成猛犸象穿过雪原,却可能无法稳定处理一块饼干的缺口。这不是对模型的嘲笑,而是现实世界的考试题过于具体。
Sora发布后,Sam Altman在X上向网友征集提示词,并展示部分生成结果。[3] 这种互动把技术预览变成了社交媒体上的即兴秀。网友给出离奇场景,模型返回可观看的视频片段;未来被压缩成几十秒,适合转发,也适合投射想象。失败样本、提示词筛选、生成次数和人工选择则留在屏幕之外。
Sora带来的变化,不只是“文生视频更好看了”。它把AI从聊天框推向镜头,从回答问题推向构造场景。过去一年里,人们问模型能否写邮件、总结文件、解释代码;到了2024年2月,问题开始变成:模型能否生成空间、运动和看似服从物理规律的连续世界。这个问题一旦出现,影视、广告、游戏、教育、机器人训练、仿真系统和法律行业都会听见敲门声。
二、创作者先被请进去
3月,OpenAI发布“Sora: first impressions”,展示一批视觉艺术家、设计师、创意导演和电影制作者接触Sora后的作品与反馈。[4] 这一步比技术报告更接近产业现场。视频生成模型如果要进入现实工作流,评审者不会只问“像不像”,还会问“能不能改”“能不能控”“能不能交付”“能不能署名”“能不能过法务”。
OpenAI页面上的早期作品带有明显的概念实验性质。它们不是传统意义上的完整院线电影,也不是经过大规模商业验收的生产流程,而是用Sora探索短片、动画、视觉拼贴和概念影像。对创作者来说,价值首先出现在“前期想象”这一层。过去,一个镜头要变成可看的画面,需要摄影棚、外景、演员、灯光、美术、道具、绿幕、后期和预算;现在,至少在概念阶段,提示词可以先把画面召唤出来。
这对独立创作者尤其敏感。影视行业常说创意无价,但把创意拍出来很贵。Sora让这句话出现裂缝:昂贵的部分没有消失,却可能被提前、压缩、替代或重新分配。一个没有大预算的导演,可以更快做出视觉提案;一个设计师,可以把抽象情绪变成动态参考;一个广告团队,可以在客户会议前生成多种风格方向。工具还没有普及,工作方式已经被想象重新报价。
但“first impressions”这个标题也带着保留。第一印象不是长期合同,样片不是流水线。影视制作要求角色一致、服装连续、镜头可控、版权清晰、修改可追踪、客户可验收。Sora页面展示的是模型能力的高光时刻,而不是一个完整剧组在交片 deadline 前与模型反复拉扯的过程。现实中的创作者很快会遇到更细的问题:同一个角色能否跨镜头稳定保持?一个品牌logo能否被正确呈现?一个客户要求“这里再克制一点”,提示词怎样转化成可控修改?如果画面像某个艺术家的风格,权利边界在哪里?
2024年春天,创作者被请进样片房,也被请进了一场尚未写完合同的实验。对他们而言,Sora不是单纯的敌人或朋友,而是一种改变谈判位置的工具。能使用它的人可能获得新的表达杠杆;不能使用它的人会担心市场价格被别人压低;作品曾经出现在互联网上的人,还会追问自己的影像是否已经成为训练数据的一部分。
这使Sora不同于一款普通创意软件。Photoshop、Premiere、After Effects改变了制作流程,但它们通常不需要吞下整个公共视觉文化作为训练基础。生成式视频模型把“工具”和“素材库”的边界搅在一起:它像工具一样接受指令,又像某种浓缩的视觉记忆库一样输出画面。创作者第一次看到Sora时,看到的不只是一台机器,也看到自己行业过去几十年积累的影像语言正在被机器重新组合。
三、好莱坞门口的价格表
Sora真正进入影视圈公共讨论,是因为一个很具体的产业动作。
2024年2月,《好莱坞报道者》采访Tyler Perry时写道,Perry在看到Sora能力后,将亚特兰大工作室一项约8亿美元的扩建计划暂时搁置。[5] 报道标题引用他的担忧:“Jobs Are Going to Be Lost”。这里必须谨慎:一项扩建计划被搁置,不能简单归结为Sora单一因素造成的产业转折;但Perry的公开表态说明,Sora技术预览已经足以影响一位大型影视从业者对未来投资的判断。
这个判断背后不是抽象的“AI替代人类”,而是工作岗位的分解。摄影棚扩建意味着建筑、布景、灯光、道具、运输、安保、群演、后期和周边服务。生成视频如果在某些场景中减少外景拍摄、布景搭建或初步特效需求,影响不会均匀落在“影视行业”四个字上,而会落到不同工种、不同城市、不同合同周期上。技术演示越惊艳,越容易让资本提前调整预算;而预算调整往往比产品成熟更早触及劳动者。
3月,彭博社报道称,OpenAI计划在洛杉矶与电影制片厂、高管和人才经纪机构会面,展示Sora并鼓励影视行业采用这项技术。[6] 这不是技术公司第一次进入好莱坞,也不是好莱坞第一次面对新技术。有声电影、电视、录像带、数字摄影、CGI、虚拟制作和流媒体都曾改变这个行业。生成式AI的不同之处在于,它同时触碰了成本、版权、工会、肖像、表演和风格。
好莱坞在2023年刚刚经历编剧和演员罢工,AI相关条款已经进入劳资谈判。Sora出现后,争议从文本、剧本和声音扩展到镜头与影像。一个制片厂可能希望用AI降低概念设计成本;一个演员可能担心自己的形象被复制;一个导演可能希望快速生成分镜;一个视觉特效从业者可能担心初级任务被压价;一个版权律师则会要求确认训练数据、输出归属和侵权责任。行业没有被分成整齐的两边,每个人的位置都可能随项目、合同和预算变化。
训练数据问题让这种复杂性更尖锐。OpenAI在Sora技术预览和技术报告中没有公开完整训练数据清单。[1][2] 对模型公司而言,训练数据细节涉及竞争、安全和商业秘密;对创作者而言,它涉及作品是否被未经许可地用于训练。2023年12月,《纽约时报》在美国纽约南区联邦地区法院起诉Microsoft和OpenAI,诉状主张被告未经许可使用该报受版权保护的内容训练模型,并在输出中复制或近似复制时报内容。[7] 这仍是诉讼中的主张,不是法院结论。但它已经把生成式AI的版权冲突推到公共记录里。
到了Sora,版权争议不再只是“文章是否被模型学习”。它变成了镜头运动、构图、灯光、角色风格、动画语言和影像资料是否被学习。影视公司一方面担心自己的素材被训练,另一方面又可能希望使用模型降低新项目成本;创作者一方面担心工作被替代,另一方面也可能希望借助工具扩大表达范围。行业荒诞感正在这里出现:同一个人可以反对未经授权的数据训练,同时要求团队尽快研究AI预演流程;同一家公司可以主张保护片库版权,同时评估用生成视频压缩制作成本。
Sora敲开好莱坞大门时,门后不是简单的欢迎或抵制,而是一张价格表、一份工会协议、一堆授权合同和一群等待下一份工作的个体。
四、终端里出现“第一位AI软件工程师”
Sora发布后不到一个月,AI行业的镜头从东京街头切到代码仓库。
2024年3月12日,Cognition发布Devin。公司官网文章标题写道:“Introducing Devin, the first AI software engineer”。[8] 在叙述中必须保留这个归属:这是Cognition对Devin的称呼,不是行业共识,也不是经过法律、组织和劳动市场共同承认的职业身份。
Devin演示的吸引力来自界面变化。过去一年,许多人已经习惯让ChatGPT解释报错、写函数、补全脚本,GitHub Copilot也早已进入程序员日常。但Cognition展示的不是一个只在聊天框里回答问题的系统,而是一个拥有命令行、代码编辑器和浏览器的代理。它接收任务,制定计划,查阅文档,读代码,运行命令,观察错误,修改文件,再次测试,最后汇报结果。[8]
这套流程击中的不是编程竞赛的炫技,而是软件工程中最普通、也最消耗时间的劳动:进入一个陌生项目,理解环境,安装依赖,复现问题,搜索资料,试错,修复,再把结果交给别人审查。一个能在这些步骤之间来回移动的系统,看起来就不再像“问答工具”,而像一个开始占用工单的工作角色。
Cognition在发布文中称,Devin可以学习不熟悉的技术,可以端到端构建和部署应用,可以自主发现并修复bug,也可以为成熟生产代码库贡献修复。[8] 公司还引用SWE-bench成绩。SWE-bench是一个基于真实GitHub issue和对应pull request构建的软件工程基准,要求系统根据问题描述修改代码库并通过测试。[9] Cognition称,Devin在该基准上无辅助解决了13.86%的问题,超过此前1.96%的最好成绩。[8]
这个数字需要放在正确位置。13.86%不是“AI软件工程师已经取代程序员”的证据。它说明,在一类公开基准任务中,代理式系统相对前代方法取得了明显进展。SWE-bench比许多传统编程题更接近真实工程,因为它要求系统进入已有代码库,而不只是写一个孤立函数。但它仍然是基准,不是公司生产环境。真实工程还包括权限、遗留系统、模糊需求、上线窗口、监控告警、合规审查、客户沟通、跨团队协调和长期维护。
Devin带来的传播力量不依赖这些限定。人们看到的是AI自己打开浏览器、自己读文档、自己在终端里失败、自己修复失败。失败在这里反而增加了真实感,因为软件工程本来就是与报错、依赖和环境配置长期相处的职业。一个从来不报错的演示像魔术;一个会报错再修的演示更像劳动。
这正是Agent叙事在2024年春天获得商业重量的原因。AI不再只是回答者,而被包装成执行者。副驾驶默认有人类坐在驾驶位上;代理则暗示它可以领取任务、使用工具、推进流程并交付结果。资本市场需要ChatGPT之后的新故事,企业客户需要把生成式AI从演示间带进损益表,创业公司需要证明自己不是大模型API外面的一层薄壳。Devin提供了一个极易传播的符号:AI员工。
但软件工程师恰好是最熟悉演示的人群之一。他们知道demo可以精心选择,知道脚手架可以藏起来,知道“能跑一次”和“每天可靠运行”之间有一条长路。Cognition把Devin带进这个职业,也把它带进了一种会逐帧审讯演示视频的文化。
五、工程师反向审讯
Devin发布后,开发者社区的反应并不只有惊叹。Hacker News上关于Cognition发布帖的讨论迅速展开,许多评论围绕演示任务选择、可复现性、SWE-bench含义、真实生产环境复杂度、可用性和“AI software engineer”称呼本身展开。[10] 社区讨论不能单独证明Devin真实能力如何,却能证明一件事:Agent热潮第一次遭遇了工程师文化的公开审查。
随后,一些技术内容创作者开始复盘Devin公开视频。YouTube频道Internet of Bugs在2024年4月发布视频,对演示流程提出质疑,讨论任务是否被精心挑选、宣传口号是否被视频充分支持等问题。[11] 这些复盘同样不能被写成“Devin被证伪”。公开视频和社区分析不足以替代独立、大规模、可复现的产品评测。更准确的说法是:Devin让行业看见了一个诱人的代理形象,也让开发者社区开始要求证据的颗粒度。
审讯首先针对“演示”和“产品”的距离。Cognition发布时,Devin并未向所有公众开放,而是提供早期访问申请。[8] 外界看到的是公司选择展示的任务,而不是开放用户在各种混乱项目中反复测试后的稳定表现。Sora也是如此。2024年春天最具冲击力的两个AI故事,都不是完全公开可用的成熟产品,而是受控展示。技术公司有权这样发布,观察者也有理由把“可展示能力”和“可依赖能力”分开。
第二层审讯针对“基准”和“工作”的距离。SWE-bench的重要性在于它把AI带进真实代码库问题,但真实工程不是只有issue和测试。一个企业项目里,问题描述可能来自客户一句含糊抱怨;复现环境可能需要内部权限;修复方案可能涉及安全、法务、性能和商业优先级;上线后还要面对监控、回滚和责任追踪。一个代理能在开源仓库任务上取得进步,并不意味着它能在银行核心系统、医疗软件或大型电商平台中自主行动。
第三层审讯针对“自主”这个词。Devin演示中的系统会计划、使用工具并反馈进度,但任务由人类定义,结果仍需人类审查。[8] 从组织意义上看,这更像自动化程度更高的工程助手,而不是能承担责任的员工。员工会签署合同,接受管理,承担纪律和法律后果;AI系统不会。客户采购时最终要问的不是标题是否响亮,而是:代码出错谁负责?漏洞进入生产环境谁承担?凭证泄露怎么办?生成代码是否引入许可证风险?AI提交的补丁由谁审查?审查者如果过度信任,又算谁的责任?
这里的个体不是抽象的“程序员群体”。它可以是维护开源项目的志愿者,突然收到一批由AI生成的pull request;可以是创业公司的两名工程师,面对投资人要求“用Agent提高研发效率”;可以是大公司里的值班工程师,在凌晨三点处理一个自动化修改引发的告警;也可以是刚入行的初级开发者,发现过去用于练手的修bug、写脚本、补测试任务正在被工具重新定价。公开材料不能替这些人编造具体经历,但行业变化的压力会沿着这些岗位传导。
工程师的怀疑并不等同于保守。相反,它可能是Agent进入现实世界前必须经历的测试。聊天机器人可以用“回答仅供参考”缓冲责任;代码代理一旦修改仓库,就会触碰测试、依赖、漏洞、许可证、性能和线上稳定性。它不只是生成文本,而是在生产系统里留下diff。diff可以被git记录,也可以把值班手机叫醒。
Sora和Devin在这里形成呼应。视频模型的错误会出现在画面里,代码代理的错误会出现在运行结果里。它们都比聊天框更接近现实,也都更难用“模型偶尔会犯错”轻轻带过。AI开始做事,责任密度也随之上升。
六、规则坐上主席台
Devin发布第二天,欧洲议会把另一种力量推到桌面上。
2024年3月13日,欧洲议会通过《人工智能法案》。欧洲议会新闻稿称,议员以523票赞成、46票反对、49票弃权通过这项法律。[12] 前一章已经写过AI Act在算力和产业政策背景中的位置;放在本章,它更像是对Sora和Devin的提醒:AI一旦进入现实世界,就不再只是模型公司、开发者和投资人的内部游戏。
AI Act采用风险分级思路。新闻稿列出,法案禁止若干被视为不可接受风险的AI用途,包括基于敏感特征的生物识别分类、无目标抓取互联网或监控录像中的人脸图像来建立面部识别数据库、工作场所和学校中的情绪识别、社会评分,以及仅基于画像或个人特征的某些预测性警务等。[12] 对高风险AI系统,法案要求风险管理、数据治理、技术文档、记录保存、透明度、人类监督、准确性和网络安全等义务;对通用人工智能模型,也设置透明度和相关要求。[12]
这些法律语言放回Sora和Devin身上,突然不再抽象。生成视频涉及深伪、身份冒充、误导性内容、色情滥用、版权和来源标识;代码代理涉及安全漏洞、关键系统、权限管理、自动化决策和责任归属。过去,AI公司可以主要围绕能力讲故事;一旦产品进入工作流,就必须谈审计、投诉、日志、可解释记录和事故处理。
OpenAI在Sora页面中提到红队测试、检测分类器和内容来源标准等措施。[1] Cognition在Devin发布时采用早期访问方式,而不是立即全面开放。[8] 这些做法可以被理解为公司知道风险存在。但公司自我约束与法律义务不是同一回事。前者由公司设置边界,后者由公共制度设定底线。现实世界不是一个无限沙盒,尤其当AI系统开始影响就业、教育、公共服务、执法、媒体和基础设施时。
AI Act不会自动解决所有问题。企业会担心合规成本,开源社区会追问义务边界,监管者还要制定执行细则,成员国还要建立监督机制。但时间点本身已经说明:当AI行业把“real-world interaction”写进路线图,现实世界也会把风险分级、透明度和责任写进AI路线图。
七、开源权重从另一边拆墙
监管从一侧施压,开源权重从另一侧改变竞争结构。
2024年4月18日,Meta发布Llama 3,推出8B和70B参数规模的预训练与指令微调模型。[13] Meta称,Llama 3相较Llama 2有显著提升,并向开发者开放模型权重。这里也需要限定:Llama系列不是无条件的公共领域软件,它带有Meta自己的许可条款;但在产业竞争中,开放权重已经足以降低许多团队进入应用层创新的门槛。
Meta披露,Llama 3使用超过15万亿token训练,训练数据规模约为Llama 2的七倍,其中代码数据约为Llama 2的四倍;它还采用了128K词表的tokenizer,并改进了后训练流程。[13] 这些细节说明,开放权重并不意味着低成本童话。前沿模型仍然需要数据、算力和工程系统支撑。Stanford HAI的《AI Index Report 2024》估算,GPT-4训练成本约为7800万美元,Gemini Ultra约为1.91亿美元;报告还显示,2023年生成式AI相关私人投资达到252亿美元,接近前一年的八倍。[14]
这些数字给2024年春天的热潮加上了另一层背景。Sora是闭源技术预览,Devin是早期访问的代理产品,Llama 3则把可下载、可部署、可微调的权重交给更广泛的开发者、研究者和企业。三者不是同一种产品,却共同推动AI离开聊天框:一个进入视频和视觉世界,一个进入终端和代码仓库,一个进入更多人的本地机器、云实例和企业内网。
开放权重对闭源神话的压力在于,它削弱了“只有少数实验室能定义未来”的叙事。一个企业可以不完全等待某个封闭API的路线图,而是在开放模型基础上做私有部署、行业微调和安全控制。一个创业团队可以把Agent框架接在开放模型上,围绕具体工作流优化。一个研究团队可以更系统地评估模型偏见、安全和能力边界。闭源前沿模型仍然强大,但它们不再独占想象力。
这对Sora和Devin代表的方向同样重要。未来的视频生成工具可能调用闭源模型,也可能建立在开放多模态模型之上;未来的代码代理可能使用商业API,也可能使用企业私有部署的大模型。监管要求可审计,企业要求数据不外流,安全团队要求权限可控,开发者要求可调试和可替换,这些现实条件都会让开放权重变得更有吸引力。
于是,2024年春天的AI竞争不再只是模型参数和榜单成绩的竞赛。它变成了一场夹击:监管要求模型公司解释责任,开放权重要求闭源公司解释不可替代性。前者问“你凭什么这样进入社会”,后者问“开发者为什么必须等你”。
八、谁能可靠地做事
从Sora到Devin,AI行业在2024年春天越过了一条心理边界。
Sora把AI推向镜头。它让不存在的东京街头变成全球讨论的样片,让创作者看到低成本视觉想象力,也让影视行业看到版权、劳动、深伪和生产流程的重估。它把“模拟运动中的物理世界”写进技术叙事,但它公开承认的失败也提醒外界:世界不是只靠像素就能彻底理解。
Devin把AI推向终端和代码仓库。Cognition称它为“第一位AI软件工程师”,并用演示展示一个会查文档、运行命令、修改代码、修复错误的代理。它让Agent叙事第一次获得大众传播中的具体形象,也让开发者社区立刻开始审讯:演示是否可复现,基准是否等同真实工作,自主性的边界在哪里,出错谁负责。
同一时期,欧洲议会通过AI Act,Meta发布Llama 3。一个来自制度,一个来自开放权重。它们共同说明,AI进入现实世界后,不可能只按照模型公司自己的节奏前进。法律会要求风险分级和透明度,企业会要求安全和责任,开发者会要求可控和可复现,开源生态会不断降低后来者进入牌桌的门槛。
兴奋没有消失。Sora的样例仍像未来电影的预告片;Devin的演示仍让人第一次直观看见“AI同事”的轮廓。怀疑也没有消失。技术预览不是普及产品,演示视频不是长期可靠性,基准成绩不是组织责任,开放权重也不是免费奇迹。
2024年春天,AI行业终于不满足于聊天框。它开始走向摄像机、时间线、终端、代码仓库、工作流、版权合同和法律条文。也正是在这个时刻,一个更困难的问题浮出水面:谁能让AI真正可靠地做事,并且为它做的事负责?
这个问题不会停在影视和软件行业。它很快会进入企业采购、安全审计、办公系统、客服流程、云平台和资本市场。AI不再只是回答者,它开始申请权限。现实世界的门开了一条缝,门后站着的不是一个单独的模型,而是一整套组织、制度和责任。
参考文献
- OpenAI,“Sora: Creating video from text”,2024.02.15。
- OpenAI,“Video generation models as world simulators”,2024.02。
- Sam Altman,X/Twitter posts soliciting Sora prompts after Sora announcement,2024.02.15。
- OpenAI,“Sora: first impressions”,2024.03。
- The Hollywood Reporter,“Tyler Perry Puts $800M Studio Expansion on Hold After Seeing OpenAI’s Sora: ‘Jobs Are Going to Be Lost’”,2024.02.22。
- Bloomberg,“OpenAI Courts Hollywood in Meetings With Film Studios, Directors”,2024.03.22。
- U.S. District Court, Southern District of New York,“The New York Times Company v. Microsoft Corporation, OpenAI, Inc. et al., Complaint”,2023.12.27。
- Cognition,“Introducing Devin, the first AI software engineer”,2024.03.12。
- SWE-bench,“SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”,2023。
- Hacker News,“Introducing Devin, the first AI software engineer”,2024.03.12。
- Internet of Bugs,“Devin: The AI Software Engineer is a Lie”,2024.04。
- European Parliament,“Artificial Intelligence Act: MEPs adopt landmark law”,2024.03.13。
- Meta AI,“Introducing Meta Llama 3”,2024.04.18。
- Stanford HAI,“AI Index Report 2024”,2024.04。