第23章|十二月密集发布:Sora 上线,Gemini 2.0 与 o3 预告
一、日历变成瓶颈
2024年12月,人工智能行业的用户第一次如此频繁地遇到一种新型困惑:这到底是演示、预览、等待名单,还是已经可以买来用的产品?
过去,发布会通常有清晰层级。论文是论文,演示是演示,beta 是 beta,正式产品是正式产品。到了这一年年底,边界开始变得拥挤。一个页面写着“available”,另一个帮助文档列出地区限制;直播里模型解题像开闸放水,用户入口却只开放给安全测试者;博客标题宣布“新模型”,开发者文档又说明某些输出能力只给早期合作方;社交媒体上满屏都是生成视频,欧洲、英国和瑞士的用户却在可用性说明里被画进括号。
发布密度本身成了新闻。
OpenAI 在12月推出“12 Days of OpenAI”,从12月5日起连续十二个工作日进行直播和产品公告。[1] 这不是一次普通年度更新,而像一台精心设计的叙事机器:第一天是 o1 和 ChatGPT Pro,随后是 Sora、Canvas、Apple Intelligence 中的 ChatGPT 集成、Projects、搜索、开发者工具、电话和 WhatsApp 入口,最后以 o3 和 o3-mini 的预告收束。[1][2]
密集发布带来的效果很直接。技术圈每天都有新链接可点,媒体每天都有新标题可写,用户每天都要重新判断自己的账号、地区、订阅等级和等待资格。一个人早上看到 Sora 视频,下午打开 sora.com,晚上又看到 Gemini 2.0 Flash 的开发者文档,第二天再看到 o3 的 ARC-AGI 成绩截图。产品像潮水一样涌来,可真正的问题并不是“有没有发布”,而是“谁能用、怎么用、能用到什么程度”。
这就是2024年12月与此前几轮 AI 发布的不同之处。它不只是 demo parade,不只是一次次能力展示。它更像一场产品访问权的压力测试。
OpenAI 和 Google 都在争夺未来一年的开场白。OpenAI 用连续十二天把自己重新放回舞台中央。Google 在12月11日发布 Gemini 2.0,把新模型放进“agentic era”——代理时代——的叙事中。[3] 两家公司展示的方向不同:OpenAI 把视频生成和推理模型推到前台,Google 把多模态、工具使用和浏览器代理放进同一个框架。但用户面前的实际问题相似:公告说得越大,入口就越重要;能力越像魔法,条款、队列、水印、地区和订阅层级就越像魔法背后的栅栏。
这是一种很符合生成式 AI 时代的荒诞感。公司发布“让机器思考”“让模型看见世界”“让浏览器自己干活”的系统,用户却首先要研究的是:自己是不是 Plus,够不够 Pro,所在国家有没有开放,生成额度还剩多少,上传人物会不会被拒,模型是实验版还是正式版,演示里的能力是不是已经进了 API。
未来被宣布得很宏大,入口却像机场安检一样具体。
二、Sora:玻璃打开了一半
12月9日,OpenAI 发布《Sora is here》,宣布 Sora 向 ChatGPT Plus 和 Pro 用户开放。[4] 这一天的重点不再是重新解释 Sora 在2月技术预览中为何令人震动;前文已经写过那次预览如何让文本到视频从概念进入公众视野。本章只保留一个回声:2024年初,Sora 是隔着玻璃的展示品;2024年12月,它变成一个有网址、有订阅、有额度、有地区限制的产品入口。
产品化的第一层边界,是谁能进去。
OpenAI 的发布说明写得很清楚:Sora 作为独立产品在 sora.com 上线,纳入 ChatGPT Plus 和 Pro 订阅,不额外收费。[4] 这意味着免费用户并没有因为看见发布就自动获得视频生成能力。Sora 也不是面向所有 ChatGPT 可用地区同步开放。OpenAI 帮助中心和发布说明显示,发布时 Sora 在许多 ChatGPT 可用国家开放,但不包括英国、瑞士和欧洲经济区;用户还必须满足年龄要求。[4][5]
产品化的第二层边界,是能生成多少、生成多长、生成多清楚。
OpenAI 在发布中说明,Plus 订阅包括每月生成一定数量视频的能力,典型限制是最多50个480p视频,或更少数量的720p视频;Pro 用户获得约10倍使用量、更高分辨率、更长时长和更多并发生成。[4][5] 帮助文档进一步把体验拆成额度、分辨率、时长、并发、下载和水印等具体项目。[5] 一段“文字变视频”的魔法,落到产品表格里,就是 480p、720p、1080p、5秒、20秒、并发数量和优先额度。
产品化的第三层边界,是内容政策。
OpenAI 在 Sora 系统卡和发布说明中写入多项安全措施:生成视频包含可见水印,并嵌入 C2PA 元数据;公司在上线时限制涉及人物上传的功能,以降低未经授权肖像、深伪和滥用风险;同时继续使用内容审核、来源标记和滥用监测。[4][6] 这些措施并不是发布会装饰。视频生成模型进入的是一种比文本更容易制造“证据感”的媒介。一个看起来像手机实拍的视频,可以用于广告样片,也可以用于冒充新闻现场、伪造公众人物言行、骚扰个人或制造诈骗素材。
于是,Sora 的上线同时带来两种现实。
第一种现实是创作者获得了以前难以想象的视觉草图工具。OpenAI 在产品中提供 prompt 生成、图片或视频输入、remix、re-cut、storyboard、loop、blend 等功能。[4] 对广告、短片、游戏概念、教育视频和社交媒体创作来说,这些功能可能改变试错成本。一个小团队过去需要摄影、棚拍、后期或外包视觉特效才能验证的镜头,现在可以先用提示词和参考素材生成粗样。它未必替代最终制作,却可能替代一部分提案、分镜、概念验证和风格探索。
第二种现实是创作者必须先学会一套新的平台规则。视频能不能生成,取决于订阅等级;能不能下载无水印版本,取决于计划和设置;能不能上传人物,取决于政策开放范围;能不能在某地使用,取决于监管与地区支持;能不能稳定排队生成,取决于需求与基础设施。
上线后不久,需求本身就成了边界。The Verge 报道,Sora 发布后因访问量过高,OpenAI 一度暂停或限制新的账号创建,并转述 Sam Altman 关于需求被严重低估的说法。[7] 这类情节在 AI 产品史中反复出现:公司宣布一个能力,用户蜂拥而至,然后产品团队不得不用排队、暂停注册和额度控制来把兴奋重新压回服务器能够承受的形状。
对文本模型来说,排队已经令人不耐烦;对视频模型来说,排队还意味着另一种成本结构。生成视频比生成文字更重,既占用更多算力,也占用更多存储和审核资源。Sora 的产品限制不是任意设置的门槛,它们是视频生成进入消费市场后必须外化的基础设施现实。
三、一个创作者看到入口,也看到栅栏
12月9日,科技视频创作者 Marques Brownlee 在 YouTube 发布《I Tried Sora. It’s… something》,展示自己对 Sora 的测试。[8] 这个场景很适合放在十二月的中心:一个以影像制作、镜头语言、设备测试和后期流程为职业基础的创作者,公开试用一个能够生成视频片段的模型。对观众来说,屏幕上出现的是“AI 视频终于可以看见了”;对创作者行业来说,屏幕背后则是一个更复杂的问题:这种能力将怎样进入真实工作流?
Brownlee 不是普通排队用户。他作为知名创作者获得测试和展示机会,本身就说明 Sora 的上线并非简单地从实验室直接流向全体公众,而是经过创作者展示、平台发布、订阅分层和政策控制。普通用户同一天进入产品入口时,遇到的不是同一条无障碍通道,而是 OpenAI 帮助中心中列明的条件:ChatGPT Plus 或 Pro、支持地区、年龄要求、视频额度、分辨率限制、时长限制、人物上传限制、内容政策和水印规则。[4][5][6]
这不只是 Sora 的问题,而是2024年12月 AI 产品形态的缩影。
一个自由职业视频剪辑师、广告分镜师、游戏概念设计师或社交媒体运营者,看到 Sora 的上线消息,可能会先问三个非常实际的问题。第一,自己所在地区能不能开;第二,20美元 Plus 是否够用,还是必须考虑200美元 Pro;第三,生成出来的素材能不能交付给客户或发布到平台。前两个问题由 OpenAI 的订阅表和可用性说明回答,第三个问题还要穿过客户合同、平台 AI 内容标注政策、版权风险和肖像授权。
AI 公司常把产品描述为“降低创作门槛”。这句话并不虚假,但它在现实中会变成另一组门槛的迁移。过去的门槛是摄像机、灯光、场地、演员、剪辑软件和预算;新门槛是账号权限、生成额度、提示词技巧、内容审核、输出水印、平台披露、训练数据争议和客户是否接受 AI 素材。
水印尤其体现了这种迁移。OpenAI 把 Sora 生成视频默认加上可见水印,并嵌入 C2PA 元数据。[4][6] 对公共信任来说,这是必要的来源标记;对商业交付来说,它又成为工作流变量。一个创作者如果只是内部试片,可以接受水印;如果要向客户交付无水印版本,就要看订阅等级和下载规则;如果平台要求标注 AI 内容,即便去掉可见水印,也仍然需要遵守平台政策和法律要求。技术能力把视频做出来,治理机制则决定视频如何流通。
人物限制同样如此。OpenAI 在上线时限制人物上传,是为了降低深伪和未经授权肖像风险。[4][6] 这项限制对于社会安全有明确理由,却也意味着许多最有商业价值的使用场景——演员预演、品牌代言人、个人形象视频、客户肖像广告——不能简单地被“文本到视频”四个字概括。一个功能越强,越需要在最敏感的用例上先踩刹车。
因此,Sora 上线后的真正故事不是“视频生成终于来了”这么简单。它是一个创作者第一次看见强大系统变成网页入口,同时也看见入口旁边竖起的一串栅栏。栅栏并不总是坏事。没有水印、限制和审核,视频生成很快会撞上诈骗、深伪和政治传播的高压线。但栅栏也决定了谁能先使用、谁能大规模使用、谁能把它变成收入,谁只能继续观看别人上传的样片。
十二月的产品瓶颈,在这里变得非常具体:能力上线,不等于能力平等可用。
四、Gemini 2.0:Google 把“会用工具”放到标题里
两天后,Google 给出另一种回答。
2024年12月11日,Google 发布《Gemini 2.0: our new AI model for the agentic era》。这篇官方博客把 Gemini 2.0 放进“代理时代”的框架:模型不只是回答问题,还要理解多模态输入、调用工具、与现实软件协同工作。[3] Google 写到 Gemini 2.0 在多模态、原生工具使用、图像和音频输出等方面推进,并将逐步进入 Google 产品和开发者平台。[3]
但这一发布同样必须拆成“实际可用”和“展示方向”两部分。
实际首先交到用户和开发者手里的,是 Gemini 2.0 Flash 的实验版本。Google 表示,Gemini 2.0 Flash Experimental 面向开发者在 Gemini API、Google AI Studio 和 Vertex AI 中开放;Gemini 应用用户也可以在桌面和移动网页端的模型下拉菜单中选择 2.0 Flash Experimental,移动应用将逐步跟进。[3][9] 这不是整个 Gemini 2.0 家族的全面量产,也不是所有演示能力同时进入日常产品,而是一个实验模型先行进入开发者和部分用户入口。
开发者文档进一步说明了边界。Gemini 2.0 Flash 支持多模态输入和文本输出,并通过 API 提供工具使用能力;Google 还推出 Multimodal Live API,用于实时音视频输入和低延迟交互;但部分原生图像生成和可控文本转语音等能力,在发布时更多处于早期访问或预览阶段,并非所有开发者都可在生产环境中稳定调用。[9][10]
这就是 Gemini 2.0 的关键:Google 宣布的是方向,实际发货的是一组分层入口。
Google 的优势在于,它不只是模型公司。它拥有 Search、Chrome、Android、YouTube、Gmail、Docs、Sheets、Calendar、Maps、Lens 和 Google Cloud。所谓 agentic era,如果只在聊天框里发生,Google 的优势没有完全展开;如果 AI 要看屏幕、调工具、填网页、整理日程、搜索信息、处理代码、读取图片,Google 的资产就重新变成地形。
因此,Gemini 2.0 的发布不应被简化成“又一个模型”。它更像 Google 对下一阶段竞争的定义:模型能力要与工具、权限、设备、浏览器和办公软件结合。聊天机器人告诉用户怎么做,代理系统则试图在用户授权下帮用户做。
可是,“帮用户做”比“回答用户”更危险。
模型回答错一段解释,用户可以忽略、纠正或重新提问。模型如果点错按钮、发错邮件、提交错表单、购买错商品,错误就进入现实流程。代理能力越强,产品团队越要回答身份认证、权限范围、撤销机制、审计记录、隐私泄露和责任归属。Gemini 2.0 的方向令人兴奋,正因为它指向 AI 从内容层进入操作层;它也令人警惕,正因为操作层没有演示视频那么宽容。
Google 在12月没有假装所有问题都已经解决。它把更激进的代理能力放进实验项目和受限测试中:Project Astra、Project Mariner、Jules。这些项目展示方向,也保留了预览、实验和可信测试者的边界。[3][11][12]
在十二月的拥挤发布日历里,Google 的信息其实很清楚:Gemini 2.0 Flash Experimental 已经开放给开发者和部分应用用户;真正完整的代理生态,还在分阶段进入产品。
五、Astra、Mariner 与浏览器里的苦工
Project Astra 是 Google 对“通用 AI 助手”的持续实验。Google DeepMind 在12月更新中把 Astra 与 Gemini 2.0 联系起来,强调实时多模态理解、语音交互、视觉输入、上下文记忆以及与 Google Search、Lens、Maps 等工具结合的可能性。[11] 这个方向很容易被一句“AI 助手”概括,但它真正触及的是设备、传感器和权限。
早期语音助手曾经许诺改变人机交互,最后大量停留在闹钟、天气、音乐和智能家居控制。Gemini 2.0 叙事下的 Astra 试图把助手重新带回一个更激进的位置:它可以看见摄像头画面,听见用户问题,结合视觉和语言给出回应,并在未来与工具链衔接。[11]
这条路线的吸引力显而易见。一个能看、能听、能记住上下文、能调用地图和搜索的助手,比一个只接收文字输入的聊天框更接近日常工作。它可以帮人识别设备、解释环境、查找物品、理解屏幕、陪同完成任务。可它也更接近隐私边界。文本框只知道用户输入了什么;摄像头和麦克风入口则可能知道用户身处何地、看见什么、与谁交谈、桌上有什么文件。助手越像助手,治理问题就越像个人空间的门锁。
Project Mariner 则把代理想象放进浏览器。Google DeepMind 将 Mariner 描述为一种研究原型,能够理解浏览器屏幕上的信息,包括像素和网页元素,并通过实验性 Chrome 扩展执行任务。[12] Google 公布过 Mariner 在 WebVoyager 等网页任务基准上的表现,用来说明模型在端到端网页操作上的进展。[12]
浏览器代理是十二月最具行业荒诞感的场景之一。
互联网三十年把大量生活和工作压进网页:订机票、报销、购物、银行、政务表格、学校系统、客户后台、企业软件。人类为了适应这些系统,学会了忍受弹窗、验证码、分页、隐藏按钮、下拉菜单、模糊错误提示和“请刷新后重试”。如今 AI 公司开始训练模型替人类忍受网页。技术前沿的一部分商业价值,竟然来自数字社会早已制造出的界面折磨。
这并不是嘲讽某个设计者。它只是说明 Agent 为什么诱人:大量日常工作不是缺少知识,而是被流程磨损。一个浏览器代理如果足够可靠,就可能替用户比较商品、填写表单、整理订单、处理后台、跨网站收集信息。它不是回答“该怎么做”,而是直接进入“我替你做”。
但浏览器不是安全实验室。网页上有广告、弹窗、钓鱼页面、恶意提示、误导性按钮和隐藏指令。一个会读网页并执行操作的模型,可能被网页内容诱导。过去网络安全问的是“用户会不会被骗”;代理时代还要问“模型会不会被骗,然后替用户点击”。这就是为什么 Mariner 在12月仍是研究原型和受限测试,而不是所有 Chrome 用户都能立即交给它银行卡和政务账号。[12]
Jules 则把代理放进代码工作流。Google 在 Gemini 2.0 发布中把 Jules 描述为实验性代码代理,可以帮助开发者处理 bug、生成计划并执行修改。[3] 编程是代理系统的理想试验场之一:任务有文件、测试、日志、版本控制和回滚机制,比开放网页更容易建立边界。但编程也足够复杂,能暴露模型在长上下文、工具调用、规划和错误修复上的真实能力。
Astra、Mariner、Jules 共同说明一件事:Gemini 2.0 的产品发布不是单点能力,而是 Google 试图把模型接入工具世界。可是,接入工具世界的每一步,都必须回答访问权问题。谁能试用?通过哪个入口?是不是可信测试者?能不能进入生产?有没有权限限制?能不能撤销操作?有没有审计记录?
十二月的关键词不是“模型已经无所不能”。关键词是:模型开始靠近真实软件,而真实软件不会因为发布会漂亮就降低复杂度。
六、o3:基准点燃,入口仍在门外
12月20日,OpenAI 在“12 Days of OpenAI”的最后一天展示 o3 和 o3-mini。[13] 这场发布与 Sora 不同。Sora 至少已经向 Plus 和 Pro 用户开放;o3 和 o3-mini 在12月主要是预告、演示和安全测试开放,不是普通用户当天就能在 ChatGPT 里随意选择的日常产品。
OpenAI 在直播和相关说明中将 o3、o3-mini 描述为下一代推理模型,并开放外部安全测试申请。[13] 按发布时信息,o3-mini 预计先于 o3 面向更广用户推出,完整 o3 仍需后续发布和评估。[13][14] 这一区别非常重要。十二月大量传播的不是“用户已经在用 o3 工作”,而是“OpenAI 展示了 o3 在若干困难基准上的结果,并开始安全评估流程”。
最引人注意的是基准。
OpenAI 在发布中展示了 o3 在数学、编程和科学问答等任务上的结果。[13] 更大的公共震动来自 ARC-AGI。ARC Prize 团队在12月20日发布说明,称 OpenAI o3 在 ARC-AGI-1 上取得突破性成绩:低计算设置下为75.7%,高计算设置下为87.5%。[15] 这个数字迅速传播,因为 ARC-AGI 长期被视为考察抽象推理和少样本归纳能力的困难基准之一。
但是这里必须把兴奋和怀疑同时写下。
ARC Prize 团队自己也强调,ARC-AGI 不是 AGI 的充分测试,通过或接近通过该基准并不等于实现通用人工智能。[15] 基准是信号,不是终局裁判。一个系统在某个测试上出现跃迁,说明能力边界发生变化,却不能自动证明它在开放世界中具有同等可靠性。AI 史上反复出现这样的循环:某个测试曾被视为遥远门槛,模型跨过之后,人们发现智能还有更多层面没有被测试覆盖。
o3 的基准还必须放在访问和计算条件中理解。ARC Prize 报告区分了低计算和高计算设置。[15] 这意味着成绩并不是单一“模型分数”那么简单,而与测试时计算资源有关。推理模型越依赖在回答前进行更多搜索、验证和尝试,能力就越可能与成本、延迟和计算预算捆绑。用户看到的是一个分数,产品团队看到的是每次调用背后的算力账单。
这也是 o3 与 ChatGPT Pro 同月出现的制度意义。12月5日,OpenAI 发布 ChatGPT Pro,每月200美元,面向需要更高计算能力访问的用户,并提供 o1 pro mode 等功能。[2] 这个价格在消费软件语境中并不轻巧,却符合推理模型的成本逻辑:如果“更聪明”意味着每次回答消耗更多测试时计算,那么订阅层级和调用限制就会自然变成产品形态的一部分。
o3 因此不是一个简单的排行榜事件。它更像前沿模型商业结构的一次预告。模型不只是在训练阶段烧钱,也可能在推理阶段继续烧钱。越难的问题,越可能需要更长等待、更高费用和更严格的使用限制。所谓“慢思考”从9月 o1 的产品概念,走到12月 o3 的基准震动,已经变成一条清晰路线:模型可以在困难任务上花更多计算,换取更好结果;但这些结果何时、以什么价格、向哪些用户开放,是另一个问题。
这也是为什么不能把 o3 与 Sora、Gemini 2.0简单并排成一个“谁更强”的榜单。Sora 的关键是视频能力进入付费用户入口;Gemini 2.0 的关键是实验模型和代理工具链开始分层开放;o3 的关键是推理能力被展示,但仍处在安全测试和未来发布阶段。三者都重要,却处在不同访问状态。
十二月最容易误读的地方,正是把“看见演示”误当成“拿到产品”。
七、年底的门槛
到2024年最后一周,行业并没有进入一个清爽的新阶段。它进入的是一个门槛更多、能力更强、说明文档更长的阶段。
Sora 让视频生成第一次以明确产品形态进入 ChatGPT Plus 和 Pro 用户手中,却同时带着地区限制、年龄要求、额度、分辨率、时长、并发、水印、人物上传限制和内容政策。[4][5][6] 对创作者来说,这既是新工具,也是新合规表格。
Gemini 2.0 让 Google 把竞争从聊天框拉向工具、浏览器、设备和多模态交互,但真正开放的是 Gemini 2.0 Flash Experimental、开发者 API、Google AI Studio、Vertex AI 和部分 Gemini 应用入口;Astra、Mariner、Jules 仍然以原型、实验和可信测试者形式推进。[3][9][11][12] 对开发者和企业来说,这既是路线图,也是等待名单。
o3 让推理模型的基准讨论重新升温,尤其是 ARC-AGI 的成绩让技术圈看到新的能力跃迁;但它在12月不是一般可用产品,而是预告、演示和安全评估对象。[13][15] 对学生、研究者、程序员和知识工作者来说,这既是未来能力的信号,也是一个暂时不能稳定纳入日常流程的系统。
这就是十二月的真实冲突:公告越壮观,访问问题越突出。
AI 公司正在把模型推向三个方向。第一,生成内容,从文字、图片走向视频。第二,执行任务,从聊天建议走向浏览器、代码和工具调用。第三,增强推理,从快速回答走向测试时计算和更复杂解题。每条路线都令人兴奋,因为它们确实扩展了机器能做的事;每条路线也令人怀疑,因为它们把成本、权限、责任和不平等访问一起带进产品。
普通用户感受到的不是抽象技术曲线,而是很具体的摩擦。看见别人生成 Sora 视频,自己所在地区可能不能登录。读到 Gemini 2.0 的“agentic era”,自己能用到的也许只是实验版 Flash。刷到 o3 的基准截图,却不能把 o3 直接放进今天的作业、代码库或研究流程。发布会把未来提前摆上屏幕,产品入口却把未来按订阅、地区、队列和安全评估切成小块。
行业的幽默也在这里。2024年12月,人工智能公司宣布机器将理解世界、生成电影、操作网页、解决抽象推理题;用户的第一步却是刷新页面、查看帮助中心、比较套餐、等待开放、确认水印、阅读地区限制。这不是技术失败,而是技术进入社会后的正常形状。越强的系统,越不可能以“所有人立刻无限使用”的形式出现。
OpenAI 在十二天里夺回了注意力。Google 用 Gemini 2.0 把代理路线重新锚定到自己的生态。ARC-AGI 的数字让 o3 成为年底最热的推理话题之一。但2024年的结尾不是一个干净的胜利场景。它更像一座拥挤大厅:大屏幕上播放未来,入口处排着队,工作人员不断解释哪些门已经开、哪些门只给测试者、哪些门暂时不对某些地区开放。
2025年的人工智能竞争,已经不只是“谁的模型更强”。它会越来越多地变成:谁能把强大模型稳定交付给足够多的人,谁能控制成本,谁能处理水印和版权,谁能让代理安全行动,谁能让基准成绩变成可靠产品。
十二月给出的答案不是终局。它只说明一件事:能力已经冲到门口,门还没有完全打开。
参考文献
- OpenAI,12 Days of OpenAI livestreams,2024.12。
- OpenAI,Introducing ChatGPT Pro,2024.12.05。
- Google,Gemini 2.0: our new AI model for the agentic era,2024.12.11。
- OpenAI,Sora is here,2024.12.09。
- OpenAI Help Center,Sora availability, pricing, and limits,2024.12。
- OpenAI,Sora System Card,2024.12.09。
- The Verge,OpenAI’s Sora video generator is launching today,2024.12.09。
- Marques Brownlee,I Tried Sora. It’s… something,2024.12.09。
- Google Developers Blog,Gemini 2.0 Flash is now available,2024.12.11。
- Google AI for Developers,Gemini API docs: Gemini 2.0 Flash / Multimodal Live API,2024.12。
- Google DeepMind,Project Astra: updates on our universal AI assistant,2024.12.11。
- Google DeepMind,Project Mariner: exploring the future of human-agent interaction,2024.12.11。
- OpenAI,Introducing OpenAI o3 and o3-mini / 12 Days of OpenAI Day 12,2024.12.20。
- The Verge,OpenAI announces o3 and o3-mini,2024.12.20。
- ARC Prize,OpenAI o3 breakthrough high score on ARC-AGI,2024.12.20。