Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第23章|十二月密集发布:Sora 上线,Gemini 2.0 与 o3 预告

一、日历变成瓶颈

2024年12月,人工智能行业的用户第一次如此频繁地遇到一种新型困惑:这到底是演示、预览、等待名单,还是已经可以买来用的产品?

过去,发布会通常有清晰层级。论文是论文,演示是演示,beta 是 beta,正式产品是正式产品。到了这一年年底,边界开始变得拥挤。一个页面写着“available”,另一个帮助文档列出地区限制;直播里模型解题像开闸放水,用户入口却只开放给安全测试者;博客标题宣布“新模型”,开发者文档又说明某些输出能力只给早期合作方;社交媒体上满屏都是生成视频,欧洲、英国和瑞士的用户却在可用性说明里被画进括号。

发布密度本身成了新闻。

OpenAI 在12月推出“12 Days of OpenAI”,从12月5日起连续十二个工作日进行直播和产品公告。[1] 这不是一次普通年度更新,而像一台精心设计的叙事机器:第一天是 o1 和 ChatGPT Pro,随后是 Sora、Canvas、Apple Intelligence 中的 ChatGPT 集成、Projects、搜索、开发者工具、电话和 WhatsApp 入口,最后以 o3 和 o3-mini 的预告收束。[1][2]

密集发布带来的效果很直接。技术圈每天都有新链接可点,媒体每天都有新标题可写,用户每天都要重新判断自己的账号、地区、订阅等级和等待资格。一个人早上看到 Sora 视频,下午打开 sora.com,晚上又看到 Gemini 2.0 Flash 的开发者文档,第二天再看到 o3 的 ARC-AGI 成绩截图。产品像潮水一样涌来,可真正的问题并不是“有没有发布”,而是“谁能用、怎么用、能用到什么程度”。

这就是2024年12月与此前几轮 AI 发布的不同之处。它不只是 demo parade,不只是一次次能力展示。它更像一场产品访问权的压力测试。

OpenAI 和 Google 都在争夺未来一年的开场白。OpenAI 用连续十二天把自己重新放回舞台中央。Google 在12月11日发布 Gemini 2.0,把新模型放进“agentic era”——代理时代——的叙事中。[3] 两家公司展示的方向不同:OpenAI 把视频生成和推理模型推到前台,Google 把多模态、工具使用和浏览器代理放进同一个框架。但用户面前的实际问题相似:公告说得越大,入口就越重要;能力越像魔法,条款、队列、水印、地区和订阅层级就越像魔法背后的栅栏。

这是一种很符合生成式 AI 时代的荒诞感。公司发布“让机器思考”“让模型看见世界”“让浏览器自己干活”的系统,用户却首先要研究的是:自己是不是 Plus,够不够 Pro,所在国家有没有开放,生成额度还剩多少,上传人物会不会被拒,模型是实验版还是正式版,演示里的能力是不是已经进了 API。

未来被宣布得很宏大,入口却像机场安检一样具体。

二、Sora:玻璃打开了一半

12月9日,OpenAI 发布《Sora is here》,宣布 Sora 向 ChatGPT Plus 和 Pro 用户开放。[4] 这一天的重点不再是重新解释 Sora 在2月技术预览中为何令人震动;前文已经写过那次预览如何让文本到视频从概念进入公众视野。本章只保留一个回声:2024年初,Sora 是隔着玻璃的展示品;2024年12月,它变成一个有网址、有订阅、有额度、有地区限制的产品入口。

产品化的第一层边界,是谁能进去。

OpenAI 的发布说明写得很清楚:Sora 作为独立产品在 sora.com 上线,纳入 ChatGPT Plus 和 Pro 订阅,不额外收费。[4] 这意味着免费用户并没有因为看见发布就自动获得视频生成能力。Sora 也不是面向所有 ChatGPT 可用地区同步开放。OpenAI 帮助中心和发布说明显示,发布时 Sora 在许多 ChatGPT 可用国家开放,但不包括英国、瑞士和欧洲经济区;用户还必须满足年龄要求。[4][5]

产品化的第二层边界,是能生成多少、生成多长、生成多清楚。

OpenAI 在发布中说明,Plus 订阅包括每月生成一定数量视频的能力,典型限制是最多50个480p视频,或更少数量的720p视频;Pro 用户获得约10倍使用量、更高分辨率、更长时长和更多并发生成。[4][5] 帮助文档进一步把体验拆成额度、分辨率、时长、并发、下载和水印等具体项目。[5] 一段“文字变视频”的魔法,落到产品表格里,就是 480p、720p、1080p、5秒、20秒、并发数量和优先额度。

产品化的第三层边界,是内容政策。

OpenAI 在 Sora 系统卡和发布说明中写入多项安全措施:生成视频包含可见水印,并嵌入 C2PA 元数据;公司在上线时限制涉及人物上传的功能,以降低未经授权肖像、深伪和滥用风险;同时继续使用内容审核、来源标记和滥用监测。[4][6] 这些措施并不是发布会装饰。视频生成模型进入的是一种比文本更容易制造“证据感”的媒介。一个看起来像手机实拍的视频,可以用于广告样片,也可以用于冒充新闻现场、伪造公众人物言行、骚扰个人或制造诈骗素材。

于是,Sora 的上线同时带来两种现实。

第一种现实是创作者获得了以前难以想象的视觉草图工具。OpenAI 在产品中提供 prompt 生成、图片或视频输入、remix、re-cut、storyboard、loop、blend 等功能。[4] 对广告、短片、游戏概念、教育视频和社交媒体创作来说,这些功能可能改变试错成本。一个小团队过去需要摄影、棚拍、后期或外包视觉特效才能验证的镜头,现在可以先用提示词和参考素材生成粗样。它未必替代最终制作,却可能替代一部分提案、分镜、概念验证和风格探索。

第二种现实是创作者必须先学会一套新的平台规则。视频能不能生成,取决于订阅等级;能不能下载无水印版本,取决于计划和设置;能不能上传人物,取决于政策开放范围;能不能在某地使用,取决于监管与地区支持;能不能稳定排队生成,取决于需求与基础设施。

上线后不久,需求本身就成了边界。The Verge 报道,Sora 发布后因访问量过高,OpenAI 一度暂停或限制新的账号创建,并转述 Sam Altman 关于需求被严重低估的说法。[7] 这类情节在 AI 产品史中反复出现:公司宣布一个能力,用户蜂拥而至,然后产品团队不得不用排队、暂停注册和额度控制来把兴奋重新压回服务器能够承受的形状。

对文本模型来说,排队已经令人不耐烦;对视频模型来说,排队还意味着另一种成本结构。生成视频比生成文字更重,既占用更多算力,也占用更多存储和审核资源。Sora 的产品限制不是任意设置的门槛,它们是视频生成进入消费市场后必须外化的基础设施现实。

三、一个创作者看到入口,也看到栅栏

12月9日,科技视频创作者 Marques Brownlee 在 YouTube 发布《I Tried Sora. It’s… something》,展示自己对 Sora 的测试。[8] 这个场景很适合放在十二月的中心:一个以影像制作、镜头语言、设备测试和后期流程为职业基础的创作者,公开试用一个能够生成视频片段的模型。对观众来说,屏幕上出现的是“AI 视频终于可以看见了”;对创作者行业来说,屏幕背后则是一个更复杂的问题:这种能力将怎样进入真实工作流?

Brownlee 不是普通排队用户。他作为知名创作者获得测试和展示机会,本身就说明 Sora 的上线并非简单地从实验室直接流向全体公众,而是经过创作者展示、平台发布、订阅分层和政策控制。普通用户同一天进入产品入口时,遇到的不是同一条无障碍通道,而是 OpenAI 帮助中心中列明的条件:ChatGPT Plus 或 Pro、支持地区、年龄要求、视频额度、分辨率限制、时长限制、人物上传限制、内容政策和水印规则。[4][5][6]

这不只是 Sora 的问题,而是2024年12月 AI 产品形态的缩影。

一个自由职业视频剪辑师、广告分镜师、游戏概念设计师或社交媒体运营者,看到 Sora 的上线消息,可能会先问三个非常实际的问题。第一,自己所在地区能不能开;第二,20美元 Plus 是否够用,还是必须考虑200美元 Pro;第三,生成出来的素材能不能交付给客户或发布到平台。前两个问题由 OpenAI 的订阅表和可用性说明回答,第三个问题还要穿过客户合同、平台 AI 内容标注政策、版权风险和肖像授权。

AI 公司常把产品描述为“降低创作门槛”。这句话并不虚假,但它在现实中会变成另一组门槛的迁移。过去的门槛是摄像机、灯光、场地、演员、剪辑软件和预算;新门槛是账号权限、生成额度、提示词技巧、内容审核、输出水印、平台披露、训练数据争议和客户是否接受 AI 素材。

水印尤其体现了这种迁移。OpenAI 把 Sora 生成视频默认加上可见水印,并嵌入 C2PA 元数据。[4][6] 对公共信任来说,这是必要的来源标记;对商业交付来说,它又成为工作流变量。一个创作者如果只是内部试片,可以接受水印;如果要向客户交付无水印版本,就要看订阅等级和下载规则;如果平台要求标注 AI 内容,即便去掉可见水印,也仍然需要遵守平台政策和法律要求。技术能力把视频做出来,治理机制则决定视频如何流通。

人物限制同样如此。OpenAI 在上线时限制人物上传,是为了降低深伪和未经授权肖像风险。[4][6] 这项限制对于社会安全有明确理由,却也意味着许多最有商业价值的使用场景——演员预演、品牌代言人、个人形象视频、客户肖像广告——不能简单地被“文本到视频”四个字概括。一个功能越强,越需要在最敏感的用例上先踩刹车。

因此,Sora 上线后的真正故事不是“视频生成终于来了”这么简单。它是一个创作者第一次看见强大系统变成网页入口,同时也看见入口旁边竖起的一串栅栏。栅栏并不总是坏事。没有水印、限制和审核,视频生成很快会撞上诈骗、深伪和政治传播的高压线。但栅栏也决定了谁能先使用、谁能大规模使用、谁能把它变成收入,谁只能继续观看别人上传的样片。

十二月的产品瓶颈,在这里变得非常具体:能力上线,不等于能力平等可用。

四、Gemini 2.0:Google 把“会用工具”放到标题里

两天后,Google 给出另一种回答。

2024年12月11日,Google 发布《Gemini 2.0: our new AI model for the agentic era》。这篇官方博客把 Gemini 2.0 放进“代理时代”的框架:模型不只是回答问题,还要理解多模态输入、调用工具、与现实软件协同工作。[3] Google 写到 Gemini 2.0 在多模态、原生工具使用、图像和音频输出等方面推进,并将逐步进入 Google 产品和开发者平台。[3]

但这一发布同样必须拆成“实际可用”和“展示方向”两部分。

实际首先交到用户和开发者手里的,是 Gemini 2.0 Flash 的实验版本。Google 表示,Gemini 2.0 Flash Experimental 面向开发者在 Gemini API、Google AI Studio 和 Vertex AI 中开放;Gemini 应用用户也可以在桌面和移动网页端的模型下拉菜单中选择 2.0 Flash Experimental,移动应用将逐步跟进。[3][9] 这不是整个 Gemini 2.0 家族的全面量产,也不是所有演示能力同时进入日常产品,而是一个实验模型先行进入开发者和部分用户入口。

开发者文档进一步说明了边界。Gemini 2.0 Flash 支持多模态输入和文本输出,并通过 API 提供工具使用能力;Google 还推出 Multimodal Live API,用于实时音视频输入和低延迟交互;但部分原生图像生成和可控文本转语音等能力,在发布时更多处于早期访问或预览阶段,并非所有开发者都可在生产环境中稳定调用。[9][10]

这就是 Gemini 2.0 的关键:Google 宣布的是方向,实际发货的是一组分层入口。

Google 的优势在于,它不只是模型公司。它拥有 Search、Chrome、Android、YouTube、Gmail、Docs、Sheets、Calendar、Maps、Lens 和 Google Cloud。所谓 agentic era,如果只在聊天框里发生,Google 的优势没有完全展开;如果 AI 要看屏幕、调工具、填网页、整理日程、搜索信息、处理代码、读取图片,Google 的资产就重新变成地形。

因此,Gemini 2.0 的发布不应被简化成“又一个模型”。它更像 Google 对下一阶段竞争的定义:模型能力要与工具、权限、设备、浏览器和办公软件结合。聊天机器人告诉用户怎么做,代理系统则试图在用户授权下帮用户做。

可是,“帮用户做”比“回答用户”更危险。

模型回答错一段解释,用户可以忽略、纠正或重新提问。模型如果点错按钮、发错邮件、提交错表单、购买错商品,错误就进入现实流程。代理能力越强,产品团队越要回答身份认证、权限范围、撤销机制、审计记录、隐私泄露和责任归属。Gemini 2.0 的方向令人兴奋,正因为它指向 AI 从内容层进入操作层;它也令人警惕,正因为操作层没有演示视频那么宽容。

Google 在12月没有假装所有问题都已经解决。它把更激进的代理能力放进实验项目和受限测试中:Project Astra、Project Mariner、Jules。这些项目展示方向,也保留了预览、实验和可信测试者的边界。[3][11][12]

在十二月的拥挤发布日历里,Google 的信息其实很清楚:Gemini 2.0 Flash Experimental 已经开放给开发者和部分应用用户;真正完整的代理生态,还在分阶段进入产品。

五、Astra、Mariner 与浏览器里的苦工

Project Astra 是 Google 对“通用 AI 助手”的持续实验。Google DeepMind 在12月更新中把 Astra 与 Gemini 2.0 联系起来,强调实时多模态理解、语音交互、视觉输入、上下文记忆以及与 Google Search、Lens、Maps 等工具结合的可能性。[11] 这个方向很容易被一句“AI 助手”概括,但它真正触及的是设备、传感器和权限。

早期语音助手曾经许诺改变人机交互,最后大量停留在闹钟、天气、音乐和智能家居控制。Gemini 2.0 叙事下的 Astra 试图把助手重新带回一个更激进的位置:它可以看见摄像头画面,听见用户问题,结合视觉和语言给出回应,并在未来与工具链衔接。[11]

这条路线的吸引力显而易见。一个能看、能听、能记住上下文、能调用地图和搜索的助手,比一个只接收文字输入的聊天框更接近日常工作。它可以帮人识别设备、解释环境、查找物品、理解屏幕、陪同完成任务。可它也更接近隐私边界。文本框只知道用户输入了什么;摄像头和麦克风入口则可能知道用户身处何地、看见什么、与谁交谈、桌上有什么文件。助手越像助手,治理问题就越像个人空间的门锁。

Project Mariner 则把代理想象放进浏览器。Google DeepMind 将 Mariner 描述为一种研究原型,能够理解浏览器屏幕上的信息,包括像素和网页元素,并通过实验性 Chrome 扩展执行任务。[12] Google 公布过 Mariner 在 WebVoyager 等网页任务基准上的表现,用来说明模型在端到端网页操作上的进展。[12]

浏览器代理是十二月最具行业荒诞感的场景之一。

互联网三十年把大量生活和工作压进网页:订机票、报销、购物、银行、政务表格、学校系统、客户后台、企业软件。人类为了适应这些系统,学会了忍受弹窗、验证码、分页、隐藏按钮、下拉菜单、模糊错误提示和“请刷新后重试”。如今 AI 公司开始训练模型替人类忍受网页。技术前沿的一部分商业价值,竟然来自数字社会早已制造出的界面折磨。

这并不是嘲讽某个设计者。它只是说明 Agent 为什么诱人:大量日常工作不是缺少知识,而是被流程磨损。一个浏览器代理如果足够可靠,就可能替用户比较商品、填写表单、整理订单、处理后台、跨网站收集信息。它不是回答“该怎么做”,而是直接进入“我替你做”。

但浏览器不是安全实验室。网页上有广告、弹窗、钓鱼页面、恶意提示、误导性按钮和隐藏指令。一个会读网页并执行操作的模型,可能被网页内容诱导。过去网络安全问的是“用户会不会被骗”;代理时代还要问“模型会不会被骗,然后替用户点击”。这就是为什么 Mariner 在12月仍是研究原型和受限测试,而不是所有 Chrome 用户都能立即交给它银行卡和政务账号。[12]

Jules 则把代理放进代码工作流。Google 在 Gemini 2.0 发布中把 Jules 描述为实验性代码代理,可以帮助开发者处理 bug、生成计划并执行修改。[3] 编程是代理系统的理想试验场之一:任务有文件、测试、日志、版本控制和回滚机制,比开放网页更容易建立边界。但编程也足够复杂,能暴露模型在长上下文、工具调用、规划和错误修复上的真实能力。

Astra、Mariner、Jules 共同说明一件事:Gemini 2.0 的产品发布不是单点能力,而是 Google 试图把模型接入工具世界。可是,接入工具世界的每一步,都必须回答访问权问题。谁能试用?通过哪个入口?是不是可信测试者?能不能进入生产?有没有权限限制?能不能撤销操作?有没有审计记录?

十二月的关键词不是“模型已经无所不能”。关键词是:模型开始靠近真实软件,而真实软件不会因为发布会漂亮就降低复杂度。

六、o3:基准点燃,入口仍在门外

12月20日,OpenAI 在“12 Days of OpenAI”的最后一天展示 o3 和 o3-mini。[13] 这场发布与 Sora 不同。Sora 至少已经向 Plus 和 Pro 用户开放;o3 和 o3-mini 在12月主要是预告、演示和安全测试开放,不是普通用户当天就能在 ChatGPT 里随意选择的日常产品。

OpenAI 在直播和相关说明中将 o3、o3-mini 描述为下一代推理模型,并开放外部安全测试申请。[13] 按发布时信息,o3-mini 预计先于 o3 面向更广用户推出,完整 o3 仍需后续发布和评估。[13][14] 这一区别非常重要。十二月大量传播的不是“用户已经在用 o3 工作”,而是“OpenAI 展示了 o3 在若干困难基准上的结果,并开始安全评估流程”。

最引人注意的是基准。

OpenAI 在发布中展示了 o3 在数学、编程和科学问答等任务上的结果。[13] 更大的公共震动来自 ARC-AGI。ARC Prize 团队在12月20日发布说明,称 OpenAI o3 在 ARC-AGI-1 上取得突破性成绩:低计算设置下为75.7%,高计算设置下为87.5%。[15] 这个数字迅速传播,因为 ARC-AGI 长期被视为考察抽象推理和少样本归纳能力的困难基准之一。

但是这里必须把兴奋和怀疑同时写下。

ARC Prize 团队自己也强调,ARC-AGI 不是 AGI 的充分测试,通过或接近通过该基准并不等于实现通用人工智能。[15] 基准是信号,不是终局裁判。一个系统在某个测试上出现跃迁,说明能力边界发生变化,却不能自动证明它在开放世界中具有同等可靠性。AI 史上反复出现这样的循环:某个测试曾被视为遥远门槛,模型跨过之后,人们发现智能还有更多层面没有被测试覆盖。

o3 的基准还必须放在访问和计算条件中理解。ARC Prize 报告区分了低计算和高计算设置。[15] 这意味着成绩并不是单一“模型分数”那么简单,而与测试时计算资源有关。推理模型越依赖在回答前进行更多搜索、验证和尝试,能力就越可能与成本、延迟和计算预算捆绑。用户看到的是一个分数,产品团队看到的是每次调用背后的算力账单。

这也是 o3 与 ChatGPT Pro 同月出现的制度意义。12月5日,OpenAI 发布 ChatGPT Pro,每月200美元,面向需要更高计算能力访问的用户,并提供 o1 pro mode 等功能。[2] 这个价格在消费软件语境中并不轻巧,却符合推理模型的成本逻辑:如果“更聪明”意味着每次回答消耗更多测试时计算,那么订阅层级和调用限制就会自然变成产品形态的一部分。

o3 因此不是一个简单的排行榜事件。它更像前沿模型商业结构的一次预告。模型不只是在训练阶段烧钱,也可能在推理阶段继续烧钱。越难的问题,越可能需要更长等待、更高费用和更严格的使用限制。所谓“慢思考”从9月 o1 的产品概念,走到12月 o3 的基准震动,已经变成一条清晰路线:模型可以在困难任务上花更多计算,换取更好结果;但这些结果何时、以什么价格、向哪些用户开放,是另一个问题。

这也是为什么不能把 o3 与 Sora、Gemini 2.0简单并排成一个“谁更强”的榜单。Sora 的关键是视频能力进入付费用户入口;Gemini 2.0 的关键是实验模型和代理工具链开始分层开放;o3 的关键是推理能力被展示,但仍处在安全测试和未来发布阶段。三者都重要,却处在不同访问状态。

十二月最容易误读的地方,正是把“看见演示”误当成“拿到产品”。

七、年底的门槛

到2024年最后一周,行业并没有进入一个清爽的新阶段。它进入的是一个门槛更多、能力更强、说明文档更长的阶段。

Sora 让视频生成第一次以明确产品形态进入 ChatGPT Plus 和 Pro 用户手中,却同时带着地区限制、年龄要求、额度、分辨率、时长、并发、水印、人物上传限制和内容政策。[4][5][6] 对创作者来说,这既是新工具,也是新合规表格。

Gemini 2.0 让 Google 把竞争从聊天框拉向工具、浏览器、设备和多模态交互,但真正开放的是 Gemini 2.0 Flash Experimental、开发者 API、Google AI Studio、Vertex AI 和部分 Gemini 应用入口;Astra、Mariner、Jules 仍然以原型、实验和可信测试者形式推进。[3][9][11][12] 对开发者和企业来说,这既是路线图,也是等待名单。

o3 让推理模型的基准讨论重新升温,尤其是 ARC-AGI 的成绩让技术圈看到新的能力跃迁;但它在12月不是一般可用产品,而是预告、演示和安全评估对象。[13][15] 对学生、研究者、程序员和知识工作者来说,这既是未来能力的信号,也是一个暂时不能稳定纳入日常流程的系统。

这就是十二月的真实冲突:公告越壮观,访问问题越突出。

AI 公司正在把模型推向三个方向。第一,生成内容,从文字、图片走向视频。第二,执行任务,从聊天建议走向浏览器、代码和工具调用。第三,增强推理,从快速回答走向测试时计算和更复杂解题。每条路线都令人兴奋,因为它们确实扩展了机器能做的事;每条路线也令人怀疑,因为它们把成本、权限、责任和不平等访问一起带进产品。

普通用户感受到的不是抽象技术曲线,而是很具体的摩擦。看见别人生成 Sora 视频,自己所在地区可能不能登录。读到 Gemini 2.0 的“agentic era”,自己能用到的也许只是实验版 Flash。刷到 o3 的基准截图,却不能把 o3 直接放进今天的作业、代码库或研究流程。发布会把未来提前摆上屏幕,产品入口却把未来按订阅、地区、队列和安全评估切成小块。

行业的幽默也在这里。2024年12月,人工智能公司宣布机器将理解世界、生成电影、操作网页、解决抽象推理题;用户的第一步却是刷新页面、查看帮助中心、比较套餐、等待开放、确认水印、阅读地区限制。这不是技术失败,而是技术进入社会后的正常形状。越强的系统,越不可能以“所有人立刻无限使用”的形式出现。

OpenAI 在十二天里夺回了注意力。Google 用 Gemini 2.0 把代理路线重新锚定到自己的生态。ARC-AGI 的数字让 o3 成为年底最热的推理话题之一。但2024年的结尾不是一个干净的胜利场景。它更像一座拥挤大厅:大屏幕上播放未来,入口处排着队,工作人员不断解释哪些门已经开、哪些门只给测试者、哪些门暂时不对某些地区开放。

2025年的人工智能竞争,已经不只是“谁的模型更强”。它会越来越多地变成:谁能把强大模型稳定交付给足够多的人,谁能控制成本,谁能处理水印和版权,谁能让代理安全行动,谁能让基准成绩变成可靠产品。

十二月给出的答案不是终局。它只说明一件事:能力已经冲到门口,门还没有完全打开。

参考文献

  1. OpenAI,12 Days of OpenAI livestreams,2024.12。
  2. OpenAI,Introducing ChatGPT Pro,2024.12.05。
  3. Google,Gemini 2.0: our new AI model for the agentic era,2024.12.11。
  4. OpenAI,Sora is here,2024.12.09。
  5. OpenAI Help Center,Sora availability, pricing, and limits,2024.12。
  6. OpenAI,Sora System Card,2024.12.09。
  7. The Verge,OpenAI’s Sora video generator is launching today,2024.12.09。
  8. Marques Brownlee,I Tried Sora. It’s… something,2024.12.09。
  9. Google Developers Blog,Gemini 2.0 Flash is now available,2024.12.11。
  10. Google AI for Developers,Gemini API docs: Gemini 2.0 Flash / Multimodal Live API,2024.12。
  11. Google DeepMind,Project Astra: updates on our universal AI assistant,2024.12.11。
  12. Google DeepMind,Project Mariner: exploring the future of human-agent interaction,2024.12.11。
  13. OpenAI,Introducing OpenAI o3 and o3-mini / 12 Days of OpenAI Day 12,2024.12.20。
  14. The Verge,OpenAI announces o3 and o3-mini,2024.12.20。
  15. ARC Prize,OpenAI o3 breakthrough high score on ARC-AGI,2024.12.20。