未来已来!OpenAI o3模型颠覆你对AI的所有想象!
- Rifx.Online
- Programming , Machine Learning , Data Science
- 30 Dec, 2024
令人难以置信的奇迹,不仅仅是一个更先进的 AI 模型
OpenAI 以盛大的方式结束了他们为期 12 天的圣诞活动。在第一天,他们推出了他们的 第一个推理 AI 模型 o1 的完整版本。今天,回到起点,他们揭示了下一步:o3,他们的第二个推理 AI 模型,以及 o3-mini,一个为编码而设计的更小、更快的版本。¹²
这一公告的重要性不可低估(尽管人们已经开始尝试这样做):o3 在数学、编码、科学和推理问题上的表现是 令人难以置信的。说 o3 是最先进的(SOTA)在某种程度上是轻描淡写。我们习惯于 AI 实验室每个月都采取小步伐并相互争夺领先地位。但这次并非如此。OpenAI 的 o3 不仅夺取了 SOTA 的桂冠,它 粉碎了竞争者重夺桂冠的希望。³
还有另一种意义上,这一公告是一次突破。OpenAI 怎么能在 12 月 5 日发布一种新类型的 AI 模型的第一个版本,并在 12 月 20 日宣布下一个版本? 仅仅十五天后。写一篇该死的博客文章对我来说还需要更多时间。OpenAI 的 Jason Wei 说,在扩展测试时间计算与预训练计算时,有些特别之处:速度快得多。三个月与 1-2 年的差距。
在你们对这个消息抱有希望之前,我应该强调一个词,宣布;OpenAI 并没有给我们访问权限。他们仍然需要进行后训练、安全测试和红队测试。现在,我们必须等待去触摸 o3 这一奇迹。(OpenAI 确实表示 o3-mini 将首先在 2025 年第一季度发布,随后不久将发布 o3)。
我将 o3 描述为令人难以置信的奇迹,不仅仅是 SOTA。我对 OpenAI 呈现的结果感到兴奋,我有充分的理由。我们应该等待模型发布后的现实世界的评判,但在此期间,你可以看看这些数字,与我一起感到兴奋。
编程
OpenAI 在软件工程 (SWE-bench Verified) 和竞赛代码 (Codeforces) 上测试了 o3。这些是与 o1 和 o1-preview 的比较结果:
SWE-bench Verified 是基于 SWE-bench 的以代理为中心的评估。问题是软件工程师在日常工作中面临的典型问题 (GitHub issues)。得分 71.7% 非常惊人。⁴
这是第二优秀模型 (o1, GPT-4o, Claude 3.6 Sonnet, Gemini 2.0 Flash) 在 SWE-bench Verified 上的图表:
Claude 3.6 Sonnet (他们称之为 3.5 new):50.8%。不错
Gemini 2.0 Flash (他们 几天前发布):51.8%。非常不错。
现在这是当我添加 o3 的得分 71.7% 时同一图表的样子:
我们从未见过直接的 20% 跳跃。这不是“不错”或“非常不错”,这是 我们必须重新考虑其影响 的不错。20% 是从 GPT-4o(甚至不是为 SWE 任务设计的)到 2.0 Flash 和 3.6 Sonnet 的同样跳跃。GPT-4o 于 2024 年 5 月发布!
让我们继续。以下是 Codeforces 结果的一些背景。2727 的 ELO 使得 o3 位于全球前 200 名竞争程序员之中。它的得分高于 OpenAI 自己首席科学家的 2665。
它位于 99.7 百分位 内!
DeepMind 在 2023 年 12 月宣布了 AlphaCode 2。它专门在 Codeforces 上进行训练,并达到了第 87 百分位。当时非常惊人。但这相当于 专家评级。相比之下,OpenAI 则构建了一个 Codeforces 大师:
国际象棋 首先倒下。然后是 围棋。接着是 扑克 和 Dota 以及 星际争霸。现在轮到代码了。
然后 其余的将会倒下。
数学与科学
OpenAI在竞争数学(AIME 2024\)和博士级“谷歌防范”科学问题(GPQA Diamond)上测试了o3。结果与o1和o1-preview进行了比较。
让我们从GPQA Diamond开始。我在六月写过这个:
世界上最好的两个模型,Anthropic的Claude Sonnet 3.5和OpenAI的GPT-4o在最难的推理基准GPQA(研究生级“谷歌防范问答”)上超过了50%的分数。
我称之为“最难的推理基准”。六个月后,o3的得分为87.7%。
作为比较,博士在其专业领域的平均得分为70%。我对任何事情都不是专家(只是一个航空航天工程的本科生),但如果这可以作为另一个比较,我曾经看过一些GPQA项目,我很确定我得了0%并且崩溃了。
数学怎么样?OpenAI的高级副总裁Mark Chen在演示中提到,AIME上的96.7%得分意味着o3“通常只错一个问题。”这很令人印象深刻。与此同时,这也没什么。o3在数学方面表现得如此出色,以至于AIME无法反映它的能力。
数学基准(AIME、MATH、GSM8K等)已趋于饱和,顶尖分数远超90%+。这就是为什么Epoch AI(与OpenAI合作)创建了FrontierMath。当我在宣布的那一周审查这个新的超难数学基准时,我总结了它的价值:
- 未发表的问题,因此没有污染。
- 解答是自动可验证的。
- “猜测防范”。没有理由不要试运气。
并增加了其复杂性的视觉证据,即使对于那些在其他更简单的数学基准上获得90%+的顶尖模型;看看所有的空白区域:
世界上最优秀的数学家之一Terence Tao比任何图表都说得更好:
“几年,”这位菲尔兹奖得主说。“给我拿着酒,”人工智能说。
当你给出可能是最难的数学问题——Mark Chen所说的那种需要专业数学家“几个小时或几天”才能解决的问题——并让o3尝试时,会发生这样的事情:
你得到的不是20%的提升,而是1200%的提升。
25%仍然远未达到100%,对吧?我敢打赌这仍然在专家预测的范围内。这是另一位世界级数学家和菲尔兹奖得主Timothy Gowers在一个月前对FrontierMath的看法:
OpenAI的o3不仅打破了基准,还打破了期望。
接下来你会发现,它正在打破你的心。
推理
我终于来到了我最喜欢的部分,也是我情感上最投入的部分。原因是我心爱的 ARC-AGI 基准测试,我已经赞扬了好几个月,而大多数行业却对此置之不理。
我之所以强调它而不是其他基准,如 MMLU、MATH 或甚至 GPQA,是因为它更接近完美的基准:一个大多数人类都能轻松解决、几乎任何人都能轻易验证的基准,但对 AI 模型来说却似乎是不可解的,无论其多么先进。
ARC-AGI 的前一个版本最初是由 François Chollet 在 2019 年提出的,它是看似简单的,生动体现了莫拉维克悖论——对我们来说简单的事情,对 AI 可能并不简单,反之亦然。这里有一个例子:
你能解决它吗?GPT-4o、3.5 Sonnet 或 Gemini 1.5 都无法解决这个问题,揭示了一些我原本会错过的未解之谜:为什么 AI 在回答这个 五年级学生能解的谜题 时失败,而在量子力学的博士问题上却能给出准确的回答?这,讽刺的是,令人困惑。
直到今天,Chollet 在 2024 年发起的 ARC-AGI 挑战 的最高分勉强超过 50%。此外,所有的高分都是通过经过调整的模型实现的,以便更容易应对 ARC-AGI。整体表现最好的模型得分更低,GPT-4o 的最高得分仅为荒谬的 5%。
恰巧的是,OpenAI 与 ARC-AGI 的团队合作测试了 o3。
这些是结果:o3 以 87.5% 的分数击败了 ARC-AGI。⁵⁶
为了提供背景,ARC-AGI-1 [这个基准] 从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5% 花费了 4 年时间。关于 AI 能力的所有直觉都需要为 o3 更新……OpenAI 的新 o3 模型代表了 AI 适应新任务能力的重大飞跃。这不仅仅是渐进的改进,而是真正的突破,标志着 AI 能力与之前 LLM 的局限性相比的质变。
我已经说过一段时间,GPQA Diamond、ARC-AGI,以及现在的 FrontierMath 是当今最重要的基准。我没有预料到 ARC-AGI 会发生这样的事情。o1 刚刚得到了 32% 的分数!我们都对接下来的几个月可能揭示的内容感到高兴和期待。这花了几天时间。
而且,更令人惊讶的是,o3 甚至不需要提示工程。 “找到将输入网格映射到输出网格的共同规则”就足够了。⁷
让我总结一下,因为信息量太大,难以处理:o3 所做的就是跃入未知领域。OpenAI 相信这个轨迹并在这里成功着陆。在 71.7% SWE-bench、99.95 百分位 Codeforces、96.7 AIME、87.7 GPQA Diamond、25.2% FrontierMath 和 87.5% ARC-AGI 的成绩上。
我们不知道这一切意味着什么。我们不知道未来会发生什么。我们不知道接下来的几年会怎样。天哪,GPT-3 是四年前的事情。
很多人说 o3 是人工通用智能(AGI),或者至少是 AGI 的一种软形式。Chollet 否认了这一说法,他的论点让我想起了“没有 AGI 有时是愚蠢的”这个想法。他说,击败 ARC-AGI 是声称 AGI 能力的必要但不充分条件,并且仍然有 研究要做。
我不知道该怎么想。不同任务之间的智能差异仍然很大,否则 o3 不会在完成 FrontierMath 时失败任何 ARC-AGI 任务,但似乎抵御 AI 不可阻挡进步的最后堡垒正在一个个倒下。这是 痛苦的 吗?甚至是 更痛苦的?我不知道。新的壁垒会出现以抵御当前技术吗,正如 Chollet 希望通过 ARC-AGI-v2 实现的那样?我也不知道。
我需要反思这些结果,并等待 o3 发布,以便我们共同找出 OpenAI 刚刚创造了什么。
我知道的是,我的先入之见无法承受这次审判。这是别的东西。OpenAI o3 是来自未来的信息:更新你对 AI 的所有认知。我收到了这个信息。我在 o1、AI 的新范式 中看到了它的到来,但我仍然感到无言以对。
圣诞快乐,大家。圣诞快乐。
加入 算法桥,一个关于 AI 的博客,实际上是关于人类的。
脚注
- 名称不是“o2”的原因与另一家公司存在的版权问题有关。
- 我将在这篇文章中专注于o3,因为覆盖更多内容会使其变得笨重。我可能会单独写关于o3-mini的内容,探讨其较低的成本和较低的延迟,这对用户意味着什么,以及它如何与OpenAI的目标——将智能成本降低到零——相结合。
- 为了健康的竞争,我希望我在夸大其词,尽管我恐怕我确实相信我所说的。
- o3可能在一个比pass@1更宽松的环境中被评估,获得了71.7%的分数,而pass@1测量的是第一次尝试解决问题的准确性。原因是o1得到了48.9%的分数,但OpenAI在o1发布时发布的系统卡片将分数定为41%。另一种解释,我暂时假设这是真的,是正如roon所说,在评估o1的SWE-bench时出现了问题,而41%的结果实际上来自o1的一个早期、较差的版本。
- 请注意x轴。OpenAI在o3上花费的金额以获得该分数是极其庞大的。o1在$3.8/任务的情况下得到了32%。而o3在高计算模式下的花费超过了整个挑战奖金$1,600,250。
- Chollet否认ARC-AGI被击败,首先,o3是在公共评估集上测试的,而不是私有测试集,其次,ARC-AGI奖项要求85%的准确率,同时每个任务的计算能力花费为$0.1。
- 这意味着提示工程已经死去。我知道这种说法已经被反复提及,但事实是,它从未真正存在过,它只是一个不愿意获得应有的永恒安息的僵尸。好吧,它即将安息。