未来已来！OpenAI o3模型颠覆你对AI的所有想象！

Rifx.Online
Programming , Machine Learning , Data Science
30 Dec, 2024

令人难以置信的奇迹，不仅仅是一个更先进的 AI 模型

OpenAI 以盛大的方式结束了他们为期 12 天的圣诞活动。在第一天，他们推出了他们的第一个推理 AI 模型 o1 的完整版本。今天，回到起点，他们揭示了下一步：o3，他们的第二个推理 AI 模型，以及 o3-mini，一个为编码而设计的更小、更快的版本。¹²

这一公告的重要性不可低估（尽管人们已经开始尝试这样做）：o3 在数学、编码、科学和推理问题上的表现是 令人难以置信的。说 o3 是最先进的（SOTA）在某种程度上是轻描淡写。我们习惯于 AI 实验室每个月都采取小步伐并相互争夺领先地位。但这次并非如此。OpenAI 的 o3 不仅夺取了 SOTA 的桂冠，它 粉碎了竞争者重夺桂冠的希望。³

还有另一种意义上，这一公告是一次突破。OpenAI 怎么能在 12 月 5 日发布一种新类型的 AI 模型的第一个版本，并在 12 月 20 日宣布下一个版本？ 仅仅十五天后。写一篇该死的博客文章对我来说还需要更多时间。OpenAI 的 Jason Wei 说，在扩展测试时间计算与预训练计算时，有些特别之处：速度快得多。三个月与 1-2 年的差距。

在你们对这个消息抱有希望之前，我应该强调一个词，宣布；OpenAI 并没有给我们访问权限。他们仍然需要进行后训练、安全测试和红队测试。现在，我们必须等待去触摸 o3 这一奇迹。（OpenAI 确实表示 o3-mini 将首先在 2025 年第一季度发布，随后不久将发布 o3）。

我将 o3 描述为令人难以置信的奇迹，不仅仅是 SOTA。我对 OpenAI 呈现的结果感到兴奋，我有充分的理由。我们应该等待模型发布后的现实世界的评判，但在此期间，你可以看看这些数字，与我一起感到兴奋。

编程

OpenAI 在软件工程 (SWE-bench Verified) 和竞赛代码 (Codeforces) 上测试了 o3。这些是与 o1 和 o1-preview 的比较结果：

SWE-bench Verified 是基于 SWE-bench 的以代理为中心的评估。问题是软件工程师在日常工作中面临的典型问题 (GitHub issues)。得分 71.7% 非常惊人。⁴

这是第二优秀模型 (o1, GPT-4o, Claude 3.6 Sonnet, Gemini 2.0 Flash) 在 SWE-bench Verified 上的图表：

Claude 3.6 Sonnet (他们称之为 3.5 new)：50.8%。不错

Gemini 2.0 Flash (他们几天前发布)：51.8%。非常不错。

现在这是当我添加 o3 的得分 71.7% 时同一图表的样子：

我们从未见过直接的 20% 跳跃。这不是“不错”或“非常不错”，这是 我们必须重新考虑其影响 的不错。20% 是从 GPT-4o（甚至不是为 SWE 任务设计的）到 2.0 Flash 和 3.6 Sonnet 的同样跳跃。GPT-4o 于 2024 年 5 月发布！

让我们继续。以下是 Codeforces 结果的一些背景。2727 的 ELO 使得 o3 位于全球前 200 名竞争程序员之中。它的得分高于 OpenAI 自己首席科学家的 2665。

它位于 99.7 百分位 内！

DeepMind 在 2023 年 12 月宣布了 AlphaCode 2。它专门在 Codeforces 上进行训练，并达到了第 87 百分位。当时非常惊人。但这相当于专家评级。相比之下，OpenAI 则构建了一个 Codeforces 大师：

国际象棋首先倒下。然后是围棋。接着是扑克和 Dota 以及星际争霸。现在轮到代码了。

然后其余的将会倒下。

数学与科学

OpenAI在竞争数学（AIME 2024\）和博士级“谷歌防范”科学问题（GPQA Diamond）上测试了o3。结果与o1和o1-preview进行了比较。

让我们从GPQA Diamond开始。我在六月写过这个：

世界上最好的两个模型，Anthropic的Claude Sonnet 3.5和OpenAI的GPT-4o在最难的推理基准GPQA（研究生级“谷歌防范问答”）上超过了50%的分数。

我称之为“最难的推理基准”。六个月后，o3的得分为87.7%。

作为比较，博士在其专业领域的平均得分为70%。我对任何事情都不是专家（只是一个航空航天工程的本科生），但如果这可以作为另一个比较，我曾经看过一些GPQA项目，我很确定我得了0%并且崩溃了。

数学怎么样？OpenAI的高级副总裁Mark Chen在演示中提到，AIME上的96.7%得分意味着o3“通常只错一个问题。”这很令人印象深刻。与此同时，这也没什么。o3在数学方面表现得如此出色，以至于AIME无法反映它的能力。

数学基准（AIME、MATH、GSM8K等）已趋于饱和，顶尖分数远超90%+。这就是为什么Epoch AI（与OpenAI合作）创建了FrontierMath。当我在宣布的那一周审查这个新的超难数学基准时，我总结了它的价值：

未发表的问题，因此没有污染。
解答是自动可验证的。
“猜测防范”。没有理由不要试运气。

并增加了其复杂性的视觉证据，即使对于那些在其他更简单的数学基准上获得90%+的顶尖模型；看看所有的空白区域：

世界上最优秀的数学家之一Terence Tao比任何图表都说得更好：

“几年，”这位菲尔兹奖得主说。“给我拿着酒，”人工智能说。

当你给出可能是最难的数学问题——Mark Chen所说的那种需要专业数学家“几个小时或几天”才能解决的问题——并让o3尝试时，会发生这样的事情：

你得到的不是20%的提升，而是1200%的提升。

25%仍然远未达到100%，对吧？我敢打赌这仍然在专家预测的范围内。这是另一位世界级数学家和菲尔兹奖得主Timothy Gowers在一个月前对FrontierMath的看法：

OpenAI的o3不仅打破了基准，还打破了期望。

接下来你会发现，它正在打破你的心。

推理

我终于来到了我最喜欢的部分，也是我情感上最投入的部分。原因是我心爱的 ARC-AGI 基准测试，我已经赞扬了好几个月，而大多数行业却对此置之不理。

我之所以强调它而不是其他基准，如 MMLU、MATH 或甚至 GPQA，是因为它更接近完美的基准：一个大多数人类都能轻松解决、几乎任何人都能轻易验证的基准，但对 AI 模型来说却似乎是不可解的，无论其多么先进。

ARC-AGI 的前一个版本最初是由 François Chollet 在 2019 年提出的，它是看似简单的，生动体现了莫拉维克悖论——对我们来说简单的事情，对 AI 可能并不简单，反之亦然。这里有一个例子：

你能解决它吗？GPT-4o、3.5 Sonnet 或 Gemini 1.5 都无法解决这个问题，揭示了一些我原本会错过的未解之谜：为什么 AI 在回答这个五年级学生能解的谜题时失败，而在量子力学的博士问题上却能给出准确的回答？这，讽刺的是，令人困惑。

直到今天，Chollet 在 2024 年发起的 ARC-AGI 挑战的最高分勉强超过 50%。此外，所有的高分都是通过经过调整的模型实现的，以便更容易应对 ARC-AGI。整体表现最好的模型得分更低，GPT-4o 的最高得分仅为荒谬的 5%。

恰巧的是，OpenAI 与 ARC-AGI 的团队合作测试了 o3。

这些是结果：o3 以 87.5% 的分数击败了 ARC-AGI。⁵⁶

Chollet 对这些结果的看法是：

为了提供背景，ARC-AGI-1 [这个基准] 从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5% 花费了 4 年时间。关于 AI 能力的所有直觉都需要为 o3 更新……OpenAI 的新 o3 模型代表了 AI 适应新任务能力的重大飞跃。这不仅仅是渐进的改进，而是真正的突破，标志着 AI 能力与之前 LLM 的局限性相比的质变。

我已经说过一段时间，GPQA Diamond、ARC-AGI，以及现在的 FrontierMath 是当今最重要的基准。我没有预料到 ARC-AGI 会发生这样的事情。o1 刚刚得到了 32% 的分数！我们都对接下来的几个月可能揭示的内容感到高兴和期待。这花了几天时间。

而且，更令人惊讶的是，o3 甚至不需要提示工程。 “找到将输入网格映射到输出网格的共同规则”就足够了。⁷

让我总结一下，因为信息量太大，难以处理：o3 所做的就是跃入未知领域。OpenAI 相信这个轨迹并在这里成功着陆。在 71.7% SWE-bench、99.95 百分位 Codeforces、96.7 AIME、87.7 GPQA Diamond、25.2% FrontierMath 和 87.5% ARC-AGI 的成绩上。

我们不知道这一切意味着什么。我们不知道未来会发生什么。我们不知道接下来的几年会怎样。天哪，GPT-3 是四年前的事情。

很多人说 o3 是人工通用智能（AGI），或者至少是 AGI 的一种软形式。Chollet 否认了这一说法，他的论点让我想起了“没有 AGI 有时是愚蠢的”这个想法。他说，击败 ARC-AGI 是声称 AGI 能力的必要但不充分条件，并且仍然有研究要做。

我不知道该怎么想。不同任务之间的智能差异仍然很大，否则 o3 不会在完成 FrontierMath 时失败任何 ARC-AGI 任务，但似乎抵御 AI 不可阻挡进步的最后堡垒正在一个个倒下。这是痛苦的吗？甚至是更痛苦的？我不知道。新的壁垒会出现以抵御当前技术吗，正如 Chollet 希望通过 ARC-AGI-v2 实现的那样？我也不知道。

我需要反思这些结果，并等待 o3 发布，以便我们共同找出 OpenAI 刚刚创造了什么。

我知道的是，我的先入之见无法承受这次审判。这是别的东西。OpenAI o3 是来自未来的信息：更新你对 AI 的所有认知。我收到了这个信息。我在 o1、AI 的新范式中看到了它的到来，但我仍然感到无言以对。

圣诞快乐，大家。圣诞快乐。

加入 算法桥，一个关于 AI 的博客，实际上是关于人类的。

脚注

名称不是“o2”的原因与另一家公司存在的版权问题有关。
我将在这篇文章中专注于o3，因为覆盖更多内容会使其变得笨重。我可能会单独写关于o3-mini的内容，探讨其较低的成本和较低的延迟，这对用户意味着什么，以及它如何与OpenAI的目标——将智能成本降低到零——相结合。
为了健康的竞争，我希望我在夸大其词，尽管我恐怕我确实相信我所说的。
o3可能在一个比pass@1更宽松的环境中被评估，获得了71.7%的分数，而pass@1测量的是第一次尝试解决问题的准确性。原因是o1得到了48.9%的分数，但OpenAI在o1发布时发布的系统卡片将分数定为41%。另一种解释，我暂时假设这是真的，是正如roon所说，在评估o1的SWE-bench时出现了问题，而41%的结果实际上来自o1的一个早期、较差的版本。
请注意x轴。OpenAI在o3上花费的金额以获得该分数是极其庞大的。o1在$3.8/任务的情况下得到了32%。而o3在高计算模式下的花费超过了整个挑战奖金$1,600,250。
Chollet否认ARC-AGI被击败，首先，o3是在公共评估集上测试的，而不是私有测试集，其次，ARC-AGI奖项要求85%的准确率，同时每个任务的计算能力花费为$0.1。
这意味着提示工程已经死去。我知道这种说法已经被反复提及，但事实是，它从未真正存在过，它只是一个不愿意获得应有的永恒安息的僵尸。好吧，它即将安息。