Type something to search...
未来已来!OpenAI o3模型颠覆你对AI的所有想象!

未来已来!OpenAI o3模型颠覆你对AI的所有想象!

令人难以置信的奇迹,不仅仅是一个更先进的 AI 模型

OpenAI 以盛大的方式结束了他们为期 12 天的圣诞活动。在第一天,他们推出了他们的 第一个推理 AI 模型 o1 的完整版本。今天,回到起点,他们揭示了下一步:o3,他们的第二个推理 AI 模型,以及 o3-mini,一个为编码而设计的更小、更快的版本。¹²

这一公告的重要性不可低估(尽管人们已经开始尝试这样做):o3 在数学、编码、科学和推理问题上的表现是 令人难以置信的。说 o3 是最先进的(SOTA)在某种程度上是轻描淡写。我们习惯于 AI 实验室每个月都采取小步伐并相互争夺领先地位。但这次并非如此。OpenAI 的 o3 不仅夺取了 SOTA 的桂冠,它 粉碎了竞争者重夺桂冠的希望。³

还有另一种意义上,这一公告是一次突破。OpenAI 怎么能在 12 月 5 日发布一种新类型的 AI 模型的第一个版本,并在 12 月 20 日宣布下一个版本? 仅仅十五天后。写一篇该死的博客文章对我来说还需要更多时间。OpenAI 的 Jason Wei 说,在扩展测试时间计算与预训练计算时,有些特别之处:速度快得多。三个月与 1-2 年的差距。

在你们对这个消息抱有希望之前,我应该强调一个词,宣布;OpenAI 并没有给我们访问权限。他们仍然需要进行后训练、安全测试和红队测试。现在,我们必须等待去触摸 o3 这一奇迹。(OpenAI 确实表示 o3-mini 将首先在 2025 年第一季度发布,随后不久将发布 o3)。

我将 o3 描述为令人难以置信的奇迹,不仅仅是 SOTA。我对 OpenAI 呈现的结果感到兴奋,我有充分的理由。我们应该等待模型发布后的现实世界的评判,但在此期间,你可以看看这些数字,与我一起感到兴奋。

编程

OpenAI 在软件工程 (SWE-bench Verified) 和竞赛代码 (Codeforces) 上测试了 o3。这些是与 o1 和 o1-preview 的比较结果:

SWE-bench Verified 是基于 SWE-bench 的以代理为中心的评估。问题是软件工程师在日常工作中面临的典型问题 (GitHub issues)。得分 71.7% 非常惊人。⁴

这是第二优秀模型 (o1, GPT-4o, Claude 3.6 Sonnet, Gemini 2.0 Flash) 在 SWE-bench Verified 上的图表:

Claude 3.6 Sonnet (他们称之为 3.5 new):50.8%。不错

Gemini 2.0 Flash (他们 几天前发布):51.8%。非常不错。

现在这是当我添加 o3 的得分 71.7% 时同一图表的样子:

我们从未见过直接的 20% 跳跃。这不是“不错”或“非常不错”,这是 我们必须重新考虑其影响 的不错。20% 是从 GPT-4o(甚至不是为 SWE 任务设计的)到 2.0 Flash 和 3.6 Sonnet 的同样跳跃。GPT-4o 于 2024 年 5 月发布!

让我们继续。以下是 Codeforces 结果的一些背景。2727 的 ELO 使得 o3 位于全球前 200 名竞争程序员之中。它的得分高于 OpenAI 自己首席科学家的 2665

它位于 99.7 百分位 内!

DeepMind 在 2023 年 12 月宣布了 AlphaCode 2。它专门在 Codeforces 上进行训练,并达到了第 87 百分位。当时非常惊人。但这相当于 专家评级。相比之下,OpenAI 则构建了一个 Codeforces 大师:

国际象棋 首先倒下。然后是 围棋。接着是 扑克Dota 以及 星际争霸。现在轮到代码了。

然后 其余的将会倒下

数学与科学

OpenAI在竞争数学(AIME 2024\)和博士级“谷歌防范”科学问题(GPQA Diamond)上测试了o3。结果与o1和o1-preview进行了比较。

让我们从GPQA Diamond开始。我在六月写过这个

世界上最好的两个模型,Anthropic的Claude Sonnet 3.5和OpenAI的GPT-4o在最难的推理基准GPQA(研究生级“谷歌防范问答”)上超过了50%的分数。

我称之为“最难的推理基准”。六个月后,o3的得分为87.7%。

作为比较,博士在其专业领域的平均得分为70%。我对任何事情都不是专家(只是一个航空航天工程的本科生),但如果这可以作为另一个比较,我曾经看过一些GPQA项目,我很确定我得了0%并且崩溃了。

数学怎么样?OpenAI的高级副总裁Mark Chen在演示中提到,AIME上的96.7%得分意味着o3“通常只错一个问题。”这很令人印象深刻。与此同时,这也没什么。o3在数学方面表现得如此出色,以至于AIME无法反映它的能力。

数学基准(AIME、MATH、GSM8K等)已趋于饱和,顶尖分数远超90%+。这就是为什么Epoch AI(与OpenAI合作)创建了FrontierMath。当我在宣布的那一周审查这个新的超难数学基准时,我总结了它的价值:

  • 未发表的问题,因此没有污染。
  • 解答是自动可验证的。
  • “猜测防范”。没有理由不要试运气。

并增加了其复杂性的视觉证据,即使对于那些在其他更简单的数学基准上获得90%+的顶尖模型;看看所有的空白区域:

世界上最优秀的数学家之一Terence Tao比任何图表都说得更好:

“几年,”这位菲尔兹奖得主说。“给我拿着酒,”人工智能说。

当你给出可能是最难的数学问题——Mark Chen所说的那种需要专业数学家“几个小时或几天”才能解决的问题——并让o3尝试时,会发生这样的事情:

你得到的不是20%的提升,而是1200%的提升

25%仍然远未达到100%,对吧?我敢打赌这仍然在专家预测的范围内。这是另一位世界级数学家和菲尔兹奖得主Timothy Gowers在一个月前对FrontierMath的看法:

OpenAI的o3不仅打破了基准,还打破了期望。

接下来你会发现,它正在打破你的心。

推理

我终于来到了我最喜欢的部分,也是我情感上最投入的部分。原因是我心爱的 ARC-AGI 基准测试,我已经赞扬了好几个月,而大多数行业却对此置之不理。

我之所以强调它而不是其他基准,如 MMLU、MATH 或甚至 GPQA,是因为它更接近完美的基准:一个大多数人类都能轻松解决、几乎任何人都能轻易验证的基准,但对 AI 模型来说却似乎是不可解的,无论其多么先进。

ARC-AGI 的前一个版本最初是由 François Chollet 在 2019 年提出的,它是看似简单的,生动体现了莫拉维克悖论——对我们来说简单的事情,对 AI 可能并不简单,反之亦然。这里有一个例子:

你能解决它吗?GPT-4o、3.5 Sonnet 或 Gemini 1.5 都无法解决这个问题,揭示了一些我原本会错过的未解之谜:为什么 AI 在回答这个 五年级学生能解的谜题 时失败,而在量子力学的博士问题上却能给出准确的回答?这,讽刺的是,令人困惑。

直到今天,Chollet 在 2024 年发起的 ARC-AGI 挑战 的最高分勉强超过 50%。此外,所有的高分都是通过经过调整的模型实现的,以便更容易应对 ARC-AGI。整体表现最好的模型得分更低,GPT-4o 的最高得分仅为荒谬的 5%。

恰巧的是,OpenAI 与 ARC-AGI 的团队合作测试了 o3。

这些是结果:o3 以 87.5% 的分数击败了 ARC-AGI。⁵⁶

Chollet 对这些结果的看法是:

为了提供背景,ARC-AGI-1 [这个基准] 从 2020 年 GPT-3 的 0% 到 2024 年 GPT-4o 的 5% 花费了 4 年时间。关于 AI 能力的所有直觉都需要为 o3 更新……OpenAI 的新 o3 模型代表了 AI 适应新任务能力的重大飞跃。这不仅仅是渐进的改进,而是真正的突破,标志着 AI 能力与之前 LLM 的局限性相比的质变。

我已经说过一段时间,GPQA Diamond、ARC-AGI,以及现在的 FrontierMath 是当今最重要的基准。我没有预料到 ARC-AGI 会发生这样的事情。o1 刚刚得到了 32% 的分数!我们都对接下来的几个月可能揭示的内容感到高兴和期待。这花了几天时间

而且,更令人惊讶的是,o3 甚至不需要提示工程。 “找到将输入网格映射到输出网格的共同规则”就足够了。⁷

让我总结一下,因为信息量太大,难以处理:o3 所做的就是跃入未知领域。OpenAI 相信这个轨迹并在这里成功着陆。在 71.7% SWE-bench、99.95 百分位 Codeforces、96.7 AIME、87.7 GPQA Diamond、25.2% FrontierMath 和 87.5% ARC-AGI 的成绩上。

我们不知道这一切意味着什么。我们不知道未来会发生什么。我们不知道接下来的几年会怎样。天哪,GPT-3 是四年前的事情。

很多人说 o3 是人工通用智能(AGI),或者至少是 AGI 的一种软形式。Chollet 否认了这一说法,他的论点让我想起了“没有 AGI 有时是愚蠢的”这个想法。他说,击败 ARC-AGI 是声称 AGI 能力的必要但不充分条件,并且仍然有 研究要做

我不知道该怎么想。不同任务之间的智能差异仍然很大,否则 o3 不会在完成 FrontierMath 时失败任何 ARC-AGI 任务,但似乎抵御 AI 不可阻挡进步的最后堡垒正在一个个倒下。这是 痛苦的 吗?甚至是 更痛苦的?我不知道。新的壁垒会出现以抵御当前技术吗,正如 Chollet 希望通过 ARC-AGI-v2 实现的那样?我也不知道。

我需要反思这些结果,并等待 o3 发布,以便我们共同找出 OpenAI 刚刚创造了什么。

我知道的是,我的先入之见无法承受这次审判。这是别的东西。OpenAI o3 是来自未来的信息:更新你对 AI 的所有认知。我收到了这个信息。我在 o1、AI 的新范式 中看到了它的到来,但我仍然感到无言以对。

圣诞快乐,大家。圣诞快乐。

加入 算法桥,一个关于 AI 的博客,实际上是关于人类的。

脚注

  1. 名称不是“o2”的原因与另一家公司存在的版权问题有关。
  2. 我将在这篇文章中专注于o3,因为覆盖更多内容会使其变得笨重。我可能会单独写关于o3-mini的内容,探讨其较低的成本和较低的延迟,这对用户意味着什么,以及它如何与OpenAI的目标——将智能成本降低到零——相结合。
  3. 为了健康的竞争,我希望我在夸大其词,尽管我恐怕我确实相信我所说的。
  4. o3可能在一个比pass@1更宽松的环境中被评估,获得了71.7%的分数,而pass@1测量的是第一次尝试解决问题的准确性。原因是o1得到了48.9%的分数,但OpenAI在o1发布时发布的系统卡片将分数定为41%。另一种解释,我暂时假设这是真的,是正如roon所说,在评估o1的SWE-bench时出现了问题,而41%的结果实际上来自o1的一个早期、较差的版本。
  5. 请注意x轴。OpenAI在o3上花费的金额以获得该分数是极其庞大的。o1在$3.8/任务的情况下得到了32%。而o3在高计算模式下的花费超过了整个挑战奖金$1,600,250
  6. Chollet否认ARC-AGI被击败,首先,o3是在公共评估集上测试的,而不是私有测试集,其次,ARC-AGI奖项要求85%的准确率,同时每个任务的计算能力花费为$0.1
  7. 这意味着提示工程已经死去。我知道这种说法已经被反复提及,但事实是,它从未真正存在过,它只是一个不愿意获得应有的永恒安息的僵尸。好吧,它即将安息。

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多