OpenAI o3-mini vs DeepSeek-R1：谁才是AI领域的终极王者？惊人对比揭示真相！

Rifx.Online
Programming , Machine Learning , Data Science
10 Feb, 2025

在各种基准测试中比较 o3-mini 和 DeepSeek-R1

所以 OpenAI 今天终于发布了 o3-mini，并为所有 ChatGPT 用户提供了一些免费的请求。但最大的问题始终是

OpenAI o3-mini 是否优于 DeepSeek-R1？

尽管团队尚未发布任何直接的比较，但一些比较基准现在显示出 OpenAI-o3-mini-high 可能表现优于 DeepSeek-R1.

LiveBench

全球平均:

OpenAI o3-mini: 73.94

DeepSeek deepseek-r1: 71.38

比较：OpenAI o3-mini的全球平均分略高，表明在各种任务中整体表现稍好。

推理平均:

OpenAI o3-mini: 89.58

DeepSeek deepseek-r1: 83.17

比较：OpenAI o3-mini在推理任务中显著优于DeepSeek deepseek-r1，表明其在理解、分析和从信息中得出结论方面的能力更强。

编码平均:

OpenAI o3-mini: 82.74

DeepSeek deepseek-r1: 66.74

比较：OpenAI o3-mini在编码任务中具有显著优势，表明其在理解编程概念和解决编码问题方面的能力更强。

数学平均:

OpenAI o3-mini: 65.65

DeepSeek deepseek-r1: 79.54

比较：相反，DeepSeek deepseek-r1模型在数学任务中的表现更好，显示出更强的数字推理和问题解决能力。

数据分析平均:

OpenAI o3-mini: 70.64

DeepSeek deepseek-r1: 69.78

比较：OpenAI o3-mini在数据分析任务中略占优势，反映出其在解释和处理数据集方面的能力稍强。

语言平均:

OpenAI o3-mini: 50.68

DeepSeek deepseek-r1: 48.53

比较：OpenAI o3-mini在语言任务中有一定优势。

IF平均:

OpenAI o3-mini: 84.36

DeepSeek deepseek-r1: 80.51

比较：OpenAI o3-mini的IF平均分更高，表明其在广泛任务中的整体智能或表现更为有效。

不仅如此，OpenAI-o3-mini甚至在

NYT Connections (拼图)

o3-mini 模型的得分为 72.4，位于排行榜的前列，显示它在解决此基准测试中呈现的拼图方面相当有效。
DeepSeek R1 模型的得分为 54.4，表现也不错，但比 o3-mini 模型低了 18 分。

人类的最后考试

准确率 (%):

该指标衡量模型提供的正确响应的百分比。更高的准确率表明在获取正确答案方面表现更好。

o3-mini (高): 13.0%

DeepSeek-R1: 9.4%

对比：o3-mini (高) 模型具有更高的准确率，表明它在本基准评估的任务中更有效地提供正确答案。

校准误差 (%):

该指标衡量模型对其预测的信心与这些预测的实际正确性之间的对齐程度。较低的校准误差表明模型的校准更好，意味着其信心水平更可靠。

o3-mini (高): 93.2%

DeepSeek-R1: 81.8%

对比：o3-mini (高) 模型的校准误差更高，这可能表明它的校准程度不如 DeepSeek-R1 模型。然而，校准误差在这里可能有点反直觉；较低的百分比实际上表示更好的校准。因此，DeepSeek-R1 的校准更好。

其他基准

AIME 2024: O3-mini 在复杂指令理解方面优于 R1，但需要较高的推理努力。

SWE-bench 验证: O3-mini 比 R1 高出 0.1 分，同样需要较高的推理努力。

Codeforces: O3-mini 的得分优于 R1

SWE-bench 基准: O3-mini 在这里也优于 R1

AIME 基准: O3-mini 领先于 R1

API 成本

o3-mini 虽然价格合理，但仍然比 DeepSeek-R1 API 成本更高。

DeepSeek 的 R1 推理模型通过其 API 的缓存输入令牌成本为每百万 $0.14，输出令牌成本为每百万 $2.19。相比之下，O3-mini 的价格为每百万缓存输入令牌 $0.55，输出令牌 $4.40，每百万令牌大约相当于 750,000 个单词。这使得 O3-mini 比 O1-mini 便宜 63%，并且在与 DeepSeek 的 R1 竞争时具有价格优势。