Openai O3 Mini：揭开自信白痴的面纱--萌推理是危险的假象吗？

Rifx.Online
Large Language Models , AI Applications , Industry Insights
23 Feb, 2025

正如萨姆·阿尔特曼所说，推理模型是为专业人士设计的。只是并不是出于你希望的原因。

如果你阅读了我上一篇文章，恭喜你。因为你现在比大多数新闻媒体领先了一周。

外面仍然是一场马戏。

如果这是你第一次与我合作，不用担心，请查看 30个你应该问关于DeepSeek的问题。

有什么风险？

你可能会认为，考虑到开放AI在其营销材料中展示的一些“专家”视频……也许，他们真的做到了？这距离通用人工智能又近了一步（无论今天的通用人工智能意味着什么）？

令人担忧的是，人们尚未意识到当某件事情几乎正确时可能有多危险。特别是当你的财务、健康或未来受到影响时。

你可以期待：

为什么这个测试与其他比较不同？

这不是另一个人工智能模型之间的技术或基准比较。

这是一个二阶思维练习。

和往常一样，我会问“然后呢？”以揭示比单纯观察更深远的影响。

在这篇文章中，我将带你了解这些模型是如何推理的——以及它们是否真的值得信赖。

在推理（专家混合模型，MoE）模型和非推理模型中运行相同提示的结果。
人工智能模型在期权交易场景中自信地产生错误答案的证据，付费订阅者可以获得记录的实验数据。
较大模型在创造专业知识的错觉方面表现更好的证据。这暗示了一个专家悖论——需要人类专家来验证来自一个_高级_人工智能的输出。
为什么差一点就成功的感觉比根本不使用它更痛苦？依赖人工智能进行复杂推理任务的隐性成本示例。

(如果你不想详细了解，可以跳过这一部分)

实验概述

我提出了一个提示，要求人工智能模型计算_期权头寸的未来价值_。如果你不理解这意味着什么，也不用担心。可以把它看作是一个涉及一些变动部分和假设的数学问题。这不会影响你对实验结论的理解。

我选择这个问题是因为它是复杂性和清晰性的完美结合。关于期权定价有大量的文献和数据，因此任何一个合格的模型在这里应该有坚实的基础；就像一个人类专家一样。

我想看看每个模型如何论证期权头寸的现值以及它在未来不同时间点的预期值。为了实现这一点，模型需要具备以下能力：

基本计算能力
推理能力
理解价值随时间变化的概念

本质上，一个人工智能模型应该能够通过一系列关注假设和一些中间结果的思维链推理出_正确答案_。

我保持简单：一个提示，没有来回交流，就像自动化系统实际工作的方式。如果人工智能在真实工作流程中要有用，它需要一次性正确地完成任务，而不需要人类的指导或结果的解释。

模型

DeepSeek 14b, DeepSeek R1, Llama 3.1 8b, Claude 3.5 Sonnet 175b, Perplexity + Deepseek R1, 和开放AI o3-mini-high.

提示

我在多次迭代中完善了这个提示，以便让较小的模型更有机会得到正确的答案。

这些是标准的提示技术，但它们仍然依赖于专家来指导模型，而不是模型成为专家。我包括了一个类似提示的示例，没有额外的指导，以展示实验记录中的差异。

考虑以下场景，今天是1月29日：

股票（代码 MSFT）当前交易价格为 $447.2。
2月21日的450行使价看涨期权交易价格为11.90。
3月21日的450行使价看涨期权交易价格为15.90。

今天我们启动以下日历价差：

多头 1 个 2月21日 450 看涨期权
空头 2 个 3月21日 450 看涨期权

想象一下，在2月21日，前一个月份到期时，MSFT的交易价格为475。

我们的2月看涨期权到期，我们想要平掉剩余的3月看涨期权。

一些额外的信息来帮助你：

在初始交易中，2月看涨期权的成本为11.90。当卖出一个3月看涨期权时，我们收到15.90。

在2月21日，2月看涨期权只剩下$25的内在价值，没有时间价值，这可以有效地认为该期权在此日期到期并获得$25。

因此，我们仍然空头2个3月看涨期权。如果我们想要平掉这个头寸，我们必须在2月21日的市场上购买2个3月450看涨期权。

所以我们需要估计这些看涨期权在2月21日的价格。到那时，3月21日的450看涨期权将同时具有内在价值和时间价值。内在价值可以根据给定的MSFT价格（475）轻松计算。

时间价值可以使用时间平方根法则和我们初始的时间价值（15.90）进行近似计算。

请计算整体盈亏。

正确答案

任何合理的答案应包含多个项目，以得出整体利润和损失（PnL）。

二月期权的价值。($25)，这是输入中给出的
三月期权的价值
$25 内在价值
时间价值
1月29日剩余51天，2月21日剩余28天
sqrt(28/51) ~ 74.09%
15.90 * 74.09% = $11.18 剩余时间价值

整体 PnL

为购买二月看涨期权支付了 11.90
卖出三月看涨期权收到了 2 * 15.90 (= 31.80)
从二月期权收到了 25
为平仓三月看涨期权支付了 2 * (11.18 + 25) = 72.36
总计 = -11.90 + 31.80 + 25 - 72.36 = -27.46
整体损失为 27.46

我期待一个合理的推理链，基本上捕捉到整体的利润和损失。如果模型在此过程中结合了一些方程，但仍然得出了正确的最终答案，我对此没有问题。

我只想看到一些一致的逻辑流程，展示它是如何达到这一结果的。

(分析从这里开始……)

初步观察

首先，我们要认识到没有模型得出了正确答案。

第一次的 Perplexity + R1 运行在逻辑上最接近，但剩余天数错误（在几个响应中这是一个常见问题——日期计算显然很难），这导致了一个不正确的整体数字。第二次尝试也大错特错，因为它忽略了卖出三月期权的初始收益。

即使没有 Perplexity 的前置，所有较小的 DeepSeek 模型也已经推理得远离正轨，以至于最终答案与实际问题几乎没有关系，程度各异。虽然它们遵循了通常的回溯和质疑之前步骤的模式，但最终却收敛到解决一个完全不同的问题，这个问题并未包含在原始指令中。在一个案例中，DeepSeek 因为股票的大幅上涨而感到困惑，导致整体亏损。

开放AI o1 和 o3-mini-high 的表现也没有好到哪里去。在某种程度上，它们更让人担忧。o3-mini-high 的推理相对较好，尤其是在给出适当提示时。然而，尽管推理乍一看似乎合乎逻辑，但细节中的魔鬼导致了一些可笑但微妙的数学错误，比如将 0.649 四舍五入为 0.66。

Llama 在基本推理上犯了错误，忽略了提示中提到的平方根时间衰减。相反，它将内在价值与总价值混淆，并从此出发进行推理。

另一方面，Claude 的表现更好，但也错误地计算了剩余天数。除此之外，它遵循了正确的方法。有趣的是，当被要求纠正自己的答案时，它识别出了三月期权分析中的错误——但随后却重复了完全相同的计算，导致相同的错误结果。

是的，这些模型现在“思考”和“推理”。我认为这标志着一个严重问题的开始。为什么？因为_用户需要变得越来越批判性_（而且_可能是专家_）才能正确验证和解释响应。

推理模型无法推理

这些推理模型_如此自信地错误_，以至于我半期待它开始像Altman那样推出通用人工智能时间表。

以下是Sam Altman对o3-mini和o3-mini-high的看法。什么时候“更努力思考”被视为产品特性了？

DeepSeek R1和o3-mini都生成了详细的推理步骤，但未能得出正确答案。

这一发现与研究结果一致，表明当被迫解释其逻辑时，LLMs变得更加自信——即使是有缺陷的。我想强调的是：

当前评估（MMLU, AIME）测试狭窄的STEM技能，但忽略了现实世界的复杂性。
推理 ≠ 理解。
一些人开始表现出通用人工智能幻影症状。
尽管o3-mini可能代表了进展，但在您的问题上失败表明尚无模型满足通用人工智能的“广泛、适应性智能”门槛。

量化

一般来说，在降低精度的情况下，更多的参数往往比更少的高精度参数表现更好。

模型以高精度存储其参数，这会占用大量内存空间。
降低精度（从32/16位值降到最激进的2位整数）对内存占用有巨大影响。

我发现8位和4位量化模型通常达到了最佳平衡。与全精度模型相比，能够在使用四分之一或更少内存占用（在这种情况下是视频内存）的情况下，实现85–95%的准确率。

困惑度

困惑度是如何工作的？

过于简化地说，它将自己的智能和处理能力包裹在 LLM 周围，并将其输入 LLM 以实现更好的结果。

在我的示例提示中，它开始时编写并执行了几个短小的 Python 代码片段进行计算。然而，起初这是不正确的。
然后将脚本和结果与原始提示一起输入 DeepSeek。
在 DeepSeek 的推理过程中，它分析代码以辅助其逻辑，但仍然常常得出不同的结果，并质疑输入数据。

由于困惑度的原始输入不正确，DeepSeek 更难以正确处理。因此，我并不感到惊讶，DeepSeek 最终同意了困惑度计算的值，可能是因为从 DeepSeek 的角度来看，这些值是输入的一部分。

目前尚不清楚困惑度是如何指示 DeepSeek 的，但它可能包含使模型优先考虑输入数据而非自身推理的语言。

提示

我承认我的提示远非完美……如果完美的提示真的存在的话。更不用说一个能够在所有LLM上无缝工作的提示了。

我没有设置任何系统提示（在本地运行时）或在使用Claude/Perplexity进行捕获运行时包含其他前言。
在其他试验中，我在提示中尝试了角色分配，将其与期权理论（布莱克-斯科尔斯）和实用捷径相结合。然而，这些变化没有带来显著的不同——错误与完整研究中显示的错误保持一致。

虽然这只是一个例子，并不是一个全面的测试，但有几件事已经很清楚。

商业用途？示例与陷阱

也许是我的想象力不足。

我们都没有看到可以用推理模型构建的任何商业应用，而不需要大量的工程时间和额外的监控成本。

请记住，当考虑将推理模型作为更大系统的一部分进行集成时，我并不是在谈论生成内容。

示例 1：CRM

LLM 输出在格式和结构上可能高度可变，因此您可能需要进行一些后处理。想象一下，您已经转录了一位候选人的面试，您想自动提取基本数据：他们的期望薪资、是否有在您所在国家工作的权利、他们的开始日期或通知期。

您可以提示 LLM 来弄清楚这些事情——然后尝试将响应限制为特定格式（如 JSON），以便您可以将其传递给 API 以更新您的 CRM 或进行其他处理。

但您确实需要一个明确定义的结构。LLM 对于可靠地产生您想要的确切格式可能很挑剔，因此您仍然需要仔细检查或修正输出。

以薪资预期为例。模型会返回像 75000、75,000 或 £75,000 这样的数字吗？也许它会输出“75k”，或者省略“k”，或者只写“75”。人类可以阅读这些并理解其含义，但从编码的角度来看，您必须处理所有这些变体，否则您的系统可能会崩溃。

示例 2. 保险赔付

假设一家保险公司决定使用推理 LLM 来自动化其索赔流程的一部分。这个想法是客户提交事故描述，LLM 将解析细节，评估责任，并建议赔付或拒绝。

理论上听起来很不错。然而在实践中：

再次强调，您需要输入约束。 系统需要一致的输入——特定字段，如事故日期、车辆详细信息、保单号码等。

是的，您可以尝试更精确或创造性的提示，以推动 LLM 采用一致的格式，但不能保证您不会得到奇怪的结果。实际上，您可能需要处理所有边缘情况。一些库试图解决这个问题，从测试运行中可以明显看出 LLM 可以产生多少种变化。

如果客户用不同的方式表达（他们总是这样做！），您不希望您的 LLM 错误解读索赔或忽略重要信息。

是的，您可以像现在所有保险公司一样使用表单，但等等，我以为您想让 LLM 来完成工作？

输出约束也是必须的。 LLM 输出必须适合您的索赔数据库系统。您可能想要一个 JSON 结构，包含“责任 = 70%”、“建议赔付 = $5,000”等。然而，模型可能会输出一段叙述性段落或混淆字段。您需要错误检查、后备逻辑或重新提示循环。这需要更多的工程工作。

即使有了所有这些保护措施，模型仍然会出现幻觉或产生矛盾的判断。

现在，您需要人们审核标记的案例。显然，更大的模型做得更好，但仍然会出错。然而，他们的答案看起来更可信。因此，您不需要随便找个人；您需要有法律或合规培训的人。 这很快就会累积起来。LLM 失败的越微妙，监控的投资回报就会很快下降。

可以保证会有 法律责任。 想想对 Character.AI 的诉讼。由此产生的法律费用（和品牌损害）可能超过您最初使用 LLM 所获得的任何节省。

而且费用清单还在继续。

当人们第一次想到“我只需插入一个人工智能并自动处理索赔”时，通常比人们想象的要昂贵得多且风险更高。

最后的话

坦率地说，炒作非常巨大，但现实却像个马戏团。相同的输入，截然不同的输出。没有所谓的总结，图像或代码。

这几乎就像魔法。但不是那种好的魔法。

这就是为什么你会看到这样的新闻：一个人工智能聊天机器人同意以仅 $1 提供一辆车。

你可能梦想有一个即插即用的解决方案。但在实践中，你却要花费大量现金让工程师来照看你的系统。你花费的时间更多是在清理杂乱的数据，而不是实际使用它。还有无尽的监控。哦，别提法律上的噩梦了。

在大型语言模型的狂野世界中，理解仍然是一个遥不可及的梦想。因此，在投入资金到一个解决方案之前，你可能想要等一等。

Openai O3 Mini：揭开自信白痴的面纱--萌推理是危险的假象吗？

正如萨姆·阿尔特曼所说，推理模型是为专业人士设计的。只是并不是出于你希望的原因。

有什么风险？