
OpenAI的GPT-4.5:成本增加5倍,但幻觉无改善 - 模型性能的批判性分析
- Rifx.Online
- Large Language Models , AI Applications , AI Ethics
- 05 Mar, 2025
是时候直面房间里的大象了
是时候直面房间里的大象了。OpenAI 刚刚发布了 GPT-4.5——一个证明 OpenAI 无法 通过扩展来解决幻觉问题的模型。毕竟,GPT-4.5 是一只 庞大 的怪物。与此同时,它在封闭领域的 PersonQA 指标上的幻觉率与 o1 几乎相同。并且 OpenAI 实际上隐藏了关于开放式问题的结果——这是大多数商业部署所需的问题类型。请在下面查看 OpenAI 实际上 隐藏 这一点的证据。
成本是 o1 的 5 倍,但在 PersonQA 上的幻觉率几乎相同
OpenAI 承认 GPT-4.5 非常大且昂贵,因此 它不能取代 GPT-4o。“GPT‑4.5 是一个非常大且计算密集型的模型,这使得它比 GPT‑4o 更昂贵,并且不能取代 GPT‑4o。”
OpenAI 宣称 GPT-4.5 是“我们最大的”聊天模型。事实上,它非常大,是 o1 成本的 5 倍!
它非常大,以至于 OpenAI 已经 用完了 GPU。
首席执行官 Sam Altman 称其为“一个巨大而昂贵的模型”,并表示该公司已经用完了 GPU 容量,无法同时向用户层推出。
与此同时,尽管它是一个巨大而昂贵的模型,成本是 o1 的 5 倍,但它 在 PersonQA 上的幻觉率与 o1 几乎相同。
GPT-4.5 系统卡
GPT-4.5 系统卡显示幻觉率改进可以忽略不计
OpenAI 自己的 GPT-4.5 系统卡显示,从 o1 到 GPT-4.5 的幻觉率变化可以忽略不计(从 20% 到 19%)——这是一个统计上不显著的变化。
考虑到模型的大小,这是一个 彻底的失败。为什么?它表明 OpenAI 无法使用扩展来解决幻觉问题。GPT-4.5 证明 扩展永远无法解决幻觉问题。
OpenAI 实际上隐藏了关于开放式问题的幻觉率
你想亲眼看到幻觉信息消失吗?请注意 9 月 12 日的 o1 系统卡 与 12 月 5 日的 o1 系统卡 之间的区别。
o1 系统卡 — 2024 年 9 月 12 日
o1 系统卡 — 2024 年 12 月 5 日
OpenAI 隐藏了可怕的开放式幻觉率
你有没有注意到开放式问题的可怕幻觉率已从 o1 系统卡中 删除?你有没有注意到 OpenAI 已经完全停止报告此指标——包括 GPT-4.5?
此指标基本上是:# 幻觉 / # 响应。因此,如果每个响应有多个幻觉,则该数字可以大于 1。例如,如果模型平均每个响应有 1.23 个幻觉,则幻觉率为 123%(1.23,GPT-4o mini 的幻觉率)。
没错,根据 OpenAI 自己的说法,当询问 GPT-4o mini 常规的开放式问题时,它每个响应会产生不止一次幻觉。难怪 OpenAI 后来删除了此指标。这表明其所有模型甚至都没有准备好投入生产。然而,OpenAI 鼓励公司仍然使用这些模型。
考虑到缓慢而昂贵的 o1 在此指标上的错误率为 78%。那么,对于大多数公司需要其聊天机器人能够回答的问题类型,GPT-4.5 的错误率是多少?蟋蟀声。没有报告。而且,OpenAI 后来决定从系统卡中 删除 该指标这一事实说明了一切。
SimpleQA
OpenAI 吹捧 GPT-4.5 在 SimpleQA 基准测试中的改进。然而,它在 PersonQA 上几乎没有取得任何进展这一事实完全否定了 OpenAI 的说法。此外,缺少对开放式问题的幻觉测量结果更令人不安。
例如,o1 在 SimpleQA 上的幻觉率为 44%,但在开放式问题上的幻觉率却高达 78%。SimpleQA 并不能说明整个幻觉情况。
这并不是说幻觉 总体上 得到了显着减少。而是 OpenAI 在其创建的一个简单基准测试上有所改进——这个基准测试非常简单,根本不应该成为基准测试。
以下是 SimpleQA 基准测试中的一些示例。
- 谁在 2010 年获得了 IEEE Frank Rosenblatt 奖? Michio Sugeno
- 谁在 2018 年获得了海洋学学会的 Jerlov 奖? Annick Bricaud
- 位于马萨诸塞州剑桥的女子文理学院叫什么名字? 拉德克利夫学院
所有问题都很简单,答案更简单。没有人应该庆祝一个庞大的模型在这个特定的“基准测试”中仅实现了 62.5% 的准确率。这就像说模型在幼儿园得了 F,却被当作 A+ 博士对待。
尽管如此,GPT-4.5 在 SimpleQA 上 62.5% 的糟糕分数确实受到了庆祝。
Medium 文章庆祝在幼儿园任务中获得 62.5% 的准确率
来自一篇关于 GPT-4.5 的 Medium 文章的摘录
我真的不知道有人怎么能写出“62.5% 的准确率使其成为事实的可靠选择”。真的吗?早就应该实话实说了。
哪家公司会使用一个客户面向的聊天机器人,在最简单的问题上出错超过三分之一的时间?毕竟,绝大多数生产环境都需要对比 SimpleQA 甚至 PersonQA 更复杂的问题进行 QA。因此,生产用户可以期望的准确率远低于 62.5%。
自 GPT-4 发布以来已经过去了两年,OpenAI 的模型继续产生 大量 幻觉。
牛肉在哪里?
好的。我在这里显示我的年龄。
曾经有一个著名的广告,一位老妇人去快餐店问“牛肉在哪里?”
现在轮到 OpenAI 回答这个问题了。
真实问题及解决方案
与其庆祝 OpenAI 无法提供生产级模型,不如你今天就针对这个非常现实的问题实施真正的解决方案!