探索gpt-4.5：openai最新聊天模型的五大创新与应用潜力

Rifx.Online
Large Language Models , Generative AI , AI Applications
02 Mar, 2025

OpenAI刚刚发布了GPT-4.5，这是其旗舰大型语言模型的新版本。该公司声称这是其迄今为止最强大、最优秀的全方位聊天模型。“这对我们来说真的是一个进步，”OpenAI的研究科学家Mia Glaese说。

自从发布所谓的推理模型o1和o3以来，OpenAI一直在推动两个产品线。GPT-4.5是非推理系列的一部分——Glaese的同事、同样是研究科学家的Nick Ryder称其为“经典GPT系列中的一部分”。

拥有每月200美元的ChatGPT Pro账户的人今天可以尝试GPT-4.5。OpenAI表示，将于下周开始向其他用户推出。

随着每次发布其GPT模型，OpenAI已经证明，规模越大，效果越好。

什么是 GPT-4.5？

GPT-4.5 是 OpenAI 最新的模型，也是 GPT 系列中的最后一个模型。几周前，Sam Altman 在发布 OpenAI 的路线图时首次透露了该模型的线索。该模型的内部代号为“Orion”，这是 OpenAI 最后一个“非思维链”模型。这意味着，与 o3-mini、Grok 3 或 DeepSeek R1 等其他模型不同，GPT-4.5 直接给出答案，而无需逐步解释其推理过程。

它依赖于学习到的模式快速生成响应，但可能在复杂的基于逻辑的任务中遇到困难。它采用“无监督学习”进行训练，成为一个具有更好世界知识的内在智能模型。该模型还具有显著降低的幻觉率，以及增强的上下文知识和写作能力。这就是为什么 GPT-4.5 的回答听起来更自然，而不会被大量推理负担所困扰。

训练方法

与所有最新的推理模型如 o1 和 o3 不同，GPT-4.5 采用了不同的训练方法。其核心训练部分包括：

扩大预训练与后训练： GPT-4.5 采用无监督学习进行大规模训练，从而提高模式识别和世界知识。该模型依赖于扩展的计算和数据进行训练，以及架构和优化的改进。
专注于无监督学习： 该模型依赖于扩大无监督学习以提高事实准确性和直觉。这导致了幻觉率的降低和在各种主题上更可靠的响应。
人类协作训练： 它采用可扩展技术，旨在利用来自较小模型的数据训练更大的模型。这些方法增强了可引导性，使模型更好地理解细微差别并遵循人类意图。
强化学习与监督： 该模型使用监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来完善响应。此外，额外的安全技术确保负责任的 AI 行为并最小化有害输出。该模型在发布之前甚至在 OpenAI 的准备框架下进行了压力测试。

GPT-4.5的关键特性

现在我们已经了解了关于GPT-4.5的训练细节和核心设计，让我们来看一下它的一些关键特性：

改进的知识与准确性： 该模型在事实准确性上优于GPT-4o，并且幻觉率更低。它在SimpleQA基准测试中表现出色，显示出更深的世界知识。

高情商（EQ）： 与模型的对话更加富有同理心，且更具直观性。该模型还展示了更好的用户情感理解能力，并作出适当的回应。换句话说，模型“知道”何时邀请进一步的对话，何时提供结构化的回应。

增强的创造力与写作能力： 在写作、设计和创造性问题解决方面，该模型表现出色。它生成的回应更加温暖和自然。

更快、更可靠的响应： 它经过优化以提高速度和效率，提供更快、更简洁的答案。
代理能力： 该模型展示了更好的代理AI能力，适用于多步骤编码和自动化任务。

GPT-4.5 基准测试

我们已经看到模型在某些任务中的表现；现在让我们看看性能数据的说法。以下是 GPT-4.5、GPT-4o 和 o3-mini(high) 之间的基准比较。

GPQA (science): 测量回答一般科学相关知识问题的准确性。GPT-4.5 的表现显著优于 GPT-4o，但低于 OpenAI o3-mini。
AIME ’24 (math): 评估在高级数学问题解决上的表现（类似于奥林匹克水平的问题）。尽管新模型在 GPT-4o 上有所改善，但仍远远落后于在基于推理的数学任务中表现出色的 OpenAI o3-mini。
MMMLU (multilingual): 评估模型处理多语言知识任务的能力。GPT-4.5 在多语言表现上领先。
MMMU (multimodal): 测试模型理解和整合文本与视觉输入的能力。GPT-4.5 在多模态任务中优于 GPT-4o。
SWE-Lancer Diamond (coding): 评估 AI 在复杂软件工程挑战中的代码生成性能。GPT-4.5 在竞争性编码中表现最佳，完成率更高，并获得相关的货币奖励。
SWE-Bench Verified (coding): 测量 AI 修复现实世界编码问题的准确性。OpenAI o3-mini 在现实世界的软件工程任务中表现最佳，而 GPT-4.5 在 GPT-4o 上有所改善。

模型比较：GPT-4.5 vs GPT-4o, o1 和 o3-mini

OpenAI 的所有模型都有其独特的关键特性。以下是一个比较表，列出了 GPT-4.5、GPT-4o、o1 和 o3-mini 模型的主要方面：

GPT-4.5与GPT-4o有何不同？

GPT‑4.5在GPT‑4o的基础上进行了多项关键改进：

效率与规模： GPT‑4.5被设计为更具计算效率。与GPT‑4o相比，它在处理方面的效率 reportedly 提升了超过10倍。这意味着在某些情况下，它可以更快、更低成本地处理更复杂的任务。
改进的写作与世界知识： 测试报告显示，GPT‑4.5提供了增强的写作能力，具有更精细和人性化的个性特征。其更广泛和更新的训练数据导致了更好的世界知识和更具上下文相关性、细致入微的响应。

减少幻觉： 最显著的升级之一是幻觉的减少。早期测试表明，GPT‑4.5的幻觉率降至约37%，而GPT‑4o则接近60%。

GPT-4.5在实际应用中也证明优于GPT-4o。与人类测试者的比较评估显示，新模型更受欢迎。

对于日常查询，GPT-4.5在57.0%的情况下胜过GPT-4o，表明它在一般知识或日常使用问题上提供了略优的响应。在专业问题方面，它对GPT-4o的胜率为63.2%，显示出在处理复杂、与工作相关或技术性问题方面的显著改善。谈到创意智能，GPT-4.5得分为56.8%，在写作、创意构思和问题解决等创意任务中超越了4o。