OpenAI 的 O1 和 O1 Pro 模型：以推理为重点的人工智能新时代

Rifx.Online
Programming , Machine Learning , Generative AI
07 Dec, 2024

近年来，人工智能取得了显著进展，大型语言模型从简单的文本生成器演变为能够处理高级推理任务的强大系统。像GPT-4o这样的模型展示了令人印象深刻的语言流利性和一般知识，但直到现在，它们在更具挑战性的问题解决场景中仍然面临困难——例如高级数学、复杂的编程难题和复杂的科学探究。

OpenAI新推出的O1模型系列旨在改变这一格局，强调深度推理。与之前主要关注速度和广泛覆盖的模型不同，O1在产生答案之前花费更多时间进行“思考”。其思维链方法帮助逐步分解复杂问题，从而实现更可靠、更像人类的推理。O1系列在经过一段时间的内部测试和预览访问后发布，包括标准的O1模型和更强大的O1 Pro模式，现通过高级ChatGPT Pro订阅提供。在本文中，我们将探讨O1与其前身的不同之处，比较它与现有模型的表现，检查其在高要求基准测试中的表现，并讨论O1 Pro模式对需要尖端研究级AI能力的用户的重要性。

大型语言模型推理的演变

大多数传统的大型语言模型通过使用大量互联网文本来学习预测句子中的下一个单词。这种方法产生的模型具有广泛的通用知识和流畅的写作风格，但不一定具备强大的推理能力。像GPT-4o这样的模型虽然先进，但在需要多个逻辑步骤、仔细的错误检查或深厚领域专业知识的复杂任务上仍然可能出现失误。

相比之下，O1是从头开始设计的，旨在“更多思考”再发言。该模型采用基于强化学习的训练算法，鼓励模型在内部考虑和优化其解决路径。类似于人类在陈述结论之前可能会默默列出推理步骤，O1生成详细的内部思维链条。只有在对其推理充满信心时，它才会提供最终答案。这种深思熟虑的多步骤推理过程在简单模式识别不足以应对的领域中提高了性能。

O1 相较于之前模型的主要进展

**1. 连锁思维推理：**传统模型往往会立即给出答案，而不深入思考。O1 打破了这一模式，通过在内部逐步推理逻辑步骤后再作出回应。这种方法使 O1 能够更有效地处理诸如解决高级数学问题、理清模糊查询和解析复杂科学内容等任务。

**2. 计算能力提升带来的性能改进：**O1 在训练和推理中投入更多计算资源时，其准确性表现出可预测的提升。早期模型通常主要通过增加参数数量或训练数据集的规模来获益。而 O1 的改进结果则源于给模型更多的“思考时间”。这是提升性能的新范式：与其单纯地增大模型或提供更多数据，不如在需要时给予其更广泛的推理机会。

**3. 更强的领域专业知识：**诸如美国邀请数学考试 (AIME) 和高级科学问题集等基准测试历来对大型语言模型构成挑战。在 GPT-4o 仅取得适度成功率的情况下，O1 通过解决大部分复杂问题超越了预期。例如，GPT-4o 可能仅能解决约 12% 的高级数学问题，而 O1 能解决超过四分之三的问题。这一飞跃使 O1 与顶尖高中数学奥林匹克学生并肩，甚至在某些情况下超越了专门科学基准测试中的人类博士专家。

**4. 在压力下增强的可靠性：**当被要求产生一致结果时——例如多次解决同一问题——O1 保持更高的可靠性。这种一致性确保模型的表现不是偶然的结果，而是真正可重复推理过程的证据。这种可靠性对于研究或专业应用尤其重要，因为一致的准确性可能至关重要。

基准亮点：数学、编程和科学

**数学 (AIME 2024)：**AIME 考试旨在挑战美国一些最优秀的高中数学学生。传统模型在这里表现不佳，但 O1 在给予足够的“思考时间”时，能够解决大多数问题。通过一次尝试达到平均 74% 的准确率，并在允许其优化推理或结合多次尝试时更进一步，O1 展示了其能够匹配或超越人类在极其困难的数学问题上的表现。

**编程 (Codeforces)：**像 Codeforces 这样的编程竞赛需要逻辑、算法思维以及处理棘手边缘案例的能力。O1 的基于推理的方法在早期模型的基础上显著提升，使其在性能的顶尖百分位中。它系统地分解编程挑战和调试自身推理步骤的能力，为开发者提供了处理复杂编程任务的强大工具。

**博士级科学问题 (GPQA Diamond)：**O1 还在涵盖物理、化学和生物学主题的高级科学基准上进行了测试。这些测试旨在挑战即使是训练有素的人类专家，结果显示 O1 在某些问题集上能够持续超越博士级研究人员。这并不意味着 O1 能够取代科学家的判断或直觉，但确实表明该模型已达到可以成为科学研究中有价值工具的程度，帮助构思解决方案或验证棘手概念。

O1 Pro 模式与 ChatGPT Pro 的推出

虽然 O1 本身代表了语言模型中推理的新标准，但 OpenAI 还推出了 O1 Pro 模式——一种高级变体，在推理过程中为模型提供了更多的计算资源。随着 O1 在推理上投入更多的时间和计算，它能够提供更准确和可靠的答案。这种额外的能力对于高度专业化或计算密集型的问题尤其有益，例如复杂证明、大规模数据分析或复杂模拟。

要访问 O1 Pro 模式，OpenAI 推出了一个新的订阅层级：ChatGPT Pro。与现有的免费和 Plus 选项不同，ChatGPT Pro 针对需要顶级性能的研究人员、工程师和其他高级用户。这个价格较高的订阅解锁了 O1 的完整功能，包括 O1 Pro 模式以及高级语音输入等额外功能，未来可能还会在图像分析和结构化数据处理方面进行增强。

扩展能力：图像推理及其他

O1的另一个显著进展是其新兴的图像推理能力。该模型现在可以处理视觉信息——例如图表、草图和照片——并将这种理解融入其推理步骤中。从提供如何根据简单快照构建设备的指导，到根据粗略图纸提供数据中心布局的见解，O1的多模态推理为工程、建筑、设计等领域开辟了全新的应用。

尽管仍在开发中，这一能力暗示着未来AI模型能够无缝结合文本和视觉推理的可能性。对于必须解释视觉数据的专业人士——如审查医学扫描的医生、分析电路图的工程师或处理复杂实验设置的科学家——这种多模态方法可能变得不可或缺。

安全性与对齐：说话前的思考

随着模型能力的增强，关于安全性和准确性的担忧也在增加。O1系列试图通过强制执行仔细的推理步骤来解决这些问题，这些步骤在生成最终答案之前考虑了对齐和合规性。通过在内部思考安全约束，O1 不太可能生成不允许或有害的内容。从本质上讲，增强 O1 准确性的相同推理过程也帮助它理解并遵守安全指南。

当然，没有模型是完美的。O1 仍然可能产生不正确或误导性的答案，特别是在它缺乏可靠训练数据的领域或微妙的逻辑错误潜入的情况下。尽管如此，经过深思熟虑的推理链方法使 O1 更加透明，最终也更可控。随着 OpenAI 继续完善 O1，我们可以期待模型在处理敏感或高风险查询时的进一步改进。

前方的道路

O1和O1 Pro模式的发布代表了一次重大的范式转变。此前，模型性能的提升主要来自于参数、数据集大小或训练时间的扩展。O1表明，专注于推理步骤并在推理过程中为模型提供更多计算资源可以获得更大的回报。这种方法将性能的调节方向转向了一个新的方向，强调推理过程的质量，而不仅仅是模型的大小。

OpenAI的O1系列可能是以推理为中心的一系列模型中的第一个，每个模型都在推动人工智能可以实现的边界。ChatGPT Pro及其相关的O1 Pro模式的引入强调了一个新的时代，为需要最佳人工智能能力的用户提供了专业级别的服务。随着组织和研究人员获得这些先进模型的访问权限，他们可能会发现以往无法想象的解决复杂问题的新方法。