革新推理：DeepSeek R1 如何通过逐步解释增强语言模型

你是否曾好奇过，AI 模型是如何学习分解数学问题或逐步解释代码的？在过去的几年里，许多公司构建了能够创建文本、翻译语言、编写代码等的大型语言模型（LLMs）。但 AI 领域出现了一个新趋势：推理语言模型（RLMs）。这些模型的目标是解释其推理过程，而不仅仅是给出简短的答案。

这一领域最大的发展之一是 DeepSeek R1，这是一个开源的推理模型，与一些最先进的 AI 系统（如 OpenAI 的“o1”及更高级的模型）竞争。在这篇文章中，我将带你了解 DeepSeek R1 的训练基础、它为何重要，以及它对 AI 未来的意义。

为什么推理模型很重要

普通的语言模型可以生成答案，但它们通常不会向你展示它们是如何得出答案的。这使得我们很难相信它们所说的话。另一方面，推理模型侧重于详细的“思维链”解释。这意味着它们会分解其推理步骤，从而使我们能够：

DeepSeek R1 在免费向所有人提供这些功能方面迈出了一大步，这要归功于其开放许可。

DeepSeek R1 的训练分为四个主要步骤。让我们用简单的方式来了解每一个步骤：

步骤 0：训练 R1-Zero（全 RL 起步）

步骤 1：“冷启动” SFT（监督微调）

步骤 2：大规模 RL 用于推理

在这个核心阶段，当模型正确解决了可以自动检查的问题时，他们会奖励它。例如：
- 准确性：如果答案正确，则给予高奖励。
- 格式：将思维链放在标签中，将最终输出放在标签中。
- 语言一致性：如果问题是西班牙语，答案也应该是西班牙语。
通过专注于这些特定的奖励，他们强化了模型生成正确且解释清晰的解决方案的能力。

步骤 3：拒绝采样和泛化

步骤 4：最终 RL 用于整体实用性

开源 + 长上下文：DeepSeek R1 的权重是MIT 许可的，这意味着任何人都可以基于它进行构建。这对于希望拥有一个用于高级推理的开放模型的的研究人员来说非常重要——不再有秘密或隐藏的步骤。
价格战：DeepSeek R1 提供的服务也比一些竞争对手便宜得多。这表明更实惠（但功能强大）的推理模型即将到来。
蒸馏和更小的模型：DeepSeek 的团队还展示了如何使用 R1 的输出来训练更小的模型（这个过程被称为蒸馏）。这非常适合那些负担不起大规模计算资源但仍希望拥有高级推理功能的人。
社区协作：现在**“秘诀”**已经公开，我们可以期待研究和改进的激增。人们将继续基于这个四阶段的公式进行创新。

数学问题：

<think>
5x + 2 = 17
减去 2：5x = 15
除以 5：x = 3
</think>
<answer>3</answer>

代码解释：

<think>
代码在使用一个变量之前，在 for 循环中定义了它...
</think>
<answer>错误在于在 'my_var' 被赋值之前就引用了它。</answer>

RL 对于好的推理模型是必要的吗？
- 这并非唯一的方法，但 RL 特别擅长增强模型解释正确答案的能力，尤其是在可以自动检查答案的任务中（例如数学）。
为什么不一次性训练所有内容？
- 分阶段训练有助于模型在特定步骤中变得强大（先推理，然后泛化），而不会混合信号。这就像在将数学应用于复杂任务之前，彻底学习数学基础知识。
更小的模型最终会赶上吗？
- 可能！DeepSeek 的蒸馏实验表明，更小的模型可以从更大的模型中学习。随着技术的进步，我们可能会看到更多能够处理推理而无需巨大计算能力的更高效的模型。