Deepseek-r1：开源的人工智能推理中的强化学习革命！

Rifx.Online
Machine Learning , Natural Language Processing , Reinforcement Learning
05 Mar, 2025

DeepSeek-R1 论文解读 — 人工智能中的新 RL LLM 时代？

近年来，人工智能（AI）领域经历了快速的进展，大型语言模型（LLMs）为实现人工通用智能（AGI）铺平了道路。一个显著的模型，OpenAI 的 o1，引入了创新的推理时间缩放技术，显著增强了推理能力。然而，它仍然是闭源的。

今天，我们深入探讨 DeepSeek 发布的开创性研究论文，该论文介绍了 DeepSeek-R1。论文标题为 “DeepSeek-R1: Incentivizing Reasoning Capability in Large Language Models via Reinforcement Learning”，呈现了一种最先进的开源推理模型以及使用大规模强化学习技术训练此类模型的详细方案。

回顾：LLM的训练过程

在我们深入论文之前，先简要回顾一下LLM的训练过程。通常，LLM经历三个主要的训练阶段：

预训练： 在这个阶段，LLM在大量文本和代码上进行预训练，以学习通用知识。这一步帮助模型熟练地预测序列中的下一个标记。例如，给定输入“写一个睡前_”，模型可以用合理的单词来完成，比如“故事”。然而，预训练后，模型仍然难以遵循人类指令。下一阶段解决了这个问题。
监督微调： 在这个阶段，模型在一个指令数据集上进行微调。数据集中的每个样本由一个指令-响应对组成，响应作为标签使用。经过这一阶段，模型在遵循指令方面表现得更好。
强化学习： LLM通过反馈进一步改进。一个强有力的方法是来自人类反馈的强化学习（RLHF），模型基于人类反馈进行训练。收集大规模、高质量的人类反馈，特别是对于复杂任务，是一项挑战。因此，另一个常见的方法是来自AI反馈的强化学习（RLAIF），其中一个AI模型提供反馈。为了使RLAIF有效，需一个高能力的模型来提供准确的反馈。

介绍 DeepSeek-R1-Zero 模型

我们今天评审的论文消除了或部分消除了监督微调阶段。具体而言，为了训练 DeepSeek-R1-Zero，论文中提出的第一个模型，我们从一个名为 DeepSeek-V3-Base 的预训练模型开始，该模型具有 6710 亿个参数。监督微调阶段被完全省略。为了大规模运行强化学习，采用了一种 基于规则的强化学习 方法，而不是使用标准的带有人类或 AI 反馈的强化学习。

基于规则的强化学习

所使用的强化学习方法称为 Group Relative Policy Optimization (GRPO)，由 DeepSeek 内部开发。

给定一个要训练的模型和一个输入问题，输入被送入模型，并采样一组输出。每个输出由推理过程和答案组成。GRPO 方法观察这些采样输出，并通过使用预定义规则计算每个输出的奖励来训练模型生成首选选项：

准确性： 一组规则计算准确性奖励。例如，在具有确定性结果的数学问题中，我们可以可靠地检查模型提供的最终答案是否正确。对于具有预定义测试用例的代码问题，编译器根据测试用例生成反馈。
格式： 另一类规则创建格式奖励。在论文中的下图中，我们可以看到模型如何被指示响应，其推理过程位于标签内，答案位于标签内。格式奖励确保模型遵循这种格式。

这种基于规则的机制不使用神经模型来生成奖励，简化并降低了训练过程的成本，使其在大规模上可行。此外，研究人员发现奖励模型可能会遭遇奖励黑客问题，即模型发现一个漏洞或意外的方法来最大化奖励，这与预期目标不一致。

DeepSeek-R1-Zero 性能洞察

让我们现在探讨一下 DeepSeek-R1-Zero 模型的几个性能洞察。

在论文中的上表中，我们看到 DeepSeek-R1-Zero 和 OpenAI 的 o1 在推理相关基准测试上的比较。令人印象深刻的是，DeepSeek-R1-Zero 与 o1 相当，甚至在某些情况下超越了它。下面来自论文的迷人图表显示了在 AIME 数据集上训练过程中改进的进展。值得注意的是，AIME 上的平均 pass@1 分数显著提高，从最初的 15.6% 跃升至令人印象深刻的 71.0%，达到了与 OpenAI 的 o1 相当的水平！

DeepSeek-R1-Zero 的自我进化过程

论文的一个关键见解是模型的自我进化过程，如上图所示。x 轴表示训练步骤的数量，而 y 轴表明随着训练的进展，模型的响应长度增加。通过强化学习，模型自然地学会在解决推理任务时分配更多的思考时间。令人惊讶的是，这一过程在没有任何外部调整的情况下发生。

“恍然大悟”现象

如果以上内容还不够，还有一个在论文中提到的有趣现象，称为DeepSeek-R1-Zero的“恍然大悟”时刻。论文中的上述例子展示了这一现象。给定一个数学问题，模型开始其推理过程。然而，在某个时刻，模型开始重新评估其解决方案。模型学会重新评估其初始方法，并在需要时自行纠正。这一显著能力在强化学习训练过程中自然而然地出现。