
Deepseek-r1 与 Gpt-o1:如何以极低的成本实现等效推理!
Inside DeepSeek-R1: 与 GPT-o1 在推理方面相匹配的惊人模型,成本却仅为其一小部分
DeepSeek推出另一款突破性模型。
我们经常看到生成性人工智能的发布,真正挑战人们的想象力。这就是DeepSeek-R1,著名的中国评估实验室推出的最新模型,涉及推理。市场上主导的推理理论之一是它是规模法则的一个新兴特性。换句话说,你需要大型模型才能获得推理能力。DeepSeek-R1挑战了这一理论,通过利用非常巧妙的后训练过程实现推理。该模型能够以极低的计算成本匹配GPT-o1的性能。相当惊人。
让我们深入了解:
DeepSeek-R1及其动机简介
大型语言模型(LLMs)领域取得了显著进展,但实现强大的推理能力仍然是一个重大挑战。许多模型依赖于广泛的监督微调(SFT),这可能计算成本高昂,并且可能无法充分释放模型自我改进的潜力。DeepSeek-R1及其前身DeepSeek-R1-Zero代表了这一范式的转变,探索了强化学习(RL)的力量,以开发和增强LLMs中的推理能力。本文将深入探讨DeepSeek-R1架构和训练过程的技术细节,强调关键创新和贡献。
DeepSeek-R1的开发旨在探索LLMs在没有依赖监督数据基础的情况下发展推理技能的潜力。研究始于纯RL的理念,以允许模型自我进化。这种方法产生了DeepSeek-R1-Zero,这是一种通过纯RL激励推理能力的可能性得以证明的模型。DeepSeek-R1的创建旨在解决DeepSeek-R1-Zero中观察到的可读性差和语言混合的问题,同时进一步提高推理性能。DeepSeek-R1在RL之前采用了多阶段训练和冷启动数据方法。DeepSeek项目的目标是创建更好的模型并与研究社区分享。
DeepSeek-R1-Zero: 纯强化学习方法
DeepSeek-R1-Zero 作为一个通过大规模强化学习(RL)训练的模型,显著不同于任何先前的监督微调(SFT)。该方法旨在探索模型在推理中的自我进化能力。
- 强化学习算法:DeepSeek-R1-Zero 使用 Group Relative Policy Optimization (GRPO)。GRPO 是一种高效的 RL 方法,它省略了使用评论模型,而是通过组分数来估计基线。给定一个问题 q,GRPO 从旧策略中抽样一组输出,并通过最大化定义的目标函数来优化策略。目标函数包括一个优势项,该项是通过计算组输出的奖励和 Kullback-Leibler (KL) 散度项来确保策略更新不会过大。
- 奖励建模:DeepSeek-R1-Zero 的奖励系统关注准确性和格式。
- 准确性奖励 评估响应的正确性。例如,数学问题需要在特定格式中给出精确答案,这允许基于规则的验证。
- 格式奖励 强调模型思维过程的包含,使用 和 标签。
- 值得注意的是,DeepSeek-R1-Zero 不使用基于过程或结果的神经奖励模型。
- 训练模板:一个简单的模板引导模型生成推理过程,随后是最终答案。该模板旨在避免内容特定的偏见,以观察模型在 RL 过程中的自然进展。
在训练期间,DeepSeek-R1-Zero 在 AIME 2024 基准测试中显示出显著的改进,合格率从 15.6% 提升至 71.0% pass@1,与 OpenAI 的 o1–0912 相当。通过多数投票,其得分进一步提高至 86.7%。该模型还通过增加思考时间(响应长度)来展示自我进化,随着训练的进行,使其能够采用更复杂的问题解决策略,如反思和探索替代方法。模型还表现出“恍然大悟”的时刻,学会通过分配更多的思考时间来重新思考其初始方法。
DeepSeek-R1:结合冷启动数据和多阶段训练
虽然 DeepSeek-R1-Zero 展示了纯 RL 的潜力,但它存在可读性差和语言混合等问题。DeepSeek-R1 的开发旨在解决这些问题,并通过结合少量“冷启动”数据的多阶段训练流程进一步提升性能。
- 冷启动数据:DeepSeek-R1 在 RL 训练之前对数千个长链思维(CoT)示例进行了微调,这些示例作为“冷启动”。这些示例是通过少量提示长 CoT、直接提示模型以获取详细答案并进行反思和验证、优化 DeepSeek-R1-Zero 的输出以及由人工注释者进行后处理等方法收集的。这些冷启动数据通过使用可读的输出格式来帮助解决可读性问题,该格式在每个响应的结尾包含摘要,并过滤掉不友好的响应。
- 输出格式定义为 |special_token||special_token|,推理过程是查询的 CoT,摘要总结了推理结果。
- 面向推理的强化学习:在冷启动数据上微调后,DeepSeek-R1 进行与 DeepSeek-R1-Zero 相同的大规模 RL 训练。此阶段专注于增强编码、数学、科学和逻辑推理任务的推理能力。引入了一种语言一致性奖励,以减轻 RL 训练过程中的语言混合,尽管消融实验表明该奖励导致了小幅性能下降。
- 拒绝采样和监督微调:在面向推理的 RL 过程达到收敛后,通过使用 RL 检查点的拒绝采样生成 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,涵盖写作和事实问答等领域。通过结合使用 DeepSeek-V3 的生成奖励模型来判断真实值和模型预测,数据超出了基于规则的奖励评估。还从 DeepSeek-V3 中包含了非推理数据,以增强模型的通用能力。
- 适用于所有场景的强化学习:第二个 RL 阶段使模型与人类偏好对齐,专注于有用性和无害性。基于规则的奖励用于推理数据,而奖励模型则捕捉一般数据中的偏好。
蒸馏与评估
DeepSeek-R1的推理能力也通过蒸馏转移到了更小、更高效的模型中。
- 蒸馏过程:像Qwen和Llama这样的开源模型直接使用来自DeepSeek-R1的80万样本进行了微调。这种方法在提高小型模型的推理能力方面效果显著。使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5–14B、Qwen2.5–32B、Llama-3.1–8B和Llama-3.3–70B-Instruct。仅对蒸馏模型应用SFT,没有RL阶段。
- 评估指标和基准:模型在一系列基准上进行评估,包括MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中国国家高中数学奥林匹克(CNMO 2024)和美国邀请数学考试2024(AIME 2024)。此外,开放式生成任务使用LLMs进行评判,特别是AlpacaEval 2.0和Arena-Hard。评估提示遵循DeepSeek-V3中的设置,使用simple-evals框架或其原始协议。
- 关键发现:DeepSeek-R1在一系列任务上的表现可与OpenAI-o1–1217相媲美。在STEM相关问题上,它的表现优于DeepSeek-V3,证明了大规模强化学习的有效性。DeepSeek-R1还展现了强大的文档分析能力以及基于事实的查询能力。该模型在写作任务和开放领域问答中表现出色。在数学任务上,DeepSeek-R1的表现可与OpenAI-o1–1217相媲美。蒸馏模型显示出显著的改进,DeepSeek-R1–7B的表现超过了GPT-4o-0513。此外,DeepSeek-R1–14B在所有指标上超过了QwQ-32B-Preview。蒸馏的32B和70B模型在大多数基准上显著优于o1-mini,突显了蒸馏的有效性。
关键贡献、讨论与未来方向
DeepSeek-R1的发展突出了几个关键贡献:
- 纯强化学习用于推理: 证明了LLMs中的推理能力可以通过纯粹的强化学习激励,而无需SFT。
- 有效的多阶段强化学习训练管道: 该方法结合了两个强化学习和两个SFT阶段,以改善推理模式并与人类偏好对齐。
- 推理的蒸馏: DeepSeek-R1展示了如何将较大模型的推理模式蒸馏到较小模型中,从而提高性能。
R1论文还讨论了一些不成功的尝试,包括过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)。
- 过程奖励模型(PRM) 被发现存在局限性,例如在一般推理中定义细粒度步骤的困难、中间步骤评估的挑战以及奖励黑客问题。
- 蒙特卡洛树搜索(MCTS) 由于搜索空间的指数级增长和为令牌生成训练细粒度价值模型的挑战而遇到困难。
未来研究方向包括:
- 通用能力增强:扩展 DeepSeek-R1 在函数调用、多轮交互、复杂角色扮演和 JSON 输出方面的能力。
- 语言混合问题缓解:解决处理非英语和非汉语查询时的语言混合问题。
- 提示工程:提高模型对提示变化的鲁棒性,超越其对少量示例提示的敏感性。
- 软件工程任务:通过实施拒绝采样或异步评估来扩展强化学习在软件工程任务中的应用,以提高效率。
结论
DeepSeek-R1 代表了在 LLMs 发展中一个重要的进步,具备增强的推理能力。通过采用创新的强化学习技术、多阶段训练流程和有效的蒸馏方法,DeepSeek-R1 不仅实现了令人印象深刻的性能,还提供了关于 AI 自我进化和知识转移潜力的宝贵见解。DeepSeek-R1 及其蒸馏模型的开源将对研究社区产生显著贡献,推动该领域的进一步发展。