Type something to search...
DeepSeek: R1

DeepSeek: R1
20% OFF

  • 160K Context
  • 3/M Input Tokens
  • 8/M Output Tokens

DeepSeek-R1

1. 介绍

我们介绍我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,表现出卓越的推理能力。 通过 RL,DeepSeek-R1-Zero 自然展现出许多强大且有趣的推理行为。 然而,DeepSeek-R1-Zero 遇到了无尽重复、可读性差和语言混合等挑战。为了应对这些问题并进一步提升推理性能, 我们引入了 DeepSeek-R1,该模型在 RL 之前融入了冷启动数据。 DeepSeek-R1 在数学、代码和推理任务上达到了与 OpenAI-o1 相当的性能。 为了支持研究社区,我们已开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 提炼出的六个稠密模型。DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中超过了 OpenAI-o1-mini,达到了稠密模型的新最优结果。

注意:在本地运行 DeepSeek-R1 系列模型之前,我们建议您查看 使用推荐 部分。

2. 模型概述


后训练:对基础模型进行大规模强化学习

  • 我们直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)以解决复杂问题,从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现了自我验证、反思和生成长链式思维等能力,标志着研究社区的重要里程碑。值得注意的是,这是首次公开研究验证了 LLM 的推理能力可以仅通过 RL 激励,而无需 SFT。这一突破为该领域未来的进展铺平了道路。

  • 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。 我们相信该流程将为行业带来更好的模型。


蒸馏:小模型也可以强大

  • 我们证明了较大模型的推理模式可以被蒸馏到较小模型中,从而在性能上优于通过 RL 在小模型上发现的推理模式。开源的 DeepSeek-R1 及其 API 将使研究社区受益,以便在未来蒸馏出更好的小模型。
  • 利用 DeepSeek-R1 生成的推理数据,我们微调了多个在研究社区广泛使用的稠密模型。评估结果表明,蒸馏的小型稠密模型在基准测试中表现出色。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的蒸馏 1.5B、7B、8B、14B、32B 和 70B 检查点。

3. 评估结果

DeepSeek-R1-评估

对于我们所有的模型,最大生成长度设置为 32,768 个标记。对于需要采样的基准,我们使用 $0.6$ 的温度、$0.95$ 的 top-p 值,并为每个查询生成 64 个响应以估计 pass@1。

类别基准(指标)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
架构--MoE--MoE
# 激活参数--37B--37B
# 总参数--671B--671B
英语MMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.7-92.9
MMLU-Pro (EM)78.072.675.980.3-84.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.8-83.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (正确)28.438.224.97.047.030.1
FRAMES (准确率)72.580.573.376.9-82.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.8-87.6
ArenaHard (GPT-4-1106)85.280.485.592.0-92.3
代码LiveCodeBench (Pass@1-COT)33.834.2-53.863.465.9
Codeforces (百分位)20.323.658.793.496.696.3
Codeforces (评级)7177591134182020612029
SWE Verified (解决)50.838.842.041.648.949.2
Aider-Polyglot (准确率)45.316.049.632.961.753.3
数学AIME 2024 (Pass@1)16.09.339.263.679.279.8
MATH-500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.6-78.8
中文CLUEWSC (EM)85.487.990.989.9-92.8
C-Eval (EM)76.776.086.568.9-91.8
C-SimpleQA (正确)55.458.768.040.3-63.7

蒸馏模型评估

模型AIME 2024 pass@1AIME 2024 cons@64MATH-500 pass@1GPQA Diamond pass@1LiveCodeBench pass@1CodeForces rating
GPT-4o-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
o1-mini63.680.090.060.053.81820
QwQ-32B-Preview44.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633

4. 聊天网站与 API 平台

您可以在 DeepSeek 的官方网站与 DeepSeek-R1 聊天:chat.deepseek.com,并在 “DeepThink” 按钮上切换

我们还在 DeepSeek 平台提供与 OpenAI 兼容的 API:platform.deepseek.com

5. 如何在本地运行

DeepSeek-R1 模型

请访问 DeepSeek-V3 仓库以获取有关在本地运行 DeepSeek-R1 的更多信息。

注意:Hugging Face 的 Transformers 尚未直接支持。

DeepSeek-R1-Distill 模型

DeepSeek-R1-Distill 模型可以像 Qwen 或 Llama 模型一样使用。

例如,您可以使用 vLLM 轻松启动服务:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

您也可以使用 SGLang 轻松启动服务

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

使用推荐

我们建议在使用 DeepSeek-R1 系列模型时遵循以下配置,包括基准测试,以实现预期性能:

  1. 将温度设置在 0.5-0.7 范围内(推荐 0.6),以防止无尽重复或不连贯的输出。
  2. 避免添加系统提示;所有指令应包含在用户提示中。
  3. 对于数学问题,建议在提示中包含指令,例如:“请逐步推理,并将最终答案放在 \boxed{} 中。”
  4. 在评估模型性能时,建议进行多次测试并取平均结果。

此外,我们观察到 DeepSeek-R1 系列模型在响应某些查询时倾向于跳过思维模式(即输出 “<think>\n\n</think>”),这可能会对模型性能产生不利影响。 为了确保模型进行充分推理,我们建议强制模型在每次输出的开头以 “<think>\n” 开始其响应。

Related Posts

1. 介绍 我们推出了 DeepSeek-V3,这是一款强大的混合专家 (MoE) 语言模型,拥有 671B 的总参数,其中每个令牌激活 37B。 为了实现高效推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。 此外,DeepSeek-V3 首创了一种无辅助损失的 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek-V3 是 DeepSeek 团队最新的模型,基于之前版本的指令跟随和编码能力。该模型在近 15 万亿个标记上进行预训练,报告的评估显示该模型在性能上优于其他开源模型,并与领先的闭源模型相媲美。有关模型的详细信息,请访问 DeepSeek-V3 仓库以获取更多信息。 DeepSeek-V2 Chat 是 DeepSeek-V2 的对话微调版本,属于混合专家(MoE)语言模型。 ...

DeepSeek V3
DeepSeek
62.5K context $0.14/M input tokens $0.28/M output tokens

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,以在多个基准测试中实现高性能,包括:AIME 2024 p...

DeepSeek: DeepSeek R1 Distill Llama 70B
DeepSeek
128K context $0.23/M input tokens $0.69/M output tokens
FREE

DeepSeek R1 Distill Llama 70B 是一个基于 Llama-3.3-70B-Instruct 的蒸馏大型语言模型,使用了 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,以在多个基准测试中实现高性能,包括:AIME 2024 p...

DeepSeek: R1 Distill Llama 70B (free)
DeepSeek
128K context $0 input tokens $0 output tokens

DeepSeek R1 Distill Llama 8B 是一个基于 Llama-3.1-8B-Instruct 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。该模型结合了先进的蒸馏技术,在多个基准测试中实现了高性能,包括:AIME 2024 pas...

DeepSeek: R1 Distill Llama 8B
DeepSeek
31.25K context $0.04/M input tokens $0.04/M output tokens

DeepSeek R1 Distill Qwen 1.5B 是一个基于 Qwen 2.5 Math 1.5B 的蒸馏大型语言模型,使用来自 DeepSeek R1 的输出。它是一个非常小且高效的模型,在数学基准测试中超越了 [GPT 4o 0513] ...

DeepSeek: R1 Distill Qwen 1.5B
DeepSeek
128K context $0.18/M input tokens $0.18/M output tokens
Type something to search...