揭开 Llm 推理的神秘面纱：从思维链到强化学习的 5 项技术，助您提高绩效

Rifx.Online
Large Language Models , Reinforcement Learning , Generative AI
26 Feb, 2025

大型语言模型与推理技术

大型语言模型 (LLMs) 在近年来取得了显著进展，特别是在处理复杂推理任务的能力上。本文深入探讨了用于增强 LLM 推理的各种技术，借鉴了最近的研究论文，特别关注 DeepSeek-R1。我们将探讨如思维链 (CoT)、强化学习 (RL) 和蒸馏等方法，考察它们如何促进更强大和更类人化的推理。

在深入具体技术之前，了解训练阶段和测试阶段所应用的方法之间的区别是很重要的：

训练阶段

这些技术涉及通过学习算法使用大型数据集修改模型的参数。这包括以下方法：

监督微调 (SFT)：在特定任务数据集上对预训练模型进行精细调整。
强化学习 (RL)：训练模型根据奖励优化其行为。
蒸馏：将知识和能力从更大的模型转移到更小的模型。将在下面的部分中详细解释。
预训练：训练 LLM 的基础阶段，在此阶段，它们从大量文本语料库中获取核心语言知识和多样的世界知识。

测试阶段

在测试阶段，采用各种技术来增强大型语言模型 (LLMs) 的推理能力。这些技术专注于引导模型通过更有意识和更结构化的思维过程，从而提高生成输出的准确性和可靠性。以下是对每种方法的更详细的介绍：

思维链 (CoT)

CoT 提示涉及指示模型在提供最终答案之前明确列出其思维过程。例如，当面临一个数学问题时，模型被提示首先解释其计算的每一步，而不是仅仅提供最终的数字结果。这种方法反映了人类处理复杂任务的方式，将其分解为更小的、可管理的部分。模型生成一系列代表这些中间步骤的标记链，使推理过程透明且易于跟随。这种逐步的方法不仅增强了模型的推理能力，还便于错误检测和纠正。

思维树 (ToT)

ToT 扩展了 CoT 的概念，通过同时探索多条潜在的推理路径。模型生成一个树状结构，其中每个分支代表通向解决方案的不同可能路径。在每个决策点，模型考虑不同的选项，评估它们，然后相应地分支。这使得对解决方案空间的更全面探索成为可能。这种方法对于复杂问题尤其有用，因为最佳路径并不总是显而易见，并且需要评估多个可能性。

蒙特卡洛树搜索 (MCTS)

MCTS 是一种搜索算法，通过平衡探索与利用来系统地探索各种推理路径。它构建一个搜索树，其中每个节点代表问题解决过程中的一个可能状态。模型首先根据其当前知识模拟可能的结果。如果模型遇到死胡同或对其推理的信心较低，它会回溯。然后算法选择最有前景的路径，进一步扩展，直到找到最优解决方案。MCTS 使用模型的信心分数来指导搜索，确保更可能的路径优先考虑。这使得它适用于存在多种可能解决方案且探索至关重要的问题。

过程奖励模型 (PRMs)

PRMs 用于评估和奖励推理过程中的中间步骤，而不仅仅是最终结果。与传统的奖励模型只在最终答案后提供反馈不同，PRMs 根据每一步对整体目标的贡献来分配奖励。这引导模型生成更深思熟虑和连贯的推理，通过强化那些展示逻辑进展和正确性的中间步骤。这种方法对于最终答案依赖于一系列正确的中间决策的复杂任务至关重要。

束搜索

束搜索是一种技术，在生成过程中跟踪多个可能的推理路径。与始终选择最可能的下一步的贪婪方法不同，束搜索在每一步保留 n 个最可能序列的“束”。这允许探索多个有前景的选项，并显著降低陷入次优路径的概率。在生成输出时，模型比较和对比所有 n 个选项。束宽度可以调整，以在计算负载和路径探索的全面性之间找到合适的平衡。这有助于确保模型生成更强大和多样化的输出。

语言强化搜索 (VRS)

语言强化搜索 (VRS) 利用 LLMs 的预训练推理和语义能力，通过测试阶段推理迭代地精炼解决方案，而无需额外的训练。模型被提示生成一个解决方案，然后自我评估或由外部验证者进行评估。这种反馈随后引导后续的精炼。与需要结构化搜索空间的方法不同，VRS 更加灵活，允许使用单个或多个代理框架的广泛方法。模型利用这些反馈迭代地调整和改进其推理，生成更准确且与预期目标一致的输出。

这些测试阶段技术虽然各自独立，但通常可以结合使用，以进一步增强 LLM 的推理能力。它们各自引入了一层结构化指导，使模型能够更深入地探索问题，更有意识地思考，并生成更高质量的解决方案。

基于记忆的强化

基于记忆的强化涉及使用一个 外部记忆模块，在其中 LLM 存储信息，如观察、过去试验中的成功和失败行为。在测试阶段，LLM 迭代地探索其环境，咨询其记忆以做出更明智的决策。它通过总结什么有效和无效来从过去的经验中学习，提取关于解决方案空间的可解释见解，并在后续尝试中细化其行动。这种方法使 LLM 能够通过在先前尝试的基础上改进其推理和表现，特别适用于需要持续互动和从经验中学习的开放式任务。

体验学习 专注于模拟成功的过去经验。
反思学习 涉及对成功和失败进行反思，以总结潜在原因。
概念学习 使代理能够发展超越特定任务的广义“概念”。

该技术的目标是通过利用 LLM 探索不同设计的能力，结合复杂环境中的不同策略，发现并细化给定任务的最佳系统，并随着时间的推移提高其能力。

基础：思维链 (CoT) 和高级提示技术

“思维”作为一系列代币的概念，代表了推理过程中的中间步骤，是一个重要的进展。思维链 (CoT) 提示鼓励模型逐步表达其推理，这显著提高了其解决问题的能力。这种方法超越了简单的自回归代币生成，能够实现更复杂的认知架构，如树搜索和反思推理。

几个技术建立在 CoT 之上：

自我一致性： 生成多个推理路径，以得出更可靠的结论。
思维树 (ToT)： 将推理路径组织成树结构，允许对不同解决方案进行更系统的探索。
思维图： ToT 的进一步概括，使用图结构。
ReAct： 将推理与行动步骤交替进行，使与外部环境的互动更加动态。ReAct，代表推理与行动，是一种通过将推理与行动步骤交替进行来增强大型语言模型的方法，从而使与外部环境的互动更加动态。ReAct 不仅仅生成思维链和最终答案，而是提示模型积极与环境互动，收集信息，并根据反馈调整其推理。

ReAct 的工作原理：

交替步骤： ReAct 引导大型语言模型在推理和行动之间交替，例如思考、采取行动（例如，使用工具）以及根据结果细化思维。
动态互动： 使模型能够与外部工具、API 或环境互动，将新信息纳入其推理中。
迭代过程： 模型迭代地推理、行动和反思，确保适应性和稳健的推理。
示例： 为了回答关于当前事件的问题，模型可能会思考（“我需要最近的新闻”），行动（使用搜索引擎），并根据搜索结果更新其推理，以获得更准确的见解。

分解方法： 像最少到最多提示和计划与解决的方法将复杂问题分解为更易于管理的组件。

这些提示方法在测试时通过引导大型语言模型进行明确的推理过程来增强推理，而无需额外的训练。

强化学习 (RL) 以增强推理能力

强化学习是一种强大的训练 AI 模型的方法，特别是在正确的行动并不总是显而易见且必须通过试错学习的场景中。在增强大型语言模型 (LLMs) 的推理能力的背景下，RL 在使模型发展复杂的多步骤推理技能方面发挥着关键作用。以下是 RL 在该领域应用的深入分析：

推理的 RL 核心原则：

代理-环境交互： RL 涉及一个代理（LLM）与一个环境（任务或问题）进行交互。代理采取行动（生成推理步骤），环境以奖励的形式提供反馈。
奖励信号： 奖励是一个数值信号，指示代理的表现如何。在推理中，这可能是对达到正确答案或遵循有效推理路径的奖励。过程奖励模型 (PRMs) 为推理过程中的每一步提供更细致的奖励，这特别有用。
策略学习： 策略是代理选择行动的策略。RL 的目标是学习一个最佳策略，以最大化随时间累积的奖励。
试错： RL 依赖于试错学习。代理探索不同的行动，并从获得的奖励或惩罚中学习，这逐渐提高其解决问题的能力。
信贷分配： 在复杂的推理任务中，理解哪些行动导致成功（或失败）至关重要。RL 算法必须解决 信贷分配 的挑战，这涉及弄清楚推理路径中的哪些步骤对实现最终结果最为重要。

用于推理的 RL 算法：

几种 RL 算法被用于增强 LLM 的推理能力，包括：

近端策略优化 (PPO)： PPO 是一种流行的在线 RL 算法，基于当前数据更新策略。由于它在稳定性和样本效率之间提供了良好的平衡，因此经常被使用。
直接偏好优化 (DPO)： DPO 是一种离线方法，通过直接根据偏好数据优化策略，简化了训练过程，而不是使用显式奖励模型。DPO 效率高，但由于长推理步骤可能导致次优结果。
REINFORCE： REINFORCE 算法是一种 蒙特卡洛 方法，通过采样完整轨迹来估计奖励。它通过根据这些轨迹的结果调整策略来工作。这是一种比 PPO 等方法更直接的方法，但需要许多轨迹才能获得良好的估计。
组相对策略优化 (GRPO)： GRPO 是一种优化步骤级奖励的 RL 算法，这对多步骤推理任务特别有利。这使得模型能够在不同领域保持推理的一致性。

推理的 RL 训练关键方面：

奖励建模： 这是一个关键方面，因为它决定了模型如何学习。在推理中，奖励可以基于准确性、推理过程的逻辑或两者的组合。通常使用基于规则的系统，其中需要特定的格式和步骤。可以使用基于神经的系统，但可能容易受到奖励操控的影响。
数据生成： RL 算法需要大量数据进行训练。这些数据可以通过搜索算法自动生成或通过人工演示生成。数据可用于微调模型，目的是在应用更多强化学习之前提高其推理能力。
多阶段训练： 通常，RL 应用于多阶段过程。最初，基础模型使用监督数据进行微调，随后进行旨在增强推理能力的强化学习阶段。在 RL 过程接近收敛后，可以用来创建新数据，再次用于微调模型。
迭代细化： RL 训练涉及迭代细化，模型通过反馈和策略更新不断改进，最终导致更好的推理。

DeepSeek-R1 和 R1-Zero：详细审查

让我们更仔细地看看 DeepSeek-R1 和 R1-Zero 模型：

DeepSeek-R1-Zero：

纯强化学习方法：DeepSeek-R1-Zero 以其将 纯强化学习 应用于基础模型而著称，没有任何监督微调作为初步步骤。该方法用于观察语言模型是否能够通过纯 RL 过程发展推理能力。结果显示，它在 AIME 基准上可以达到 71% 的平均通过率，通过多数投票可以提升至 86.7%。这两个结果与 OpenAI 的 o1 模型的表现相匹配或超过。
新兴推理行为：DeepSeek-R1-Zero 展现了通过纯 RL 自我验证、反思和生成长思维链的能力。这些行为是通过 RL 过程自然出现的，没有对这些行为进行任何显式编程。
基于规则的奖励系统：该模型使用一个 基于规则的奖励系统，包括准确性奖励和格式奖励。准确性奖励决定最终答案是否正确，而格式奖励检查模型是否将其推理过程放在 <think> 和 </think> 标签之间。
训练模板：在训练过程中，模型被指示首先生成推理过程，然后提供最终答案。这使研究人员能够观察模型的自然进展。
自我演化过程：该模型在训练过程中表现出一种自我演化过程，其特点是随着 RL 训练的进行，模型自然 增加思考时间。这种改进不是外部调整的结果，而是模型内部发展的结果。随着测试时计算的增加，模型也开始表现出更复杂的行为，如反思。
“恍然大悟”时刻：在训练过程中出现了一个非常有趣的现象，即“恍然大悟”时刻，模型重新评估其解决问题的初始方法，并分配更多思考时间，表现出更高水平的推理。
局限性：尽管具备强大的推理能力，DeepSeek-R1-Zero 仍存在 可读性差和语言混合 的局限性。这是因为没有进行预训练以提高可读性和连贯性。

DeepSeek-R1：

多阶段训练管道：DeepSeek-R1 通过使用一个 多阶段训练管道 来解决 R1-Zero 的局限性，该管道包括冷启动数据和两个强化学习阶段。
冷启动数据：为了解决直接从基础模型开始 RL 的不稳定性，使用少量 高质量的长思维链 (CoT) 推理 数据来微调基础模型，然后再应用强化学习。这些数据是通过结合少量提示与长 CoT 示例直接提示模型生成详细答案、收集 DeepSeek-R1-Zero 输出的可读格式，并通过人工标注者后处理来提炼结果而收集的。
可读性：使用冷启动数据的一个关键优势是提高了响应的可读性。这些数据在每个响应的末尾包含摘要，格式可读，并过滤掉不够用户友好的响应。输出格式为 <special_token><reasoning_process><special_token><summary>。
以推理为导向的 RL：在冷启动微调之后，DeepSeek-R1 经过一个 以推理为导向的 RL 阶段，该阶段专注于增强代码、数学、科学和逻辑中的推理能力。在此阶段，使用语言一致性奖励来减少训练过程中的语言混合。这是通过计算 CoT 中目标语言单词的比例来实现的，使其对人类更可读。
拒绝采样：当以推理为导向的 RL 收敛时，检查点用于通过 拒绝采样 创建新的监督微调数据。这些数据与其他领域（写作、事实问答和自我认知）的数据结合，用于重新训练基础模型。这使其变得更加全面。
第二个 RL 阶段：在重新训练后，使用另一个 RL 过程，考虑所有场景中的提示。这专注于进一步使模型与人类偏好对齐，改善有用性、无害性和推理能力。
性能：DeepSeek-R1 在各种任务上实现了与 OpenAI 的 o1–1217 相当的性能。它在教育导向的知识基准、格式指令遵循和写作任务上表现出改善的性能。

R1 和 R1-Zero 之间的主要区别：

训练方法：R1-Zero 使用纯 RL，而 R1 使用多阶段方法，包括冷启动数据、两个 RL 阶段和两个 SFT 阶段。
可读性：R1 旨在生成更可读和人性化的输出，而 R1-Zero 在可读性和语言混合方面存在困难。
通用能力：R1 旨在处理推理和一般任务，因为有额外的监督微调阶段，而 R1-Zero 主要专注于推理任务。

通过结合这两种方法，研究人员能够展示纯强化学习的好处，以及通过将 RL 与监督微调相结合对可读性、连贯性和通用能力的改善。DeepSeek-R1 的多阶段训练方法使其能够在解决 R1-Zero 中看到的局限性的同时，实现强大的推理性能。

强化学习在HuatuoGPT-o1中的应用：提升医学推理能力

HuatuoGPT-o1利用强化学习（RL）来增强其在医学领域的复杂推理能力，该领域对准确性和可靠性要求极高。与许多专注于数学推理的模型不同，HuatuoGPT-o1专为医学应用而设计，这通常需要细致的逐步分析。以下是RL在该模型中的应用方式：

两阶段训练方法：

HuatuoGPT-o1采用两阶段训练过程，强化学习是第二阶段的关键组成部分。

第一阶段：学习复杂推理：
在第一阶段，模型被训练生成复杂的思维链（CoT）推理路径。这涉及一个搜索过程，模型尝试不同的推理策略来解决医学问题。医学验证者（使用GPT-4o）检查模型输出的正确性，提供反馈以指导寻找正确的推理轨迹。成功的推理轨迹随后用于通过监督微调（SFT）来微调模型，教会模型在回答前“思考”。
第二阶段：利用RL增强复杂推理：
在第二阶段，使用强化学习（RL）进一步细化在第一阶段获得的复杂推理能力。这涉及使用医学验证者提供稀疏奖励，以指导模型通过近端策略优化（PPO）算法进行自我改进。

HuatuoGPT-o1中RL的关键方面：

基于验证者的奖励：
HuatuoGPT-o1的RL一个关键方面是使用验证者（GPT-4o）提供反馈。该验证者评估模型响应的正确性，对正确答案给予1的奖励，对错误答案给予0.1的奖励。这允许使用稀疏奖励，对于反馈并不总是容易获得的任务尤为重要。未尝试思考后回答的响应获得0的奖励。这种方法在医学背景下比精确匹配方法更可靠，因为别名和措辞的变化很常见。
近端策略优化（PPO）：
HuatuoGPT-o1采用PPO作为其RL训练的在线算法。PPO通过使用剪切目标来帮助稳定学习过程，防止对策略进行大幅更新。尽管内存消耗较高，PPO还受益于价值模型的使用，这有助于更有效地学习。
复杂的CoT推理：
该模型专门设计用于生成复杂的CoT推理。这意味着，模型不会直接给出答案，而是经过一系列步骤，探索不同的解决方案，并在给出响应之前细化其答案。结果表明，这比简单的推理方法或没有推理的情况产生显著更好的结果。更长的推理路径使模型能够探索更详细的思维过程，从而发现更高奖励的解决方案。
稀疏奖励：
奖励系统使用稀疏奖励，仅对最终答案的正确性提供反馈，这在许多RL场景中是典型的，因为及时反馈并不总是可能的。KL散度被用来利用这些稀疏奖励来稳定训练。
奖励函数：
奖励函数是验证者反馈和学习到的RL策略与初始策略之间的Kullback-Leibler（KL）散度的组合。这有助于稳定训练过程。
在线学习：
HuatuoGPT-o1使用在线学习方法，细化模型以获得更好的复杂CoT推理。这与DPO等离线方法形成对比，后者在测试中表现较差。

RL对HuatuoGPT-o1的影响：

显著的性能提升：
RL对HuatuoGPT-o1的性能贡献显著。实验显示，在使用8B参数模型时，医学基准测试提高了8.5分。此外，70B参数模型在多个医学基准测试中超越了其他开源通用和医学特定大型语言模型。
增强的推理能力：
使用RL使HuatuoGPT-o1能够增强其推理能力，特别是识别错误、尝试不同策略和细化答案的能力。
更好的问题解决能力：
通过RL增强的复杂推理显著提高了模型的医学问题解决能力。RL的好处在复杂CoT推理中表现得更为明显，展示了较长自我对弈推理路径的重要性。
适应性：
两阶段训练方法已被证明可适应其他领域，正如HuatuoGPT-o1–7B-zh的成功所示，该模型基于Qwen2.5–7B-Instruct，是一个中文医学模型。

过程奖励模型（PRMs）的作用

过程奖励模型（PRMs） 对于引导大型语言模型（LLMs）朝着更好的解决方案至关重要。PRMs 提供密集的逐步奖励，促进 LLM 推理的强化学习。它们用于评估和搜索中间“思维”，鼓励在测试时进行更深思熟虑的推理。DeepSeekMath 通过 GRPO 使用 PRMs 来增强数学推理和推理一致性。MATH-SHEPHERD 也使用 PRM 框架进行逐步验证和强化。

什么是过程奖励模型（PRMs）？ PRMs 是一种用于大型语言模型（LLMs）训练和应用的奖励系统，专门设计用于增强推理能力。与传统方法仅对任务的最终结果提供反馈不同，PRMs 通过对推理过程中的每个中间步骤分配奖励，提供 逐步指导。这种方法使模型能够从推理过程中的每个动作和决策中学习。

PRMs 的关键方面：

细粒度反馈： PRMs 在推理过程的每个阶段提供 详细反馈，使模型能够理解各个步骤的影响。这与仅评估最终结果的稀疏奖励不同，使得模型难以理解推理过程中的哪些部分是有效的或无效的。
密集奖励： 通过奖励每一步，PRMs 生成 连续且信息丰富的奖励信号，帮助模型更有效地导航复杂的推理路径。这在解决方案需要多个顺序推理步骤时尤其有用。
引导强化学习： PRMs 的奖励信号引导强化学习（RL）算法，鼓励模型生成更准确和有效的推理轨迹。
测试时应用： PRMs 不仅可以在训练期间使用，还可以在 测试时推理 中使用，进一步增强模型的推理能力，通过引导搜索解决方案。这被像 OpenAI 的 o1 系列模型所使用。
与搜索方法的集成： PRMs 通常与 蒙特卡洛树搜索（MCTS） 等方法结合使用，以探索多个推理路径并选择最有前景的路径。

PRMs 的适用性：

复杂推理任务： PRMs 特别适用于需要 多步推理 的复杂任务，包括数学问题解决、逻辑推理和规划。
医学推理： PRMs 在通过多阶段方法改善医学问题解决方面被发现是有用的，这种方法包括学习复杂的推理路径并通过强化学习增强这一过程。
多轮交互： PRMs 还应用于交互任务，例如对话和多轮问答，在这些任务中，它们帮助模型保持一致性并实现长期目标。
多样化领域： 虽然最初是为数学和逻辑推理开发的，但 PRMs 在多样化领域中也证明是有用的，因为它们允许模型以逐步的方式学习复杂任务。

PRMs 的局限性：

定义细粒度步骤： PRM 的主要局限性之一是 在一般推理中明确地定义细粒度步骤是具有挑战性的。并不总是显而易见推理过程应该如何分解为步骤，或者这些步骤应该有多大或多小。
确定步骤正确性： 确定推理过程中的 中间步骤是否正确 可能很困难。使用其他模型的自动注释可能不够充分，而手动注释则耗时且昂贵。
奖励黑客： 在使用神经奖励模型时，总是存在 奖励黑客 的风险，即模型学会利用奖励函数而不是发展更好的推理能力。这在大规模强化学习环境中特别令人担忧，因此像 DeepSeek-R1-Zero 这样的模型出于这个原因避免使用这些类型的奖励模型。
计算开销： 使用 PRMs 可能导致 显著的计算开销，因为需要评估推理路径的每一步。这可能使训练和推理变得更资源密集，从而变得更慢。
价值函数偏差： 当与 PPO 一起使用时，使用结果奖励模型训练的价值网络在确定中间推理步骤的价值时可能表现出 显著偏差。这可能影响模型学习的有效性，特别是在考虑复杂的思维链时。
对数据质量的依赖： PRMs 的有效性高度依赖于训练数据的质量和奖励信号的精确性。不准确或不完整的奖励信号可能导致次优学习，从而影响性能。
不总是与蒸馏一起使用： 一些模型受益于基于 PRM 的方法，但在蒸馏期间不一定使用 PRMs。这意味着虽然教师模型可能从这种方法中受益，但学生模型不会，这可能影响其性能。

未来研究方向

改进奖励模型： 开发 更准确和更强健的奖励模型，使其不易受到黑客攻击，并更好地与人类推理对齐。
与测试时技术的集成： 探索将 PRMs 与其他测试时增强方法（如语言强化搜索和基于记忆的学习）结合使用。
自动步骤定义： 研究可以 自动定义和细化推理步骤 的方法，以解决定义细粒度推理步骤的挑战。
多模态和长上下文集成： 探索 PRMs 如何在多模态环境中有效使用以及处理更长上下文的能力。
在软件工程中的应用： 进一步研究 PRMs 如何提高模型在软件工程和类似领域的性能。

通过解决这些局限性和未来方向，PRMs 可以进一步提升大型语言模型的能力，使其在解决复杂的现实问题时更加有效和可靠。

蒸馏: 赋能小型模型

Okay, let’s delve into the 蒸馏 technique, specifically how DeepSeek employed it and its impact on models like Qwen. 我们将审查该过程、理由和这种方法的结果，引用相关资料。

蒸馏技术：转移推理能力

蒸馏，在大型语言模型（LLMs）的上下文中，涉及将更大、更复杂模型（“教师”）的知识和能力转移到更小、更高效的模型（“学生”）中。这种技术特别有价值，因为它允许在资源受限的设备上部署强大的模型，而不会过多牺牲性能。

为什么选择蒸馏？

资源效率：大型模型通常需要显著的计算资源，使其在许多实际应用中不切实际。蒸馏允许创建更小的模型，这些模型更容易在边缘设备、手机和其他较弱的硬件上部署。
保持推理能力：直接将强化学习（RL）应用于小模型通常无法达到与大型模型相同的性能水平。通过从大型模型中蒸馏推理模式，小模型可以实现比依赖自身的RL训练更好的性能。
经济有效：蒸馏是一种经济高效的方法，可以在推理中取得良好结果，相比于在小模型上进行大规模RL训练，所需的计算能力更少。

DeepSeek的蒸馏方法

DeepSeek使用蒸馏作为关键策略，以创建更小但功能强大的模型，这些模型保留了像DeepSeek-R1这样的大型模型的推理能力。以下是它们的实施方式：

教师模型：DeepSeek-R1: DeepSeek-R1作为教师模型，经过大规模强化学习（RL）和监督微调（SFT）训练，以实现强大的推理能力。它在推理任务上表现出色，超越了许多现有模型。
学生模型：Qwen和Llama系列: DeepSeek利用蒸馏知识对Qwen和Llama系列的模型进行微调。这些模型因其开源特性和在研究界的广泛应用而被选中。具体使用的模型包括：

Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5–14B, Qwen2.5–32B 和

Llama-3.1–8B, 和 Llama-3.3–70B-Instruct
蒸馏数据: 蒸馏过程的核心是从DeepSeek-R1的输出中策划的80万数据集。该数据集包括在DeepSeek-R1训练期间生成的推理和非推理示例。非推理数据包括写作、事实问答（QA）和自我认知等内容，这些内容对于提高小型模型的整体能力也至关重要。
仅监督微调（SFT）: 蒸馏过程仅涉及对使用从DeepSeek-R1生成的80万数据集的小型模型进行监督微调。在此阶段不应用额外的强化学习（RL）。这是一个有意的选择，因为DeepSeek旨在展示蒸馏技术的有效性，将额外的RL留给更广泛的研究社区进一步探索。
直接蒸馏: DeepSeek采用直接蒸馏，小型模型直接使用教师模型生成的数据进行微调，这种方法被发现比直接在小型模型上应用RL更有效。

对Qwen和Llama模型的影响

蒸馏技术对Qwen和Llama模型产生了重大影响，实验结果在来源中有所体现：

显著的性能提升： 蒸馏模型在各种基准测试中显示出显著的改善。例如，DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到了55.5%，超越了QwQ-32B-Preview。同样，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%，在MATH-500上得分94.3%。
超越更大模型： 较小的蒸馏模型通常优于较大的非蒸馏模型。例如，DeepSeek-R1-Distill-Qwen-14B在所有评估指标上都超越了QwQ-32B-Preview，尽管其参数较少。此外，DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B在许多基准测试中显著超越了OpenAI的o1-mini。
在较小模型上优于强化学习： 从DeepSeek-R1进行的蒸馏在较小的基础模型（如Qwen-32B）上优于应用大规模强化学习，确认了较大模型发现的推理模式对于增强推理能力至关重要。这表明，较大模型的推理模式可以通过蒸馏转移到较小模型，从而导致比直接强化学习更好的结果。
为稠密模型设定新基准： 蒸馏后的32B和70B模型在稠密模型的推理基准测试中设定了新的性能记录。
效率： 蒸馏模型更高效，因为它们以更少的参数实现强大的性能，从而减少了计算资源。

与直接强化学习的比较

为了进一步突出蒸馏的有效性，DeepSeek将蒸馏模型与直接在较小基础模型上使用大规模强化学习训练的模型进行了比较：

在 Qwen-32B-Base 上的强化学习： DeepSeek使用大规模强化学习对Qwen-32B-Base进行了超过10,000步的训练， resulting in DeepSeek-R1-Zero-Qwen-32B。该模型的性能与QwQ-32B-Preview相当。
蒸馏模型的优越性： 从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中显著优于DeepSeek-R1-Zero-Qwen-32B。
结论： 这得出结论，蒸馏更强大的模型为较小模型带来的结果优于直接对较小模型应用大规模强化学习。虽然强化学习是有益的，但在蒸馏之后应用时，可以作为进一步改进的手段，更加有效。

关键要点

蒸馏是一种强大的技术，用于将大型模型的推理能力转移到更小、更高效的模型上。
DeepSeek有效地将DeepSeek-R1作为教师模型，生成大量数据集以训练像Qwen和Llama系列这样的更小模型，使用SFT。
蒸馏模型实现了显著的性能提升，通常超过未经过蒸馏训练的大型模型。
蒸馏比单靠大规模强化学习更高效、更有效，用于从头开始训练更小的模型。
结果表明，大型模型发现的推理模式对于增强小型模型的推理能力至关重要。
尽管强化学习可以进一步改善蒸馏模型，DeepSeek在蒸馏阶段主要专注于SFT，将进一步探索留给研究社区。

总之，DeepSeek的蒸馏技术在创建具有卓越推理能力的更小模型方面发挥了重要作用，通过有效利用更大DeepSeek-R1模型的知识和推理模式。这种方法不仅提高了各种基准的性能，还使这些模型在实际应用中更易于获取和更高效。

主要发现和结果

DeepSeek-R1: 在 AIME 2024 上获得 79.8% 的 pass@1 分数，稍微超过 OpenAI-o1–1217，并在 MATH-500 上获得 97.3% 的分数，与 OpenAI-o1–1217 表现相当。它在编码和知识任务上表现出色，并在创意写作、一般问答和长上下文理解方面也表现优异。
DeepSeek-R1-Zero 在强化学习训练后在推理基准测试中表现出显著改善。
HuatuoGPT-o1 在医学基准测试中超过一般和医学特定基线，展示了复杂推理和强化学习在该领域的有效性。
Marco-o1 通过整合思维链微调、蒙特卡洛树搜索和推理行动策略来增强推理能力。更细的粒度和微步骤提高了 Marco-o1 的问题解决能力。
蒸馏模型相比于相似规模的强化学习训练模型可以取得令人印象深刻的结果。

测试时间缩放与搜索算法

测试时间缩放涉及在推理过程中使用更多的计算资源以提高推理准确性。像 束搜索 这样的算法，保留得分最高的前 k 条路径以进行扩展，用于选择最佳输出序列。蒙特卡洛树搜索 (MCTS) 也是探索推理路径的常用技术。这在 Marco-o1 和 LLaMA-Berry 中使用。

开放挑战与未来方向

通用能力： DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出方面目前不及 DeepSeek-V3。未来的研究应集中于利用长思维链来增强这些领域的性能。
语言混合： DeepSeek-R1 在处理非英语或中文查询时面临语言混合的挑战。
提示敏感性： DeepSeek-R1 对提示敏感，少量提示往往会降低性能。
软件工程任务： 由于评估时间较长，大规模强化学习尚未广泛应用于软件工程任务。
对大型语言模型中的慢思维缺乏理论分析，而这有可能显著增强推理能力。
未来的研究可能涉及改善技术，以更好地利用测试时计算来增强推理。

不同技术的总结

朝着更强大和更人性化推理的 LLMs 之旅仍在继续，近年来取得了显著进展。像思维链、强化学习和蒸馏等技术在增强推理能力方面显示出了显著的效果。DeepSeek-R1 和 HuatuoGPT-o1 突出了这些方法的潜力，正在进行的研究旨在解决现有的局限性，以进一步提高 LLMs 的推理能力，特别是通过进一步开发过程奖励模型、多阶段训练管道和测试阶段扩展技术。