Deepseek R1：揭开高性价比推理能力背后的秘密

Rifx.Online
Large Language Models , AI Research , Industry Insights
05 Mar, 2025

深度寻求 R1: 人工智能中的技术创新

深度寻求 R1 已成为一个引人注目的例子，展示了如何以成本效益高和开放的方式实现高级推理能力。在这篇文章中，我们探讨了深度寻求 R1 背后的技术创新，解释了它在更广泛的人工智能领域中的重要性，并讨论了它的市场影响和实际应用。我们的方法是教育性的和谨慎的，专注于基础方法而不是夸大的炒作。

技术创新

高级推理: 深度寻求 R1 利用最先进的算法来增强推理能力。
成本效益: 该架构旨在经济可行，使先进的人工智能能够被更广泛的受众所接触。
开源: 通过开源，社区可以持续贡献和改进模型。

在人工智能领域的重要性

深度寻求 R1 代表了人工智能模型开发和部署方式的转变。其开源特性鼓励合作和创新，这对于人工智能技术的增长至关重要。

市场影响和实际应用

深度寻求 R1 的推出对各个行业产生了影响，包括：

医疗保健: 提升诊断工具和病人护理。
金融: 改进欺诈检测和风险评估。
教育: 提供个性化学习体验。

结论

深度寻求 R1 是人工智能领域的一个显著进展，展示了开源模型如何推动多个行业的创新和应用。

TL;DR

在人工智能领域，总有一些决定性的时刻，当新的方法推动整个社区的发展。

在2023年3月，Meta的LLaMA模型和斯坦福的微调阿尔帕卡模型的泄露证明我们可以在强大的基础模型之上迅速构建——只需花费几美元，而不是数百万！从那时起，LLaMA模型在开源社区中发挥了关键作用。

在2025年1月，深度寻求展示了在规模上以通常成本的一小部分构建最先进模型的可能性——挑战了大型美国公司的主导地位。深度寻求不仅引入了一种开创性的LLM训练方法，还将模型和方法论完全开源，与社区分享……这就是“斯普特尼克时刻”！

让我们深入探讨一下！

什么是深度寻求？
它是如何训练的，创新之处在哪里？
详细技术规格和性能
理解“斯普特尼克时刻”
限制（语言、审查等）和反应（OpenAI的o3-mini发布）

1. 什么是深度寻求？

深度寻求，是一家由梁文峰于2023年创立的中国人工智能初创公司，得到了高飞资本的支持，迅速引起了人们的关注，其开源人工智能模型R1。R1旨在在数学问题解决、编码和逻辑推理等任务中表现出色，采用了创新的多阶段训练技术，包括纯强化学习（RL）和监督微调。该模型生成思维链（CoT）推理过程的能力使其与当前市场上许多主导的闭源模型区分开来。

1.A. LLM训练中的关键创新— 强化学习

强化学习 (RL) 已成为进一步提高大语言模型 (LLMs) 的关键后训练步骤。传统上，LLM 的开发依赖于大量带注释的数据进行监督微调 (SFT)。然而，随着数学、编码和科学问题解决等任务中的推理需求的增加，新的方法显示出 RL 可以用于激励模型更复杂的推理能力。

为什么现在？因为 RL 在你有一个明确的目标函数时效果最佳，模型可以依赖它来判断其答案是否正确。

例如，AlphaGo 就是这样训练的。在每场比赛中，它能够知道自己是赢了还是输了。这就是它的目标函数，即获胜！

DeepMind的AlphaGo如何成为世界顶级围棋选手 | 作者：Andre Ye | 用简单英语讲解人工智能

在数学、逻辑和科学中，也可以评估模型的答案，并在成功时给予相应的奖励！因此，RL 在 LLM 的推理任务中证明了其非常有前景的潜力！

1.B. 步骤 1: 深度寻求 R1-零: 纯强化学习

深度寻求 R1-零是直接从基线模型（DeepSeek-V3-Base）训练而来，没有任何监督微调。强化学习是通过定制的群体相对策略优化（GRPO）方法进行的，为每个提示采样和评估多个输出。奖励设计结合了正确性检查（针对数学和编码任务）和格式要求（结构标签）。

值得注意的是，深度寻求 R1-零自发地发展出了复杂的推理行为：反思、自我验证和扩展思维链。 这些行为随着模型学习逐步改进其推理步骤而有机地出现，导致显著的基准表现。

阅读更多关于强化学习在深度寻求中推理能力出现的重要性:

1.C. 步骤 2: 深度寻求 R1: 多阶段管道与冷启动

虽然深度寻求 R1-Zero 展示了强大的推理能力，但它在可读性、输出语言混合以及缺乏更广泛的实用任务方面存在问题。深度寻求 R1 通过四个阶段的管道解决了这些问题：

使用小型策划数据集的冷启动，提供用户友好的格式，
面向推理的强化学习来优化数学、编程和科学任务，
拒绝采样和额外的监督微调以增强通用能力（写作、问答、事实知识），以及
二次强化学习阶段以优化有用性、无害性和整体一致性。

通过这些步骤，深度寻求 R1 在多个基准测试中实现了与主要闭源模型相当的性能（例如 OpenAI 的 o1 模型），包括 MATH-500（97.3% Pass@1），并在 AIME 2024 等任务上与 OpenAI-o1–1217 接近一致。

来源深度寻求论文: 2501.12948

1.D. 第三步. 让每个人都能使用 — 蒸馏到更小的模型

深度寻求 R1 是巨大的（见下面的规格和成本）！

深度寻求 R1 的一个关键贡献是将这些高级推理技能蒸馏成 更小的稠密模型，例如 Qwen 和 LLaMA 衍生模型（1.5B–70B 参数）。

通过利用深度寻求 R1 的思维链示例，这些更小的模型在不需要自己的大规模强化学习阶段的情况下获得强大的推理模式。

例如，深度寻求 R1-蒸馏-Qwen-7B（您可以在笔记本电脑上运行）在数学基准测试中显著优于基础 32B 模型，证明了蒸馏模型可以有效利用更大教师模型学习的高级推理。

来源深度寻求论文: 2501.12948

2. 详细规格和主要优势

深度寻求 R1: 内部有什么？简而言之，

架构与性能

专家混合 (MoE) 架构： 受到 Mistral 的 MoE 方法启发，该模型总体结合了 6710 亿个参数，每个查询激活 370 亿个参数，使其在推理时速度较快。
海量训练数据： 它在 14800 亿个标记上进行了训练，并支持 128000 个标记的扩展上下文窗口，这与最先进的模型相当。
基准性能： 如前所述，在关键测试中，深度寻求 R1 在某些基准测试中超越了 OpenAI-o1 —— 在 AIME 2024 上得分 79.8%（相比之下为 79.2%），在 MATH-500 上得分 97.3%。

为什么大家都很兴奋？

开源： 深度寻求 R1 发布了模型及其研究作为开源项目。根据 MIT 许可证发布，深度寻求 R1 允许自由使用和修改，促进协作创新。因此，它是第一个作为开源的推理模型！
成本效益： 训练成本估计约为 500 万美元，而其他领先模型的成本大约为 1 亿美元。其 API 的费用据说比 OpenAI 的便宜 27 倍。
专业能力： 它在逻辑推理、解决复杂数学问题以及生成自我验证结果的代码方面特别强大。

可用性

模型版本： 该模型提供从 15 亿到 700 亿参数的不同规模，以满足各种硬件需求。
混合训练技术： 通过将强化学习与监督微调相结合，深度寻求 R1 实现了更好的连贯性和可靠性。

这种高性能和资源效率的结合标志着在使人工智能更易获取方面的重要进展，为学术研究和商业创新打开了大门。

3. 斯普特尼克效应与市场影响

深度寻求 R1 的发布不仅是一个技术里程碑，也是重大市场变革的催化剂。

几位知名行业观察家将其首发比作“斯普特尼克时刻”——这个术语最初用来描述苏联在1957年发射卫星如何意外颠覆了美国的技术信心。风险投资家马克·安德森（Marc Andreessen）曾著名地在推特上表示，深度寻求 R1 是“人工智能的斯普特尼克时刻”，这表明来自中国的相对低成本、高性能的人工智能模型突然挑战了美国人工智能巨头的根深蒂固的霸主地位！

市场反应：股市动荡

深度寻求 R1 的快速发布导致科技股出现剧烈抛售。

为什么？ 简而言之，也许我们根本不需要那么多的 GPU 和那笔巨额的数十亿美元投资！如果我们能够以 OpenAI 的 o1 成本的一小部分构建最先进的模型，也就是深度寻求，这些投资会有利润吗？市场的短期答案是“可能不会”！

英伟达，其尖端 GPU 为许多美国开发的人工智能模型提供动力，市值在一天内下跌近 17%——抹去了超过 6000 亿美元的价值。

总体而言，美国科技股损失了约 1 万亿美元，因为投资者在应对一家中国竞争对手以仅仅一小部分成本实现类似性能的影响！

4. 如何尝试深度寻求 R1

我们已经详细讨论了深度寻求，您可能想知道如何亲自尝试。在我们分析该模型的局限性和OpenAI的反击之前，以下是您可以自己探索这个最新前沿模型的方法。

只需访问他们的网站并登录到 DeepSeek — Into the Unknown。

限制、反馈与反应

语言能力与多语言限制
DeepSeek 的模型因其训练语料库主要为英语和中文而在这两种语言上表现优异。然而，实际上，用户报告称，当模型在其他语言（如西班牙语、德语、瑞典语或希腊语）中被提示时，它可能会“慌乱”，并产生混乱或混合的响应。例如，一位 Reddit 用户指出，DeepSeek R1 “很棒……除非你说的不是英语或中文”，并且即使它用瑞典语输出，可能也会无意中切换到中文或声称它只会说英语。这种行为表明，尽管模型在其主要语言上表现稳健，但其多语言能力目前有限，用户在需要在其他语言中保持一致性能时应谨慎。

我自己测试过，我觉得模型在其他语言中的表现也相当不错；不过值得注意的是，所有模型通常在其主要语言（即通常是英语）中的表现优于其他语言。你需要在你的使用案例中进行测试，以确保它的表现正确。
数据隐私与GDPR问题
依赖 DeepSeek 的端点会引发重大的数据隐私问题，尤其是与在受控基础设施上托管模型相比。欧洲监管机构已经对 DeepSeek 的做法进行了审查；例如，意大利的数据保护机构（Garante）因担心个人数据如何在中国的服务器上收集和存储而阻止了对 DeepSeek 的访问。额外的分析（例如来自 Nearshore Americas nearshoreamericas.com）强调，持续收集和海外存储个人数据增加了敏感信息在中国法律下被曝光或滥用的风险。考虑使用 DeepSeek 的企业必须仔细评估隐私协议，并在数据安全至关重要时考虑运行本地版本。
敏感话题的审查
DeepSeek 的响应模式因在被认为是政治敏感的话题上自我审查而引起了关注。报告显示，当用户询问有关天安门广场抗议、维吾尔拘留营或台湾主权等主题时，模型要么省略细节，要么突然转移话题。例如，《卫报》详细描述了当接触敏感主题时，DeepSeek 的思维链推理有时会被完全删除，导致用户只能得到泛泛而谈的回复 (theguardian.com)。

《ChatGPT、Gemini 和 DeepSeek 如何处理天安门广场和台湾问题 — 视频 | DeepSeek | The Guardian》

这些审查行为不仅限制了模型的透明度，还引发了关于其与言论自由的对齐及对需要无过滤、事实性回应的用户的影响的担忧。

作者注：每个模型都有自己的“护栏”，包括对被视为禁忌事项的审查。例如，总部位于美国的模型可能会被设置为避免涉及可能被视为支持巴勒斯坦权利的内容，而中国模型通常会阻止或转移对天安门广场抗议等事件的讨论。这反映了一个更广泛的现实：不同地区的价值观和监管环境深刻影响模型的调优方式以及它们被允许（或不被允许）讨论的主题。最终，这种情况强调了人工智能治理中的一个更大趋势：随着模型变得更强大和更广泛地被采用，各国和社区在确保这些工具反映自身价值观和法律标准方面的压力不断增加。虽然护栏对于防止滥用或伤害至关重要，但它们也突显了在文化、社会和政治优先事项在全球范围内差异如此显著时，使用一种适合所有人的人工智能所面临的挑战。

OpenAI 用 o3-mini 进行反击
为了应对 DeepSeek 以其高效的 R1 模型进入市场，OpenAI 快速发布了新的 o3-mini 推理模型。根据最近在 Wired 的报道 (wired.com)，o3-mini 提供了先进的推理能力——特别是在 STEM 领域——并且在 ChatGPT 上免费提供。

来源: OpenAI o3-mini | OpenAI

《OpenAI-o3-mini 与 DeepSeek-R1 的比较。比较 o3-mini 和 DeepSeek-R1… | 作者 Mehul Gupta | 口袋中的数据科学 | 2025年2月 | Medium》

OpenAI 宣称 o3-mini 在复杂任务（如数学和编码）中比其早期的 o1 系列更快、更准确。早期基准测试表明，尽管每个 token 的费用大约是 DeepSeek 提供的两倍，o3-mini 在推理中实现了可比（甚至更优）性能，同时延迟显著降低，整体鲁棒性更强。

这一快速发布突显了 DeepSeek 创新对美国成熟人工智能公司的竞争压力，点燃了产品演化和市场重新定位的新一轮。

5. 结论

总之，深度寻求 R1 的发布标志着人工智能开源时代的曙光。通过展示可以使用成本效益高的训练技术开发最先进的模型，深度寻求挑战了传统的由大型企业巨额投资主导的范式。其创新的多阶段训练利用强化学习来增强复杂推理，不仅降低了开发高性能人工智能的入门门槛，还为实现高级推理能力的民主化铺平了道路。

然而，这一充满希望的新篇章伴随着重要的警示。随着技术变得更加可及和广泛采用，我们必须对数据隐私、合规性和审查的伦理影响等问题保持警惕。多语言性能的局限性和地区对内容审核的影响凸显了需要谨慎考虑和负责任部署的必要性。在我们拥抱成本效益高和开源人工智能的好处时，平衡创新与强有力的保障至关重要，以确保这些强大的工具以尊重用户隐私和促进公平、无偏见信息的方式使用。

Deepseek R1：揭开高性价比推理能力背后的秘密

深度寻求 R1: 人工智能中的技术创新

技术创新

在人工智能领域的重要性

市场影响和实际应用

结论

TL;DR

1. 什么是深度寻求？

1.A. LLM训练中的关键创新— 强化学习

1.B. 步骤 1: 深度寻求 R1-零: 纯强化学习

1.C. 步骤 2: 深度寻求 R1: 多阶段管道与冷启动

1.D. 第三步. 让每个人都能使用 — 蒸馏到更小的模型

2. 详细规格和主要优势

架构与性能

为什么大家都很兴奋？

可用性

3. 斯普特尼克效应与市场影响

市场反应：股市动荡

4. 如何尝试深度寻求 R1

限制、反馈与反应

5. 结论

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

使用 ChatGPT 搜索网络功能的 10 种创意方法

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？