
Deepseek R1 揭开神秘面纱:下一代电影的 3 项革命性技术!
更简单更容易
作者提供的图片。在Canva设计。
深度寻求, 新的大型语言模型,已在科技界引起轰动,代表了人工智能研究社区的一次重大突破。在2025年1月19日,当社交媒体应用 TikTok 在美国被禁用12小时时,一个来自中国的人工智能研究团队发布了一款名为 深度寻求 R1 的新大型语言模型。
深度寻求 R1 的基准显示,它在数学编码和科学推理等推理问题上的表现与开放AI的模型相似。
来源: 深度寻求论文
我将讨论这篇论文中发布的中国模型的三个主要要点,包括:
- 他们如何使用思维链让模型自我评估其性能
- 它如何使用纯强化学习让模型自我引导
- 他们如何使用模型蒸馏使深度寻求和其他大型语言模型更易于人人获取思维链
1. 思维链 (CoT)
思维链是一种轻松但有效的提示工程技术,我们要求模型进行思考并表达出来。我们在提示中添加一些内容,要求模型逐步解释其推理过程。
通过这种方式,如果模型犯了错误,我们可以轻松找出其推理中哪里出现了问题,以便我们可以提示模型不要再犯同样的错误。
Image by Author
这种方法显著增强了人工智能的推理能力,迫使模型分解复杂问题,从而更容易识别和纠正错误。通过整合思维链,深度寻求 R1 确保其决策过程透明,并与人类推理更为一致。
思维链的实际应用
CoT 在多个领域中非常有用,例如:
- 数学: 将复杂的方程分解为更简单的步骤。
- 编程: 通过解释每一行的目的来调试代码。
- 科学分析: 以结构化的方式评估假设。
这种能力使得该模型在需要精确逻辑推理的领域中具有很高的价值。
2. 强化学习:人工智能的学习过程
深度寻求以与其他人工智能模型略有不同的方式使用强化学习,这些模型的训练方式是,如果我们不提供问题和答案,它就会自己学习。这就像婴儿第一次学走路的过程。
如果你曾经看到婴儿试图走路,那是相当有趣的。他们在环境中跌跌撞撞,可能会抓住东西,试图决定如何走路。在这个过程中,他们学习如何移动和调整关节,以免摔倒。
同样,强化学习允许我们通过优化模型的策略来训练模型,就像模型的行为一样,并且这样做是为了最大化奖励。随着它随着时间的推移探索环境,它学习哪些策略可以最大化奖励,然后选择最佳策略。
作者提供的图片
例如,如果你在解决一个有两到三种不同解法的方程,但其中一种方法比其他方法要短得多。它将获得比其他方法更高的奖励。
具有多种解法的问题示例:
作者提供的图片。
强化学习正是大多数机器人学习走路以及特斯拉的自动驾驶汽车学习如何在城市中驾驶的方式。
如果你研究深度寻求论文并查看这个图表,我们可以看到深度寻求 R1 在使用强化学习进行训练时,如何提高其回答问题的准确性。
与其告诉人工智能模型一个问题的正确答案(因为那种数据获取成本相当高),我们不如让它自己找出答案,同时测量模型的准确性。
深度寻求 R1 vs. 开放AI的 GPT-4.0
深度寻求 R1 展现了比开放AI的 GPT-4.0 模型更优越的学习能力。虽然 GPT-4.0 在其方法上保持静态,但深度寻求 R1 通过强化学习不断改进,最终达到更高的准确性水平。
有一个叫做 Group Relative Policy Optimization 的方程式,这是深度寻求利用强化学习优化其策略的关键。
- 评分模型回答问题的能力,而不需要预定义的正确答案。
- 将新策略的响应与旧策略进行比较,以提高准确性。
- 使用 clipping 来防止剧烈的策略变化并保持稳定性。
- 实施 KL Divergence 来调节调整,避免不稳定的学习行为。
来自深度寻求的截图,作者编辑。
GRPO 方程的简单解释。作者截图。
这种方法确保深度寻求 R1 稳定演变,避免不稳定的同时提高其准确性。
通过这种方式,我们可以通过提示给模型正确的激励,模型可以重新评估它回答问题的方式,并且可以以越来越高的准确性做到这一点。
3. 模型蒸馏:让人工智能更易获取
深度寻求 R1 由 6710 亿个参数组成,需要数千个 GPU 和高端计算能力才能高效运行。为了使模型更易获取,研究人员采用 模型蒸馏 — 一种大型 LLM(教师模型)训练较小的 LLM(学生模型)以在类似水平上执行的过程,但参数显著减少。
Image by Author
深度寻求如何使用模型蒸馏
- 大型模型使用思维链生成广泛的推理示例。
- 较小的模型学习复制推理过程,以较少的资源实现高准确性。
- 深度寻求研究人员将他们的模型蒸馏为 Llama 3 和 Qwen,在保持性能的同时降低计算成本。
为什么模型蒸馏很重要
这种方法通过以下方式使强大的人工智能的访问民主化:
- 降低计算成本: 较小的模型可以在标准硬件上运行。
- 改善人工智能部署: 企业和研究人员可以在不需要高端基础设施的情况下集成人工智能。
- 增强可扩展性: 人工智能服务可以更高效地在各种应用中部署。
深度寻求 R1 的未来影响
深度寻求 R1 的进展标志着向更动态和更易获取的人工智能模型的转变。未来的关键影响包括:
- 数据处理效率的提高
- 通过个性化互动增强用户体验
- 各个行业的更广泛可及性
结论
像深度寻求 R1 这样的人工智能模型的演变将重新定义我们与技术的互动方式,使其对用户更加直观和有效。
1. 更智能的人工智能训练
思维链推理和强化学习减少了人类干预,同时提高了准确性。
2. 更大的人工智能可达性
模型蒸馏使得小型开发者能够在没有大量计算资源的情况下使用高性能的人工智能。
3. 增强的人工智能-人类协作
改进的推理使人工智能在医学、研究和金融等领域更具实用性。
4. 自主人工智能系统
自我提升的人工智能可以在网络安全、机器人技术和太空探索中实现实时决策。
这三件事是深度寻求运作背后的关键概念,希望你已经学习了所有基本概念。
如果你有兴趣进一步探索这个模型,可以阅读完整的研究论文或自己尝试深度寻求 R1。