Deepseek-r1 Vs.Openai：强化学习如何实现卓越推理？

Deepseek-r1 Vs.Openai：强化学习如何实现卓越推理？

Rifx.Online
Machine Learning , Reinforcement Learning , AI Research
05 Mar, 2025

强化学习真的能教机器推理吗？

深度寻求是如何击败OpenAI的？图像由作者创建。

在一个充满可以聊天、翻译语言、写故事甚至解决复杂数学难题的设备的世界里，我们很容易忘记大多数计算机仍然难以像人类一样进行推理。今天的数字系统在记忆事实和快速执行任务方面表现出色，但真正的问题解决需要更深层次的东西：推理。在一个恰逢其时的突破中，一组来自深度寻求人工智能及其合作机构的研究人员着手直接解决机器推理的问题。他们的发现可能会改变我们设计从个人助手到教育工具的方式——甚至可能帮助我们解锁人工智能的下一个阶段。在新的人工智能模型几乎每月出现的时刻，这项工作脱颖而出，因为它首次证明，仅通过强化学习训练一个大规模模型，即使不依赖于预标记的示例，也能产生极其强大的推理能力。

这个方法有什么特别之处？

传统上，人工智能模型通过模仿大量人类费力标记或从数据源收集的示例来学习。虽然这种“监督学习”很有用，但它也很昂贵、缓慢，并且可能无意中将模型限制在人的偏见之中。深度寻求人工智能团队有了不同的想法。他们提出了一个引人入胜的问题：如果我们在模型得出正确或结构良好的答案时给予奖励，人工智能模型能否自我学习逻辑和分析性思维的艺术？该项目使用了一种称为强化学习的方法，而不是向机器提供数以万计的预先解释的解决方案。

在强化学习（RL）中，模型开始进行你可能认为的寻宝活动。每当它偶然发现正确的方法时，就会获得一定的“分数”作为奖励。随着时间的推移，模型自己找出哪些成功路径能获得最高分，并不断优化其推理方法，变得越来越高效。令人印象深刻的是，深度寻求-R1-零背后的科学家完全跳过了任何初始的监督微调阶段。换句话说，模型在没有人类标记数据提示的情况下开始。它只是进行实验，并逐渐学会生成——并改进——自己的推理思路。

DeepSeek-R1是如何从这个原型演变而来的？

虽然深度寻求-R1-零作为一个极具能力的推理机器出现，但其自我导向的训练也产生了一些意想不到的副作用，例如笨拙的写作风格和单个答案中混合多种语言的困惑。尽管逻辑上非常准确，但输出有时对人类来说难以阅读。为了缓解这些缺点，团队收集了一组较小但经过精心准备的“冷启动”示例。这些示例包含经过精心格式化、便于人类理解的解决方案，并为机器设定了基本的写作标准以供模仿。

他们采用了原始基础模型，称为深度寻求-V3-基础，并为其提供了这些用户友好的样本，以便它能以更清晰的“初始位置”开始。然后，他们展开了第二波强化学习，专门旨在增强模型在数学、编码和科学问题方面的技能，同时考虑可读性。在一系列的改进后，研究人员引入了另一个步骤，称为监督细调，在这一过程中，模型会得到来自多个领域的更精心策划的数据的简要指导，例如写作任务和事实问答。最后，他们进行了额外一轮的强化学习，考虑了来自所有场景的提示——推理任务、写作任务、事实问答等。最终产品是新的深度寻求-R1，一个人工智能系统，保留了自学推理的原始创造力，同时生成更清晰、更加普遍易懂的答案。请注意不要将其与之前的深度寻求-R1混淆，后者已经是深度寻求-V3模型的一部分，用于思维链分析。

谁是这一突破背后的杰出人才？

从实际的角度来看，这个雄心勃勃的项目需要一个由计算机科学家、强化学习专家、软件工程师和数学家组成的大型跨学科团队。呈现该模型的技术报告列出了超过 100 位作者。数十名数据科学家和专家也共同努力，策划、筛选和精炼训练这些模型所需的大量数据。他们的共同目标是推动机器推理的边界，并生产任何人都可以研究或改编的开源模型。

训练期间到底发生了什么？

许多人工智能系统已经能够做一些很酷的技巧，比如总结文章或翻译文本。然而，它们常常在支撑高级数学或详细编码任务的逐步逻辑结构上遇到困难。通过在一种称为思维链的隐性过程中“开口思考”，这些模型能够将复杂的问题分解为可管理的步骤。深度寻求-R1-零几乎是自然而然地发现了这种策略。事实上，研究人员在其训练过程中描述了一种“恍然大悟”的时刻，在这一刻，模型意识到它可以暂时停下来，重新思考并重新审视其早期步骤。

在这个自我演变的过程中，深度寻求-R1-零在数学和编码测试中的分数飙升，甚至与一些最知名的人工智能模型相匹配。然而，它的写作风格并不容易让人接受。当他们推出新的深度寻求-R1时，他们优化了这些隐含的思维过程，使其更易读。此外，他们构建了一个“奖励模型”，检查每一步的清晰性、正确性和语言一致性。如果推理正确且易于理解，模型将获得更高的奖励——可以说是一种激励提升。

小模型怎么样 — 它们为什么重要？

团队并没有停留在一个大模型上。实际上，他们意识到并不是每个人都有能力运行一个庞大的人工智能。为了让更多的研究人员和开发者有机会动手探索高级推理，他们将深度寻求-R1的智能提炼成不同大小的小模型：

1.5B
7B
8B
14B
32B
70B 参数

这比671B的深度寻求-V3-基础模型要小得多。减少到32B参数会导致性能降低5%到10%。然而，1.5B模型仅需要大约3.5 GB的存储。

这对未来可能意味着什么？

深度寻求-R1的成功暗示强化学习可能会塑造下一代人工智能，最终提供具有强大“如何思考”能力的系统，而不是“记住什么”。这不仅使它们更适应新类型的问题，还大大减少了对大量标记数据集的需求。

例如，想象一个未来的系统，可以引导医生完成复杂的诊断过程，或者帮助历史学家通过逻辑地筛选矛盾的记录来分析几个世纪的历史文本。研究人员明确表示，由于推理的基本性质，几乎任何领域都可以从这些新的人工智能方法中受益。

你可以在哪里找到更多信息，为什么你应该感到兴奋？

除了引人注目的性能指标外，深度寻求人工智能团队还在分享其数据和源代码，包括深度寻求-R1-零、深度寻求-R1，以及基于Qwen和Llama架构的六个较小的“提炼”模型。这种开源哲学使任何人——爱好者、学术人员或工程师——都可以复制、适应和扩展他们的工作。如果你对人工智能如何从零开始学习推理感兴趣，或者你想为你的研究构建专门的推理工具，这个项目将为你提供探索的机会。

主要信息？

从最初大胆的想法跳过监督学习的微调，到最终揭示一个精细的、高性能的人工智能推理引擎，深度寻求-R1展示了创新与务实的显著融合。这项工作指向一个未来，在这个未来，机器可能帮助人类以逻辑、逐步的方式解决问题，而不仅仅是重复记忆的答案。这样做为教育、工程、数据分析、创意写作等领域打开了新的大门。无论你是一个对人工智能不断演变的前沿感到惊奇的爱好者，还是一个希望推动计算推理边界的科学家，深度寻求-R1都是一个开创性的贡献，为全球智能系统的更协作和开放的发展奠定了基础。并且，整个代码库和大量数据都可以自由访问，任何有好奇心的人都可以加入探索教机器——最终——推理的意义。

原文文章基于 ArXiv 上的内容。

本文的文本和图像均根据知识共享许可证4.0署名许可。欢迎随意重用和分享本文的任何部分。

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

Rifx.Online
Natural Language Processing , AI Applications , AI Research
05 Mar, 2025

AI 研究报告和论文写作合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告，而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文，这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

Rifx.Online
AI Applications , Data Science , Tech Trends
05 Mar, 2025

Non members click here作为一名软件开发人员，多年来的一个发现总是让我感到惊讶，那就是人们还在 Excel

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如，提示和输出你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务，而不仅仅是基本的网络搜索吗？对于那些不知道的人，ChatGPT 新的“搜索网络”功能提供实时信息。截至撰写此帖时，该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

Rifx.Online
AI Applications , Natural Language Processing , Machine Learning
05 Mar, 2025

10 个常见问题解答本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中，我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比，使这些想法易于理解。图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

Rifx.Online
Technology , Generative AI , Data Science
16 Nov, 2024

在人工智能和科技这样一个动态的行业中，保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析，还是希望通过人工智能转变传统领域如法律，这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表，可以助力你的职业发展，并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者，还是仅仅聪明的营销和战略炒作？👀 虽然一些人将其视为AI效率的革命性飞跃，但另一些人则认为它的成功建立在借用（甚至窃取的）创新和可疑的做法之上。传言称，DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。从其声称的550万美元培训预算到使用Open