
Deepseek-r1 Vs.Openai:强化学习如何实现卓越推理?
- Rifx.Online
- Machine Learning , Reinforcement Learning , AI Research
- 05 Mar, 2025
强化学习真的能教机器推理吗?
深度寻求是如何击败OpenAI的?图像由作者创建。
在一个充满可以聊天、翻译语言、写故事甚至解决复杂数学难题的设备的世界里,我们很容易忘记大多数计算机仍然难以像人类一样进行推理。今天的数字系统在记忆事实和快速执行任务方面表现出色,但真正的问题解决需要更深层次的东西:推理。在一个恰逢其时的突破中,一组来自深度寻求人工智能及其合作机构的研究人员着手直接解决机器推理的问题。他们的发现可能会改变我们设计从个人助手到教育工具的方式——甚至可能帮助我们解锁人工智能的下一个阶段。在新的人工智能模型几乎每月出现的时刻,这项工作脱颖而出,因为它首次证明,仅通过强化学习训练一个大规模模型,即使不依赖于预标记的示例,也能产生极其强大的推理能力。
这个方法有什么特别之处?
传统上,人工智能模型通过模仿大量人类费力标记或从数据源收集的示例来学习。虽然这种“监督学习”很有用,但它也很昂贵、缓慢,并且可能无意中将模型限制在人的偏见之中。深度寻求人工智能团队有了不同的想法。他们提出了一个引人入胜的问题:如果我们在模型得出正确或结构良好的答案时给予奖励,人工智能模型能否自我学习逻辑和分析性思维的艺术?该项目使用了一种称为强化学习的方法,而不是向机器提供数以万计的预先解释的解决方案。
在强化学习(RL)中,模型开始进行你可能认为的寻宝活动。每当它偶然发现正确的方法时,就会获得一定的“分数”作为奖励。随着时间的推移,模型自己找出哪些成功路径能获得最高分,并不断优化其推理方法,变得越来越高效。令人印象深刻的是,深度寻求-R1-零背后的科学家完全跳过了任何初始的监督微调阶段。换句话说,模型在没有人类标记数据提示的情况下开始。它只是进行实验,并逐渐学会生成——并改进——自己的推理思路。
DeepSeek-R1是如何从这个原型演变而来的?
虽然深度寻求-R1-零作为一个极具能力的推理机器出现,但其自我导向的训练也产生了一些意想不到的副作用,例如笨拙的写作风格和单个答案中混合多种语言的困惑。尽管逻辑上非常准确,但输出有时对人类来说难以阅读。为了缓解这些缺点,团队收集了一组较小但经过精心准备的“冷启动”示例。这些示例包含经过精心格式化、便于人类理解的解决方案,并为机器设定了基本的写作标准以供模仿。
他们采用了原始基础模型,称为 深度寻求-V3-基础,并为其提供了这些用户友好的样本,以便它能以更清晰的“初始位置”开始。然后,他们展开了第二波强化学习,专门旨在增强模型在数学、编码和科学问题方面的技能,同时考虑可读性。在一系列的改进后,研究人员引入了另一个步骤,称为监督细调,在这一过程中,模型会得到来自多个领域的更精心策划的数据的简要指导,例如写作任务和事实问答。最后,他们进行了额外一轮的强化学习,考虑了来自所有场景的提示——推理任务、写作任务、事实问答等。最终产品是新的深度寻求-R1,一个人工智能系统,保留了自学推理的原始创造力,同时生成更清晰、更加普遍易懂的答案。请注意不要将其与之前的深度寻求-R1混淆,后者已经是深度寻求-V3模型的一部分,用于思维链分析。
谁是这一突破背后的杰出人才?
从实际的角度来看,这个雄心勃勃的项目需要一个由计算机科学家、强化学习专家、软件工程师和数学家组成的大型跨学科团队。呈现该模型的技术报告列出了超过 100 位作者。数十名数据科学家和专家也共同努力,策划、筛选和精炼训练这些模型所需的大量数据。他们的共同目标是推动机器推理的边界,并生产任何人都可以研究或改编的开源模型。
训练期间到底发生了什么?
许多人工智能系统已经能够做一些很酷的技巧,比如总结文章或翻译文本。然而,它们常常在支撑高级数学或详细编码任务的逐步逻辑结构上遇到困难。通过在一种称为思维链的隐性过程中“开口思考”,这些模型能够将复杂的问题分解为可管理的步骤。深度寻求-R1-零几乎是自然而然地发现了这种策略。事实上,研究人员在其训练过程中描述了一种“恍然大悟”的时刻,在这一刻,模型意识到它可以暂时停下来,重新思考并重新审视其早期步骤。
在这个自我演变的过程中,深度寻求-R1-零在数学和编码测试中的分数飙升,甚至与一些最知名的人工智能模型相匹配。然而,它的写作风格并不容易让人接受。当他们推出新的深度寻求-R1时,他们优化了这些隐含的思维过程,使其更易读。此外,他们构建了一个“奖励模型”,检查每一步的清晰性、正确性和语言一致性。如果推理正确且易于理解,模型将获得更高的奖励——可以说是一种激励提升。
小模型怎么样 — 它们为什么重要?
团队并没有停留在一个大模型上。实际上,他们意识到并不是每个人都有能力运行一个庞大的人工智能。为了让更多的研究人员和开发者有机会动手探索高级推理,他们将深度寻求-R1的智能提炼成不同大小的小模型:
- 1.5B
- 7B
- 8B
- 14B
- 32B
- 70B 参数
这比671B的深度寻求-V3-基础模型要小得多。减少到32B参数会导致性能降低5%到10%。然而,1.5B模型仅需要大约3.5 GB的存储。
这对未来可能意味着什么?
深度寻求-R1的成功暗示强化学习可能会塑造下一代人工智能,最终提供具有强大“如何思考”能力的系统,而不是“记住什么”。这不仅使它们更适应新类型的问题,还大大减少了对大量标记数据集的需求。
例如,想象一个未来的系统,可以引导医生完成复杂的诊断过程,或者帮助历史学家通过逻辑地筛选矛盾的记录来分析几个世纪的历史文本。研究人员明确表示,由于推理的基本性质,几乎任何领域都可以从这些新的人工智能方法中受益。
你可以在哪里找到更多信息,为什么你应该感到兴奋?
除了引人注目的性能指标外,深度寻求人工智能团队还在分享其数据和源代码,包括深度寻求-R1-零、深度寻求-R1,以及基于Qwen和Llama架构的六个较小的“提炼”模型。这种开源哲学使任何人——爱好者、学术人员或工程师——都可以复制、适应和扩展他们的工作。如果你对人工智能如何从零开始学习推理感兴趣,或者你想为你的研究构建专门的推理工具,这个项目将为你提供探索的机会。
主要信息?
从最初大胆的想法跳过监督学习的微调,到最终揭示一个精细的、高性能的人工智能推理引擎,深度寻求-R1展示了创新与务实的显著融合。这项工作指向一个未来,在这个未来,机器可能帮助人类以逻辑、逐步的方式解决问题,而不仅仅是重复记忆的答案。这样做为教育、工程、数据分析、创意写作等领域打开了新的大门。无论你是一个对人工智能不断演变的前沿感到惊奇的爱好者,还是一个希望推动计算推理边界的科学家,深度寻求-R1都是一个开创性的贡献,为全球智能系统的更协作和开放的发展奠定了基础。并且,整个代码库和大量数据都可以自由访问,任何有好奇心的人都可以加入探索教机器——最终——推理的意义。
原文文章基于 ArXiv 上的内容。
本文的文本和图像均根据知识共享许可证4.0署名许可。欢迎随意重用和分享本文的任何部分。