Type something to search...
DeepSeek-R1-Lite 预览版的推理能力如何?

DeepSeek-R1-Lite 预览版的推理能力如何?

DeepSeek-R1-Lite-Preview (R1LP) 是中国公司 DeepSeek 最近发布的一款 LRM(大型推理模型)。根据该模型的 发布说明,R1LP 在多个数学和推理基准测试中超越了 OpenAI 的 LRM o1-preview 和其他先进的 LLM,包括 AIME 和 MATH。DeepSeek 承诺 开源 R1LP 权重,使其成为首批向公众开放的 SOTA LRM 之一。

在关于 R1LP 性能的所有最新兴奋之后,我决定在几个数学和逻辑任务上对其进行测试。但在深入实验之前,让我们简要讨论一下 LRM 与经典 LLM 的不同之处。

LRMs

大型推理模型(LRMs)是最新一代的LLMs,旨在提高人工智能的逻辑推理能力。到目前为止,即使是最先进的LLMs也在需要多步推理的任务中失败,此外在一些人类容易解决的问题上也表现不佳,例如常识推理、视觉空间意识和上下文理解。顶级LLMs因缺乏真正的逻辑思维而受到批评,并且被指责为在其庞大的训练数据上伪装成大规模信息检索和模式匹配的真实推理。

Open AI的o1-preview于2024年9月发布,旨在解决这些局限性。该模型的主要创新是内置的CoT(思维链)功能,能够双重检查其答案,并在回应之前花更多时间进行推理。尽管o1-preview的架构尚未公开,但在其设计中可能实现了几种新颖的想法:

  • 使用强化学习学习最有前景的CoT路径的能力。
  • 导航替代解决方案的空间并评估其正确性。像o1-preview和R1LP这样的LRMs可能使用MCTS(蒙特卡洛树搜索)和自动求解器等方法来搜索相关解决方案。
  • 使用推理时计算构建长CoTs。利用推理计算可以让模型在得出最终结论之前花费更多时间。

这些技术的应用使LRM能够交叉检查其回应,规划推理步骤,并寻找替代推理路径。所有这些可能在减少幻觉频率和提高模型在主要数学、编码和推理基准测试中的表现方面发挥重要作用。让我们看看这些说法是否在R1LP模型中成立。

DeepSeek Performance. Source: Documentation Page.

测试 DeepSeek-R1-Lite-Preview

要跟随我们的实验,您可以在 这里 免费访问 R1LP 模型。通过切换到“DeepThink”模式,可以启用高级推理功能。

让我们看看它在 Michael Spivak 的 Calculus 书中的一个相对简单的数学任务上的表现(第 1 章,“数字的基本性质”,问题 20)。

毫不奇怪,R1LP 识别出了正确的解决方案,即应用 三角不等式

因此,它显示:

尽管这个任务相当简单,并且在训练数据中肯定很充足,但看到“DeepThink”模式如何反映人类的逻辑推理过程仍然很有趣。

我们可以看到 DeepSeek 从定义问题开始,并确保它理解给定的内容和需要证明的内容(见截图)。

此外,即使在找到正确答案后,它也会寻找替代解决方案:

等一下,还有其他方式来看这个问题吗?也许通过直接展开表达式。

R1LP 通过各种检查确保答案是正确的:

另外,也许我可以考虑特定值来测试不等式。例如,假设 x0 = 0 和 y0 = 0 为简单起见。然后,|x| < ε/2 和 |y| < ε/2。然后,|x + y| < ε/2 + ε/2 = ε,这与第一个不等式匹配。类似地,|x — y| ≤ |x| + |y| < ε/2 + ε/2 = ε。因此,在这个特定情况下,不等式成立。

与预推理模型相比,所有这些技术看起来都相当有前景。该模型在其主张和结论中显得更加谨慎。此外,在 R1LP DeepThink 模式中,CoT 已经内置,因此用户不需要创建任何自定义提示来激活推理。

到目前为止,一切都很好。现在,让我们看看 R1LP 在一个更具挑战性的问题上的表现:

两个边长为 1 的正方形有一个共同的中心。证明它们的交集面积大于 3/4\。

该任务的解决方案基于识别两个事实的能力:

  • 一个正方形可以通过围绕共同中心旋转另一个正方形来获得
  • 旋转不会改变内切圆在正方形中的位置。

从上面的图像中可以看出,在任何情况下,正方形的交集面积都大于内切圆的面积,该面积等于 pi/4,且大于 3/4\。

不幸的是,尽管 DeepSeek-R1-Lite-Preview 严格遵循其预训练的 CoT 协议:多步骤推理和交叉检查,但在这个任务上失败了。

一开始,模型正确识别出如果正方形有相同的中心,它们可以相对旋转。

然而,紧接着它开始产生幻觉,忘记正方形是相同大小的,因此不能相互内切或接触中点。

让我假设一个正方形是固定的,另一个正方形围绕共同中心旋转某个角度 θ。由于两个正方形是相同的并且以同一点为中心,最大重叠发生在 θ = 0 时,这意味着它们完美对齐,重叠区域就是一个正方形的面积,即 1. 最小重叠发生在 θ = 45 度时,我认为,因为那时正方形被旋转,使得一个正方形的顶点接触到另一个正方形的边中点。

模型的假设实际上看起来像这样,

这显然与问题的陈述(正方形是相同大小的)相矛盾,因此不能相互内切。

有趣的是,模型仅仅是再次确认这一说法:

等一下,这对吗?让我再想想。如果 θ = 45 度,正方形看起来就像相互内切,一个正方形的顶点接触到另一个正方形的边中点。在这种情况下,重叠区域应该小于它们对齐时的重叠区域。

自然而然地会出现问题,这种交叉检查实际上是如何工作的?人类可能会质疑这个假设并重新检查任务定义以找到矛盾。LRM 是否通过将其“注意力头”转向任务描述来做到这一点,还是仅仅模拟 CoT,已经偏向错误轨迹的权重?在不深入其架构的情况下,很难说,但似乎在这种情况下,模型遵循的 CoT 程序相当形式化。

公平地说,R1LP 尝试像第一个任务一样寻找不同的解决方案。

也许我可以利用交集面积至少是正方形内切圆的面积这一事实。

然而,它再次产生了幻觉,如下所示:

边长为 1 的正方形内切圆的半径为 √2/2,因此它的面积是 π*(√2/2)² = π/2 ≈ 1.5708,这在这个上下文中是没有意义的。

等一下,但边长为 1 的正方形内切圆的半径是 0.5. R1LP 的回答来自哪里?可能,它是指从中心到正方形顶点的距离。

此外,R1LP 认为内切圆的面积大于正方形的面积:

实际上,这没有帮助,因为圆的面积大于正方形本身,这与两个正方形的重叠面积没有直接关系。

最后,以一种难以理解的方式,R1LP 得出了一个与正确答案相近的解决方案:

然而,正确的解决方案是 pi/4,约为 0.7853.

测试视觉-空间推理

几何问题对 R1LP 来说相当具有挑战性,导致了几次强烈的幻觉。让我们看看 R1LP 在简单的空间推理任务上表现如何。在文章 Easy problems that the LLMs get wrong 中,作者将视觉-空间推理列为现代 LLM 模型的一个弱点。根据文章的说法,

“LLMs 缺乏基本的空间意识,因此解释从一个点到另一个点在物理空间中的导航步骤,或理解物体的空间配置,仍然是这些模型面临的复杂挑战,展示了人类智能一个重要领域的显著差距。”

这段话写于 2024 年 5 月。让我们看看 LLM 是否在这类任务上有所改进。我们向 R1LP 提出了上述文章中的问题:

问题:我在伦敦,面朝西,爱丁堡是在我的左边还是右边?

而 R1LP 再次得出了错误的答案。LLMs 如何能够解决复杂的微分方程,却在基本的视觉-空间意识上挣扎?正如 David Johnston 指出,这应该是相反的。如果一个 LLM 真的获得了真正的推理能力,它在简单任务上的表现应该优于复杂任务。事实并非如此,表明模型的表现取决于任务是否在训练数据中出现。显然,“面朝西在伦敦”并不是人类会写的内容,因为这显而易见。

S. Williams 和 J. Huckle 在 他们的文章 中提到的另一个问题是 LLMs 对其训练数据的过拟合。观察到稍微修改原始问题就可以轻易困扰 LLMs。在这种情况下,过拟合训练数据的 LLM 无法识别修改,并继续回应原始(未改变的)问题。

在这里,我们可以看到这个问题在著名的过河逻辑难题中的表现。

尽管原始问题已从运输所有三件物品(山羊、卷心菜和狼)更改为仅运输一只山羊,但 R1LP 仍然回应原始问题。这表明了对训练数据的过拟合。

结论

在我看来,现在说像 DeepSeek-R1-Lite-Preview 这样的 LRMs 达到了一个质的新推理和理解水平还为时尚早。“DeepThink” 模式可能看起来是 LRM CoT 方法的一个更有说服力的“演示”,然而,问题仍然是这是否是真正的思维过程,还是一种“华而不实”的模拟。当 R1LP 似乎务实的 CoT 程序与荒诞的幻觉结合,导致错误结论时,这种后者的印象尤其难以摆脱。这让人不禁思考,内置的 CoT 是否只是对非 LRM 语言模型中典型的普克鲁斯适配模式的掩饰。这些局限性与缺乏视觉-空间推理、对训练数据的过拟合并存,即无法推理同一答案的变体。

这种批评并不是要贬低这些模型中新引入的 CoT 能力,如交叉检查、解决方案空间导航和长期多步骤规划。问题在于,这些新技术是否真的将 LRMs 与前一代 LLMs 区分开来,还是需要更深层次的范式变化才能实现推理能力的质变。

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多