DeepSeek-R1-Lite 预览版的推理能力如何?
DeepSeek-R1-Lite-Preview (R1LP) 是中国公司 DeepSeek 最近发布的一款 LRM(大型推理模型)。根据该模型的 发布说明,R1LP 在多个数学和推理基准测试中超越了 OpenAI 的 LRM o1-preview 和其他先进的 LLM,包括 AIME 和 MATH。DeepSeek 承诺 开源 R1LP 权重,使其成为首批向公众开放的 SOTA LRM 之一。
在关于 R1LP 性能的所有最新兴奋之后,我决定在几个数学和逻辑任务上对其进行测试。但在深入实验之前,让我们简要讨论一下 LRM 与经典 LLM 的不同之处。
LRMs
大型推理模型(LRMs)是最新一代的LLMs,旨在提高人工智能的逻辑推理能力。到目前为止,即使是最先进的LLMs也在需要多步推理的任务中失败,此外在一些人类容易解决的问题上也表现不佳,例如常识推理、视觉空间意识和上下文理解。顶级LLMs因缺乏真正的逻辑思维而受到批评,并且被指责为在其庞大的训练数据上伪装成大规模信息检索和模式匹配的真实推理。
Open AI的o1-preview于2024年9月发布,旨在解决这些局限性。该模型的主要创新是内置的CoT(思维链)功能,能够双重检查其答案,并在回应之前花更多时间进行推理。尽管o1-preview的架构尚未公开,但在其设计中可能实现了几种新颖的想法:
- 使用强化学习学习最有前景的CoT路径的能力。
- 导航替代解决方案的空间并评估其正确性。像o1-preview和R1LP这样的LRMs可能使用MCTS(蒙特卡洛树搜索)和自动求解器等方法来搜索相关解决方案。
- 使用推理时计算构建长CoTs。利用推理计算可以让模型在得出最终结论之前花费更多时间。
这些技术的应用使LRM能够交叉检查其回应,规划推理步骤,并寻找替代推理路径。所有这些可能在减少幻觉频率和提高模型在主要数学、编码和推理基准测试中的表现方面发挥重要作用。让我们看看这些说法是否在R1LP模型中成立。
DeepSeek Performance. Source: Documentation Page.
测试 DeepSeek-R1-Lite-Preview
要跟随我们的实验,您可以在 这里 免费访问 R1LP 模型。通过切换到“DeepThink”模式,可以启用高级推理功能。
让我们看看它在 Michael Spivak 的 Calculus 书中的一个相对简单的数学任务上的表现(第 1 章,“数字的基本性质”,问题 20)。
毫不奇怪,R1LP 识别出了正确的解决方案,即应用 三角不等式。
因此,它显示:
尽管这个任务相当简单,并且在训练数据中肯定很充足,但看到“DeepThink”模式如何反映人类的逻辑推理过程仍然很有趣。
我们可以看到 DeepSeek 从定义问题开始,并确保它理解给定的内容和需要证明的内容(见截图)。
此外,即使在找到正确答案后,它也会寻找替代解决方案:
等一下,还有其他方式来看这个问题吗?也许通过直接展开表达式。
R1LP 通过各种检查确保答案是正确的:
另外,也许我可以考虑特定值来测试不等式。例如,假设 x0 = 0 和 y0 = 0 为简单起见。然后,|x| < ε/2 和 |y| < ε/2。然后,|x + y| < ε/2 + ε/2 = ε,这与第一个不等式匹配。类似地,|x — y| ≤ |x| + |y| < ε/2 + ε/2 = ε。因此,在这个特定情况下,不等式成立。
与预推理模型相比,所有这些技术看起来都相当有前景。该模型在其主张和结论中显得更加谨慎。此外,在 R1LP DeepThink 模式中,CoT 已经内置,因此用户不需要创建任何自定义提示来激活推理。
到目前为止,一切都很好。现在,让我们看看 R1LP 在一个更具挑战性的问题上的表现:
两个边长为 1 的正方形有一个共同的中心。证明它们的交集面积大于 3/4\。
该任务的解决方案基于识别两个事实的能力:
- 一个正方形可以通过围绕共同中心旋转另一个正方形来获得
- 旋转不会改变内切圆在正方形中的位置。
从上面的图像中可以看出,在任何情况下,正方形的交集面积都大于内切圆的面积,该面积等于 pi/4,且大于 3/4\。
不幸的是,尽管 DeepSeek-R1-Lite-Preview 严格遵循其预训练的 CoT 协议:多步骤推理和交叉检查,但在这个任务上失败了。
一开始,模型正确识别出如果正方形有相同的中心,它们可以相对旋转。
然而,紧接着它开始产生幻觉,忘记正方形是相同大小的,因此不能相互内切或接触中点。
让我假设一个正方形是固定的,另一个正方形围绕共同中心旋转某个角度 θ。由于两个正方形是相同的并且以同一点为中心,最大重叠发生在 θ = 0 时,这意味着它们完美对齐,重叠区域就是一个正方形的面积,即 1. 最小重叠发生在 θ = 45 度时,我认为,因为那时正方形被旋转,使得一个正方形的顶点接触到另一个正方形的边中点。
模型的假设实际上看起来像这样,
这显然与问题的陈述(正方形是相同大小的)相矛盾,因此不能相互内切。
有趣的是,模型仅仅是再次确认这一说法:
等一下,这对吗?让我再想想。如果 θ = 45 度,正方形看起来就像相互内切,一个正方形的顶点接触到另一个正方形的边中点。在这种情况下,重叠区域应该小于它们对齐时的重叠区域。
自然而然地会出现问题,这种交叉检查实际上是如何工作的?人类可能会质疑这个假设并重新检查任务定义以找到矛盾。LRM 是否通过将其“注意力头”转向任务描述来做到这一点,还是仅仅模拟 CoT,已经偏向错误轨迹的权重?在不深入其架构的情况下,很难说,但似乎在这种情况下,模型遵循的 CoT 程序相当形式化。
公平地说,R1LP 尝试像第一个任务一样寻找不同的解决方案。
也许我可以利用交集面积至少是正方形内切圆的面积这一事实。
然而,它再次产生了幻觉,如下所示:
边长为 1 的正方形内切圆的半径为 √2/2,因此它的面积是 π*(√2/2)² = π/2 ≈ 1.5708,这在这个上下文中是没有意义的。
等一下,但边长为 1 的正方形内切圆的半径是 0.5. R1LP 的回答来自哪里?可能,它是指从中心到正方形顶点的距离。
此外,R1LP 认为内切圆的面积大于正方形的面积:
实际上,这没有帮助,因为圆的面积大于正方形本身,这与两个正方形的重叠面积没有直接关系。
最后,以一种难以理解的方式,R1LP 得出了一个与正确答案相近的解决方案:
然而,正确的解决方案是 pi/4,约为 0.7853.
测试视觉-空间推理
几何问题对 R1LP 来说相当具有挑战性,导致了几次强烈的幻觉。让我们看看 R1LP 在简单的空间推理任务上表现如何。在文章 Easy problems that the LLMs get wrong 中,作者将视觉-空间推理列为现代 LLM 模型的一个弱点。根据文章的说法,
“LLMs 缺乏基本的空间意识,因此解释从一个点到另一个点在物理空间中的导航步骤,或理解物体的空间配置,仍然是这些模型面临的复杂挑战,展示了人类智能一个重要领域的显著差距。”
这段话写于 2024 年 5 月。让我们看看 LLM 是否在这类任务上有所改进。我们向 R1LP 提出了上述文章中的问题:
问题:我在伦敦,面朝西,爱丁堡是在我的左边还是右边?
而 R1LP 再次得出了错误的答案。LLMs 如何能够解决复杂的微分方程,却在基本的视觉-空间意识上挣扎?正如 David Johnston 指出,这应该是相反的。如果一个 LLM 真的获得了真正的推理能力,它在简单任务上的表现应该优于复杂任务。事实并非如此,表明模型的表现取决于任务是否在训练数据中出现。显然,“面朝西在伦敦”并不是人类会写的内容,因为这显而易见。
S. Williams 和 J. Huckle 在 他们的文章 中提到的另一个问题是 LLMs 对其训练数据的过拟合。观察到稍微修改原始问题就可以轻易困扰 LLMs。在这种情况下,过拟合训练数据的 LLM 无法识别修改,并继续回应原始(未改变的)问题。
在这里,我们可以看到这个问题在著名的过河逻辑难题中的表现。
尽管原始问题已从运输所有三件物品(山羊、卷心菜和狼)更改为仅运输一只山羊,但 R1LP 仍然回应原始问题。这表明了对训练数据的过拟合。
结论
在我看来,现在说像 DeepSeek-R1-Lite-Preview 这样的 LRMs 达到了一个质的新推理和理解水平还为时尚早。“DeepThink” 模式可能看起来是 LRM CoT 方法的一个更有说服力的“演示”,然而,问题仍然是这是否是真正的思维过程,还是一种“华而不实”的模拟。当 R1LP 似乎务实的 CoT 程序与荒诞的幻觉结合,导致错误结论时,这种后者的印象尤其难以摆脱。这让人不禁思考,内置的 CoT 是否只是对非 LRM 语言模型中典型的普克鲁斯适配模式的掩饰。这些局限性与缺乏视觉-空间推理、对训练数据的过拟合并存,即无法推理同一答案的变体。
这种批评并不是要贬低这些模型中新引入的 CoT 能力,如交叉检查、解决方案空间导航和长期多步骤规划。问题在于,这些新技术是否真的将 LRMs 与前一代 LLMs 区分开来,还是需要更深层次的范式变化才能实现推理能力的质变。