
Deepseek R1:揭秘中国改变游戏规则的推理模型--Openai 的统治地位是否已经终结?
- Rifx.Online
- Large Language Models , AI Research , Technology Trends
- 05 Mar, 2025
市场极其错误
来源:作者使用 GPT-4o
人工智能界终于意识到:
中国来了。
因此,市场字面上变得疯狂。CNBC 的 40 分钟报告,NVIDIA 的股票下跌 15%,损失总计约为一万亿,许多开发者永久关闭他们的 ChatGPT 账户。
这些都是中国最新的人工智能模型 DeepSeek 的 R1 带来的影响,它是第一个推理模型,其性能与 OpenAI 的 o1 模型相匹配或超越,但价格却低得离谱,效率极高,使市场相信我们在计算资源上的支出严重过度。
但除了市场对 NVIDIA 的错误判断外,这确实表明美国终于意识到中国在向人工智能主导地位的竞争中逐渐逼近……甚至可能已经领先。
如果你是投资者或人工智能爱好者,想了解这个模型的特别之处,以及它在人工智能行业将产生的真实影响(以及市场为何完全错误的看法),请继续阅读。
A SOTA Reasoning Model
简单来说,DeepSeek r1 是一个开放权重模型(数据集未发布,因此我们不能完全认为它是开源的)在多个推理基准上达到了已发布的最先进性能,在大多数情况下与 o1 相匹配或超越。
换句话说,OpenAI 在大型推理模型(LRM)领域的领导地位,已经因 Gemini 2.0 闪电思维 而受到质疑,如今已被完全抹去(直到 o3-mini 在几天后发布并证明其所谓的优越性能)。
但与此同时,我们必须讨论为什么 R1 实际上是一件艺术作品,但却被严重误解。
令人印象深刻,但请稍等…
在最受欢迎的基准测试中,r1 在数学(AIME)、代码(SWE 和 Codeforces)和知识(MMLU,GPQA)等领域与 o1 相匹配或超越。
来源: DeepSeek
与最佳大型语言模型(LLMs)如 Claude 3.5 Sonnet 相比,尽管这并不是一个公平的比较,DeepSeek-r1 让所有人都相形见绌:
来源: DeepSeek
重要的是,DeepSeek 还对变换器架构进行了几项修改(一些是从 DeepSeek v3 继承的),这些修改在下面进行了总结,但在我的通讯中有详细解释:
- R1 是一个 专家混合模型,具有共享和细粒度的专家(始终激活的专家),因此在预测过程中网络的 95% 不会激活,从而节省了大量的成本和延迟开销。
- 他们使用 多潜在注意力,这是一种通过利用变换器潜在的低秩特性来压缩键和值的技术。这大大减少了 KV 缓存,据称对性能几乎没有影响,因为在 softmax 和后注意力缩放公式中,键和值索引会被扩展(关键是避免在内存中物化扩展的索引,这真是一个美妙的数学技巧)。
- 他们使用 多标记预测。每个 R1 预测预测三个标记,而不仅仅是一个,通过添加两个额外的模块头。
总体而言,这些创新使得 DeepSeek r1 不仅是一个极其强大的大型推理模型,而且与 o1 等模型相比,其价格和速度的折扣也相当可观。
虽然 OpenAI 的 o1-preview 模型的定价为每百万输入标记 15 美元和每百万输出标记 60 美元,但支撑 R1 的 DeepSeek V3 模型,定价为每百万输入标记 0.90 美元和每百万输出标记 1.10 美元,比 OpenAI 的旗舰模型便宜 16 倍和 54 倍。
在这里,标记指的是单词或子词。因此,这些模型的价格由它们处理的输入单词数量和生成的输出单词数量决定。
因此,虽然简单的性能比较使它们看起来相似,但如果考虑效率,DeepSeek-R1 比 o1 明显更“智能高效”。
现在它是王者。
然而,眼见并不一定为实。虽然 DeepSeek 的 r1 在最常见的基准测试中展示了惊人的性能,但研究人员 Jenia Jitsev 最近证明,当面临知名基准测试的变化时,它显示出比 o1 更高的方差。有关更多信息,请阅读这里。
所以虽然在大多数方面它是平起平坐的,但它的鲁棒性不如 o1,这似乎没有人提及。
除了最后一点,事实是 R1 确实是上天的杰作。没有什么比 DeepSeek 为我们准备的下一个惊喜更能证明 r1 的实力。
蒸馏是答案
除了发布 r1 和 Zero(稍后会详细介绍),他们还发布了一套不同规模的 Qwen 和 Llama 蒸馏模型,从 1.5B 到 70B,基于阿里巴巴的 Qwen 2.5 模型和 Meta 的 Llama 3 模型。
这究竟意味着什么呢?
简单来说,他们使用 R1 的数据重新训练了这些较小的模型,采用了一种称为蒸馏的方法。蒸馏是一种学习技术,教导较低效的模型模仿更大模型的响应,而不需要处理大型模型的各种问题(如大小、成本、延迟等)。
可以把它们看作是帕累托优化模型,能够以 20% 的成本提供较大模型 80% 的性能。
结果怎么样呢? 嗯,令人惊讶。
如下所示,这些蒸馏模型在其规模上达到了最先进的 LLM 性能,通常超越了其各自规模的两到三倍模型的性能。
在一个残酷且令人震惊的比较中,DS-r1-Qwen-1.5B,一个足够小以适应你的 iPhone 的模型,在数学方面的表现优于 GPT-4o 或 Claude 3.5 Sonnet。
来源: DeepSeek
如下所示,我在我的 MacBook M1 上尝试了 1.5B 和 7B 版本,这些模型在其规模上表现得非常聪明。
来源: 作者
然而,正如你可能注意到的,在推理阶段(被
<think></think>
标签包围的思考标记)它们的表达过于冗长,尽管处理的是相当简单的任务,这也清楚地表明 LRMs 产生的标记数量远远超过 LLMs(有时是多余的)。
对于那些希望实施这些模型的人,我强烈建议将思维链隐藏在用户面前,或者像 ChatGPT 一样提供摘要,通过掩盖任何在标签中的标记,除非你真的希望这些推理链成为体验的一部分。
有趣的是,他们还发现了一个惊人的事实:蒸馏比长时间重新训练较小模型更有效。这证明了规模仍然重要,而大型模型所捕捉到的模式在蒸馏到较小模型时,较小模型无论运行多长时间都无法捕捉到。如果我们认为蒸馏是强大的,那么我们实际上低估了它的能力。
但除了所有的技术进步,DeepSeek-R1 最重要的突破是训练方法本身。
Just RL’ It.
如果耐克的口号是 ‘Just Do It,’ 那么在这次发布之后,人工智能的口号应该是 ‘Just RL’ It,’ 因为本文最显著的发现是模型的训练方式,打破了我们迄今为止的所有概念。
无花哨的黑客技术
当我们 探索大型推理模型时,我们讨论了它们的三个主要组成部分:生成器、验证器和搜索算法。第一个在思维链中生成想法(多步骤风格),第二个评估每个想法的质量,第三个允许系统搜索多个思维链。
例如,在o3中,我们假设这是一个非常复杂的系统,其中许多替代模型验证器和编码及数学环境在每一步评估模型的输出,甚至允许在多个解决路径上进行搜索,迅速增加成本。
然而,DeepSeek采取了一个更简单的方法:没有花哨的验证器,没有搜索,只有纯粹的强化学习。换句话说,他们使用几周前展示的LLM DeepSeek v3,并用一个可以自动验证的复杂推理任务的数据集对其进行了训练(可以自动验证其输出是否正确的数据),正如艾伦人工智能研究所与Tulu3首次建议的那样:
该模型猜测一个响应,验证其正确性,并从正确的结果中学习。来源
而这……差不多就是全部。
换句话说,团队不需要创建一个极其复杂的推理数据集来教模型“如何思考”,也不需要添加多个复杂的组件来验证日益复杂的问题,或者让模型参与复杂且昂贵的自我改进过程。远非如此,他们只是收集了一大堆有可验证答案的问题,让模型自行发现如何解决问题。
这里的问题是,如果我们没有教模型如何推理,它是如何学习推理的?
其实很简单。
好吧,答案简单得不能再简单了:试错法。
虽然人类从很小的时候就去学校学习每个科学的基本原理,但由于我们的短暂生命和小的试错频率(我们有多少时间去猜测一个问题直到找到答案),使我们无法进行几天的试错来自己弄清楚一切,人工智能可以并行化它们的“思维”。
这意味着我们可以创建一个_“无限可扩展”的_试错飞轮,其中模型尝试各种方法并进行验证,直到找到好的答案,并将这些作为反馈来改进。
有趣的是,这导致模型自己发现了人类推理的几个关键特征,比如在犯错时的反思和回溯:
来源:DeepSeek
此外,它自己找到了推理时的计算方法。换句话说,模型意识到为了获得更好的答案,它必须思考更长时间,这是一种非常“人类”的技巧。这一点通过模型的响应随着时间的推移而增长的事实得到了证明,毫无疑问地提高了性能。
来源:DeepSeek
再说一次,我要强调这些归纳偏见,即模型为了解决问题而做出的假设,通常是由研究人员引入的,比如“模型,请生成更多标记,因为这将增加你的机会”(显然这不是我们教模型的方式,你明白我的意思)。
在这里,相反,它们是在模型内部产生的。
为了强调这一点,他们甚至训练了一个没有任何推理训练的模型,他们称之为DeepSeek Zero。这个模型在推理基准测试中达到了惊人的性能(使用之前的方法),而且完全没有推理定制的数据,证明了推理可以由人工智能自行学习。
然而,由于其思维链对人类来说难以理解,尽管答案是正确的,它无法被发布。
来源:DeepSeek
一个具有人类推理能力的“外星”模型。DeepSeek是否找到了训练人工智能以非人类方式推理的方法,结果太害怕而不敢发布?
总而言之,现在怎么办?
现在怎么办?
此次发布在许多方面的影响是巨大的。
人工智能进展
With R1, we can challenge the current status quo. In a way, DeepSeek is telling everyone that we should go back to the basics, as The Bitter Lesson first suggested, and that humans should remove themselves from the process and let computers compute and figure things out.
市场
这一发布将令美国政府感到恐慌,强化像OpenAI的5000亿美元四年投资计划这样的项目。
这也让市场感到不安,NVIDIA(市场对人工智能情绪的常见信号)在撰写时下跌了15%,人们担心DeepSeek的创新可能使他们的GPU变得不那么重要。
而且,这种想法是如此荒谬,以至于让人痛苦。市场再次显得毫无头绪。
我将在下一篇文章中解释这一点,但请记住,尽管DeepSeek的创新确实使训练人工智能的成本更低,运行人工智能的效率更高,总的计算支出是增加的。
尽管如此,对于像我这样的技术人员来说,主要的收获是计算比以往任何时候都重要,因为他们仅仅通过采取(让模型独立运作并投入大量计算资源看看会发生什么)的立场,成功训练了一个最先进的推理模型。
这在各个方面都对NVIDIA发出了看涨的信号。
转向地缘政治,随着美国正在加强对中国的GPU管控,‘计算是唯一重要的事情’这一观点,甚至得到了中国实验室的支持,表明这些出口限制不会很快解除。
但不要认为中国没有采取行动,字节跳动据报道仅在今年就投资120亿美元购买芯片(其中55亿美元将用于中国芯片)。
那么现有企业呢?
好吧,这一切都是混乱。
总体而言,DeepSeek 的结果以某种形式影响着所有人工智能公司:
- 如前所述,这对 NVIDIA 是个好消息,因为它现在比以往任何时候都有更多理由将自己定位为人工智能进步的关键,尽管基础模型是以如此节俭的方式训练的。
- 这对苹果应该是个好消息,因为它现在可以使用 DeepSeek 的 R1 MIT 许可证将其性能提炼到其模型中(甚至可以使用 DeepSeek Qwen 2.5–1.5 来进行苹果智能)。
- 这对 OpenAI/Anthropic/Google 是个糟糕的消息,他们看到自己的技术护城河再次被抹去。在一个产品每隔几周就被商品化而没有利润的市场中,如何赢得市场,而上市成本又极其疯狂? 目前,作为对这一发布的回应,OpenAI 今天发布了 o3-mini,可能是为了保持他们领先的叙述。
- 这对 Meta 是个糟糕的消息,糟糕的消息,因为他们看到自己失去了关于最佳开源实验室的叙述。
总的来说,今天的重大教训是,你无法战胜开源,因此仅靠人工智能无法赢得胜利。
那么,什么会让像 OpenAI 这样的私营公司获胜?
- 与其他产品的集成? 容易复制。
- 通过禁止开源进行的监管捕获? 不可执行,中国将继续推动开源进展。
- 计算优势? 这可能是美国认为的最佳选择,毫无疑问,这是公司之间最重要的竞争优势。然而,在地缘政治层面,中国很容易通过入侵台湾并停止芯片生产来杀死整个半导体市场。
作为投资者,所有的道路似乎都指向硬件和数据公司以及超大规模公司;我现在不想成为人工智能软件的投资者。