
Deepseek 的 艾海啸:七大冲击波震撼我们的 艾支配!
- Rifx.Online
- AI Research , Large Language Models , Industry Insights
- 05 Mar, 2025
中国鲸鱼在美国引发了海啸
深度寻求,当前最热门的人工智能初创公司,已经在应用商店上达到了_第一名_,甚至超过了聊天生成预训练变换器。我想你们可能想让我再写一篇关于中国鲸鱼的文章。
在上周的深度分析中,我考察了深度寻求的第一个人工智能推理模型,R1及其有趣的兄弟R1-Zero。这是一篇相当技术性的阅读——我没有想到_深度寻求_这个名字在几天内会如此病毒式传播。这对中国人工智能行业来说是一个真正的“聊天生成预训练变换器时刻”。然而,海啸的影响在西方尤为明显。这其中的利害关系重大:深度寻求挑战了关于谁主导人工智能创新的假设。它危及十亿美元投资,并威胁到非常深厚的资金底线。并不是每个人都对此反应良好。
人们——我唯一的股东——渴望了解发生了什么,所以我会提供信息。噪音太多,而跟踪深度寻求的人并不多,以至于知道发生了什么并将其放在背景中。一个中国初创公司是如何突然崛起的?难道美国不应该领先几个月吗?接下来会发生什么?人工智能泡沫会破裂吗?市场会崩溃吗?美国输了吗?社交媒体充满了猜测,但很少有人知道深度寻求的团队是谁,他们如何工作,或是什么使他们与众不同。深度寻求、它的团队和它的人工智能模型一样神秘而独特,这需要进行深入分析。
在这篇文章中,我将列举深度寻求战胜美国人工智能实验室的影响(地缘政治、商业、文化等),以便我们能够理解这一切。我会在每个部分的末尾添加我的阅读,以便你可以将事实与我的观点分开。(我可能会写另一篇文章,驳斥一些在社交媒体上关于深度寻求的荒谬主张——实在是太多了——但这取决于对这篇文章的反响。)
在信息洪流中理解一个故事——没有先前的背景——就像蒙着眼睛拼图。惊喜游戏可能令人愉快,但在答案重要的时候就不那么愉快了。因此,让我们一起走过这一系列意外事件,澄清现在发生了什么以及可能会发生什么。为此,我将这次分析分为七个部分:
- 我们时代最大的地缘政治冲突
- 深度寻求模型与西方最佳模型相媲美
- 通过激进透明度打开局面
- 你如何超越一个你不理解的文化?
- 出口管制未能阻止深度寻求的增长
- 降低成本以在美国市场取得成功
- 深度寻求只是一个令人惊叹的人工智能实验室
I. 我们时代最大的地缘政治冲突
深度寻求是中国的。我在另一篇文章中以一些问题作为“读者的作业”轻描淡写了这一显著事实,但这无疑是最相关的。
我将提出的第一个观点也是最不具争议性的:美国和中国之间正在进行一场冷战。这已经持续了一段时间。平衡不稳定(例如台湾),但由于一个简单的原因,仍然保持在这种脆弱的平衡状态:历史上,中国在纯科学和技术上一直是衍生性而非创新性的。我们都知道这对一个军事领域的超级大国意味着什么。
另一方面,没有严肃的分析师否认中国在一些关键领域已经领先于美国:制造业、工业化、基础设施,甚至是应用科学与技术。但在大胆的零到一创新方面,它从未成为强国。没有多少尤里卡时刻。没有顿悟发现。只是一个精心典范的、国家形状的炼油厂。
深度寻求是中国向人工智能创新转变的第一次瞥见。这家年轻的初创公司(成立于2023年!)在刻板印象上更接近开放AI或深度思维,而不是其国内同行(甚至是阿里巴巴、腾讯和百度这样的科技巨头)。这使得深度寻求成为一种威胁。不是因为他们会取代美国的人工智能实验室,而是因为这可能在中国引发一场革命:这是可能的。
在为中国媒体AnYong Waves进行的罕见采访中,深度寻求的首席执行官梁文峰强调创新是其雄心勃勃愿景的基石:
… 我们认为,现在最重要的事情是参与全球创新浪潮。多年来,中国公司习惯于让其他人进行技术创新,而我们专注于应用变现——但这并非不可避免。在这一浪潮中,我们的出发点不是利用机会快速获利,而是达到技术前沿,推动整个生态系统的发展。
因此,“深度寻求做了什么?”的答案是“他们创新了。”好吧,并不是每个人都同意。
一些人认为深度寻求窃取了开放AI的知识产权或复制了美国实验室的方法或其他什么。还有人指责他们的应对措施。激励因素复杂而混杂,因此很难判断谁认为这是真正的可能性(并不是说工业间谍行为是新鲜事),谁又是在为即将损失数十亿美元的兄弟风险投资公司默默宣传。我不会参与那些无意义的争吵。相反,我将分享我们拥有的证据,表明事实恰恰相反:现在将争相从深度寻求的创新中获取价值的是美国公司。
首先,深度寻求的人才完全是本土的。没有员工曾在海外学习或工作。(这也是中国实力的证明;初创公司和大学分别可以培养顶尖的人工智能模型和世界级的人才。)其次,深度寻求——与谷歌、开放AI和Anthropic相反——在前沿研究、架构、训练方案、技术决策、人工智能的创新方法,甚至是那些没有成功的事情上,发表了大量论文(不过在数据方面不多)。
你可以自己检查。我刚刚搜索了“deepseek papers arxiv”,在第一页上得到了八份详细的技术报告。告诉我你从开放AI那里得到了多少。现在去读它们,诚实地告诉我你是否认为它们展示了即使是部分的深度和广度。如果我们对顶尖推理人工智能模型的工作了解如此之多,那并不是因为开放AI或谷歌。他们是尽可能保密的。然而,深度寻求则是在屋顶上高喊他们的酱料。
我们知道他们所遵循的轨迹,因为这是公开的。当然,他们所做的很多事情都需要或基于美国公司的工作(例如变换器、PyTorch、图形处理单元、CommonCrawl)。深度寻求并没有创造人工智能领域。但他们已经增加了他们微小的贡献。
让我问你这个问题:如果中国在工业化和制造业等相关领域以及航空航天、机器人和能源等战略部门中已经领先,并且持续在谷歌或开放AI的水平上进行人工智能研发,其大学毕业生以竞争最高水平的雄心、知识和热情进入该领域,那么你认为美国的霸权力量会发生什么?我不需要再说“军事”这个词,对吧?不如看看这只可爱的狗。
我的看法是:美国——西方,但老实说,欧洲现在无关紧要——应该对中国采取合作态度,因为我们并没有赢。
II. 深度寻求模型与西方最佳竞争
看看这两个图表。V3(基础模型)和R1(推理模型)在蓝色柱状图中,与最佳美国竞争对手(GPT-4o、Sonnet 3.5、Llama-405B和o1)相比:
让我再重复一遍:深度寻求已经成立1.5年。
诚然,很难知道顶尖的美国实验室已经训练了什么,但选择保密。开放AI o3 在12月宣布,而o3-mini已经开始推出(开放AI正在训练o4,而深度寻求R1与o1进行了比较)。谷歌的Gemini 2.0闪电思维也相当不错且超级便宜(实际上比深度寻求便宜)。Anthropic 据报道内部有一个比o3更好的模型(尽管他们尚未展示推理模型)。
深度寻求并不是世界上最好的人工智能公司,也不是构建最佳模型的公司。这并不能真实反映现状,而是对反大科技(他们浪费了数十亿美元,太好了!)、反美国情绪(中国赢了,太好了!)或反人工智能兴奋(泡沫破裂了,太好了!)等三者的夸大解读。(在某些圈子里,这些都是时髦的看法,老实说,我甚至无法判断哪一个更有分量。)
尽管如此,深度寻求的成就是令人惊讶且有价值的。尽管作为一个外国参与者面临重大挑战——出口管制、创新生态系统较差、依赖西方进步以及作为新进入者的固有劣势——这些蓝色柱状图是真实的。深度寻求系统地逐一达成关键里程碑,直到赶上成立10年的开放AI和成立15年的深度思维,分别得到了微软和谷歌的丰厚支持。这就是令人惊讶的部分。
有价值的部分并不是V3和R1在基准测试中表现良好。这虽然不错,但很无聊。重要的是,深度寻求没有坚持采用美国实验室的做法。他们无法做到。他们说,约束驱动创新。深度寻求不仅在理论上,而且在实践中证明了这一原则。凭借有限的资源、劣质的硬件和更少的时间,他们超越了——以更低的成本提供了类似的结果。如果将这些变量转换为单一货币,深度寻求轻松达到美国实验室的10倍水平。
具体来说,环境促使研究人员在架构和算法层面进行调整,这是谷歌和开放AI很少(如果有的话)做的。举两个例子:他们缓解了变换器架构中的内存瓶颈(他们使用为DeepSeek-V2引入的多头潜在注意力,MLA)并简化了强化学习算法(他们使用为DeepSeekMath引入的组相对策略优化,GRPO,并放弃了MCTS和PRM),等等。此外,他们利用了每一个在图形处理单元匮乏情况下的工具:量化(8位精度)、稀疏性、专家混合模型(在推理过程中并非所有参数都处于激活状态)和多标记预测(这使推理速度翻倍)。(如果你不理解这一段,相信我:这并不重要。)
我的看法是:通过在约束条件下工作,深度寻求的研究人员发现了其他人不敢涉足的新方法(或_不想_;稍后会详细讨论),并实现了最先进的性能。
III. 通过激进透明度打开局面
所有深度寻求的模型都是开源的(具体来说是开放权重;他们不分享关于训练数据的细节——来源、质量、处理技术——可以说这是他们能提供的最有价值的见解)。首席执行官还表示,他们积极追求一个 开放源代码的AGI——这意味着他们确实打算让每个人受益,而不仅仅是说他们这样做。
深度寻求低成本的开源方法有效地 商品化——无论是出于设计还是副作用——像开放AI和Anthropic这样的公司依赖的核心产品作为主要收入来源,唤起了1990年代苹果与微软战斗的回声。简化的想法是:主导产品的一个垂直层——例如,免费提供软件应用,但通过许可或支持获利——同时在堆栈的其他地方应用零价格策略以削弱竞争对手。这迫使他们降低核心产品的价格,从而降低总成本并增加需求。随着时间的推移,你获得垄断控制,因为你的竞争对手在缓慢而不可避免的衰退中屈服。
这就是Meta在美国人工智能领域的目标:免费提供Llama模型权重,通过在他们的社交媒体平台中进行人工智能驱动的集成来收回投资,在那里他们已经保持近乎垄断。然而,深度寻求的方法与Meta不同。他们似乎并没有通过商品化他们的模型作为相关收入来源的补充,在技术堆栈的任何地方获得垄断优势。相反,公司的资金(据我们所知)来自Wenfeng成功的对冲基金 High-Flyer。这与人工智能无关,因此与深度寻求的业务完全独立。
Wenfeng似乎根本不在乎通过出售API访问或通过免费的无限访问应用程序是否能赚钱(他表现得像一个出于纯粹好奇心追求昂贵爱好的知识型富人。非常值得尊敬)。
虽然Meta的模型在性能上落后于谷歌和开放AI的模型,但与深度寻求的产品相比,它们的运营成本要高得多(稍后会详细讨论)。因此,深度寻求是人工智能领域的顶尖玩家(以开源方式超越谷歌和开放AI),并且是顶尖的开源玩家(超越Meta并且 据报道让他们感到恐慌)。
但让我们在这里稍微怀疑一下。这种开源方法是中国公司精心设计的策略,以颠覆美国人工智能市场吗?可能是,但当Meta也在做同样的事情(尽管不成功)时,说这话就显得奇怪了。还是这是中共的长期战略,目的是让西方依赖中国的人工智能创新,等美国公司被不可逾越的竞争挤出后再切断访问?这很难说。我们可以做一些假设,但那仅仅是猜测。
我的看法是:一个世界级的开放权重模型对每个人都是好事,无论是中国还是美国的起源,特别是对个人消费者。
IV. 如何超越你不理解的文化?
关于中国的事情不仅仅在于它被视为西方的地缘政治对手。更在于它的文化对我们来说感觉根本是陌生的。在那里生活过的人可以证明这一点。从生物学上讲,我们都是进化的孩子,但从文化上讲,我们是我们国家、传统、宗教、历史和特有生活方式的孩子。中国和美国在这些方面没有任何共同点。
我没有在中国生活过,也没有为中国科技公司工作过,所以我会让两位专家来更深入地讨论中国文化与人工智能的交集。以下简短摘录更侧重于华为而非深度寻求,但可以作为初步的近似。这段话摘自Dwarkesh Patel的播客,嘉宾是Dylan Patel(Semianalysis的首席分析师)和Asianometry:
中国有一种非常重视奋斗的文化。他们疯狂地认为在五年内,他们将与美国对抗。字面上说,他们所做的每一件事,每一秒,他们的国家都依赖于此。
想象一下这样生活。
与西方相比,中国似乎更像一个文化巨石,集体往往优先于个体或自我利益。和谐、责任和长远思维塑造了从他们的快速现代化到一个关注大局而非个人认可的科技产业的一切。虽然个性和雄心当然存在,但对社会福祉的重视仍然是中国文化的一个定义性和独特特征。
具体谈到深度寻求,我注意到一些在其美国同行中找不到的特征:他们不会炫耀AGI,也不会炒作他们的产品或试图“捕捉宇宙的光锥”或类似的奇怪事情。他们希望“以好奇心揭开AGI的神秘面纱”,仅此而已。他们还避免将人工智能模型拟人化,也不将其视为新物种、有知觉的生物或未出生机器神的茧。他们不让“图表上的直线”决定他们的命运。他们也不关注像Yudkowskyan理性主义者这样的邪教般的团体,因此他们对人工智能安全和人工智能对齐的关注远没有那么强烈。
深度寻求的以好奇心为先的心态超越了文化:美国实验室在其以对齐为重点的研究和行为防护上花费了大量金钱和时间,以确保他们的模型不会失控、不会轻易被黑客攻击、受其创造者控制等。如果一个外国实验室不关心这些,并仍然创造出优秀的模型,你认为人们会选择什么?无论是中国人还是美国人,都不喜欢被居高临下地对待。与深度寻求-R1交谈时,感觉更好——它写得更好——因为它不像聊天生成预训练变换器、Gemini或Claude那样被阉割(即使它有其他种类的保护措施)。你可以看到它在思考时发声(哎呀)。 (这使得它慢得多,但……哎呀。)
我们知道当公司被迫在原则和金钱(可以说是国家安全)之间做出选择时会做什么,那么接下来会发生什么?这是人工智能对齐时代的开始,也是全面能力竞赛的真正开始。只需一个严重的颠覆者就能推翻几十年的纸牌屋。深度寻求是,无论好坏,前方道路上的第一个重大分叉。愿硅谷之神对你仁慈,同行者。
回到文化。深度寻求不需要对股东负责,因为他们没有股东。他们需要对中国共产党负责吗?我们不知道。人们声称深度寻求之所以能取得这样的成就,是因为他们_当然_是政府的技术部门。他们可能是。我不知道。但我知道,他们所做的事情并非不可能(真的,读一下论文)。你只需明白,他们是优秀的研究人员和工程师,他们的动机与我们不同。
我的看法是:深度寻求在技术经验、计算资源和行业存在方面的不足,都是通过非同寻常的决心和抗脆弱性(也许还有一些额外的帮助)来弥补的。
V. 出口管制并未阻止深度寻求的增长
深度寻求(及其延伸的高飞者)在图形处理单元方面不如顶级美国实验室丰富。估计他们的数量远低于100,000个H100图形处理单元,这正是埃隆·马斯克的新超计算集群的规模(迪伦·帕特尔表示他们有50,000个Nvidia Hopper)。Meta,这个令人恐慌的开源失败者,到2025年底将拥有1,300,000个图形处理单元。这多了26倍。对于那些在基础设施上花费数千亿的人来说,深度寻求的图形处理单元贫乏并不能带来太多安慰,他们仍然能够并肩竞争。
开放AI、谷歌和扎克伯格是否应该放弃所有计算资源,以便像深度寻求那样通过约束进行创新?开个玩笑:鉴于出口管制并未阻止中国取得领先,美国是否应该取消这些出口管制?答案也是否定的:乔丹·施耐德在ChinaTalk上表示,这种监管需要的时间比我们给出的要长。我们只需耐心等待。此外,深度寻求的首席执行官承认,资金从来不是他们的问题,而是缺乏Nvidia芯片。出口管制并不完美(可以巧妙规避),但它们也并非无害。不应将其视为二元选择。
美国公司现在及未来几年正在建设的千兆数据中心(例如开放AI的星际门、xAI的孟菲斯超级计算机和Anthropic的数百万芯片集群,更不用说谷歌、亚马逊和微软等云超大规模公司的数据中心)是深度寻求无法受益的类型。他们擅长制作模型,但据我所知,对设计人工智能硬件没有兴趣,并且由于出口管制,也没有机会获得这些数量。他们依赖于Nvidia的巧妙手法,或者如果一切顺利,则依赖于华为。
我想谈谈在社交媒体上广泛传播的一个误解:深度寻求在没有美国公司庞大硬件资源的情况下成功降低模型成本,并不否定规模法则(更大仍然往往更好)或消除对更大超级计算机的需求(无论市场怎么说)。他们的成就突显了优化和增量创新的潜力,而不是对规模的拒绝。我读过的最好捕捉这种“便宜是可能的,但规模有效”妥协的观点是安德烈·卡帕提的(作为对深度寻求-V3在12月发布的回应):
这是否意味着你不需要大型图形处理单元集群来应对前沿的LLM?不,但你必须确保你所拥有的资源不被浪费,这看起来是一个很好的示范,表明在数据和算法方面仍然有许多需要克服的挑战。
就是这么简单。
然而,深度寻求在算法层面的创新推动,反映了中国在硬件方面的更广泛努力。他们可能不会长期处于图形处理单元贫乏的状态。中国需要多长时间才能对伟大的三位一体作出直接回应:Nvidia(图形处理单元设计者)、台积电(先进代工厂)和ASML(EUV光刻先锋)?他们在台积电方面几乎达到了中芯国际(仍有多年的差距)。他们能在未来几年实现ASML级别的EUV光刻吗?也许,但并不迫在眉睫。抱歉这样说,但Nvidia的CUDA护城河可以说是最容易跨越的(华为仍在尝试)。
我听到专家们辩称出口管制是短期解决方案。从长远来看,这些限制可能会促使中国开发强大的国家解决方案,以解决其对半导体供应链关键参与者的依赖。让Nvidia将其先进芯片卖给中国,而在没有动力制造自己的芯片的情况下,他们将越来越依赖于美国工业。当然,如果是Nvidia——这个芯片销售者——说这话,我会持怀疑态度。但如果迫使他们在自身缺陷的困境中生存,他们将会通过这些缺陷生存下来。记住,_反脆弱_是他们的姓氏。
我的看法是:中国能够并最终会解决与西方的半导体差距,但在那之前,深度寻求将不得不拼命跟上——你只能进行这么多优化。是否需要一个$5000亿的项目来证明这一点是另一个问题。
VI. 降低成本以在美国市场成功
让我们谈谈钱。
深度寻求以比美国实验室便宜得多的价格训练其模型并销售API访问。该应用程序是免费的,没有任何$20/月或$200/月的订阅层。也没有响应数量的限制。(尽管文峰的交易量化师再聪明,我对深度寻求是否能够满足来自海外的需求表示怀疑。)
正如我们所探讨的——这篇文章的核心主题——他们的限制迫使他们进行创新,推动了越来越高效的训练和推理方法的发展。现在,让我们看看数字。
他们在Nvidia H800上使用了2.78M GPU小时(H100的一个“较差版本”)来训练V3,这相当于$5.576M(不包括员工、硬件、基础设施、维护等成本)。作为比较,Llama 3(405B参数版本),在规模和性能上最接近的美国开源模型,训练成本为30.84M GPU小时,这使得它的成本约为V3的11倍。(V3是一个671B参数的稀疏专家混合模型,每个标记仅激活37B参数,但我们在这里讨论的是训练成本,因此重要的是671B这个数字。)此外,他们对R1的API访问价格比开放AI的o1便宜90–95%(在基准性能上与之最接近的竞争对手](https://www.thealgorithmicbridge.com/i/155354389/ii-how-good-is-r-compared-to-o))。不过,Gemini 2.0 Flash Thinking是更便宜的。
在我之前的文章中,我曾想知道深度寻求是否在亏损,但CEO确认他们并不寻求最大化利润。他们在成本上设置了一个适度的利润率,这就是定价的唯一标准。
然而,考虑到这些算法变化是多么直接(尽管不一定容易),另一种双面可能性出现了:要么美国实验室疏忽大意(未能努力寻找更便宜的解决方案),要么欺骗(从他们的聊天机器人中获利丰厚,同时假设没有人会发现)。我不确定哪一种更糟。
我的看法是:美国公司避免关注算法改进,因为这需要突破,而不仅仅是资金。与金钱可以解决许多问题不同,突破伴随着不确定性——这是你只有在缺乏现金购买更简单的解决方案时才会面对的挑战。因此,这不是恶意,而是老式的垄断自私。
VII. 深度寻求是一个令人惊叹的人工智能实验室
最后一点并不是一个暗示——这是我们在考虑所有证据后可以充满信心得出的唯一结论。虽然可能存在其他假设,但一旦你清楚地审视事实,就变得不可否认:深度寻求是一个杰出的人工智能实验室。
作者
加入 The Algorithmic Bridge,这是一个关于人工智能的博客,实际上是关于人们的。