
Grok 3的突破:如何利用规模法则推动ai进步与创新
- Rifx.Online
- Large Language Models , AI Research , Technology Trends
- 23 Feb, 2025
I. scaling laws 主导 AI 进展
有一次,埃隆·马斯克在称 Grok 3 为“地球上最聪明的 AI”时似乎并没有夸大其词。与 Grok 2 相比,Grok 3 是一次 巨大的飞跃 前进。(您可以在 这里 观看完整演示。)
Grok 3 的表现与来自更成熟实验室的模型相当,在某些情况下甚至超过了 OpenAI、Google DeepMind 和 Anthropic 的模型。它在 LMSys 领域的所有类别中名列前茅,推理版本在数学、编码和科学问题上显示出强劲的结果 — o3-level — (根据基准测试)。在大多数衡量标准下,至少可以说它是最先进的技术之一(尽管在 每个任务上 并非如此)。
一句话,Grok 3 是 伟大的。
但不仅仅是 xAI 的胜利,Grok 3 还代表了 Bitter Lesson 的又一次胜利。也许是迄今为止最清晰的一次。与媒体和评论家反复强调的相反,scaling laws 仍然主导着 AI 的进展 — 比以往任何时候都更加明显。
II. DeepSeek: The exception that proves the rule
本文并不是关于DeepSeek,但我想重温一个有价值的见解来支持我的论点。
DeepSeek尽管在计算能力上处于劣势——50K Nvidia Hoppers对比美国实验室的100K+ Nvidia H100s,仍然成功地与顶尖玩家竞争。为了弥补这一点,他们不得不在整个技术栈上进行优化,展现了令人印象深刻的工程能力。他们成功了,使得这家初创公司成为一个例外,证明了社区对Bitter Lesson和scaling paradigm的信任可能是错位的。
这至少是怀疑论者的观点:DeepSeek凭借其“微小”的GPU集群和廉价的训练运行,构建了一个与OpenAI o1水平相当的模型。对他们而言,这是一项有力证据,表明手工特征、人类智慧和算法改进比使用巨型集群训练AI模型更为重要。这甚至意味着你应该出售所有的Nvidia股票,因为GPU并_不那么重要_。
然而,这一结论源于对Bitter Lesson的误解(这并不是自然法则,而是一种经验观察):它并不是说算法改进无效。它非常赞扬这些改进。它所说的是,如果可以选择,使用更多计算能力来扩展学习和搜索算法是比应用启发式解决方案更好的选择,无论这些方案多么聪明。
DeepSeek通过后者取得了良好的结果,因为他们_没有选择_。如果他们像xAI为Grok 3所做的那样在一个100K GPU集群上进行训练,他们将获得更好的结果。DeepSeek证明了进一步优化是可能的——并不是说扩展是无用的。这两种现实是无关的。
事实上,DeepSeek的首席执行官梁文峰承认美国出口管制是他们更好模型的主要瓶颈。尽管拥有约50K Hoppers,他仍然提到这一点,反映出“GPU并不重要”的相反观点。虽然DeepSeek依赖于巧妙的优化,但他们仍然需要_规模_。DeepSeek的首席执行官说了这一点——为什么公司外部的任何人会认为他们知道得更好?
DeepSeek前所未有的成功支持了Bitter Lesson和scaling paradigm,即使在某种程度上是作为规则的例外。
III. xAI 证明了扩展 > 优化
回到 Grok 3。
我想知道 xAI 的成就是否会让怀疑者重新考虑他们对规模的批评。我们不知道他们是否改变了架构,或者他们对基础设施进行了多少优化以构建 Grok 3,这一点是事实。我们所知道的是,他们在 xAI 在田纳西州孟菲斯建造的 100K H100 Colossus supercomputer 上训练了模型。那是很多 GPU。这比 DeepSeek 拥有的 GPU 多得多。
(可能两者都仅使用了可用计算资源的一小部分,但合理的假设是,拥有 2 倍的 GPU 使你能够用 ~2 倍的 GPU 训练模型,无论你是否使用了所有的 GPU。)
与 DeepSeek 不同,他们 不需要 超出合理标准来优化基础设施(所以,没有触及 CUDA 内核或应用未经验证的算法技巧)。他们肯定进行了某种优化,但我非常怀疑他们走得那么远。Bitter Lesson 说,如果你有计算能力,最好在你像一个缺乏 GPU 的人那样胡乱摆弄之前使用它;进一步扩展最终带来的好处往往超过手工制作的收益(马斯克的这条神秘推文 可以有很多含义)。记住,xAI 是扩展驱动的。
所以这可能就是他们所做的:他们投入了比 OpenAI 还要多的计算资源到 Grok 3,结果是一个最先进的模型。
我想在这里稍作岔开,因为我厌倦了将 Bitter Lesson 视为一种 AI 独有的见解。不是的——这是一个基本真理。如果你拥有更多的主要资源,你就不会浪费时间从次要资源中榨取另一滴;你会从瀑布中取满一杯。你是宁愿像 Dune 中的弗雷门那样,回收汗水并用巧妙但绝望的装置从尸体中榨取水分,还是生活在一个下雨的星球上?
改进算法和增加计算资源 都是有价值的方法,但如果你获得的边际收益突然随着你投入的努力而缩小,你最好 改变你的关注变量 而不是固执己见。而且,因为计算能力在你有钱的情况下通常是可用的(目前是这样),而有效的算法技巧则需要稀有的 Eureka moments,这些技巧可能今天有效但明天不行——而且可能永远无法扩展——你几乎总是更好地专注于提升计算机的性能。
如果你“发现了一堵墙”,那么你只需改变你扩展的内容,但你不会停止扩展。
约束确实推动创新——而斗争塑造性格;我相信 DeepSeek 的团队绝对很优秀——但最终,拥有更多的资源胜过用更少的资源做同样的事情。这是一个不公平的世界,我感到抱歉。
我想知道 DeepSeek 是否喜欢他们现在的处境,或者他们是否愿意和 xAI 或 OpenAI 交换位置。或者,相反,你认为 OpenAI 和 xAI 会放弃他们所有的 GPU,以便像 DeepSeek 那样通过约束进行创新吗?
在某种程度上,作为后来的参与者,xAI 和 DeepSeek 代表了应对同一挑战的对立方法。粗暴的扩展与挤出有限资源。两者 都做得很好,利用他们所拥有的资源。但毫无疑问,xAI 更有优势,并将在未来几个月中保持这种优势(只要 DeepSeek 仍然受到计算瓶颈的限制)。这要归功于他们遵循的一条法则,尽管是经验性的——并受到学术界的强烈质疑——但在过去十多年中在这个领域证明了其价值。
IV. 帮助 xAI 和 DeepSeek 的转变
一段时间以来,晚起步似乎在 AI 竞赛中是一个无法克服的负担。当我第一次评估他们的机会时,我不确定 xAI 能否追赶上 OpenAI 和 Anthropic(在这篇文章的最后一句话中说过)。
但是在 Grok 2(2024年8月)和 Grok 3(2025年2月)之间,除了 Colossus GPU 集群之外,还有其他因素帮助了 xAI 的机会:主导的 scaling paradigm 发生了变化。
-
预训练时代(2019–2024):最初,scaling 意味着构建越来越大的模型,训练于海量数据集和巨型计算机上:GPT-2(2019年2月)有 15 亿个参数,而 GPT-4(2023年3月)估计有 1.76 万亿个参数。这是三个数量级的增长。这种方法自然有利于像 OpenAI 这样的早期参与者,他们在收集训练数据、扩展模型和购买 GPU 方面有多年的领先优势。即使没有这种优势,如果每个新模型需要大约半年的时间来训练——它们的规模减缓了不同代之间的迭代速度——OpenAI 始终会至少领先 xAI 这么远。
-
后训练时代(2024-???):当公司意识到仅仅让模型变得更大带来的收益递减时,游戏发生了变化(媒体迅速错误报道这一点为“规模已结束”,所以我建议你观看 Ilya Sutskever 在 2024 年 12 月 NeurIPS 的演讲)。相反,重点变为 scaling test-time compute(即允许模型使用计算来思考答案),由 OpenAI 率先推出 o1-preview。强化学习结合监督微调被证明是高度有效的——特别是在数学和编码等结构化领域,在这些领域中存在明确且可验证的奖励函数。
这种范式转变意味着后训练的 scaling 变得与预训练的 scaling 一样重要——甚至更重要。AI 公司“停止”制造更大的模型,开始制造更好的思考者。这发生在去年。正好在 DeepSeek 和 xAI 构建他们全新模型的时候。一个愉快的巧合。
重要的是,后训练仍处于早期阶段,与预训练相比,快速改进可以以低成本实现。这就是 OpenAI在短短三个月内从 o1 跃升至 o3的原因。这就是 DeepSeek 如何赶上R1,尽管它拥有更少且更差的 GPU。这就是 Grok 如何在短短两年内达到顶级水平的原因。
OpenAI 仍然具有适度的优势,但这种领先不再是让追赶变得不可能的那种程度。而尽管 Sam Altman 必须在前沿研究与运营 ChatGPT 的需求之间取得平衡——这一产品每周被3 亿人使用——xAI 和 DeepSeek 有更多的灵活性专注于突破(DeepSeek 的应用程序在受欢迎程度上激增,但又回落,因为公司没有足够的计算能力来为如此多用户提供推理服务)。
一个新范式;一场新竞争。
V. 将 xAI 和 DeepSeek 的胜利置于背景中
承认 Bitter Lesson 和这个 scaling paradigm 的转变并没有削弱这两家公司的成就。他们的确更轻松,但他们仍然必须做到这一点。其他人尝试过但失败了(例如 Mistral、Character、Inflection)。正如我所说,Grok 3 主要是 Bitter Lesson 的胜利,而 DeepSeek 主要是证明这一规则的例外,但我们不应仅仅将他们简化为此。
单靠计算——或缺乏计算——并不是一切。就像 Bitter Lesson 并不否认改进算法和基础设施的价值一样,我们也不应忽视 xAI 拥有一支出色的团队,现在大约有 1,000 名员工——与 OpenAI(约 2,000)和 Anthropic(约 700)相当。还有埃隆·马斯克在科技和金融领域的深厚人脉,这为 xAI 提供了巨大的筹款优势。DeepSeek 也是如此,值得像它获得的那样多的赞誉,因为它在一个缺乏雄心和经验丰富人才以及政府支持的地方成功应对了其限制(这可能很快会改变)。
但承认胜利与将其置于背景中同样重要。
OpenAI、Google DeepMind 和 Anthropic 在 scaling 更难、更慢且更昂贵的情况下构建了他们的模型(预训练时代)。没人知道类似 ChatGPT 的东西是否会像现在这样有效(OpenAI 几乎没有推出它 ,而当它推出时,被称为 “低调的研究预览”)。这些初创公司作为勇敢的开拓者,受到了一种 坚定不移的信念 的驱动。他们的角色,尽管现在在媒体头条中略显被对立面掩盖,将会载入史册。
相比之下,DeepSeek 和 xAI 站在这些巨人的肩膀上,利用从早期努力中艰难获得的经验教训,并受益于在一个范式转变使得更快、更具成本效益的进展成为可能的时刻构建他们的模型的运气(后训练时代)。他们不必经历那么多的失误,也不必忍受巨额前期投资带来的不确定回报。
因此,让我们不要贬低他们的胜利,但也不要忘记我们是如何走到今天的。
VI. 后训练便宜但将会昂贵
来自 Grok 3 和 xAI 的一个最终关键要点。
一旦公司弄清楚如何将后训练的规模扩大到与前训练相同的投资水平——这将会发生,他们正在囤积数十万的 GPU 并建立巨型集群,以回应那些“GPU 无关紧要”人群的困惑哀叹——只有那些有资金和计算能力跟上的公司才能保持竞争力。(这就是为什么 Dario Amodei 和其他人广泛撰写了 关于出口管制的价值。)
这正是 xAI 定位得非常出色的地方。比 DeepSeek 更好,甚至可以说比 OpenAI 和 Anthropic 更好。(有 Elon Musk 担任 CEO 是个加分项。)凭借一个 100K H100 集群——很快将扩展到 200K——xAI 在 AI 发展的下一个阶段中获得了重大优势。Meta 正在遵循相同的策略,准备在接下来的几个月内推出 Llama 4,已经在一个 100K+ H100 集群 中进行了训练。
对于 DeepSeek,仅凭工程创造力这次是不够的,无论他们在全栈调试方面有多出色(也许 华为可以帮助他们)。总会有一个时刻,任何优化都无法弥补 150K-GPU 的差距。别误会我的意思——DeepSeek 会像 xAI 一样采取相同的做法(他们也在扩展规模)但出口限制确实限制了他们的成长能力。
甚至连 OpenAI 和 Anthropic 的集群都没有像 xAI 那样被锁定——Nvidia 的偏爱意味着 Musk 的公司获得了下一代硬件的优先访问权限。
VII. 所以,一年后谁会领先?
尽管如此,OpenAI、Google DeepMind 和 Anthropic 仍然有小幅的先发优势。OpenAI 将发布 GPT-4.5/GPT-5,然后是 o4,而 Anthropic 正在 即将推出 Claude 4。Google DeepMind 不断改进 Gemini 2.0 的思维模型版本,并努力降低成本和扩展上下文窗口。
我之前的预测是 到年底 Google 会领先,但我现在不太确定。竞争环境前所未有地激烈,AGI 竞赛没有明确的赢家。新的范式有利于后期进入者,同时要求灵活性——这是一项我不确定 Google 是否已经掌握的技能。也有可能他们在营销自己的进展方面表现糟糕,使得他们即将取得的成功显得远不如竞争对手那样切实可感。
然而,我对这篇文章的结论并不是关于 AI 竞赛的。它是关于一个不断浮现的教训,让那些希望相信人类的聪明才智总会战胜单纯 放手 的人感到不安。亲爱的朋友们,我很抱歉告诉你们,有些事情确实超出了我们的能力。
Grok 3 令人印象深刻。但更重要的是,它再次提醒我们,在构建智能方面,规模每次都胜过单纯的聪明才智。