
揭开grok-3面纱:elon Musk的ai如何挑战openai的霸主地位并改变行业格局
- Rifx.Online
- Large Language Models , AI Research , Technology Trends
- 23 Feb, 2025
经过数周的传闻,xAI,埃隆·马斯克的人工智能公司,终于发布了Grok-3,他称其为_“地球上最聪明的人工智能。”_
除了常见的头条新闻,此次发布 隐藏了几个惊喜,包括一些关于X的有趣内容,这可能表明埃隆·马斯克的公司并不信任X作为可靠的信息来源。
但更重要的是,这真的是一些人所宣称的OpenAI杀手吗? 你需要了解的关键要点是什么?
强大,但真的最好吗?等等…
乍一看结果,人们很容易就会宣称 Grok-3 是地球上最好的 AI,正如埃隆所说。
但与 AI 一样,总是有更多的东西超出表面。
几个模型,一个目标
昨天的公告包含四个模型:一个基准模型,Grok-3,一个较小的基准模型,Grok-3 mini,以及它们各自的两个推理模型,Grok-3 Reasoning和Grok-3 mini Reasoning。
如果说所有AI实验室有什么共同之处,那就是模型命名绝对不是他们最擅长的事情。
正如我在最近的OpenAI文章中解释的,OpenAI的路线图公告对你的意义,我们现在在AI的前沿基本上有两种模型类型:
- 非推理模型,作为快速思考者,在与知识相关和创造性任务中表现出色,例如GPT-4o,
- 推理模型,顾名思义,在需要推理的任务上表现更好。这主要意味着模型在任务上**思考的时间更长,通过生成一系列思维链来实现,**这种思维的串联使模型能够以多步骤的方法接近问题,从而反思先前的断言,自我纠正,甚至在必要时回溯,例如OpenAI的o1和o3模型。
对于那些想知道“推理”的定义是什么的人,祝你好运,因为这非常像意见;每个人都有自己的看法。
但总体而言,所有AI实验室似乎都趋向于同一个观点:推理指的是在任务上思考更长的时间。这个定义是否符合你对推理的定义是另一个故事(在我看来绝对不是),但这无疑是大多数AI实验室在使用这个词时所指的。
一个LLM的响应(左)和一个推理模型的响应。来源
如前所述,Grok-3是一个非推理模型,在先进水平上表现明显优于其他非推理模型,而Grok-3 mini据称与它们不相上下。在纸面上,极其强大的模型。
来源:xAI
在“vibe evals”中,模型被并排比较,Grok-3的早期版本,代号Chocolate,已经攀升到排行榜的顶端。
来源:xAI
重要的是要注意,用户在不知道自己选择哪个模型的情况下比较响应,以避免偏见。
这对xAI来说是个好消息,这意味着该模型受到用户的好评。
那么推理模型呢?
早期结果,依然出色
推理模型在理论上表现良好,Grok-3 和 Grok-3-mini 的表现与 o3-mini(高)相同或更好。
来源:xAI
值得注意的是,这些结果来自模型的早期版本,因为他们的推理模型仍在训练中,因此我们应该期待(尽管不能保证)模型的最终版本会更智能,可能更接近 OpenAI 的 o3 模型所展示的水平,许多人认为这是地球上最先进的模型。
如果你在想为什么 o3 没有被纳入比较,除了显而易见的炫耀原因外,这也是因为该模型尚未发布。然而,一位 OpenAI 员工特意展示了该模型的比较:
对我来说,这是一场无意义的对话,因为我们在争论两个尚未发布的模型在两个公司争夺 AI 霸权(即,有偏见)的自我报告基准结果。
至于推理模型的内部工作原理,他们没有披露生成长思维链的主要方法,更重要的是,他们如何解锁更多的思考时间。
这可以通过两种方式实现:
- 自我一致性: 模型多次尝试解决问题,使用一些启发式方法(可能是同一模型充当其评判者)来选择最佳尝试。
- 测试时搜索: 模型开始生成一个“思维树”,在其中生成多个可能的路径,并选择/扩展/回溯每个可能的解决路径,直到找到最佳解决方案。
自我一致性(左)与测试时搜索(右)。 来源
根据主要开发人员在直播期间的评论,最有可能的选项是他们正在使用自我一致性(左图),因为推理负责人明确表示模型多次尝试问题并选择最佳选项。
此外,在分布式环境中,测试时搜索的规模化非常困难,关键技术问题是如何决定哪个思维是最好的,除非你有一种自动验证思维质量的方法(就像在数学或编程中,你可以验证正确性)。否则没有明确和标准化的方法来做到这一点。
另一个有趣的问题是推理模型和非推理模型实际上是否是相同的模型。我们人类没有两个大脑。相反,我们单一的大脑会根据所需的认知负荷动态调整计算分配。
然而,目前大多数实验室将这两种模型视为完全不同的产品,就像 OpenAI 的“GPT”和“o”模型系列,尽管这两者在本质上是相同的模型(大型语言模型)。
找到一种方法将这两种模型统一为一个能够意识到它必须为特定问题分配多少计算的模型,这意味着它将根据任务的不同思考更长时间或不思考,对于 AI 实验室来说,简直就像是一个圣杯,因为这大大简化了他们的工作,同时改善了用户体验。
OpenAI 已经宣布他们计划抽象化这种复杂性,以便用户不再需要决定使用哪个模型,但似乎他们将使用一种路由机制,这意味着模型将保持分离。
在 Grok 的情况下,答案并不明确。不过,很可能只是两种不同的模型(非推理和推理根据思考按钮是否被激活而被称为,可能是 xAI 用来知道哪个模型被激活的信号),考虑到他们强迫用户通过 UI 中的“思考”和“超级大脑”按钮选择思考选项。
来源:xAI
Yet Another Deep Research Tool
而且,他们宣布了他们对目前最热门的AI工具——深度研究工具的独特看法,称之为 Deep Search。这些工具通过让模型制定计划来响应用户的请求,经过可能数百个来源,收集上下文,最终以策划的、据称是“深思熟虑”的报告形式提供所有信息。
在Grok-3的情况下,它的速度很快(不过我不确定这对这个特定案例来说是否真的是一件好事),并且包括完整的引用,还允许你查看模型在处理你的问题时所遵循的——部分被遮蔽的,更多内容在下面——思维链。
一个非常有趣的事情是,模型似乎避免将X作为研究的来源除非你明确要求(这也是他们在直播中暗示过的,这可能表明他们只是对那些主动要求的人假装展示X的结果)。
- 这是否意味着他们暗示X不是一个可靠的来源?
- 或者说它对普通消费者来说政治偏见太重?
接下来,还有哪些其他要点绝对值得了解?
以下是我对技术细节的更深入分析,产品是否值得,以及我们所知道的关于训练和GPU集群的所有惊人信息。
NVIDIA的好消息,对OpenAI来说却是坏消息
当然,你最亲密的AI影响者,渴望关注,将会冲进门来宣称 “xAI是新的领导者,” “OpenAI已经死了,” 等等。
但真的是这样吗? 在我们回答这个问题之前,让我们看看发布期间展示的其他有趣的发展。
一劳永逸地澄清生产流程
有趣的是,有时,Grok-3 mini 通过更长时间思考问题来超越 Grok-3,例子如它在数学、奥林匹克级 AIME 2024 上的结果,如本文第一张图所示。
然而,为了测试泛化能力,他们还在今年 AIME 发布的最新问题中测试了这两个模型,在这种情况下,较大的模型表现更好。
换句话说,较大的模型对提示变化的抵抗力更强,也就是说对基准测试的过拟合较少,这意味着该模型似乎对问题的理解更深,从而能够将这些知识推断到新问题中(它基本上更聪明,且不那么依赖于记忆)。
这证实了三件事:
- 我们绝对可以通过让较小的模型运行更长时间来弥补较小模型和较大模型之间的智力差距。
- 实验室发布较小模型的动机,由于其易于服务,将是不可抗拒的。
- 然而,推动更大模型以实现更大智力的动机(以对新问题的真实泛化或对基准过拟合的抵抗力来衡量)仍然相当明显。
这巩固了任何前沿 AI 实验室构建 AI 产品的方法:
用简单的英语来说,您在产品中实际获得的模型通常不是这些实验室在原始性能方面内部拥有的最聪明的模型,但它可以运行更长时间以缩小智力差距。
根据最后一点,较小模型运行更长时间可以匹配或超过较大模型的能力的原因在于较小模型本身就是较大模型的提炼;因此,它学习了较大模型所学习的模式,而从头训练的较小模型则没有,并利用推理时的计算(更长时间思考)来缩小智力差距。
接下来,我无法假装不对他们的一些决定感到愤怒。
我们,西方,并不像我们所声称的那样优秀
关于现在哪个实验室处于领先地位,目前还为时已晚。一方面,某个人——恰好是有偏见的——在实验室和 vibe-type evals 中获得的结果;另一方面,是人们在实际接收到产品后所产生的大规模使用。
在那之前,我们不能宣称任何事情,除了模型看起来相当不错这一事实。
从更技术的角度来看,他们也决定部分遮蔽推理模型的思维链(尽管没有像 OpenAI 那样严重)。
换句话说,他们故意隐藏模型的思维过程,因此你无法看到它。
这一点必须受到批评,即使埃隆对原因(为了避免抄袭)是诚实的。原因在于,看到大多数创新和新突破来自中国,而不是西方,已成为一种典型模式。
例如,DeepSeek R1,或多或少与今天讨论的模型处于同一水平,没有部分遮蔽的思维链;任何人都可以阅读并利用它们来改进他们的模型。
换句话说,现在真正推动行业进步的是中国,而不是美国。
我觉得我们持续攻击中国——坦率地说,毫无疑问——对自由的限制,以及如果中国赢得 AI 竞赛将会有多危险,这种做法实在是不真诚,**却完全未能解决我们自己在这个问题上的问题,**就好像我们没有一小部分 AI 公司试图禁止开源,以确保只有他们能够构建这些系统,或者尽管实际上是建立在开源的基础上,却未能对此做出贡献。
这既虚伪又完全违背西方价值观,这些价值观是我们对其他国家如中国所宣扬的。也许我们并没有那么与众不同,但我们只是喜欢发出道德信号。
最后,为了结束这篇长文,那产品怎么样?
它真的值得吗?
目前的超值价格以及谁是真正的赢家。
至于该产品的性价比,一些早期用户如Andrej Karpathy对模型的能力非常乐观,这位研究人员将它们评估为o1-pro级别。
这意味着该模型在纸面上与OpenAI的每月$200模型相当,并且领先于Google和DeepSeek的产品。
需要注意的是,Grok-3 Reasoning的价格为每月$40,比OpenAI的价格低5倍。
如果情况确实如此,那么xAI在价格/价值比方面提供了最佳选择,至少与OpenAI相比。然而,这个价格很快就会变得昂贵,因为开源技术正在缩小差距,提供类似的免费能力。
此外,我们还必须考虑到像Google或DeepSeek这样便宜得多的选项,尽管它们在能力上似乎较弱,但价格却便宜得惊人。
但真正的赢家是NVIDIA,因为xAI证明了拥有最大的AI集群非常重要。曾经有人担心大规模进行AI训练已不再必要,但xAI证明了这种担忧并不成立。
Grok-3是在著名的100,000 H100s GPUs Colossus数据中心训练的,这是现存最大的AI训练和推理集群。时间线没有披露,但训练预算是Grok-2的15倍。假设Grok-2与GPT-4在同一水平,Grok-3的计算能力为4x10²⁶ FLOPs或400万亿次操作。
这完全是前所未闻,约为训练DeepSeek v3所用计算能力的两个数量级。是的,Grok-3并不是比v3好几百倍,但确实更好,真正的差异在于,你猜对了,使用了多少计算资源。
在成人桌上的新席位
因此,总的来说,这是一次非常成功的发布,价格非常具有竞争力。这对OpenAI来说是个坏消息,确实将xAI置于其他前沿AI实验室的水平,并且比Mistral或Cohere等其他公司领先几步。
他们证明了拥有一个出色的团队,尽管成立仅1年,但达到了前沿实验室的水平,因为他们建设数据中心的速度以及他们如何达到这种性能水平证明了他们拥有令人惊叹的工程才能。
至于行业的主要收获,当然,我们没有看到GPT-3.5到GPT-4的改进,但更大的模型和更大的推理时间计算正在提高性能。是的,像DeepSeek引入的训练和推理效率仍然是必要且受欢迎的,但它们并不能为资本支出(CAPEX)削减提供合理依据。
原因很简单;只有更大的计算(无论是通过训练还是通过更长的推理)已经证明是模型智能进步的解锁器。
因此,除非我们找到一种算法突破,真正允许模型以数量级更少的数据进行训练,否则增加计算实际上是目前唯一的选择。
总结如下:
- 如果你想提高模型的智能,你需要更大的集群。
- 因此,随着CAPEX/收入差距将继续扩大,我们需要问自己的问题不是更大的计算预算是否会导致名义上的进步(它们会),而是提高模型智能是否真的值得。
而参与者的明确意见是,确实值得。
同时,我们也可以得出另一个重要的结论:在资金充足的公司之间没有护城河。
真的没有护城河这种东西
资本,因此,计算资源的获取是你作为一家人工智能公司成功的唯一因素,紧随其后的是工程人才。
因此,如果这个说法是正确的,{insert frontier AI lab} 的护城河将仅基于两个因素:
- 他们是否能够筹集足够的资金来购买数据中心和人才
- 他们的工程团队是否能够扩展参与训练和推理的 GPU 数量(这比听起来要难得多)。
如果说 xAI 证明了什么,那就是他们并不是在 OpenAI 之前,而是他们实际上能够在创纪录的时间内兑现上述两点。
OpenAI 现在并不领先,但这并不是因为 xAI 领先,而是因为没有人领先。