史上最雄心勃勃的人工智能加密项目来了
- Rifx.Online
- Technology , Machine Learning , Blockchain
- 16 Nov, 2024
AI & 区块链:天作之合,还是骗局?
现代人工智能的奠基人之一希望利用区块链训练全球最大的开源大型语言模型(LLM),其规模几乎是 Llama 3.1 405B 的四倍,后者通常被认为是最佳的开放 LLM。
在你将这个标题视为欺诈性炒作之前,请注意,这一目标的提出者正是 Illia Polosukhin,他是“Attention is All you Need”论文的研究者之一,这篇开创性的论文催生了我们当前的人工智能革命。
那么,他们究竟想做什么?区块链在这一切中扮演什么角色?
继续阅读,了解人工智能和加密世界将如何不可避免地融合,以及这个项目如何最终创造一个由人民拥有的人工智能模型。
你可能厌倦了那些仅仅解释发生了什么的人工智能通讯。这很简单,任何人都可以做到,这就是为什么有这么多这样的通讯。
但解释为什么这很重要则是另一回事。这需要知识、调查和深思熟虑……这些都是每周与 TheTechOasis 互动的人所具备的特质,这是一份旨在回答人工智能中最紧迫问题的通讯。
🏝️🏝️ 今天就下面订阅:
拥有人工智能
随着特朗普的胜利,加密货币进入了一个即兴的牛市,比特币的价格离每枚$100k的标志异常接近,并达到了新的历史高点。
Near项目
在特朗普执政期间,区块链公司对未来有充分的理由感到乐观。其中一家公司是Near,它试图架起加密货币与人工智能之间的桥梁。
我不想详细介绍这个项目,因为我不想让你觉得我在赞助它(我并不拥有NEAR币)。然而,他们最近开始了一个伟大而雄心勃勃的目标,我深感认同:
训练有史以来最大的开源模型,由个人众筹,并由他们拥有。
具体来说,他们希望训练一个1.4万亿参数的模型,这个模型的规模将与GPT-4等模型相媲美,并且比世界上最大的开源(或者我敢说,开放权重的)LLM——Meta的Llama 3.1 405B大3.5倍,后者也被认为是今天最好的开放模型。
为了实现这一目标,他们预计需要众筹一笔可观的1.6亿美元,通过获取$NEAR币来资助,这是一种截至今天市值为66亿美元的加密货币。
然而,真正的问题不是规模,而是他们希望通过沟通不畅的硬件以去中心化的方式训练这个模型。通俗地说,他们并不打算在像埃隆·马斯克在田纳西州孟菲斯拥有的140兆瓦数据中心,配备10万GPU中训练这个模型,而是希望在全球范围内进行训练。
对于熟悉这些模型训练方式的人来说,这在今天的人工智能领域是极其雄心勃勃的。
但为什么呢?
时间的重要性
您可能听说过关于AI训练和推理的疯狂数字,但这些数字仅仅是未来的一个缩影。
- 埃隆·马斯克在一个地点拥有100,000个NVIDIA H100 GPU,并打算在接下来的几个月内将计算能力翻倍,达到200,000个H100等效设备。
- 所有超大规模云服务商(微软、亚马逊、Meta、谷歌或甲骨文)正在与核电站达成协议,或已达成协议与小型模块化反应堆公司合作,建设核能发电以供其数据中心使用,从而避免传输线路和电气变压器的过长交付时间。
- 一家超大规模云服务商向北达科他州州长道格·伯古姆提议建设一个5–10吉瓦的数据中心。作为参考,后者的数据中心将拥有比微软整个Azure云(5 GW)更强的计算能力,并消耗足够的电力为830万美国家庭提供电力,按美国家庭平均消费值为10,500 KWh/年计算。
而且这个名单还在继续。但为什么?
原因就是时间。要训练一个模型,您需要向它发送数据,强迫它进行预测,并测量该预测的准确性。根据这个误差信号,我们随后更新模型的参数,以使预测误差随时间降低。
这个过程的问题有两个方面:
- 模型非常庞大,这意味着每次我们需要更新参数时,可能要更新数万亿个参数。
- 数据集也非常庞大,这意味着参数更新的数量是难以想象的巨大。
这导致训练过程如果按顺序执行将永无止境。幸运的是,由于现在大多数前沿AI模型基本上是在进行超大规模的矩阵乘法,这与在计算机屏幕上渲染像素的数学计算非常相似,这也是GPU的最初目标,我们可以利用这种硬件来训练这些模型。
关键是,GPU旨在并行计算,这意味着我们可以广泛地并行训练这些模型(尽管由于阿姆达尔定律并不能完全并行)。
这就是为什么像Llama 3.1 405B这样的模型在一个24,000 GPU集群上训练,以及像xAI的新Grok和Meta的Llama 4这样的模型在超过100,000个GPU集群中训练的原因。
好吧,我明白这些模型需要大量GPU同时工作才能进行训练。但它们是如何做到的?
分布式训练的本质
在分布式训练中,我们不是训练一个单一的模型并通过将所有数据发送到该实例来更新它,而是构建副本,即模型的相同版本,每个副本分配给一个特定的GPU pod(pod是一组紧密连接和共置的GPU)。
然后,我们对训练集进行批处理,并将批次分配给不同的pods。当然,这意味着每个副本接收不同的训练数据,因此学习到的内容也不同。
因此,每隔一段时间,GPU pods需要同步,与其他pods共享它们的学习,这意味着在这个同步阶段之后,所有模型副本都有完全相同的参数值(因为每个模型副本实际上是用平均学习值进行更新的,因此在每个批次训练步骤之后,所有模型副本学习到的内容都是相同的)。
虽然这一切看起来很好,但这种同步是一个大问题,因为这些同步更新意味着所有pods在同步期间基本上都是停滞的,这使得训练时间变得危险地过长(这些训练实际上需要几个月)。
更糟糕的是,Near希望以低带宽的形式进行这项工作,这意味着GPU pods之间的通信通道将会很慢。
因此,他们该如何做到这一点,区块链将发挥什么作用? 幸运的是,我们对这两个问题的答案比你预期的要详细得多。
朝向去中心化的人工智能
幸运的是,Near并不是唯一一个考虑去中心化人工智能的项目(尽管Near加入了区块链;我们稍后会看到他们的做法),在本文撰写时,世界上最大的去中心化训练正在进行中,正如你阅读这篇文章时所看到的。
Prime框架
Prime Intellect是一家致力于以去中心化方式训练大型LLM的公司,旨在完全去中心化地训练Intellect-1,这是一个拥有100亿参数的模型。
换句话说,训练过程分布在多个GPU上,这些GPU由独立方拥有,可能分布在不同的大陆,并通过低带宽网络连接。
您可以通过这个应用程序观看进展和参与的不同方。
这使我们对Near如何实现训练有史以来最大的开源AI模型的使命有了很好的洞察。
正如您从前一部分中猜测的那样,AI训练的主要瓶颈是同步更新。根据阿姆达尔定律,如果训练中的某个环节无法并行化,则并行化可能会导致收益递减。
因此,随着并行化的增加,节省时间的改进变得增量化,因为我们无法减少同步时间。
如果您想知道,无法异步执行同步(每个pod独立更新其参数值),因为模型收敛变得不可能(至少在我们目前的知识中)。
知道这一点后,Prime Intellect实施了几种Near肯定会利用的技术:
- 每百步同步一次。
每次参数更新时,不是每个GPU pod都进行同步,而是每个pod携带其“伪梯度”(在多个本地训练时间步骤中积累其学习),每100个这样的时间步骤,它与其他pod分享其学习。
简单来说,由于学习共享是训练性能的主要瓶颈,我们最小化GPU pod之间的通信次数。
- 通信负载的量化。
跨pod通信的次数并不是唯一影响时间的因素;共享信息的数量也很重要。因此,我们对学习进行量化,以便信息以压缩形式传递,从而加快速度。
这将通信需求减少了400倍。在标准情况下,同步可能需要长达40分钟。通过这种量化,所需时间少于一分钟。
什么是量化? 简而言之,我们对想要存储(或共享,如本例所示)的信息进行处理,降低每个参数的精度(而不是‘1.023293’,该数字以‘1’的形式传递)以优化器状态(携带每个模型副本学习内容的状态)。
可以将其视为在发送之前将数据压缩成zip文件,以便发送的数据包大小更小,从而更快发送。
然而,虽然可以恢复原始数字(反量化),但会造成一些精度损失,这可能会影响性能。然而,Prime Intellect声称他们没有感受到任何性能损失,尽管节省了大量时间。
- 动态全球组
去中心化模型训练的最大问题之一是可靠性;网络和,最重要的是,工作者(GPU)可能会崩溃和失败。此外,您希望激励这种动态性,以便人们可以共同参与训练并在需要时下线。
为此,Prime框架具有动态全球组,确保工作者可以在不影响整体训练过程的情况下上线和下线。
此外,框架还包括其他技术,如异步检查点,我不会详细介绍以节省篇幅,但您可以在这里详细阅读。
但我们仍然没有回答关键问题:区块链在这一切中适合什么?
激动人心的未来
在接下来的四年里,您将看到区块链无处不在。
是的,‘{插入某个运作良好的东西}但现在它是去中心化的’ 这种口号将重新回到我们的生活中。
虽然许多新的用例可能毫无意义,但区块链确实有一个明确的存在理由,使其在必要时使用时非常有价值,而不是为了说您在使用区块链。
这是一份账本
区块链是去中心化的账本。它们以区块的形式存储两个节点之间的交易信息,这些区块按顺序连接在一起(因此得名)。
这非常重要,因为它们的去中心化特性使得这个账本几乎不可能被篡改。真正的区块链(今天符合这一标准的并不多)是不可变的和明确的,是某个时刻交易发生的无可争议的事实来源。
重要的是,它们是“无信任”的,这意味着加密技术,而不是像银行这样的中心化实体,保证了账本的未被篡改的特性。
它们之所以如此难以篡改,您猜对了,是因为它们的去中心化特性。保护区块链的全球节点网络都有网络的精确副本,每次添加新块时都会更新。
因此,要引入被篡改的交易,您需要拥有这些节点的多数,无论是通过在像比特币这样的工作量证明区块链中投入巨额计算资源(成本极高)、黑客攻击大多数节点(同样,成本极高),还是通过在像以太坊这样的权益证明区块链中拥有多数的加密货币股份(同样,成本极高)。
长话短说,区块链的价值在于,使篡改它们的行为在经济上成为一个非常非常糟糕的主意,这样做根本不值得。
因此,它们的价值在于,不仅是伟大的真相来源,为交易提供信任,而且还免于可能有动机去篡改它们的中心化权力。
这与人工智能有什么关系? 这就是一切回归的地方。
拥有的人工智能需要区块链
训练去中心化人工智能模型的想法是,参与训练该模型的人(无论是通过计算还是资金)都将获得奖励。
因此,这个1.4万亿参数模型的目标是将其推断(使用)回报给其资助者。
而区块链在这里发挥了作用,作为不可否认的证据,证明*“来自内布拉斯加州的简·多”支付了1,000美元来资助这项训练,或者“来自日本的约翰·多”*证明他们提供了100小时的GPU计算用于训练,因此,两者都是该模型推断收益的合法接收者(每次模型运行时,您都会获得报酬)。
现在,您可能会问:一个中心化实体能管理这一切吗?
当然可以,但区块链的核心目的就是防止需要这样的中心实体的存在,并确保没有人完全控制谁拥有什么或您获得多少报酬。
现在,考虑到所有因素,这个愿景今天真的可能实现吗?
可行性是否符合愿景?
任何人都很容易与 Near 的 AI 愿景保持一致,尤其是考虑到这个项目背后的人。
设想一个去中心化经济围绕 AI 兴起的未来,以确保人们因其数据、内容、计算或专业知识而获得报酬,并对此获得明确和客观的奖励,这是任何人都能共鸣的愿景。
然而,基于当前标准,1.4万亿参数的模型显得过于庞大。正如所提到的,Intellect-1,目前已知的最大训练模型,仅为 Near 打算构建的模型的 140 分之一。
另一个担忧是区块链。例如,有关 NFT 的最大谎言之一是区块链仅存储 NFT 交易发生的事实,**但 NFT 是“链外”存储的。**可悲的是,真相是,只有存储在区块链中的数据是完全受保护的,因此实际的“艺术品”在很大程度上是没有保护的,且易于复制。
然而,区块链 notoriously 低效,这意味着你在“链上”存储的数据越少越好,这使得它们非常不实用。
因此,如果模型、数据或用于训练模型的计算都不会存储在区块链上,那有什么意义呢?
幸运的是,有一个解决方案:零知识证明,今天为了篇幅原因我不打算深入探讨,这可能是确保事件发生的关键,即使它没有存储在链上。
通过 zk-proofs,某人可以证明他们声称用于训练的计算确实发生了,或者他们确实资助了训练过程,通过存储该交易的注册信息,并附上一个 zk-proof,证明某个链外事件确实发生。
因此,仅通过存储 zk-proof,我们可以确保即使是链外数据也可以被信任。问题是? 由于 zk-proof 对计算的要求很高,它们尚未准备好。
然而,有一点仍然成立:如果你真的相信 AI 可以去中心化,你必须相信区块链是合法的。
但这种类型的公告让你感觉如何?你对 Crypto 和 AI 之间的协同作用感到兴奋吗?
还是每次看到区块链提及时,仍然觉得是一种“骗局”? 如果是这样,我不怪你,但如果你能够抽离出 Crypto 的无数骗局,你会意识到这项技术将在 AI 中发挥重要作用。
如果 Near 是对的,那将比预期的更早到来。