英伟达即将让人工智能模型的价格崩溃

在CES上，Nvidia展示了一些有趣的新产品。其中最大的一件是Jensen Huang的新皮夹克。我是说，看看那件：这是技术发布会还是时装秀？

老实说，我有点惊讶更多人没有对此发表评论。这是Jensen迄今为止最好的皮夹克。

还有其他一些东西。新的RTX 50系列。令人惊讶的是，关于它们的报道绝大多数都是积极的。我特别喜欢Linus Tech Tips视频中的这条评论：

因为正如人们所指出的，50系列与40系列相比是个不错的选择，但与30系列相比就不那么好了。我觉得Nvidia知道新GPU的需求正在下降。在发布会上，他们展示了《赛博朋克》以240 FPS在8K下运行。真的吗？8K？有人在8K下游戏吗？此外，《赛博朋克》是在2020年发布的。难道真的没有更好的游戏来展示50系列的性能吗？

我认为会想要购买这些新卡的人不多。旧卡已经足够好。因此价格下跌。而且许多改进都是在软件上，特别是他们的DLSS，他们故意将其限制在新的50系列上。

但我在阅读评论时看到一个显著的批评：它的内存上限是16GB。好吧，除了5090，如果你想为显卡支付两千美元。但对于普通人来说，它的内存上限是16GB，而有人指出这并不是很多内存。

特别是使用统一内存的机器，这允许GPU和CPU共享内存。这是一个更高效的系统，因为这意味着更少的内存被浪费。使用这个系统，我的M1 Air和Steamdeck都有16GB的统一内存。Steamdeck的内存与一千美元的GPU相同，但没有连接电脑。现在这真是太可悲了。

为什么要对内存如此节俭？嗯，部分原因是因为Nvidia的价格过高。AMD的显卡在同样的价格下有24GB的内存，我不知道为什么人们如此热爱Nvidia。我一直避免使用它们，因为我总是遇到Nvidia驱动程序的问题。

但我认为Nvidia限制VRAM还有另一个原因：这样你就不能在上面运行大型LLM（大型语言模型）。大型语言模型是新型AI模型使用的，并消耗数GB的内存。Nvidia宁愿你购买两款产品，而不是一款可以做所有事情的GPU。通常我会抱怨，但他们的专用LLM机器相当令人印象深刻。介绍一下Project Digits。

Project Digits是一款预装了所有Nvidia AI软件的紧凑型Linux机器。可以把它想象成一款增强版的Mac mini。他们甚至展示了这台计算机的图片。

同样有趣的是，如果你放大，你可以看出这张图片是AI生成的。世界上最有价值的公司使用AI来取代某人的工作。这个主意只有Jensen会喜欢。把其中一台放在某人的桌子上并拍张照片需要多少工作？前几天我看到有人谈论他们的桌面设置，然后发布了一些随机的AI生成的图片。你在做什么？如果你谈论你的桌面设置，我希望桌面设置的照片是主图，而不是一些AI的胡说八道。你不这样做的唯一原因是你对自己的设置不满意，那我为什么要读你的文章呢？

无论如何，Project Digits配备了4TB的NVMe存储、128GB的统一内存和最新的Blackwell架构。全部售价三千美元。比GTX 5090贵不了多少。这真是让人看清5090的价值有多差。

而且如果你配置一台带有M4 Pro芯片、64GB内存和4TB存储的Mac mini，价格会比Project Digits更贵。

那些升级价格真的很贵，是吧？

Nvidia声称Project Digits可以运行2000亿参数的模型，如果你将两台设备连接在一起，可以运行4050亿参数的模型。4050亿，这个数字异常精确。他们为什么会使用这个数字？因为这就是最大的Llama模型的大小。Nvidia基本上在说：“现在你可以在家运行最新最强的Llama模型，而不必支付服务器的费用，这在之前是非常昂贵的。”

之前的费用是多少？嗯，这都是专有信息，但我们知道AWS的P5实例每小时收费98美元，所以是2354美元/天。两台Project Digits机器的费用是6000美元。因此，如果你购买2台Project Digits机器，你只需3天就能收回成本。

现在你可能会认为P5是过度配置。然而，我查看了这个帖子：

也许并不是。人们常常引用的价格远高于2台Project Digits机器的价格。

我认为可以肯定地说，Project Digits将彻底改变AI定价。我预计公司将开始购买一整排这些Project Digits机器，从而显著降低运行AI模型的价格，尤其是Llama模型，因为它是一个开放权重模型，意味着任何人都可以下载并运行。而且很多公司已经在运行它。

我对Llama的定价最初感到相当失望，它的定价与Anthropic、OpenAI和Google的模型不具竞争力。但我们可能会看到这种情况发生变化。

一旦Llama的价格下降，我可以看到整个行业随之而来。现在还不清楚这些模型有多大。除了Gemini Flash 8B。我很确定那只是80亿参数，意味着它可以适配消费级GPU。老实说，我有点失望Flash 8B的价格仅为完整版Gemini Flash的一半。如果他们想的话，我打赌他们可以把价格再压低。其实没有必要，因为Gemini Flash已经是最便宜的。嗯，我认为有一些AWS模型在技术上更便宜，但那是AWS所以很糟糕，就像AWS发布的所有其他垃圾一样。

我目前正在开发一款电子邮件应用程序Project Tejido，它将使用LLM扫描每一封电子邮件。我做了一些粗略的计算，似乎这是个好主意，因为成本会非常低。现在，我正在开发这个应用程序，结果发现我对每封电子邮件所需的令牌数量的估算错了……错了两个数量级。所以这让我花费的成本比预期要高得多。它仍然可行，但仅仅勉强可行，不像我最初的计算告诉我的那样便宜。我希望LLM的价格能进一步下降。希望LLM的成本能再下降两个数量级。

现在我不确定LLM是否会下降两个数量级，因为那接近电力的价格。但一个数量级？也许。因为要真正降低LLM的价格需要什么？竞争。我们最近并没有看到太多竞争。当然，有GPT-4o Mini和Claude 3.5 Haiku，但GPT-4o Mini相当老，而Claude 3.5 Haiku实际上比Claude 3.0 Haiku更贵。他们通过说它比3.0 Haiku更好来为这一成本增加辩护。

这正是问题所在：低端模型有竞争力，但高端的“前沿”模型却没有。我们需要的是前沿模型的价格下降。而实现这一点的唯一方法是让计算变得极其便宜。Nvidia的Project Digits正是这样做的，因此它即将压低AI模型的价格。

更新：许多人似乎在提到内存速度。Nvidia尚未披露该设备的内存带宽，但人们估计的数字在273GB/s到1TB/s之间。我不指望它能超过价格是其5倍的显卡，但我认为它仍然足够快以支持像Llama 405b这样的LLM，正如Jensen所暗示的，因此它仍然会比当前同规格的硬件便宜得多。