英伟达即将让人工智能模型的价格崩溃
- Rifx.Online
- Technology , AI , Generative AI
- 14 Jan, 2025
在CES上,Nvidia展示了一些有趣的新产品。其中最大的一件是Jensen Huang的新皮夹克。我是说,看看那件:这是技术发布会还是时装秀?
老实说,我有点惊讶更多人没有对此发表评论。这是Jensen迄今为止最好的皮夹克。
还有其他一些东西。新的RTX 50系列。令人惊讶的是,关于它们的报道绝大多数都是积极的。我特别喜欢Linus Tech Tips视频中的这条评论:
因为正如人们所指出的,50系列与40系列相比是个不错的选择,但与30系列相比就不那么好了。我觉得Nvidia知道新GPU的需求正在下降。在发布会上,他们展示了《赛博朋克》以240 FPS在8K下运行。真的吗?8K?有人在8K下游戏吗?此外,《赛博朋克》是在2020年发布的。难道真的没有更好的游戏来展示50系列的性能吗?
我认为会想要购买这些新卡的人不多。旧卡已经足够好。因此价格下跌。而且许多改进都是在软件上,特别是他们的DLSS,他们故意将其限制在新的50系列上。
但我在阅读评论时看到一个显著的批评:它的内存上限是16GB。好吧,除了5090,如果你想为显卡支付两千美元。但对于普通人来说,它的内存上限是16GB,而有人指出这并不是很多内存。
特别是使用统一内存的机器,这允许GPU和CPU共享内存。这是一个更高效的系统,因为这意味着更少的内存被浪费。使用这个系统,我的M1 Air和Steamdeck都有16GB的统一内存。Steamdeck的内存与一千美元的GPU相同,但没有连接电脑。现在这真是太可悲了。
为什么要对内存如此节俭?嗯,部分原因是因为Nvidia的价格过高。AMD的显卡在同样的价格下有24GB的内存,我不知道为什么人们如此热爱Nvidia。我一直避免使用它们,因为我总是遇到Nvidia驱动程序的问题。
但我认为Nvidia限制VRAM还有另一个原因:这样你就不能在上面运行大型LLM(大型语言模型)。大型语言模型是新型AI模型使用的,并消耗数GB的内存。Nvidia宁愿你购买两款产品,而不是一款可以做所有事情的GPU。通常我会抱怨,但他们的专用LLM机器相当令人印象深刻。介绍一下Project Digits。
Project Digits是一款预装了所有Nvidia AI软件的紧凑型Linux机器。可以把它想象成一款增强版的Mac mini。他们甚至展示了这台计算机的图片。
同样有趣的是,如果你放大,你可以看出这张图片是AI生成的。世界上最有价值的公司使用AI来取代某人的工作。这个主意只有Jensen会喜欢。把其中一台放在某人的桌子上并拍张照片需要多少工作?前几天我看到有人谈论他们的桌面设置,然后发布了一些随机的AI生成的图片。你在做什么?如果你谈论你的桌面设置,我希望桌面设置的照片是主图,而不是一些AI的胡说八道。你不这样做的唯一原因是你对自己的设置不满意,那我为什么要读你的文章呢?
无论如何,Project Digits配备了4TB的NVMe存储、128GB的统一内存和最新的Blackwell架构。全部售价三千美元。比GTX 5090贵不了多少。这真是让人看清5090的价值有多差。
而且如果你配置一台带有M4 Pro芯片、64GB内存和4TB存储的Mac mini,价格会比Project Digits更贵。
那些升级价格真的很贵,是吧?
Nvidia声称Project Digits可以运行2000亿参数的模型,如果你将两台设备连接在一起,可以运行4050亿参数的模型。4050亿,这个数字异常精确。他们为什么会使用这个数字?因为这就是最大的Llama模型的大小。Nvidia基本上在说:“现在你可以在家运行最新最强的Llama模型,而不必支付服务器的费用,这在之前是非常昂贵的。”
之前的费用是多少?嗯,这都是专有信息,但我们知道AWS的P5实例每小时收费98美元,所以是2354美元/天。两台Project Digits机器的费用是6000美元。因此,如果你购买2台Project Digits机器,你只需3天就能收回成本。
现在你可能会认为P5是过度配置。然而,我查看了这个帖子:
也许并不是。人们常常引用的价格远高于2台Project Digits机器的价格。
我认为可以肯定地说,Project Digits将彻底改变AI定价。我预计公司将开始购买一整排这些Project Digits机器,从而显著降低运行AI模型的价格,尤其是Llama模型,因为它是一个开放权重模型,意味着任何人都可以下载并运行。而且很多公司已经在运行它。
我对Llama的定价最初感到相当失望,它的定价与Anthropic、OpenAI和Google的模型不具竞争力。但我们可能会看到这种情况发生变化。
一旦Llama的价格下降,我可以看到整个行业随之而来。现在还不清楚这些模型有多大。除了Gemini Flash 8B。我很确定那只是80亿参数,意味着它可以适配消费级GPU。老实说,我有点失望Flash 8B的价格仅为完整版Gemini Flash的一半。如果他们想的话,我打赌他们可以把价格再压低。其实没有必要,因为Gemini Flash已经是最便宜的。嗯,我认为有一些AWS模型在技术上更便宜,但那是AWS所以很糟糕,就像AWS发布的所有其他垃圾一样。
我目前正在开发一款电子邮件应用程序Project Tejido,它将使用LLM扫描每一封电子邮件。我做了一些粗略的计算,似乎这是个好主意,因为成本会非常低。现在,我正在开发这个应用程序,结果发现我对每封电子邮件所需的令牌数量的估算错了……错了两个数量级。所以这让我花费的成本比预期要高得多。它仍然可行,但仅仅勉强可行,不像我最初的计算告诉我的那样便宜。我希望LLM的价格能进一步下降。希望LLM的成本能再下降两个数量级。
现在我不确定LLM是否会下降两个数量级,因为那接近电力的价格。但一个数量级?也许。因为要真正降低LLM的价格需要什么?竞争。我们最近并没有看到太多竞争。当然,有GPT-4o Mini和Claude 3.5 Haiku,但GPT-4o Mini相当老,而Claude 3.5 Haiku实际上比Claude 3.0 Haiku更贵。他们通过说它比3.0 Haiku更好来为这一成本增加辩护。
这正是问题所在:低端模型有竞争力,但高端的“前沿”模型却没有。我们需要的是前沿模型的价格下降。而实现这一点的唯一方法是让计算变得极其便宜。Nvidia的Project Digits正是这样做的,因此它即将压低AI模型的价格。
更新:许多人似乎在提到内存速度。Nvidia尚未披露该设备的内存带宽,但人们估计的数字在273GB/s到1TB/s之间。我不指望它能超过价格是其5倍的显卡,但我认为它仍然足够快以支持像Llama 405b这样的LLM,正如Jensen所暗示的,因此它仍然会比当前同规格的硬件便宜得多。