苹果的新 Mac Studio 与 NVIDIA 的 Project Digits:性能与创新的深入探讨
图片来自 Mediamodifier on Unsplash
终极 LLM 个人电脑
苹果今天发布了两件大事:MacBook Air M4 和搭载 M4 Max/M3 Ultra 芯片的 Mac Studio。 你知道当蒂姆·库克发布 “something is in the air” 的帖子时:
我怀疑这意味着 MacBook Air 将是本周的重磅发布。 看来不是。 MacBook Air 只是获得了一颗新芯片和一个新颜色。 它仍然有那个丑陋的刘海,我在我的 M4 Pro 帖子中抱怨过。 现在它可能不会困扰你,但它困扰我。 也没有纳米纹理,尽管我无论如何也不会买它。
老实说,如果我今天推荐新的 MacBook,我会说尝试在亚马逊上找到一款配置良好的翻新 M1 Air,至少有 512GB 的存储空间。 内存被高估了,你可以用 8GB,现在有内存压缩和交换,但 256GB 很快就会填满。
但令人惊讶的是,比 M4 Air 更大的发布是 M4 Max/M3 Ultra Mac Studio。“有什么大不了的,它只是一颗新芯片。” 嗯,它不仅仅是一颗新芯片,它还有更多的内存,高达 512GB 的统一内存。 这比之前的 192GB 统一内存有所提升。 那是很多内存,你可以用它来做什么?
嗯,今年早些时候在 CES 上,英伟达发布了 Project Digits,这促使我写了这篇文章 英伟达即将瓦解人工智能模型的价格。
在那篇文章中,我将 Project Digits 与 Mac mini 进行了比较。
Project Digits 是一台紧凑的 Linux 机器,预装了所有花哨的英伟达人工智能软件。 把它想象成一台超级 Mac mini。
我甚至做了一个价格比较
另外,纯粹出于好玩,如果你配置一台搭载 M4 Pro 芯片、64GB 内存和 4TB 存储的 Mac mini,它会比 Project Digits 更贵。
那么,如果你配置一台搭载 4TB 存储和 128GB 内存的 Mac Studio 会发生什么? 嗯,它仍然比 Project Digits 贵,为 4,699 美元。
但是,如果你仔细查看 Project Digits 的新闻稿,它会说:
每个 Project DIGITS 都配备 128GB 的统一、一致的内存和 高达 4TB 的 NVMe 存储。
如果你购买的 Mac Studio 只有 512GB 的存储空间,价格为 3,499 美元,所以仍然更贵,但没有那么贵。
但它没有上限于 128GB 的内存,我们可以更进一步。 如果我们使用 256GB 的内存呢? 那么价格是 5,599 美元 - 6,599 美元。 大致与 2 台 Project Digits 机器的价格相同。
然后我们可以更进一步。 完整的 512GB 呢? 嗯,那就是 9,499 美元 - 10,499 美元。 这比 4 台 Project Digits 机器便宜很多。
尽管甚至不知道你是否可以购买 4 台 Project Digits 机器并将它们连接起来。 在新闻稿中,英伟达只说你可以连接 2 台:
借助超级计算机,开发人员可以运行多达 2000 亿个参数的大型语言模型,以加速 AI 创新。 此外,使用 NVIDIA ConnectX® 网络,可以连接两台 Project DIGITS AI 超级计算机来运行多达 4050 亿个参数的模型。
而且这也不是一场比赛,但在苹果的 Mac Studio 新闻稿中,他们说他们可以运行更大的模型:
Mac Studio 是人工智能的强大动力,能够完全在内存中运行超过 6000 亿个参数的大型语言模型 (LLM),这得益于其先进的 GPU 和高达 512GB 的统一内存与 M3 Ultra — 这是个人电脑有史以来最多的。
尽管我不确定拥有 6000 亿个参数的空间有多大用处。 如果你查看 Ollama,没有那么多那么大的模型。 唯一的一个是 DeepSeek,它有 6710 亿个参数,你可能(勉强)可以在 Mac Studio 上运行它。 尽管政府正试图让下载 DeepSeek 成为非法行为,但我们将拭目以待。
尽管更多的内存允许你以更多的量化级别(参数的大小)运行模型,因此它可以给你更多的实验空间。
现在唯一的问题是 Apple Silicon 与英伟达的 Blackwell 架构相比如何。 苹果实际上在他们的新闻稿中简要地提到了这一点。
与配备 M1 Ultra 的 Mac Studio 相比,在 LM Studio 中使用具有数千亿个参数的 LLM 时,令牌生成速度提高了 16.9 倍,这得益于其大量的统一内存。
很难说他们是什么意思。 每秒令牌数因模型而异,他们使用了 M1 Ultra 进行比较,这有点奇怪。 我估计 Mac Studio 在大多数模型上每秒可以获得大约 50–100 个令牌,如果苹果的说法是准确的。
英伟达尚未透露 Project Digits 的每秒令牌数。 Blackwell 可以达到每秒 1 万个令牌,但是这是针对他们的高端 H200,一个 30,000 美元的 GPU,Project Digits 将无法达到这个水平。
我确实找到了这条推文:
Project Digits 可以以 8 tok/sec(读取速度)运行 Llama 3.3 70B (fp8)。
我不确定他们是如何得到这个数字的。 在同一条推文中,他们说 Project Digits 将在 f16 上达到 250 teraflops,这对我来说似乎非常高。
尽管它可能大致准确。 苹果已经公开了 M3 Ultra Mac Studio 的内存带宽为 819GB/s,M4 Max 为 410GB/s。 英伟达尚未披露 Project Digits 的内存带宽,但人们猜测它可能低至 273GB/s。
将 Project Digits 与 Mac Studio 进行比较确实非常困难,原因主要在于:我们对 Project Digits 几乎一无所知。 我相信苹果知道这一点,这就是为什么他们没有像我认为的那样积极地为 Mac Studio 定价。
主要问题是 Mac Studio 是否会比 Project Digits 更有价值。 对于超大型模型(400B 参数 +)和个人使用,我认为答案是肯定的。 但是,如果你要将这些东西安装在机架上并为多个用户提供服务,我们仍然需要知道 Project Digits 每秒可以处理多少个令牌。
尽管应该注意的是,Mac Studio 基于 MacOS,这是一个人们比 Linux 更喜欢使用的操作系统。 为使用 MacOS 而不是 Linux 并将所有内存放在一台机器中,这样你就不必处理多设备恶作剧,这可能值得付出溢价。 考虑到它还可以运行更大的模型,我非常有信心地说,即使在 Project Digits 发布后,M4 Max/M3 Ultra Mac Studio 也将是终极的 LLM 个人电脑。