
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?
- Rifx.Online
- Technology , Finance , Ethics
- 10 Feb, 2025
在AI军备竞赛中分辨事实与虚构
DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀
虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。
从其声称的550万美元培训预算到使用OpenAI的ChatGPT进行提炼,DeepSeek的崛起引发了激烈的争论。它的故事远非简单——它对AI领域的影响远未确定。
在AI研究领域深耕多年,我在这里告诉你:这个兔子洞比任何人想象的要深得多。
在这篇文章中,我将揭穿关于DeepSeek AI的10个神话,所以准备好你的爆米花(也许还需要一个VPN?),因为这是你绝对不想错过的科技戏剧。🍿
顺便说一下,如果你想在其他人之前了解AI和AI投资,欢迎加入我们的Be Limitless社区。我们不仅在讨论AI的未来——我们还在积极从中获利。
神话 #1:DeepSeek 仅花费 $5.5 百万
最大的神话之一是 DeepSeek 仅花费 $5.5 百万来训练他们的 AI 模型,这与 OpenAI 花费的 $10 亿或 Anthropic 花费的 $7 亿相比简直微不足道。
这个神话来源于 DeepSeek 在 2024 年 12 月的论文,其中报告了 $5.5 百万的训练成本。然而,他们明确指出:“上述成本仅包括 DeepSeek-V3 的官方训练,不包括与先前研究和架构、算法或数据的消融实验相关的成本。”
根据一些估计,DeepSeek 的实际支出可能要高得多:在 $5 亿 和 $13 亿 之间。这些数字来自 SemiAnalysis 研究人员,显示了训练像 DeepSeek 这样的 AI 所需的真实 GPU 需求:
- 10,000 H100 GPUs — AI 高性能的黄金标准
- 10,000 H800s GPUs — 与 H100s 相同的计算能力,但网络带宽较低
- 30,000 H20s — 符合出口管制
- 总计:50,000 Nvidia GPUs
这些数字远远超过他们官方报告的数字。
还需要补充的是,DeepSeek 使用了现有的 AI 模型,如 ChatGPT,进行 AI 蒸馏。换句话说,它利用已建立的 AI 来更具成本效益地加速训练。虽然 DeepSeek 确实采用了更高效的算法和 合成数据,但 仅仅 $5.5 百万的总投资 的说法显然是不成立的。
神话 #2: DeepSeek 从 OpenAI 偷了东西
OpenAI 在检测到数十亿的 API 调用和可疑活动后,阻止了来自中国的流量——这就是我现在在香港使用 ChatGPT 需要 VPN 的原因。
也许“偷”这个词并不是最准确的说法,但 DeepSeek 确实通过一种称为蒸馏的方法,将 OpenAI 的 ChatGPT 作为其训练过程的重要组成部分。
在 AI 中,蒸馏是指一个更大、更复杂的“教师”模型将其知识转移到一个更小的“学生”模型。这种技术有助于以更低的成本创建更高效的模型。这并不本质上是“偷”,因为这是 AI 研究中一个被广泛记录的实践,用于使模型更易获取和高效。
这就是为什么不久前,如果你问 DeepSeek,“你是什么 AI 模型?”它会回答,“我是 ChatGPT。”
神话 #3: DeepSeek 是可用的最佳 AI 模型
将 DeepSeek 视为“最佳” AI 模型是一个巨大的简化。
首先,一个高度审查的 AI 模型不能被视为“最佳”,因为它的答案必须主要符合审查要求——在这种情况下,是中国政府的法规。
根据基准测试,DeepSeek R1 在 OpenAI o1 之后排名第二:
根据基准测试,DeepSeek R1 并不是最佳的,绝对也 不是最快的(如果你试过,你会知道它相当慢)。尽管如此,考虑到架构创新和效率,他们确实做出了一些很酷的改进。
DeepSeek 确实引入了一些显著的改进,使其与众不同:
- 思维链 (CoT): 当你提示 DeepSeek 时,你可以看到它在回答问题时的推理过程。AI “展示它的工作过程”,而不仅仅是给出最终答案。它将问题分解成更小的步骤,并解释它的思考过程,使其在解决复杂问题时表现更好,并帮助你理解它是如何得出结论的。
- 专家混合 (MoE): DeepSeek 分解为较小的专业脑,而不是一个巨大的通才脑。MoE 使用“路由器”将任务发送给最适合处理这些任务的专业 AI 专家。这使得它比一个庞大的系统试图做所有事情更高效,并且使用更少的计算能力。
神话 #4:DeepSeek 无法生成图像
DeepSeek 在 2025 年 1 月底推出了他们的 AI 图像生成器 Janus Pro\。
Janus-Pro 就像一个拥有两个大脑的 AI 艺术家——一个用于理解图片和文本,另一个用于绘制新图片。这被称为双编码器架构。虽然它的效果不如 DALL-E 3 或 MidJourney AI(只能生成 384 × 384 分辨率的图像),但它是开源的,免费使用,并且可以在 Hugging Face 上获取。
Janus Pro 就像一个拥有两个大脑的 AI 艺术家:一个用于理解图片和文本,另一个用于绘制新图片。这种双编码器架构虽然能力不及 MidJourney AI 或 DALL-E 3(仅限于 384 × 384 分辨率图像),但具有明显的优势:它是开源的,免费使用,并且可以在 Hugging Face 上获取。
神话 #5:DeepSeek的成功意味着Nvidia的GPU主导地位结束了
这显然不是真的,因为DeepSeek必须使用50,000个Nvidia H100和H800 GPU来训练其AI模型。
DeepSeek带来了效率,但效率将增加对AI使用的需求,从而增加对计算能力的需求,包括Nvidia GPU。
Nvidia的股票在1月27日下跌了17%,使公司市值蒸发了惊人的6000亿美元。我认为这是过度反应,但我不得不承认Nvidia的股票确实看起来被高估了,无论是否有DeepSeek的效率。
神话 #6:DeepSeek 使用非法 GPU
如果美国禁止向中国出口 Nvidia GPU,那么一家中国公司是如何获得数万块 Nvidia GPU 的?
DeepSeek 的首席执行官梁文峰是一位具有远见的企业家。据报道,他在这些 GPU 被禁止之前就开始购买这种类型的 GPU。
另一方面,自 DeepSeek 成立以来,针对中国的芯片出口禁令开始后,向新加坡的芯片销售增加了 8 倍。这些芯片不太可能全部用于这个小小的新加坡。
新加坡拥有显著的华人社区,充当了世界与中国之间的贸易桥梁,类似于香港的角色。
我是一位自由市场的支持者,我相信美国和中国(以及世界)将受益于取消这些出口禁令。我并不认为 DeepSeek 通过新加坡购买 Nvidia 芯片是犯罪行为。
神话 #7:DeepSeek的成功意味着美国投资被浪费了
在DeepSeek R1模型发布后不久,Nvidia等美国股票大幅下跌,原因是人们担心Nvidia芯片的需求将下降,因为DeepSeek推出了一种计算效率提高了10倍的AI模型。
美国公司在AI数据中心和AI芯片上投资了数十亿美元——那么……这些投资现在是浪费的吗?
不是。远非如此。更高效的模型将增加AI的使用,这将推动对计算能力的需求,并进一步推动对计算芯片的投资。
这一现象被称为杰文斯悖论:技术进步或资源使用效率的提高导致消费增加,而不是减少。
我们在各处都能看到杰文斯悖论的例子:
车辆燃油效率
汽车现在每英里消耗的燃料更少,鼓励节油行为。
👉🏻 矛盾: 这往往导致更多的驾驶或人们购买SUV,从而增加整体燃油消耗。
LED照明
LED的电力消耗远低于白炽灯泡。
👉🏻 矛盾: 较低的照明成本导致照明需求大幅增加,从而增加了全球能源消耗。
计算能力效率
根据摩尔定律,计算机芯片每两年效率提高2倍。
👉🏻 悖论: 提高计算效率往往导致软件变得更复杂,需要更强大的处理能力,这使得公司不得不扩展数据中心并增强数据密集型应用。
因此,答案是否定的,美国的投资并没有浪费,对AI计算能力的需求只会增加。
神话 #8:DeepSeek 模型直接挑战 OpenAI 的能力,暗示美国的 AI 效率低下
AI 的发展并不是孤立进行的。
每一个新的 AI 模型都是在巨人的肩膀上建立的。没有 OpenAI 的努力和数十亿美元的投资,DeepSeek 是不可能实现的。
中国公司擅长复制(并改进!)美国技术,这又是一个例子。
神话 #9:DeepSeek 已经为自己创建了一个不可打破的护城河
DeepSeek 的成功更多的是推动整个行业创新的催化剂,而不是不可改变的领先标志。竞争对手将继续推动边界,通过他们自己的进步可能会缩小任何差距。
值得注意的是,DeepSeek 是开源的,其进展与所有人共享。
使用 MIT 开源许可证意味着用户可以自由使用、复制、修改,甚至销售基于 DeepSeek 的软件。
神话 #10:所有数据都会返回中国政府
中国有法律,如网络安全法、数据安全法和个人信息保护法,要求中国公司以可以与中国政府共享的方式存储数据。
然而,这并不是自动发生的。理论上,只有在有法律依据的情况下,中国政府才会访问这些数据。
需要注意的是,这些数据保护法律的实际实施和执行仍然是一个持续讨论和观察的问题。
DeepSeek AI: 最终裁决
DeepSeek AI 引发了大量争议,但真相介于创新与独创之间。
最终,真相是 AI 模型正在商品化,很快我们将无法区分 DeepSeek、ChatGPT、Claude 或 Grok。