DeepSeek V3：超6710亿参数挑战ChatGPT，如何颠覆AI市场？

Rifx.Online
Natural Language Processing , Machine Learning , Ethics
29 Dec, 2024

Ali Shaker- 中国初创公司DeepSeek凭借其大型语言模型DeepSeek V3在全球AI界引起了广泛关注。该模型拥有6710亿参数，声称能够与OpenAI的GPT-4、Meta的Llama 3.1和Claude 3.5 Sonnet等重量级竞争对手抗衡。更引人注目的是，DeepSeek V3偶尔会自称为ChatGPT，这在各个平台上引发了专家和用户的惊讶与好奇。

但为什么这个模型会自称为ChatGPT？这种竞争将对AI驱动的内容生成的未来产生什么影响？本文将深入探讨这个新模型的具体情况、训练方法，以及新兴竞争者在AI市场上的影响。

DeepSeek V3的诞生及其成就概述

中国初创公司DeepSeek，是High-Flyer Quant于2022年分拆而成，最近发布了其大型语言模型（LLM）DeepSeek V3。(source)该模型拥有6710亿个参数，基于**Mixture-of-Experts (MoE)**架构，能够处理大规模数据集，并实现对自然语言的更深理解。根据DeepSeek的技术报告，该模型的开发总成本为558万美元，约需278万GPU小时。(source)

虽然这些数字看起来仍然相当可观，但与Meta的Llama 3.1等模型相比，节省了大量成本，后者消耗超过3000万GPU小时，或OpenAI的GPT-4o。DeepSeek通过利用先进的管道算法、优化的通信框架和低精度计算（FP8）实现了这一成本和资源效率。

这种方法对中国初创公司尤其重要，因为它们面临美国制裁，限制了对先进Nvidia芯片如H100或A100的访问。相反，DeepSeek依赖于专为中国市场设计的H800 GPU。

为什么 DeepSeek V3 是一个强有力的竞争者？

根据 DeepSeek 的说法，该模型在文本理解、文本生成、编码和问题解决等任务中，表现超越或至少与竞争对手持平。在一些内部基准测试中，DeepSeek V3 的结果与 GPT-4o、Claude 3.5 Sonnet 和 Llama 3.1 等模型相当，甚至有所超越。虽然独立评估仍在等待中，但这些说法已经足以引起媒体和专家的关注。

乍一看，该模型的主要优势在于其较低的训练成本和时间要求。然而，DeepSeek 还声称，尽管存在硬件限制，该模型在自然语言处理方面提供了高准确性。这一优势可归因于 DualPipe 算法等优化，该算法在微批处理的前向和反向处理过程中重叠计算和通信阶段。这减少了计算瓶颈，加快了数万亿文本标记的处理速度。

为什么 DeepSeek V3 自称为 ChatGPT？

这个模型最引人注目的方面之一是它在各种平台上对用户查询的回应倾向于使用诸如“我就是 ChatGPT”或“我是 OpenAI 的 GPT-4\ 的一个版本”等陈述。这种现象被称为 模型幻觉，发生在模型在训练过程中吸收了来自 ChatGPT 或 GPT-4 的响应片段，并在没有区分的情况下重现它们。 (source)

分析人士认为 DeepSeek V3 可能是在包含 ChatGPT 或其他 AI 模型生成文本的数据集上进行训练的。随着网络上点击诱饵内容农场、机器人和开放文本 AI 输出的数量不断增加，这类响应不可避免地会进入训练数据。

因此，该模型无意间重现了最初源自其他 AI 输出的短语。虽然这种现象并不新鲜——类似的问题在谷歌和其他公司的模型中也有报道——但它引发了对 AI 数据集的训练和策划的担忧。

DeepSeek 是否故意使用了 GPT-4 数据？

这个关键问题引发了专家们的争论。一方面，OpenAI 的服务条款明确禁止使用 ChatGPT 或 GPT-4 的输出数据来训练竞争模型。另一方面，DeepSeek 还未披露其训练数据集的详细信息。

显而易见的是，该模型可能依赖于大量公开可用的数据，这使得很难确定其中有多少来源于 GPT-4 或 ChatGPT。

一些研究人员认为，即使 DeepSeek 确实直接提炼了 ChatGPT 输出的知识，这对于希望节省时间和成本的初创公司来说，可能被视为一种有吸引力的捷径。然而，这种做法增加了出现幻觉和不准确性的风险。随着时间的推移，从其他模型输出中进行链式学习可能使模型与现实脱节，并降低其精确度。

效率与伦理及法律问题

潜在的复制 ChatGPT 的训练数据引发了伦理和法律问题。未经注明地再现其他模型的输出引发了关于知识产权、所有权和透明度的担忧。

从技术角度来看，这种做法存在在派生模型中积累错误的风险。正如重复复印会降低质量，反复在其他 AI 生成的输出上进行训练会削弱数据的质量，从而影响模型的性能。

DeepSeek克服重复数据的努力

DeepSeek承认其通过实施低精度技术如FP8和利用**专家混合（MoE）**方法来减少对重复训练数据的依赖。然而，这些声明的真实性将取决于独立测试以及模型代码和权重的发布。

好消息是，DeepSeek已宣布计划开源DeepSeek V3模型及其权重，使研究界能够公正地评估其性能。

制裁的作用与 H800 GPU 的使用

DeepSeek 创新的策略之一是为了减少计算需求和资源，这与美国对中国 AI 行业的严格制裁密切相关。中国公司在 AI 开发中严重依赖 Nvidia 的先进芯片。然而，出口限制使他们只能使用这些芯片的降级版本，例如 H800 GPUs，在 NVLink 带宽 和整体速度上明显弱于 H100 GPUs。

尽管存在这些限制，DeepSeek 仍然利用 2,048 个 H800 GPUs 结合精确的优化，在仅仅两个月内训练完成 DeepSeek V3，消耗了大约 2.78 万小时 GPU。相比之下，Meta 的 Llama 3.1，拥有 4050 亿参数，训练所需时间超过 3000 万小时 GPU。这个对比表明，一个规模较小但经过良好优化的集群可以生成一个高效能的模型。

部署大型模型的挑战

虽然 DeepSeek 在训练过程中取得了显著的成本效率，但其技术文档强调，部署如此大型的模型仍然需要大量的基础设施和专业的预处理及解码策略。

即使训练成本降低，小公司和初创企业仍可能难以负担部署所需的基础设施。为了解决这个问题，DeepSeek 计划不仅公开其模型，还将提供 聊天机器人服务 和 API，使小型企业能够利用该模型的能力。

DeepSeek对AI内容生成市场的影响

大型语言模型和人工智能领域的竞争日益激烈。随着竞争加剧，主要公司被迫提供更高质量和更具成本效益的服务，以保持市场份额。随着像DeepSeek V3这样强大的模型的出现，市场变得更加多样化，为开发者、内容创作者甚至小型初创企业提供了更多的选择。

然而，随着可用模型数量的增加，数据污染和重叠的AI输出等问题可能会加剧。网站和社交媒体平台上已经充斥着AI生成的文本，这使得新模型的学习过程变得复杂。这反过来又促使专家们采用更严格的数据清理策略来处理训练数据集。

为什么 DeepSeek V3 可能会塑造未来

DeepSeek V3 的快速发展和竞争性能，在看似有限的资源下取得，向 AI 行业传达了一个强有力的信息：在训练和优化技术上的创新可以克服对先进硬件的缺乏。 从战略上看，这对中国尤其重要，因为它表明，尽管面临制裁和严重的硬件限制，仍然有可能成为全球竞争者。

此外，通过开源其模型，DeepSeek 邀请个人和公司进行测试、改进和增强。这为针对特定用例量身定制的本地化和定制版本的 DeepSeek V3 打开了大门，促进了更强大的 AI 生态系统，并加速了技术进步。

未来展望

DeepSeek V3 的出现不仅在媒体上引起了轰动，还突显了人工智能市场的潜力和激烈竞争。尽管该模型面临诸如幻觉和错误识别为 ChatGPT 等挑战，但其在基准测试中的相对成功以及训练的显著成本效益表明，它可能对 OpenAI 和 Meta 等行业领导者构成严重挑战。

这一发展有两个主要影响：

对大型科技公司的压力增加，以改进和优化其解决方案。
开发者和最终用户的可访问性提高，他们将拥有更广泛的工具选择，以满足特定需求。

如果管理得当，这种竞争可能带来积极变化，包括降低服务成本、提高响应质量以及扩大人工智能在各个领域的应用。

另一方面，“训练数据污染”的问题以及来自重叠 AI 输出的复杂性将促使利益相关者加强监督和数据清理过程。

因此，DeepSeek V3 不仅仅是拥挤的人工智能市场中的一个新进入者；它在制裁和严重硬件限制面前，象征着大胆和创新。如果 DeepSeek 关于其模型在与 GPT-4、Claude 3.5 和 Llama 3.1 竞争优势的声明得到验证，AI 内容生成市场可能正处于重大转型的边缘——这种转型将塑造未来几年的技术轨迹。

在不久的将来，我们可能会看到少数几个主要的全球竞争者，各自利用其独特的优化来挑战这一领域的成本和质量。最终，企业和最终用户将从中受益，获得更广泛的 AI 模型，以更大规模地实施创意。