释放 Ai 潜力：Deepseek 如何改变工程视角和应用

Rifx.Online
Machine Learning , Large Language Models , Industry Insights
26 Feb, 2025

距离我上一次发帖已经快一年了——确切地说是去年的六月。原因是我没有遇到任何我觉得足够激动人心的事情来分享。不要误解我的意思；这并不是说人工智能没有进展，或者我过去六个月没有成果。相反，这个领域已经取得了显著的进展，而我自己的工作也相当丰硕。

话虽如此，我注意到前沿人工智能开发与人工智能应用开发者之间的脱节越来越明显。例如，美国政府对星际之门项目的5000亿美元投资。虽然这是一个雄心勃勃的计划，但对我们大多数人来说，具体会使用什么技术真的重要吗？如果这是人工智能的发展方向，似乎创新的前沿将越来越成为美国和中国这两个参与者的领域。对于世界其他地方来说，无论你是感兴趣的个人、公司还是国家；你都没有机会。

然后是应用层技术，比如RAG和人工智能代理。虽然RAG有用，但最终只是一个设计模式——并不是一个完整的现成解决方案。由于缺乏推理能力，它实际上是一个相当愚蠢的解决方案。另一方面，人工智能代理则充满了潜力，但仍然受到大语言模型推理可靠性的限制。从工程的角度来看，双方的核心挑战在于提高准确性和可靠性，以满足现实世界的业务需求。构建一个演示是一个事情；将其扩展到生产则是完全不同的挑战。

一切都在一个月前深寻的出现时发生了改变。我的经历就像是在夜间驾驶一段漫长而无聊的道路。我的眼睛半闭着，被引擎的单调嗡嗡声催眠。然后，突然间，一辆轰鸣的赛车飞速掠过我，扬起一阵灰尘，瞬间消失在远方。我坐在那里，目瞪口呆，嘴巴张开，盯着它留下的烟雾。那个时刻已经过去一个月，但那次遭遇的震撼仍在我脑海中回响。

深寻以无数种方式颠覆了世界。有人将其称为国家安全威胁、抄袭者、门槛者、数据盗窃者、提炼者等。我完全不认同这些说法。在拳击台上，情绪会模糊判断。如果你变得情绪化，你就已经输了。当泰森在数十亿电视观众面前咬下霍利菲尔德的耳朵时，那是一个弱点的时刻，而不是力量的表现。

在这篇文章中，我想将讨论转向深寻如何重新定义机器学习工程的未来。它已经激励我为2025设定新的目标，我希望它也能对其他机器学习工程师产生同样的影响。让我们探索这对我们领域意味着什么，以及我们如何迎接挑战。

人工智能增长模式重新定义

长期以来，人们普遍认为人工智能的发展严格遵循扩展法则——即模型性能随着数据集和计算资源的指数级增加而改善的观点。这一信念不仅为应用开发者设置了障碍，还对人工智能进展的可持续性提出了严峻的问题。当美国政府认为有必要投资5000亿美元用于下一代人工智能时，我们不得不思考：如何才能为这样的投资带来正回报的路线图？星际之门版本2的成本将是多少？5万亿美元？这可是美国联邦政府的年度预算收入！具有讽刺意味的是，星际之门通往通用人工智能的路线图是通过蛮力实现的，根本不智能。

考虑一下开放人工智能，作为该领域的领先参与者，仍然远未实现收支平衡。大语言模型训练成本的飙升开始让人联想到庞氏骗局，未来收益的承诺仅仅为不断增加的支出提供了正当理由。这引发了对这种方法长期可行性的担忧，以及人工智能行业是否正走向金融清算。

深寻的实践表明，当计算能力达到一定规模时，进一步增加计算能力对模型性能的提升效果会递减。凭借十多种优化和新算法，它能够以其他领先大语言模型的极小成本和资源实现相同甚至更好的性能。一些分析师称之为“计算饥饿的转折点”。

它的内容是：深寻通过优化算法和设计显著提高了计算效率，挑战了计算能力是最终决定因素的传统观念。

我从深寻得到的最重要的鼓励是，庞大的训练数据集并不是不可逾越的障碍，昂贵的硬件也不是硬性限制。只要具备正确的技能、决心和勇气，我们就能征服一切。

顺便提一下，就在这篇文章发布几小时后，埃隆·马斯克通过宣布在一个庞大的200,000 GPU集群上训练的Grok 3来炫耀他的雄厚资金。作为回应，深寻推出了一项突破性的新技术——NSA。在不到24小时内，NSA的公告吸引了令人印象深刻的160万次浏览。

机器学习工程重新定义

与大多数仅实验少量新算法的LLM技术报告不同，深寻非常慷慨地展示了一长串新开发：

128K-1M tokens长上下文窗口
多头潜在注意力
专家模型负载均衡
GRPO
HAI——他们自建的超级高效训练平台
混合精度训练
多标记预测
解耦旋转位置嵌入
在大语言模型训练中首次使用强化学习
在模型训练中首次使用PTX，GPU编程中的汇编语言。

这看起来像是深寻从其他领先公司抄袭吗？我觉得他们是从10年后的未来穿越回来的。

深寻用他们顶尖的工程技能所取得的成就令人着迷。他们也激发了机器学习工程师的新潜力。

数据质量的新标准

深寻在理解训练数据质量在人工智能模型开发中的作用方面取得了重大进展。他们的研究强调，高质量数据的影响力比数量更大，因为噪声或偏见数据可能会在大量计算资源的支持下削弱模型性能。为了解决这个问题，深寻采用严格的数据过滤和去重，确保只使用相关和准确的数据。他们还专注于偏见缓解，使用数据增强、合成数据生成和平衡抽样等技术来创建多样化、具有代表性的数据集。

深寻倡导数据中心方法，优先考虑数据质量而非模型架构的改进。他们开发了自动数据清理、标签验证和错误分析的工具，使得高效识别和修正数据问题成为可能。他们的实验表明，经过精心策划的数据集即使在数据量较小的情况下也能导致更强大和可靠的模型，挑战了传统对数据量扩展的重视。

混合精度模型带来的新可能性

低精度部署并不新鲜。最常见的方法是以低精度模式部署在全精度下训练的大语言模型。缺点是，低精度部署的准确性低于全精度部署。

深寻的混合精度架构是一项突破性的创新，通过结合不同的数值精度来优化人工智能模型的训练和推理。这种方法为模型性能和下游应用开发带来了显著的好处。通过对大多数计算使用较低的精度，主要是FP-8，

传统模型性能技术

传统上，监督微调（SFT）等技术在提高模型性能和领域知识适应方面发挥了关键作用。SFT涉及在特定任务的标记数据集上进一步训练预训练模型，以细化其输出。尽管在许多应用中有效，SFT本质上依赖于一种蛮力方法——更多的数据、更长的训练时间和更大的计算需求。尽管有其好处，SFT遵循收益递减的模式，仅仅增加计算资源和数据并不会成比例地提升性能。更不用说收集特定任务的标记数据的难度了。

与依赖静态数据集的传统微调方法不同，基于强化学习（RL）的微调利用动态反馈循环来细化模型行为，使其在复杂的现实应用中尤为强大。具体而言，它提供了以下好处：

动态适应：基于RL的微调允许模型从实时反馈中学习，使其能够适应变化的环境和用户需求。这在推荐系统和自主系统等应用中尤为重要，因为这些条件不断演变。
任务特定优化：通过定义特定的奖励函数，开发人员可以引导模型优化特定目标，例如最大化用户参与度、最小化错误或提高效率。这种有针对性的方法确保模型在其预期任务中表现出色。
处理复杂场景：RL在稀疏或延迟奖励的环境中表现出色，使其在传统监督学习困难的复杂场景中微调模型时理想。例如，在机器人技术或战略游戏中，基于RL的微调使模型能够随着时间的推移学习微妙的策略。
持续改进：与一次性的微调不同，基于RL的方法实现了持续学习。模型可以随着与新数据和环境的交互而迭代改善其性能，确保长期的相关性和准确性。

RAG被广泛认为是生成人工智能技术的重要进展。然而，它缺乏推理能力，限制了其有效处理复杂查询的能力。同样，代理开发也依赖于高精度、可调节的推理大语言模型。这正是深寻凭借其强大的推理能力发挥作用的地方。我设想的未来是，像深寻这样的推理模型能够与RAG和代理无缝集成，以应对更复杂的任务和高级推理。

我特别欣赏的一点是基于RL的微调能够持续改进。这是当前生成人工智能开发中的一个关键缺口，因为它缺乏持续增强的机制。从应用开发者的角度来看，持续改进对于将概念验证扩展为成熟产品至关重要。深寻的方法不仅解决了这一需求，还为构建可适应和可扩展的人工智能解决方案设定了新标准。

高性能团队的重新定义

深寻如何赶上甚至超越开放人工智能的顶尖模型是令人惊叹的。更令人震惊的是团队规模的对比：深寻只有136名员工，而开放人工智能有3500名员工。这并不是个例。历史上充满了小而灵活的独角兽公司在逆境中取得非凡成功的例子：

当埃里克·施密特在2001年成为谷歌CEO时，该公司员工不到300人。
亚马逊成立得更早，在1997年IPO前夕只有158名员工。
当WhatsApp在2014年以190亿美元收购时，只有50名员工。
当Instagram在2012年以10亿美元出售时，只有13名员工。

我们可以确定一件事：成功的创新需要团队内创造力的连锁反应和一丝好运。但为什么他们在规模扩大后往往无法保持初始的动力？为什么许多大公司尽管能够提供高薪、吸引最优秀的人才和获得更大的资源，却仍然失败？

这些问题引发了许多引人入胜的讨论。我想分享我在咨询生涯初期从导师那里学到的一课：

大公司往往集体智商较低。

这听起来可能有些激进甚至冒犯，但并不是你想的那样。经过一些修饰，这一概念可以作为管理咨询的破冰者。虽然大公司通常雇佣更多聪明的人，但其复杂的结构减缓了信息和知识的流动，阻碍了合作，使其对市场和技术趋势的反应能力降低。这就是所谓的“低智商企业”。

深寻的CEO梁文峰在一次采访中分享说，他的公司有一个自组织团队。当一位年轻工程师提出关于最佳模型结构的新想法时，团队会自动围绕他形成。最终的结果就是非常成功的多头潜在注意力（MLA）。他还提到，在他的公司，主要会议室的门始终敞开，任何路过的人如果有想法都可以加入讨论。这听起来像你们的公司吗？

这就是企业智商的区别。

如果你的公司不是这样，不要灰心。实际上，表现出色的团队是稀有的。大多数公司并不是为了激发团队内的连锁反应而设计的。这在小团队中难以实现，在大公司中更是不可想象。基于我们的讨论，深寻作为一家小公司的卓越成功并不例外。当它扩大十倍时，谁知道，它可能会变成另一家普通公司。

表现出色的团队总是稀有的，就像能与奥运奖牌得主合作一样稀有。如果你有幸成为其中的一员，不要因为任何琐碎的诱惑而离开。你可能再也没有机会如此快乐地全心投入工作。

Photo by Allen Taylor on Unsplash

结束语

深寻是一个里程碑，表明生成人工智能正处于一个关键的转折点，正在向根本不同的开发和部署风格转变。虽然工程师工具箱中的前期技术是RAG或代理，但大语言模型的设计和工程现在比以往任何时候都更易于获取，使得以前孤立的能力能够无缝集成。这一转变使得大语言模型的调优和训练对应用项目团队变得显著更可用，使他们能够根据特定用例定制模型。因此，利用尖端人工智能技术的门槛降低，为各行业的创新开辟了新机会。

展望2025年，我的重点将是深入研究强化学习，这是下一代大语言模型微调和应用构建的关键能力。此外，我计划亲自参与定制大语言模型的调优、数据准备和托管，确保我能够构建和部署既强大又高效的模型。通过掌握这些技能，我旨在为下一波人工智能驱动的解决方案做好准备。