英伟达™（NVIDIA®）如何修剪和提炼 Llama 3.1 以创建 Minitron 4B 和 8B

Rifx.Online
Programming , Machine Learning , Data Science
10 Nov, 2024

新模型采用了最先进的剪枝和蒸馏技术。

我最近开始了一份专注于人工智能的教育通讯，目前已有超过170,000名订阅者。TheSequence是一份不做作（意味着没有炒作，没有新闻等）的机器学习导向通讯，阅读时间为5分钟。目标是让您及时了解机器学习项目、研究论文和概念。请通过下面的链接订阅试试：

我们常常被大型语言模型（LLMs）特别是那些参数数量庞大的模型的进展所震撼。然而，执行70B+参数模型进行推理的成本对于大多数组织来说是不可承受的。因此，我们看到小型语言模型（SLMs）的影响力日益增长，使得执行推理工作负载变得更具成本效益。然而，往往无法从头开始预训练SLMs，因为在数据收集、预训练管道等方面存在重大挑战。一个流行的替代方案是从更大的LLMs开始，并将其蒸馏为更小的模型。剪枝和蒸馏是该领域最流行的两种技术。最近，NVIDIA发布了两个基于Llama 3.1–450B蒸馏版本的模型，分别为Minitron-8B和Minitron-4B。

Minitron专注于通过剪枝和蒸馏来减少AI模型的大小，使其在不牺牲太多准确性的情况下更加高效。剪枝通过切割层（深度剪枝）或移除神经元、注意力头或嵌入通道（宽度剪枝）来减少模型的大小。为了恢复一些丢失的准确性，剪枝后通常需要进行再训练。

蒸馏是一种相关技术，其中一个较小的模型，称为学生，从一个较大、复杂的模型（称为教师）学习。其目标是创建一个更紧凑的模型，保留较大模型的许多预测能力，同时更加快速且对资源的要求更低。

蒸馏方法：经典与SDG微调

Minitron 确定了两种关键的蒸馏风格。一种方法是 SDG 微调，其中较小的预训练学生模型使用由较大教师模型生成的数据进行精炼。在这种方法中，学生模仿教师预测的最终标记，这在一些流行的教程和 AI 平台中可以看到。

另一种方法，经典知识蒸馏，则更为复杂。学生模型不仅仅关注预测的标记，而是尝试复制教师模型的各种内部状态。这种技术在训练过程中提供了更详细的反馈，从而提高了准确性。然而，实施这种方法需要训练框架中的特定支持，因为它涉及处理来自教师内部状态的大量数据。

这两种方法并不是互相排斥的，而是可以相辅相成。Minitron 的主要重点是经典知识蒸馏方法。

剪枝和蒸馏工作流程

为了创建更高效的模型，Minitron将剪枝与经典的知识蒸馏相结合。从一个较大的模型开始，例如一个15B参数模型，Minitron评估不同组件的重要性——层、神经元等——然后将模型缩小到更小的尺寸，比如一个8B模型。较小的模型经过轻量级的再训练过程，从原始的较大模型中学习。这个过程可以重复进行，以进一步减少模型的大小，最终生成更小的版本，例如一个4B模型。

剪枝和蒸馏过程是迭代的，每个较小的模型作为下一个压缩和再训练轮次的基础。