完整指南：如何一步步提炼大型语言模型的核心能力！

Rifx.Online
Machine Learning , Deep Learning , Large Language Models
23 Feb, 2025

LLM teacher and a LLM student — Image generated by DALL-E

大型语言模型概述

大型语言模型，或称LLMs，确实掀起了一阵风潮，不是吗？感觉就在昨天我们还在惊叹简单的聊天机器人，而现在我们拥有这种庞大的智能，能够生成令人惊讶的连贯文本、翻译语言，甚至编写代码。

但是，有一点相当重要，这些模型是……嗯，非常庞大。庞大得令人咋舌。我们谈论的是巨大的计算资源、专用硬件，以及让你在要求它总结购物清单时考虑两次的能耗。对于我们许多人来说，尤其是那些在大型科技公司之外进行探索的人来说，这些模型的规模确实构成了一个真正的障碍。这有点像拥有世界上最强大的望远镜，但前提是你能负担得起建一座山来放置它。

蒸馏的概念

这就是蒸馏理念发挥作用的地方。想象一下，你是一位大师厨师在教一个学徒。你不会指望他们立刻复制你的米其林星级菜肴，对吧？相反，你会专注于将核心技术、基本风味提炼成他们能够掌握和精通的东西。

大型语言模型蒸馏本质上也是如此。我们试图将这些庞大模型的广泛知识和能力浓缩成更小、更易管理、而且至关重要的是，更高效的东西。传统的蒸馏方法已经存在一段时间，试图转移知识，但通常感觉在这个过程中我们失去了一些魔力。我们得到了一个更小的模型，没错，但有时感觉……不那么智能，不那么能够进行我们在大模型中看到的细致推理。

研究洞察

现在，一篇题为“逐步蒸馏！”的研究论文，由一组谷歌研究人员和学者提出，提出了一种迷人的方法，不仅缩小了这些LLMs，还建议这些较小的模型实际上可以超越它们更大的教师。我知道这是一个大胆的说法，自然，我的数据科学家直觉充满了好奇和健康的怀疑。这真的可能吗？我们能否创造出这些“鞋盒中的天才”模型，它们不仅更小，而且更智能？

使这个“逐步蒸馏”方法特别引人入胜的是它对推理的关注。这个方法巧妙地提取了其答案背后的推理——如果你愿意，可以理解为逐步的思考过程，而不仅仅是将LLM视为标签的来源。就像不仅得到数学问题的答案，还看到详细的解题过程。这种推理似乎成为了一种强大的教学工具，指导较小的模型学习不仅该预测什么，还要理解为什么。

考虑事项和问题

虽然前景确实存在——更小、更快，甚至可能更好的模型——但重要的是不要过于兴奋。这是灵丹妙药吗？可能不是。可能还有复杂性需要解析，限制需要考虑，甚至可能还有传统方法仍然具有优势的场景。例如，这种方法在不同类型任务中的稳健性如何？而生成这些推理的计算成本又是多少？这些都是在我脑海中萦绕的问题，我想如果你在阅读这些内容，你的脑海中也会有类似的疑问。

下一步

那么，让我们深入探讨“逐步蒸馏”。我们将剖析支撑这种方法的数学，从头开始用Python构建一个简化版本，真正让我们动手实践，并探索论文中呈现的结果。让我们尝试理解它不仅是如何工作的，还要理解它为什么似乎如此有效，以及它的边界可能在哪里。

1. 大型模型的瓶颈：为什么要蒸馏？

让我们面对现实，这些大型语言模型的庞大规模在许多方面都是它们的超能力。那种浩瀚、几乎不可理解的参数数量，使得它们能够执行我们所讨论的那些惊人壮举。它就像一个庞大的神经网络，几乎吸收了整个互联网，学习了较小模型只能梦想的模式和关系。然而，这是一个关键点，当我们尝试在实际应用中使用这些模型时，规模成为了一个显著的瓶颈。这有点像拥有一辆一级方程式赛车——无疑是令人难以置信的性能，但试着在高峰时段的日常通勤中使用它。突然间，它的大小和力量变得更多的是一种障碍而不是帮助。

想想运行这些庞然大物所需的计算能力。我们不是在谈论普通的笔记本电脑。服务于单个最先进的大型语言模型通常需要专用硬件、满屋的GPU，以及一份让你心疼的电费账单。这是一个基础设施挑战，而且成本高昂。对于小型公司、资源有限的研究人员，或者仅仅想在手机或嵌入式系统等边缘设备上运行这些模型的人来说？别想了。计算需求简直是不可承受之重。这就像需要一个完整的发电厂才能点亮一只灯泡——有效，或许，但极其低效。

而且，这不仅仅是前期成本的问题。延迟，即模型生成响应所需的时间，是另一个关键因素。想象一下与一个聊天机器人互动，它每次回复你的问题都要几分钟。令人沮丧，对吧？大型模型虽然强大，但由于每次推理所涉及的计算量巨大，可能会变得更慢。对于实时应用来说，速度至关重要，这种延迟可能会成为交易破坏者。这就像和一个知识渊博但每句话都需要很长时间才能组织出来的人交谈——互动的流畅性就消失了。

那么，替代方案是什么？这就是大型语言模型蒸馏概念出场的地方。蒸馏本质上是关于知识转移。我们试图将一个大型强大的大型语言模型——通常被称为教师模型——的核心“知识”和能力蒸馏成一个更小、更高效的模型，即学生模型。想象一下创建浓缩提取物的过程。你从大量丰富而美味的东西开始，通过一个精心的过程，减少其体积，同时保留，甚至增强其关键特性。

蒸馏背后的核心动机是明确的：创建能够与其更大对应物相媲美的较小模型，但计算成本显著降低，推理时间更快。这是为了让强大的人工智能变得更易于获取、更可部署，坦率地说，更加可持续。想象一下能够在手机、智能家居设备或资源本身有限的应用中运行复杂的语言模型。这就是蒸馏的承诺。它是关于民主化人工智能，将其从服务器农场带出，放到更多人、更多地方的手中。

现在，传统的蒸馏技术已经存在了一段时间。像知识蒸馏这样的方法，通常使用教师的“软标签”或尝试模仿中间表示，已经显示出一些成功。这些方法通常旨在训练学生复制教师的输出行为。虽然这些方法确实可以缩小模型并提高效率，但它们往往让人感觉在某些关键元素上做出了妥协，一些基本的智能火花。就像复印一幅杰作——你得到了一个副本，当然，但细微的差别、深度以及原始的生动性往往在翻译中丢失。而在捕捉大型语言模型复杂推理能力时，传统蒸馏有时显得不足。就好像我们在教学生模仿答案，而不是真正理解其背后的推理。

这就是“逐步蒸馏”提供潜在激动人心的进步的地方。这不仅仅是让模型变小；而是通过关注蒸馏输出的过程，来使其变得更小更聪明。正如我们将进一步探讨的，这可能会成为一个游戏规则改变者。

2. 引入逐步蒸馏

从原始论文“逐步蒸馏！用更少的训练数据和更小的模型规模超越更大的语言模型”中提取的图表

那么，如果传统的蒸馏就像复印一件杰作并可能失去其精髓，那么“逐步蒸馏”又有什么不同呢？其实，核心创新在于视角的根本转变。这个方法不再仅仅将大型语言模型视为一个输出答案的黑箱，而是认识到并利用了一个真正令人着迷的东西：大型语言模型的推理能力。

这就像我们从单纯要求老师给出答案，转而要求他们展示他们的工作过程，解释他们的思维过程。结果发现，这些“思维过程”，通常通过像思维链（CoT）这样的巧妙提示技术引发，可以极大地帮助一个较小的模型更有效地学习。想象一下：如果你正在学习下棋，仅仅记住获胜的棋步可能只能让你走得很远，但理解这些棋步背后的战略原因、棋局的基本原则，将使你成为一个更加灵活、最终更优秀的棋手。“逐步蒸馏”试图将这种更深层次的理解，这种“战略推理”，传授给较小的学生模型。

研究论文中概述的过程分为两个不同但相互关联的阶段。让我们逐一分析。

首先，我们有推理提取阶段。在这一阶段，我们基本上是在采访我们的“大型”教师LLM。我们使用一种叫做思维链提示的技术，这实际上非常巧妙。可以把它看作是设计一组非常具体的问题，目的是不仅仅得到答案，而是引导出导致该答案的逐步推理。实际上，我们不是仅仅问“答案是什么？”，而是问“你是如何得出这个答案的？你能逐步解释你的思维过程吗？”研究论文使用了“少量示例”CoT提示，这意味着向LLM提供几个输入-推理-标签三元组的示例，以指导其生成。这就像在要求LLM解决一个新问题并解释其方法之前，先给它展示几个已完成的示例。

例如，考虑一个简单的问题：“如果一列火车以60英里每小时的速度行驶2小时，它能走多远？”传统的LLM提示可能只是要求答案。但通过CoT提示，我们鼓励它生成中间推理步骤：

速度 = 60 mph，时间 = 2小时。
距离 = 速度 x 时间。
距离 = 60 mph x 2小时 = 120英里。

输出不仅仅是“120英里”，还有推理：“距离 = 速度 x 时间”和计算步骤。这些推理，这些LLM推理的自然语言解释，就是我们在这一阶段挖掘的金矿。

这一阶段的输出是一个有价值的数据集。对于每个输入，我们现在不仅有LLM预测的标签（答案），还有一个自然语言推理来证明该标签。这就像创建一个丰富的训练数据集，每个示例不仅仅是输入-输出，而是输入-推理-输出。

接下来是多任务训练阶段。在这一阶段，我们将较小的“学生”模型送入学校，使用我们刚刚创建的数据集。在这里，“多任务”方面变得至关重要。我们不仅仅训练学生预测最终标签，如同传统蒸馏那样，而是同时训练它做两件事：预测标签和生成推理。

这有点像教那个棋徒不仅要做出获胜的棋步，还要解释每一步为何在战略上是合理的。我们不仅仅要求学生模仿老师的答案，而是要求他们理解并复制老师的推理过程。论文将其框架化为一个多任务学习问题。学生模型被训练以最小化两个损失函数：一个用于标签预测准确率，另一个用于其生成推理的效果。两个任务都有权重，迫使学生学习“什么”（答案）和“为什么”（推理）。

他们使用的一个巧妙技巧是“任务前缀”。在训练期间，当目标是标签时，他们在输入前添加“[label]”，当目标是推理时添加“[rationale]”。这就像明确告诉学生：“好吧，对于这个输入，我希望你专注于预测标签”，然后，“现在，对于这个输入，我希望你专注于生成推理。”这有助于模型理清这两个任务并有效地学习两者。

现在，值得在这里停下来考虑为什么这种方法可能比传统蒸馏甚至标准微调更有效。传统方法通常侧重于模仿老师的表面行为——输出。而“逐步蒸馏”则旨在捕捉更深层次的东西：潜在的推理过程。通过迫使较小的模型生成推理，我们实际上是在鼓励它学习对任务的更抽象、更具泛化性的理解。它不仅仅是在记忆输入-输出对；它是在学习连接输入和输出的原则。

这种对推理的关注是关键的区别点，也是我们稍后将探讨的潜在数据效率提升的来源。通过学习生成推理，较小的模型可能能够从更少的示例中更好地泛化，并且在某些场景中甚至可能超越教师LLM的表现。这是一个引人注目的想法，随着我们深入数学和实现，我们可以开始解开这种逐步蒸馏魔法的确切工作原理。

3. 蒸馏背后的数学逐步解析

好吧，让我们揭开帷幕，看看驱动“逐步蒸馏”的数学机制。现在，我知道公式有时看起来令人畏惧，但相信我，我们会逐步解析它们，希望一切都会变得清晰。我们不仅会探讨公式的内容，还会分析它们的含义，以及它们的优势和潜在局限性。

3.1 推理提取与思维链 (CoT) 提示

虽然思维链提示本身并没有严格定义为单一方程，但它更像是一种指导大型语言模型生成过程的方法。在其核心，它是关于影响大型语言模型输出的概率分布。

想象一个大型语言模型作为一个函数，给定输入提示 P，生成输出序列 Y。在标准提示中，我们的目标是最大化给定提示 P 时期望输出 y（标签）的概率。我们可以表示为：

给定提示 P 生成期望输出 y 的概率

思维链提示微妙地改变了这一点。我们希望鼓励大型语言模型生成的不仅仅是最终答案 y，还包括一个中间的推理 r，这个推理导致 y。我们通过设计展示这种输入-推理-标签结构的提示来实现这一点，正如我们之前讨论的示例三元组。

虽然我们没有直接的思维链提示公式，但我们可以将其视为将大型语言模型的生成条件化为特定的 输出风格 —— 包含明确推理步骤的风格。这就像是推动大型语言模型的内部决策过程变得更加透明，更加逐步。

思维链的魔力在于其涌现行为。当大型语言模型得到正确提示时，表现出模仿这种思维链过程的惊人能力，即使它们并没有明确训练以这种方式生成推理。

然而，值得注意的是一些细微差别。思维链提示仍然有些艺术性。设计有效的提示需要直觉和实验。不能保证生成的推理总是完美的，甚至完全准确。毕竟，它们是由一个虽然令人印象深刻但并非万无一失的模型生成的。这些推理的质量无疑会影响后续蒸馏过程的有效性。这有点像“垃圾进，垃圾出”的情况——如果教师的推理有缺陷，学生也可能学习到有缺陷的推理。

尽管有这些警告，思维链提示提供了一种强大的方式，利用大型语言模型的推理能力，并提取有价值的监督信号用于训练更小的模型。正如我们所提到的，这一阶段的输出是一个输入-推理-标签三元组的数据集 (_xi_ , r^_i_ , y^_i_)，准备进入下一阶段：多任务学习。

3.2 多任务学习目标

这就是“逐步蒸馏”的数学核心真正跳动的地方。我们从简单地提取推理转向在多任务学习框架中利用它们。正如我们所讨论的，核心思想是训练学生模型同时执行两个任务：标签预测和推理生成。这通过一个组合损失函数形式化。

3.2.1 标签预测损失

第一个任务，可以说是更传统的任务，是标签预测。我们希望我们的学生模型 f 能够准确预测给定输入 _x_i_ 的正确标签 y^_i_。为了衡量它的表现，我们使用标准的 交叉熵损失，记作 _L_label_。对于一个包含 N 个示例的数据集，标签预测损失的计算公式为：

交叉熵损失公式 — 作者提供的图片

这里，ℓ( f(x_i) , y^i) 代表学生模型对标签的预测概率分布 f(_xi_) 和目标标签 y^_i_ 之间的交叉熵损失。本质上，当模型的预测概率偏离正确标签时，这个损失函数会对模型进行惩罚。它是分类任务中一个成熟的损失函数，其优势在于能够有效引导模型做出准确的预测。然而，值得注意的是，交叉熵损失主要关注标签的准确性，并不直接鼓励模型学习推理或生成解释。这就是下一个损失函数发挥作用的地方。

3.2.2 推理生成损失

这是“逐步蒸馏”中的新颖成分。为了鼓励学生模型学习推理，我们引入第二个任务：推理生成。我们希望模型不仅预测标签，还生成一个合理的推理 r^_i_ 用于输入 _x_i_。同样，我们使用交叉熵损失，但这次应用于推理中的标记序列：

推理上的交叉熵损失公式 — 作者提供的图片

这里，ℓ( f(_xi_) , r^_i_ ) 是在标记序列上计算的交叉熵损失。学生模型现在不仅因标签不正确而受到惩罚，还因生成与教师生成的推理 r^_i_ 不相似的推理而受到惩罚。这个损失函数直接鼓励模型学习为其预测生成可读的解释。这是将教师大型语言模型的“推理风格”注入较小学生模型的强大方式。然而，重要的是要承认这个损失函数是基于模仿的。我们本质上是在要求学生模仿教师的推理，这可能并不总是最优或最高效的推理形式。学生模型可能有其他甚至更好的方式来得出正确答案，但这个损失函数使其偏向于复制教师的推理过程。

3.2.3 Combined Multi-Task Loss: LL

最后，为了训练学生模型同时执行这两个任务，我们将这两个损失函数结合成一个单一的联合损失函数：

联合损失函数 — 作者提供的图像

这是一个简单而优雅的组合。我们将标签预测损失和推理生成损失相加，并按一个因子 λ 加权。在研究论文中，他们通常设定 λ = 1，使两个任务同等重要。加权因子 λ 使我们能够调整推理生成与标签预测的相对重要性。如果我们想优先考虑标签准确性，可以降低 λ。相反，如果我们想强调学习推理和生成解释，可以增加 λ。然而，在实践中，设定 λ = 1 通常能达到良好的平衡。

这个联合损失函数是“逐步蒸馏”中驱动多任务学习过程的引擎。通过最小化这个联合损失，学生模型被激励在预测标签和生成推理方面都变得熟练。这是一种巧妙的方法，利用教师生成的推理中包含的丰富信息来指导一个更小、更高效、甚至可能更具洞察力的学生模型的训练。

现在我们已经剖析了数学，让我们动手看看如何在 Python 代码中实现这些方程。

4. 在Python中逐步构建蒸馏

好了，理论够多了！是时候动手把那些数学公式转化为实际的Python代码了。我们将参考Google研究人员发布的原始GitHub仓库：

让我们开始吧！

4.1. 数据加载和预处理：data_utils.py

首先，我们需要一个方法来加载数据，以便用于蒸馏我们的学生模型。这就是我们在文件 data_utils.py 中可以看到的内容：

从各种来源加载数据集： 无论是使用 Hugging Face 的 load_dataset 方法，还是从自定义 JSON 文件加载，我们的 DatasetLoader 基类（及其子类）都能管理这一过程。
准备输入和目标： 例如，CQADatasetLoader 从问题及其多个选择答案构建一个组合输入字符串。它还会移除不必要的列，以便下游训练只看到重要内容。
整合大型语言模型输出： 想要使用来自大型语言模型的外部推理和标签吗？加载器可以从 JSON 文件中读取这些内容（无论是 PaLM 还是 GPT 预测），并将其解析为结构化列。

这个类的样子如下：

class DatasetLoader(object):
    def __init__(self, dataset_name, source_dataset_name, dataset_version, has_valid, split_map,
                 batch_size, train_batch_idxs, test_batch_idxs, valid_batch_idxs=None):
        self.data_root = DATASET_ROOT
        self.dataset_name = dataset_name
        self.source_dataset_name = source_dataset_name
        self.dataset_version = dataset_version
        self.has_valid = has_valid
        self.split_map = split_map

    def load_from_source(self):
        if self.dataset_version is None:
            datasets = load_dataset(self.source_dataset_name)
        else:
            datasets = load_dataset(self.source_dataset_name, self.dataset_version)
        return datasets

    def to_json(self, datasets):
        for k, v in self.split_map.items():
            datasets[v].to_json(f'{self.data_root}/{self.dataset_name}/{self.dataset_name}_{k}.json')

每个具体的加载器（例如 CQADatasetLoader、SVAMPDatasetLoader 等）实现特定于数据集的逻辑。例如，CQA 加载器的 _post_process 方法通过将问题与其答案选项组合来构造输入字符串：

def prepare_input(example):
    question = example['question']
    c_0 = example['choices'][0]

    input = f'{question}\\nAnswer Choices:\\n(a) {c_0}\\n(b) {example["choices"][1]}\\n(c) {example["choices"][2]}\\n(d) {example["choices"][3]}\\n(e) {example["choices"][4]}'
    example['input'] = input
    example['label'] = example['answer']
    return example

通过这种方式，管道为多任务训练做好了准备——模型不仅学习预测答案和（通过辅助信号）生成推理。

4.2. 评估指标: metrics.py

没有稳健的评估，任何严肃的项目都无法完成。在 metrics.py 中，我们有计算文本和方程预测准确率的函数。请注意：

文本准确率： 仅仅比较解码后的预测与标签。
方程准确率： 评估字符串表达式（以受控方式使用 Python 的 eval）以查看计算出的答案是否匹配。

例如，我们的方程准确率函数如下所示：

def compute_equation_acc(preds, labels):
    preds = [eval_equation(pred) for pred in preds]
    labels = [eval_equation(label) for label in labels]
    return np.mean(np.array(preds) == np.array(labels))

而 eval_equation 尝试安全地计算方程的结果：

def eval_equation(equation):
    try:
        answer = eval(equation)
    except:
        answer = np.nan
    return answer

当您的任务不仅仅是分类，而是涉及更复杂的推理，例如数学问题解决时，这个模块是至关重要的。

4.3. 多任务模型和训练器设置：model_utils.py

这里的内容变得非常有趣。我们的管道通过使用 任务前缀 来区分预测（回答）和解释（生成推理），支持多任务训练。代码使用了一些 Hugging Face 类作为父类，并在其基础上进行扩展。

自定义数据整理器
TaskPrefixDataCollator 接收一批示例并将其拆分为两个字典：

一个用于主要预测任务。
一个用于解释（辅助）任务。

class TaskPrefixDataCollator(DataCollatorForSeq2Seq):
    def __call__(self, features, return_tensors=None):
        features_df = pd.DataFrame(features)
        pred_features = features_df.loc[:, ~features_df.columns.isin(['aux_labels', 'expl_input_ids', 'expl_attention_mask'])].to_dict('records')
        expl_features = features_df.loc[:, ~features_df.columns.isin(['labels', 'input_ids', 'attention_mask'])].rename(
            columns={'aux_labels': 'labels', 'expl_input_ids': 'input_ids', 'expl_attention_mask': 'attention_mask'}).to_dict('records')
        pred_features = super().__call__(pred_features, return_tensors)
        expl_features = super().__call__(expl_features, return_tensors)
        return {
            'pred': pred_features,
            'expl': expl_features,
        }

自定义训练器
TaskPrefixTrainer 通过重写 compute_loss 方法扩展了 Hugging Face 的 Seq2SeqTrainer。这使我们能够使用加权和（由参数 alpha 控制）将主要预测任务和辅助解释生成任务的损失结合起来：

class TaskPrefixTrainer(Seq2SeqTrainer):
    def __init__(self, alpha, output_rationale, **kwargs):
        super().__init__(**kwargs)
        self.alpha = alpha
        self.output_rationale = output_rationale

    def compute_loss(self, model, inputs, return_outputs=False):
        pred_outputs = model(**inputs['pred'])
        expl_outputs = model(**inputs['expl'])
        loss = self.alpha * pred_outputs.loss + (1. - self.alpha) * expl_outputs.loss
        return (loss, {'pred': pred_outputs, 'expl': expl_outputs}) if return_outputs else loss

这个设计优雅地融合了这两个任务——引导学生模型不仅学习答案，还学习推理过程。

4.4. 运行蒸馏管道：rain.py

主要入口点 rain.py 协调了一切。它解析命令行参数以选择数据集（CQA、SVAMP、ESNLI、ANLI1，甚至 ASDiv 用于数据增强）、要使用的 LLM 预测类型（PaLM 或 GPT）以及其他超参数。

步骤 1 — 数据集准备
根据选择的数据集，实例化相应的加载器。例如：

if args.dataset == 'cqa':
    dataset_loader = CQADatasetLoader()
elif args.dataset == 'svamp':
    dataset_loader = SVAMPDatasetLoader()

步骤 2 — 集成 LLM 预测
如果您正在从 LLM 进行蒸馏，代码加载外部推理和标签，并将它们作为新列添加：

datasets['train'] = datasets['train'].add_column('llm_label', train_llm_labels)
datasets['train'] = datasets['train'].add_column('llm_rationale', train_llm_rationales)

步骤 3 — 分词和任务前缀
使用预训练的分词器（例如来自 google/t5-v1_1-base），代码对示例进行分词。对于任务前缀模型，它甚至在输入文本前添加“predict:”和“explain:”：

def tokenize_function(examples):
    model_inputs = tokenizer(['predict: ' + text for text in examples['input']], max_length=args.max_input_length, truncation=True)
    expl_model_inputs = tokenizer(['explain: ' + text for text in examples['input']], max_length=args.max_input_length, truncation=True)
    model_inputs['expl_input_ids'] = expl_model_inputs['input_ids']
    model_inputs['expl_attention_mask'] = expl_model_inputs['attention_mask']

    return model_inputs

步骤 4 — 训练和评估
最后，rain.py 调用 train_and_evaluate 函数（在 train_utils.py 中找到），传入经过分词的数据集和评估指标函数。该函数设置一切并启动训练。

4.5. 训练循环：train_utils.py

在 train_utils.py 中，训练的重任得以完成。函数 get_config_dir(args) 根据当前的超参数构建一个用于保存检查点和日志的目录路径。这使得跟踪不同的运行变得简单。

通过 T5ForConditionalGeneration.from_pretrained(args.from_pretrained) 加载 T5 模型。如有需要，模型可以在图形处理单元之间进行并行化。

我们使用 Seq2SeqTrainingArguments 来指定训练参数（例如，学习率、批量大小、评估频率）。

根据我们是使用任务前缀模型还是标准模型，我们实例化自定义的 TaskPrefixTrainer（支持双重损失）或原始的 Seq2SeqTrainer。

最后，训练通过以下方式开始：

## Example of starting training
trainer.train()

整个过程——从数据加载到模型训练——体现了我们的逐步蒸馏理念：引导学生模型学习不仅正确的输出，还包括背后的推理。

5. 超越教师

现在，真相时刻到了。关于推理、多任务学习和逐步蒸馏的所有讨论——在实践中它真的有效吗？它是否兑现了创造更小、更高效模型的承诺，这些模型能够与其更大的教师相媲美，甚至超越？研究论文《逐步蒸馏！》提供了一些引人注目的实证证据，而正是这些结果使得这种方法值得关注。让我们深入探讨关键发现，重点关注数据效率和模型大小，看看数字讲述了什么故事。

5.1 数据效率：用更少的学习更多

“逐步蒸馏”的一个最引人注目的说法是它改善了数据效率。本质上，它表明使用这种方法训练的小型模型可以达到与传统方法训练的模型相当，甚至更好的性能，但使用的训练数据显著_更少_。这在大型语言模型的世界中尤其重要，因为数据稀缺和数据标注的成本可能成为主要瓶颈。

论文中的图4和图5直观地展示了这种数据效率优势。在这些实验中，他们将“逐步蒸馏”与两种常见方法进行了比较：标准微调（当有人工标注数据可用时）和标准任务蒸馏（当只有未标注数据可用时）。他们使用不同数量的训练数据训练了220M T5-Base模型，并在多个NLP基准数据集上评估了它们的性能。

结果相当明显。在e-SNLI、ANLI、CQA和SVAMP等数据集上，“逐步蒸馏”在使用_减少_的数据集训练时，始终优于标准微调和标准任务蒸馏。在某些情况下，增益非常显著。例如，在e-SNLI上，论文报告称，“逐步蒸馏”在仅使用**12.5%的完整数据集进行训练时，可以超过在100%**同一数据集上训练的标准微调！这对于实现相同水平的性能来说，数据需求大幅减少。

同样，与标准任务蒸馏（使用未标注数据）相比，“逐步蒸馏”再次表现出优越的数据效率。它在使用更少的未标注数据时始终取得更好的性能。例如，在ANLI数据集上，他们观察到“逐步蒸馏”只需要**12.5%**的完整未标注数据集，就可以超过在整个100%数据集上训练的标准任务蒸馏的性能。

为了可视化这一点，可以想象两个学生学习一门新学科。学生A（标准微调/蒸馏）认真学习所有的教科书章节和练习题。学生B（“逐步蒸馏”）只学习一部分材料，但可以获得来自大师教师（大型语言模型推理）的关键概念和问题解决策略的详细解释。结果表明，学生B在原材料更少但指导更好的情况下，往往可以更有效地学习，甚至超越仅仅通过一切内容的学生A。

这种数据效率提升很可能归因于推理提供的更丰富的监督信号。通过学习生成推理步骤，较小的模型不仅仅是在记忆输入输出映射，而是在内化对任务的更通用理解。这种更深刻的理解使其能够从更少的示例中有效学习，更好地泛化到未见数据。

然而，值得注意的是，数据效率的提升可能会因任务和数据集而异。论文在他们测试的基准上显示了令人印象深刻的结果，但对于某些任务，收益可能不那么明显。当然，教师生成的推理质量也起着至关重要的作用。如果推理是嘈杂或无信息的，数据效率优势可能会减弱。这不是灵丹妙药，但证据强烈表明，“逐步蒸馏”在训练更数据高效的语言模型方面提供了显著的进步。

5.2 模型大小缩减：微型学生，巨型性能

除了数据效率，研究论文还强调了显著的模型大小缩减的潜力。蒸馏的目标毕竟是创造更小、更易部署的模型。但“逐步蒸馏”更进一步，建议这些经过推理训练的小型模型不仅可以更高效，还能实现惊人的高性能，有时甚至超过庞大的教师大型语言模型本身。

论文中的图6和图7生动地说明了这一点。它们比较了不同大小的T5模型（从220M T5-Base到11B T5-XXL）在“逐步蒸馏”和标准微调/蒸馏下的性能与540B参数的PaLM大型语言模型在少量示例思维链提示和PINTO调优下的性能。x轴表示模型大小（以参数为单位），y轴显示任务性能。

图表揭示了一个显著的趋势。“逐步蒸馏”在所有模型大小中始终优于标准微调和蒸馏。但真正引人注目的是，经过“逐步蒸馏”训练的小型模型与庞大的PaLM大型语言模型相比的表现。

在几个案例中，论文证明了T5模型的规模比PaLM小几个数量级，但能实现可比甚至是_更好_的性能。例如，在ANLI数据集上（图6），一个770M参数的T5-Large模型经过“逐步蒸馏”训练，其性能超过了使用少量示例思维链的540B参数PaLM大型语言模型。这个模型小于700倍却取得了更好的结果！同样，在e-SNLI上，一个220M的T5-Base模型超越了PaLM，一个大于2000倍的模型。

这几乎是反直觉的，不是吗？一个微小的学生怎么能超越它的巨型老师？研究人员建议，通过蒸馏_推理过程_，“逐步蒸馏”创造的模型不仅更小，而且在其训练的特定任务上更加_专业_和_集中_。较大的大型语言模型虽然非常通用，但也是通用模型，可能携带很多对特定任务并非绝对必要的“额外负担”。而经过蒸馏、逐步训练的模型则更精简，更加针对任务优化，并且在某些方面可能在利用相关信息以完成当前任务上更高效。

然而，保持平衡的视角至关重要。在这些特定基准测试中超越大型语言模型并不一定意味着这些小型模型在所有方面都是“更好”的。大型语言模型在零-shot泛化、跨更广泛任务的少量示例学习和整体通用性方面仍然保留其优势。“逐步蒸馏”方法似乎在为_特定_任务创造高效且高性能的模型方面表现出色，但可能无法复制庞大大型语言模型的广泛、一般智能。它更像是在狭窄领域创造专业的“天才”，而不是通用的“博学者”。

5.3 最小资源实现最大影响

“逐步蒸馏”最引人注目的方面或许在于它能够在实现顶级性能的同时，最小化数据需求和模型大小。论文中的图8和图9探讨了这一“资源效率边界”。它们可视化了所使用的训练数据量、最终任务性能和生成模型大小之间的权衡。

这些图表显示，“逐步蒸馏”通常在资源-性能权衡空间中占据一个最佳位置。与标准方法相比，它可以在使用显著更小的模型和更少的训练数据的情况下，达到大型语言模型的性能（有时甚至超越它）。例如，在e-SNLI上，“逐步蒸馏”可以以一个小于PaLM 2000倍的模型，并仅使用0.1%的完整数据集来超越PaLM！

这种数据和模型大小的同时减少是一种强大的组合。它表明，“逐步蒸馏”提供了一条通往创建高效语言模型的路径，这些模型不仅计算效率更高，而且在训练和部署时更具可及性和可持续性。这是以最小资源实现最大影响，尤其在资源受限的人工智能开发世界中，这一前景特别吸引人。

当然，还需要进一步研究以全面了解“逐步蒸馏”的范围和局限性。但初步结果无疑是令人鼓舞的。它似乎提供了一种真正创新的蒸馏方法，超越了简单的模仿，利用大型语言模型更深层次的推理能力来创建更小、更智能和数据效率更高的人工智能系统。在我看来，这朝着一个非常激动人心的方向迈出了重要一步。

接下来，我们将以结论结束，总结关键要点并思考这一逐步蒸馏革命的更广泛影响。

结论

那么，这一切将我们带到哪里呢？研究论文中提出的“逐步蒸馏”似乎不仅仅是模型压缩的又一次增量改进。它感觉像是我们对训练和部署强大语言模型的思考方式的潜在重大转变。

这些优势的影响深远。“逐步蒸馏”可能是使强大人工智能民主化的关键推动力。这可能会解锁一波创新，使得小型公司、研究人员和个人能够利用先进语言人工智能的力量，而无需庞大的基础设施。

此外，效率的提高可能带来显著的环境效益。训练和运行大型大型语言模型消耗了大量能源。更小、更高效的模型，在实现可比性能的同时，可能有助于建立一个更可持续的人工智能生态系统。这是关于每瓦特获取更多“智能”的问题，随着人工智能越来越融入我们的生活，这一点至关重要。

然而，重要的是要重申“逐步蒸馏”并不是一个普遍的灵丹妙药。与任何技术一样，它有其潜在的局限性和进一步探索的领域。

尽管存在这些未解的问题，“逐步蒸馏”代表了大型语言模型研究中一个真正令人兴奋和有前景的方向。这是从简单地扩大模型规模，转向更细致的蒸馏，不仅是知识，还有推理过程的一个步骤。

从庞大、笨重的LLM巨头到潜在更灵活的“鞋盒中的天才”模型的旅程才刚刚开始。但“逐步蒸馏”提供了一条引人注目的路线图，暗示强大人工智能的未来不仅仅是关于规模，而是关于更聪明、更高效和对每个人更可及的智能。这是一个我真心期待看到展开的未来。

参考文献

Google Research. (2024). 逐步蒸馏！. GitHub Repository. arXiv 预印本 arXiv:abs/2305.02301.
Hinton, G., Vinyals, O., & Dean, J. (2015). 蒸馏神经网络中的知识. arXiv 预印本 arXiv:1503.02531.
Wei, J., et al. (2022). 思维链提示引发大型语言模型中的推理. arXiv 预印本 arXiv:2201.11903. https://arxiv.org/abs/2201.11903
Vaswani, A., et al. (2017). 注意力机制是你所需要的一切. Advances in Neural Information Processing Systems (NeurIPS). https://arxiv.org/abs/1706.03762
Jang, Y., et al. (2023). 蒸馏模型能比其教师更好吗？ Proceedings of the International Conference on Learning Representations (ICLR). https://openreview.net/forum?id=example