转变AI：9篇革命性论文改变了大型语言模型及其应用

Rifx.Online
Large Language Models , AI Research , Natural Language Processing
08 Mar, 2025

Image Generated using DallE

大型语言模型（LLMs）已经改变了 AI，但它们的演变并非一蹴而就。一系列开创性的研究论文介绍了使当今 AI 成为可能的核心思想——从 Transformer 的诞生到可以遵循指令、逐步推理，甚至使用外部工具的模型。

在这篇文章中，我们将探讨塑造现代 LLMs 的九篇最具影响力的论文。我们将分解它们引入的关键概念，它们为何具有革命性意义，以及它们如何影响研究和现实世界的 AI 应用。无论您是技术爱好者还是行业专业人士，本指南都将帮助您将 AI 中这些关键的进步联系起来。

温馨提示：这是一篇长文——就像一个 LLM 在您忘记设置 token 限制时生成答案一样。但我保证它值得一读！

1. Attention Is All You Need (2017) — 引入 Transformer

The transformer model architecture as originally presented in Vaswani et al, 2017

Vaswani 等人在 2017 年发表的论文 “Attention Is All You Need” 引入了 Transformer 架构——一种完全基于自注意力机制的深度神经网络（Attention is All you Need）。之前的序列模型（如 RNN）按顺序处理单词，但 Transformer 通过让每个单词通过注意力权重“关注”其他每个单词来并行处理整个序列。这很关键，因为它消除了循环，从而实现更大的训练 并行化 和效率。例如，Transformer 的自注意力机制不是逐字阅读一个句子，而是可以立即查看所有单词，并决定哪些其他单词与理解每个单词最相关。这种架构在训练时间的一小部分内实现了最先进的翻译质量，而循环模型却需要更长的时间。它也为几乎所有现代 LLM 奠定了基础。

为什么重要： Transformer 表明，仅注意力机制就足以捕捉语言中的关系，从而省去了较慢的循环计算。自注意力层学习上下文关系：例如，在一个句子中，单词“it”可以关注它所指的名词，无论它们相距多远。该论文还引入了多头注意力，其中模型并行地关注来自多个表示子空间的信息。这允许模型同时学习语言的不同方面（句法、语义等）。结果是一个模型，它不仅更准确，而且在像 GPU 这样的并行硬件上训练的速度也快得多。

对行业和研究的影响： Transformer 很快成为 NLP 模型的实际骨干（Visualizing and Explaining Transformer Models From the Ground Up — Deepgram Blog ⚡️ | Deepgram）。它能够训练更大的模型（数十亿个参数），因为训练可以分布和扩展。在一年之内，研究人员将 Transformer 应用于翻译之外的许多领域（摘要、语言理解等），它甚至激发了其他领域的改编（计算机视觉中的 Vision Transformer）。这篇论文的观点直接促成了后续的突破，如 BERT 和 GPT。总而言之，“Attention Is All You Need”通过表明当涉及到序列建模时，注意力确实是你所需要的，从而改变（双关语）了 NLP。

联系： Transformer 建立在早期的注意力工作（如 Bahdanau 等人 2015 年的 RNN）之上，但完全删除了 RNN 的其余部分。它为接下来的论文奠定了基础——BERT 将使用 Transformer 的编码器堆栈，GPT 将使用解码器堆栈，等等。如今，几乎所有 LLM，包括 OpenAI、Google、Meta 等公司的 LLM，都是 Transformer 架构的变体。

如今，几乎所有现代 AI 模型——从语言模型到图像处理——都建立在基于 Transformer 的架构之上。

2. BERT: Pre-training of Deep Bidirectional Transformers (2018) — 使用双向编码进行上下文理解

Jay Alammar 绘制

2018 年，Devlin 等人介绍了 BERT (Bidirectional Encoder Representations from Transformers) — 一种基于 Transformer 的模型，旨在通过从两个方向查看上下文来理解语言 ([1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding). 与预测下一个词的从左到右的模型不同，BERT 接受掩码语言建模目标的训练：它随机隐藏（掩码）句子中的一些词，并学习使用左右两边的周围词来预测它们。例如，给定“Alice went to the [MASK] to buy milk”，BERT可以使用[MASK]前后的词来推断它应该是“store”。这种双向条件作用是一个新概念，它使 BERT 能够深入双向地理解上下文，而之前的模型缺乏这种能力。

重要性：BERT 展示了在大型文本语料库上进行预训练，然后在特定任务上进行微调的强大能力。BERT 的新颖训练任务 — 掩码语言建模和下一句预测 — 迫使模型学习丰富的语言表征。因为它双向观察，BERT 捕捉到细微的上下文；例如，它知道“river bank”中的*“bank”与“bank account”中的“bank”的区别，这是基于周围的词。当 BERT 发布时，它通过简单地在每个任务上微调预训练模型，在 11 个 NLP 任务（阅读理解、问答、情感分析等）上取得了最先进的结果 ([1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding). 重要的是，BERT 证明了这些上下文表征可以在不同任务之间转移 — 一种NLP 迁移学习*的形式。这是 NLP 的一个重大转变：不再为每个任务从头开始训练模型，而可以预先训练一个大型的通用模型，然后进行调整。
影响：BERT 改变了行业 NLP 应用的格局。几乎在一夜之间，从业者开始将 BERT（及其变体）用于搜索引擎、聊天机器人、分类等，因为它可以用相对较少的数据进行微调以实现高精度。它也推广了*“语言模型即服务”*的想法 — 像 Google 这样的公司将 BERT 集成到产品中（Google 搜索使用 BERT 来更好地理解查询）。从研究角度来看，BERT 激发了整个基于 Transformer 的语言理解模型家族（ERNIE、RoBERTa、ALBERT 等），探索不同的预训练调整。它还强调了模型大小和数据的重要性 — BERT-large（3.4 亿个参数）明显优于 BERT-base（1.1 亿个参数），暗示了即将到来的扩展趋势。

关联： BERT 采用了 Transformer 编码器（来自论文 #1），并将其应用于无监督预训练。它受到早期上下文嵌入方法（如 ELMo）的启发，但 BERT 的 Transformer 架构使其功能更强大。后来的模型，如 GPT-2 和 GPT-3 采取了相反的方法（Transformer 解码器用于生成式建模）。值得注意的是，下一篇论文（GPT-3）展示了将 Transformers 扩展到极端情况会发生什么 — 但没有 BERT 的双向训练。此外，BERT 在微调方面的成功为像 Flan（论文 #8）这样的指令调整方法铺平了道路 — 为什么不在各种各样的任务上进行微调，以制作一个可以遵循任何指令的模型呢？

3. 语言模型是少样本学习者 (2020) — GPT-3 和规模的力量

2020 年，Brown 等人推出了 GPT-3，这是一个拥有 1750 亿个参数的 Transformer，它仅仅通过扩大模型规模和对海量数据进行训练就展现了涌现能力。这篇论文展示了一种令人惊讶的现象：GPT-3 可以执行它从未明确训练过的任务，只需用几个例子进行提示（少样本学习） ([2005.14165] Language Models are Few-Shot Learners)。例如，如果你给 GPT-3 一个包含几个翻译句子（英语-法语）的提示，它就可以将新的句子从英语翻译成法语——即使它从未专门为翻译进行训练。这种*“从上下文学习”*而不是更新权重的能力是一个主要的见解。

关键概念： In-context learning. GPT-3 表明，一个足够大的语言模型可以仅从文本输入中学习一个新任务。提示有效地引导模型遵循一种模式。该论文将设置分为 zero-shot、one-shot 和 few-shot：GPT-3 即使在某些任务中没有例子（只有一个指令）也能做得很好，但在提示中加入少量例子通常会显着提高性能。这证明了在一定规模下，语言模型开始以非平凡的方式进行 generalize。 GPT-3 还在许多基准测试中实现了当时最先进或接近最先进的水平，无需任何微调。例如，它通过单独的提示在 QA、翻译和常识测试套件上达到了接近 SOTA 的水平 ([2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)。这在当时是令人震惊的——它表明，大规模的*“普通”*语言建模编码了一种广泛的智能或知识。

为什么它很重要： GPT-3 的结果强调了 模型规模和数据 的重要性。作者甚至指出*“经验收益可能令人瞩目”——例如，使用 1750 亿个参数，少样本 GPT-3 在复杂任务上超越了经过微调的 13 亿个模型 ([2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)。这促使社区重新思考了训练成“预测下一个词”的单个模型的极限。它也使人工智能更容易获得：如果你可以通过用普通语言编写提示来让模型做事情，那么这降低了非专家使用人工智能的门槛。在工业界，GPT-3 催生了一波基于 API 的人工智能服务（OpenAI 的 API 等），开发人员提供提示来完成从摘要到编码的任务。这不仅仅是关于性能——它展示了多功能性*。一个 GPT-3 模型可以合理地处理数十个任务（编写代码、回答琐事、进行算术运算等） ([2005.14165] Language Models are Few-Shot Learners)，这对于构建通用人工智能助手非常有吸引力。

影响： GPT-3 的发布通常被认为是公众眼中当前 LLM 时代的开始。它促成了在文案写作（人工智能写作助手）、代码生成、聊天机器人等方面的应用——基本上开启了将大型预训练语言模型用作通用人工智能的趋势。它还提高了人们对大型 LM 问题的认识：比如捏造事实（“幻觉”）和偏见——因为 GPT-3 有时会产生流畅但错误的或有偏见的输出，这促使研究人员致力于对齐（论文 #7）。重要的是，GPT-3 从经验上验证了 Kaplan 等人在 2020 年的另一项有影响力的关于 scaling laws 的工作（论文 #4 下面）的预测：更大的模型 + 更多的数据 == 损失和能力的可以预测的改进。事实上，GPT-3 的少样本能力可以被看作是规模的涌现属性。

联系： GPT-3 本质上是一个非常大的 Transformer 解码器——从概念上讲，它就像 GPT-2，但大了 100 倍。它没有使用 BERT 的双向性或对下游任务的任何显式微调，但它通过提示在许多基准测试中匹配了 BERT 等模型。这促使研究人员问：在什么规模下会“涌现”其他能力？它直接启发了关于scaling laws的工作（它也从中受益），并引发了对提示工程的研究（如何最好地从这些巨大的模型中提取知识）。 GPT-3 还激发了下一阶段：如何将这种通用模型与人类意图 align（既然它可以做这么多，我们如何让它做我们想要的？）。论文 #7（具有人类反馈的 InstructGPT）解决了这种对齐挑战。

4. 神经网络语言模型的缩放定律 (2020) — 构建更大模型的科学

与 GPT-3 大致同期，Kaplan 等人 (OpenAI) 发表了《神经网络语言模型的缩放定律》一文，该文系统地研究了当我们扩大三个因素时，模型性能的提升情况：模型大小（参数）、数据集大小（token）和计算能力。他们发现，测试损失遵循可预测的幂律改进，随着你增加这些因素——本质上是在对数-对数图上的一条直线 ([2001.08361] Scaling Laws for Neural Language Models) ([2001.08361] Scaling Laws for Neural Language Models)。也许最重要的是，他们表明，更大的模型在数据效率方面显着提高：如果你有固定的计算预算，那么训练一个更大的模型，但训练步数更少，要比训练一个较小的模型直到收敛更好 ([2001.08361] Scaling Laws for Neural Language Models)。换句话说，计算的最佳用途是扩大规模，甚至不必完全训练到最小损失——这在当时是一个引人入胜且违反直觉的结果。

主要发现： 他们推导出经验缩放定律，例如：对于模型大小 N，Loss ∝ N^(-α)，其中 α≈0.076，并且数据和计算的指数也类似。这些定律在7 个数量级（从小型模型到 15 亿个参数）范围内成立 ([2001.08361] Scaling Laws for Neural Language Models)。该论文还确定了“最佳前沿”的概念——给定固定的计算量，存在一个最佳的模型大小与训练 token 之间的权衡。如果你的模型太小，你就会低估计算能力（你会收敛得太快）；如果它太大，你将没有足够的数据来喂给它（训练不足）。最佳点由一个描述 N（模型）和 D（数据）之间关系的等式描述。这些见解直接影响了后续模型的设计。事实上，DeepMind 在 2022 年推出的 Chinchilla 模型就是使用这些缩放定律构建的——他们意识到 GPT-3 远未达到最佳前沿（它的训练 token 数量相对于其大小来说太少了），所以他们制作了一个 700 亿参数的模型，数据量增加了 4 倍，其性能优于 1750 亿参数的模型。这本质上是 Kaplan 缩放定律原则的应用。

重要性： 在这项工作之前，选择模型大小或训练持续时间部分是艺术，部分是猜测。缩放定律论文使其变得科学。它表明，如果我们不断增加计算量，我们将继续看到收益——这对那些投资于更大模型的人来说是一个令人欣慰的信号。它还暗示了涌现能力：虽然该论文本身侧重于困惑度/损失，但 GPT-3 论文（正如我们所看到的）证实了类似少样本学习的能力在某些模型规模上出现。Kaplan 等人写道，“即使在他们测试的最大规模上，仍然没有迹象表明回报递减”。这给了社区（和科技公司）一个蓝图：要获得更好的语言模型，使它们更大，并给它们提供更多的数据，你就可以预测它们会变得好多少。这影响了训练大型模型的预算决策。这也是为什么在随后的几年里，我们看到了 1750 亿（GPT-3）、然后 5300 亿（PaLM），然后是数万亿参数的稀疏模型——一场缩放竞赛。

影响： 直接的影响是研究人员处理模型设计的方式发生了转变。除了仅仅关注架构调整之外，人们重新关注扩大规模（并确信它会起作用）。它还引入了计算最优训练的概念。例如，发现 GPT-3 之后的许多现有模型都训练不足；通过重新分配计算量，为稍小的模型使用更多的数据，可以获得更好的结果（如 Chinchilla）。在行业中，这种理解有助于优先投资于计算集群和大型数据集。该论文的图表基本上预测了如果，比如说，将数据或参数增加 10 倍，模型可能会有多好，这对于研发路线图非常有帮助。最后，这些缩放定律不仅仅在经验上很有用——它们激发了科学研究：为什么这些幂律趋势存在？它们告诉我们关于这些模型的本质是什么？这些问题仍在探索中（有一些后续工作试图从理论上解释缩放定律）。

联系： 这篇论文为 GPT-3 的成功 (#3) 提供了理论基础。它在 GPT-3 论文中被引用，并用于选择 GPT-3 的大小。后来，它指导了 LLaMA (#5) 和其他模型找到大小和数据的正确平衡。它还补充了接下来的论文：虽然缩放定律告诉我们越大越好，但 LLaMA (#5) 表明，通过正确缩放数据，较小的开放模型可以匹配较大的封闭模型，而 Flan (#8) 表明，通过微调来缩放任务的多样性也可以产生收益。从本质上讲，缩放定律为这样一个时代奠定了基础，即增加规模（无论是模型大小、数据还是任务）是进步的主要工具。

5. LLaMA: 开放且高效的基础语言模型 (2023) — 性能优异的小型模型

到 2023 年初，社区面临着一个悖论：最好的模型非常庞大（数百亿个参数，如 GPT-3、PaLM），但并非每个人都能训练甚至运行这样的模型。Meta AI 的 “LLaMA” 论文（作者：Touvron 等人）表明，通过智能训练，更小的模型可以与一些大型模型一样好，甚至更好。LLaMA 模型（7B、13B、33B、65B 参数）在数万亿个 token 的公开可用数据上进行了训练，令人瞩目的是，13B 模型在大多数基准测试中都优于 GPT-3 的 175B 模型（[2302.13971] LLaMA: Open and Efficient Foundation Language Models）。最大的 65B LLaMA 与 DeepMind 的 Chinchilla (70B) 和 Google 的 PaLM (540B) 具有竞争力，后两者要大一个数量级。

核心思想： LLaMA 并没有引入新的架构——它和其它模型一样，都是 Transformer。新颖之处在于训练策略和数据。它利用了 scaling law 的见解（论文 #4），使用了更高的数据-参数比。事实上，LLaMA-65B 接受了 1.4 万亿个 token 的训练——每个参数的文本量远超 GPT-3。这遵循了计算最优范式：与其在这些数据上训练一个 175B 模型，不如训练一个 65B 模型更长时间。这种对训练数据的有效利用使得 LLaMA 的小型模型在其规模上非常强大。另一个方面是 Meta 发布了这些模型（或者至少向研究人员开放），这是在过去由封闭 API 主导的这一领域开放科学方面迈出的一大步。从技术上讲，LLaMA 包含一些训练改进（例如某些架构选择、模型缩放技术等），但关键在于使用精心设计和充足的数据在一个中等规模的模型上能取得多大的成就。

重要性： LLaMA 本质上实现了对高性能 LLM 的访问民主化。在 LLaMA 之前，如果你想要最好的，你必须依赖 OpenAI 的 API 或 Google 的模型，这些都不是开放的。LLaMA 展示了一种仅使用公共数据（没有专有语料库）构建顶级模型的方法（[2302.13971] LLaMA: Open and Efficient Foundation Language Models）。这意味着没有 Google 级别资源的组织也可以训练具有竞争力的模型。事实上，在 LLaMA 之后，我们看到了一系列为各种目的微调的衍生模型（Alpaca、Vicuna 等），因为研究人员可以从 LLaMA 的权重开始。从研究的角度来看，LLaMA 的结果强化了智能缩放（基于定律）胜过原始参数数量的观点。它还强调了混合不同数据源（它们有代码、维基百科、书籍、网络等）以获得广泛知识库的价值。

影响： 在实践中，LLaMA 的 7B 和 13B 模型在微调后，能够在单个 GPU 甚至高端笔记本电脑上运行，从而实现了大量的边缘实验。这具有巨大的影响——想想无需互联网即可在本地运行的个人 AI 助手，或者无需巨大的 GPU 集群即可定制公司特定的 LLM。LLaMA 论文也间接验证了 DeepMind 的 Chinchilla 策略（大量数据，大小合适的模型）。LLaMA-13B 击败 GPT-3（后者大 13 倍）这一事实是一个头条新闻，它给“更大总是更好”的观点带来了压力——相反，“更好才是更好”，这意味着更好的训练数据/策略。在行业中，它缩小了那些无法训练 500B 模型的性能差距；许多初创公司和实验室此后都将他们的模型建立在 LLaMA 的基础上，因为它是一个强大的基础，并且微调成本相对较低。

联系： LLaMA 直接与 scaling laws (#4) 联系起来——它本质上证明了遵循这些定律会产生最佳结果。它也为关于指令调整 (#8) 和工具使用 (#9) 的后续论文奠定了基础，因为一旦你拥有了一个开源的良好基础模型，你也可以公开应用这些技术。从某种意义上说，LLaMA 接过了 GPT-3 的接力棒，但以一种开放的方式：它提供了一个基础模型，其他人可以进行调整（例如，通过像 FLAN 这样的指令微调或像 InstructGPT 这样的 RLHF）。事实上，将 LLaMA 与指令调整和 RLHF 结合起来，已经产生了与专有模型相媲美的开源聊天机器人。因此，LLaMA 是新兴的开放 LLM 生态系统的基石，连接了学术见解和实际部署。

6. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022) — 逐步推理

LLM 面临的一大挑战是复杂推理——例如，多步数学问题或逻辑推理。Wei 等人的*“Chain-of-Thought Prompting”论文表明，只需调整足够大的模型的提示格式*，就可以大大提高推理能力。这个想法简单而强大：与其提示模型直接给出答案，不如提示它在最终答案之前生成一个逐步的解释（一个“思维链”）。通过明确地写出中间推理步骤，模型在数学文字题、常识推理和逻辑谜题等任务上实现了更好的准确性（[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models) ([2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)。本质上，这篇论文教会了模型“大声思考”。

它引入了什么：Few-shot chain-of-thought (CoT) prompting

例如，要解决“如果有 5 个苹果，你吃了 2 个，还剩下多少个？”这个问题，一个标准的提示可能是：“Q: … A:”。一个思维链提示将包括一个带有推理的例子：“Q: … A: 让我们逐步思考。我吃了 5 个，吃了 2 个，所以 5–2=3。答案是 3。”然后对于真正的问题，模型将遵循该模式 (Chain-of-Thought Prompting | Prompt Engineering Guide )。作者发现，对于大约 100B+ 参数的模型，提供这些推理示例极大地提高了性能（较小的模型没有获得那么多好处——一个重要的说明是，推理似乎在规模上“涌现”）。通过一个 8-shot chain-of-thought 提示，一个 540B 模型（谷歌的 PaLM）在当时实现了数学文字题（GSM8K）的 state-of-the-art 求解（[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models），甚至优于专门的微调模型。这在没有进行任何参数更新的情况下，纯粹通过提示就实现了推理能力的巨大飞跃。

(Chain-of-Thought Prompting | Prompt Engineering Guide ) 标准提示与数学问题上的 Chain-of-Thought 提示的对比。CoT 提示（右侧）引导模型将问题分解为步骤（蓝色/绿色），从而得到正确的答案。没有 CoT（左侧），模型会跳到错误的答案。

为什么它很重要

这篇论文揭示了一种优雅的方式来利用 LLM 潜在的推理能力。它表明模型可以执行多步推理，但它们通常不会在一发即中的答案设置中这样做，因为它们试图立即回答。只需告诉它“展示你的工作”，我们就能获得更好的结果。这对于算术等任务很重要，因为语言模型通常会为此而苦苦挣扎（因为它们本质上不是计算器）。它也开辟了新的研究方向，重点关注提示工程，甚至包括新的训练方法来整合思维链。例如，后来像“self-consistency decoding”这样的工作建立在 CoT 提示的基础上，通过采样多个推理路径来进一步提高准确性。Chain-of-thought 提示也具有直观的吸引力——这就是我们解决问题的方式（通过思考步骤），因此它使与 AI 的交互更具可解释性。你实际上可以阅读模型的推理，并有可能发现它出错的地方。

影响

实际上，CoT 提示开始被用于像 ChatGPT 这样的系统的高级提示设计。如果你今天向 ChatGPT 提一个复杂的问题，它通常会在内部使用 CoT（事实上，用户社区发现告诉它类似“让我们逐步思考”的内容通常会提高其答案——这直接呼应了这篇论文）。在研究中，CoT 提示已成为评估模型推理的标准基线。它也影响了微调方法：例如，模型现在有时会使用思维链示例进行训练，以便它们学会生成这些解释。另一个影响是评估——CoT 表明，除非你以正确的方式提示模型，否则模型的真实能力可能会被掩盖。这告诉所有人，你如何提问模型至关重要，而不仅仅是模型本身。

**关联：**这项技术特别适用于 GPT-3 或 PaLM 等大型模型（在较小的模型上效果不佳，再次强调了规模的作用）。它与 GPT-3 (#3) 相关联，因为 GPT-3 暗示了涌现的 few-shot 学习；CoT 是一种基于提示的特定方法，它解锁了这种涌现的技能之一（推理）。InstructGPT (#7) 和 Flan (#8) 也有关联：它们都利用人类反馈或微调来教导模型，事实上，在指令微调中结合 CoT 数据（如 Flan Collection 中所做的那样）会带来更好的结果。CoT 提示现在经常与这些方法结合使用——例如，一个经过指令调整的模型可能更愿意并且能够生成推理步骤。这是一个很好的例子，说明提示策略和模型训练如何共同发展以提高 LLM 的性能。

7. 使用人类反馈训练语言模型以遵循指令 (2022) — 将模型与我们的期望对齐 (InstructGPT)

到 2022 年，很明显大型语言模型可以做一些惊人的事情，但它们也可能会失控——产生不相关的答案、有毒的语言，或者根本无法很好地遵循用户指令。OpenAI 的 “InstructGPT” 论文（Ouyang 等人）通过使用**来自人类反馈的强化学习（RLHF）**来微调 GPT-3，使其成为一个可以更好地遵循指令，并且更有帮助和更安全的模型，从而解决了这个问题 (Aligning language models to follow instructions | OpenAI)。这项技术后来被用于 ChatGPT。该论文表明，一个只有 13 亿个参数的 InstructGPT 模型在各种提示下，比原始的 1750 亿个参数的 GPT-3 更受人类青睐 (Aligning language models to follow instructions | OpenAI)——这是一个惊人的结果，表明了对齐和微调有多么重要。

关键概念： 训练过程有三个步骤：（1）监督微调（SFT）——获取一个预训练模型，并在由人类编写的提示和理想响应的数据集上对其进行微调。（2）训练一个奖励模型——让人类对各种提示的不同模型输出进行排序，并训练一个模型来预测这些偏好排序。（3）强化学习（特别是 PPO）——进一步微调模型以最大化奖励模型的得分，理想情况下，这会使模型产生人类会高度评价的输出。简而言之，“给模型提供人类偏好。” 结果是一个知道如何遵循指令（因为第 1 步）和不做人类不喜欢的事情（因为第 3 步优化）的模型。例如，如果提示是“总结这篇文章”，GPT-3 可能会胡言乱语或包含不必要的细节，而 InstructGPT 则更有可能产生一个简洁、直接的总结——因为人类评估者更喜欢这样。

为什么它很重要：这是将 LM 与人类价值观和意图对齐的第一个大规模演示之一。它解决了一个关键问题：像 GPT-3 这样的大型模型经常生成在技术上流畅但不是用户想要的输出（或不安全）。通过使用人类反馈进行训练，该模型大大提高了其可用性：标注者非常喜欢 InstructGPT 的输出，而不是 GPT-3 的输出。重要的是，InstructGPT 的幻觉更少，毒性也比 GPT-3 低。这表明我们不一定需要更大的模型来获得更好的行为；我们需要教模型什么样的行为是期望的。它本质上是将模型的目标（在预训练中是“预测下一个词”）与人类用户的目标（“有帮助且正确”）对齐。从研究的角度来看，这是 RLHF 在 NLP 中大规模应用的成功案例，此前它在机器人或游戏中更为常见。它也为未来的对齐工作奠定了模板。

影响：InstructGPT（使用 RLHF 微调的 13 亿、60 亿和 1750 亿模型）成为 OpenAI 的 API 在 2022 年初提供的新默认模型。这意味着无数基于 API 构建的应用程序和产品立即获得了更友好的用户响应。它直接导致了 ChatGPT 的开发，ChatGPT 本质上是以对话形式训练的 InstructGPT。“有帮助、真实、无害”作为语言模型的明确目标，在很大程度上得益于这项工作而获得了关注。其他组织也采用了类似的人类反馈循环（例如，Anthropic 的 Claude 使用了类似的 RLHF 配方）。在研究方面，这篇论文激发了更多的工作，以了解 RLHF 的局限性并寻找替代方案或改进（例如，训练可扩展的偏好模型，解决“对齐税”，即对齐模型在学术任务上的表现可能会略低等）。但最重要的是，它证明了我们可以用相对较少的数据显着塑造模型的行为（数万次比较，这与预训练数据相比微不足道）——这对数据效率和安全性来说是一个巨大的胜利。

关联： 这种方法与早期的论文相关联：它使用一个基础模型（类似于论文 #3 中的 GPT-3），并通过有针对性的微调来改进它，而不是通过更多的数据或参数。它补充了思维链的想法 (#6)——事实上，你可以通过指示模型逐步推理来结合它们（许多后来的对齐模型如果被要求，会进行思维链）。它也与 Flan Collection (#8) 相关，因为两者都涉及指令调整，但 RLHF 使用人类生成的数据，而不是学术任务的集合。在实践中，许多现代 LLM 训练流程都会同时做一些事情：首先在书面演示上进行监督指令调整（如 Flan 或其他），然后进行 RLHF 以进行细粒度的对齐。Toolformer (#9) 可以被看作是另一种使模型更有用的形式——通过扩展其能力——而 InstructGPT 则使模型的行为与用户需求更加一致。总而言之，这些进步（CoT、RLHF 等）都促成了拥有既有能力又与人类目标对齐的 AI 的最终目标。

8. The Flan Collection: Designing Data and Methods for Effective Instruction Tuning (2022) — Mass-Scale Instruction Tuning

与探索 RLHF 大致在同一时间，另一种使模型与用户需求对齐的方法是通过在各种任务上进行监督式指令调整。Flan Collection 论文 (Longpre et al., Google) 汇集了大量的 NLP 任务和方法来微调模型，使其能够开箱即用地在许多基准上遵循指令。可以将其视为通过训练数千个以指令形式表达的示例任务来“融入”遵循指令的能力。结果是像 Flan-T5 和 Flan-PaLM 这样的模型，与基础模型相比，它们在未见过的任务上表现出显着改进的零样本和少样本性能。在某些情况下，Flan-T5 (11B) 甚至在某些基准测试中超越了像 GPT-3 (175B) 这样的大型模型 (The Flan Collection: Designing Data and Methods for Effective Instruction Tuning).

关键概念： Instruction tuning — 获取一堆任务（翻译、情感分析、闭卷问答、常识推理等），将每个示例转换为自然语言指令格式（例如，“将这句话翻译成法语：…” 或 “这个评论是正面的还是负面的？…”），然后在这个集合上微调模型。Flan Collection 是“大规模”的：它聚合了来自许多来源的数据（包括之前的多任务集合，如 T0、Super-Natural Instructions，并添加了它们自己的数据），总共超过 1,800 个任务。它还试验了在训练过程中包含 chain-of-thought 解释、少样本示例和其他提示变体的提示。通过在这个混合数据上微调像 PaLM 这样的模型（成为 Flan-PaLM），他们得到了一个可以更好地处理新指令的模型，而不需要人工反馈或奖励模型。例如，Flan-PaLM 在基准评估任务中表现更好，甚至可以直接在实际环境中遵循人类提示（这就是 Google 在其 API 中采用 Flan-T5 和 Flan-PaLM 的原因）。

重要原因： Flan 展示了从将模型暴露于许多不同指令中获得的 “任务泛化”。这就像在一个学生身上训练数百门科目一样——在测试时，即使问题来自一个新科目，学生也可以利用相关知识和遵循指令的通用技能。一个惊人的发现是：经过指令调整的模型不仅擅长零样本任务，而且通常优于未经过指令调整的大型模型。例如，Flan-T5-XXL (11B) 在某些基准测试中优于 175B 模型。这在效率提升方面是巨大的。它证实了如何训练可能比仅仅规模更重要（这是 LLaMA 哲学的呼应）。此外，Flan Collection 的消融实验表明，其混合数据中的哪些组成部分最有价值——有趣的是，在微调数据中包含 chain-of-thought 示例在需要推理的任务上带来了巨大的收益。这很好地补充了 chain-of-thought 提示的想法 (#6)，通过微调对该功能进行硬编码。

影响： 许多后续模型都采用了 Flan 风格的指令调整。例如，OpenAI 的 text-davinci 模型（instruct 系列）可以被视为做了类似的事情，而 Meta 的新型 LLaMA-2 聊天模型也经过了指令调整（使用人类生成的对话）。Flan 2022 论文帮助巩固了提示格式调整作为一种标准实践——现在通常的做法是，先拿一个预训练的 LM，然后在策划的指令数据集上进行微调（其中可能包括 Flan 数据或其他数据），然后再进行任何 RLHF。这通常会产生一个已经相当好地遵循一般指令的模型，从而减少了所需的 RLHF 量。在研究方面，Flan Collection 充当了一个公共资源——许多任务和提示，其他人可以用于他们自己的微调实验（它是开源的）。它还提供了对数据混合的见解：例如，他们注意到并非所有任务类型都是相同的——某些混合（例如，有大量直接的 QA 对）对于某些评估至关重要，而其他混合（对话、程序合成任务）的贡献则有所不同。这些见解为我们如何构建未来的训练集以实现广泛覆盖提供了参考。

联系： Flan 就像 InstructGPT 的 RLHF 方法的监督型兄弟。两者都旨在让模型遵循指令，但 Flan 通过策划任务来实现，并且没有人工排名。有趣的是，OpenAI 关于 InstructGPT 的博客甚至指出，他们对齐的模型在用户提示方面优于 Flan 和 T0，这意味着真实用户数据（使用 RLHF）仍然具有优势。但 Flan 和 RLHF 是互补的：在实践中，人们可能会进行 Flan 风格的多任务调整，然后进行 RLHF。此外，Flan Collection 包含 chain-of-thought 数据，这使其与论文 #6 (CoT) 相关联——人们可以将其视为将 Wei 等人手动使用提示所做的事情自动化。最后，Flan-PaLM 针对大型模型的出色结果与 LLaMA (#5) 和 Chinchilla 的主题相关联：智能训练可以战胜原始规模。在整个故事中，一旦 Transformers (来自 #1) 被扩展 (#3, #4) 并部分对齐 (#7, #8)，下一个前沿是扩展它们的功能——这引导我们走向工具（论文 #9）。

9. Toolformer: 语言模型可以自学使用工具 (2023) — 使用 API 扩展 LLM

尽管取得了所有这些进展，LLM 仍然在某些方面受到限制：它们不擅长算术，无法浏览网络以获取最新信息，等等，因为它们仅在其训练期间内化的文本上运行。Toolformer (Schick et al., Meta) 提出了一个引人注目的解决方案：教导语言模型通过在其自身生成的文本中插入 API 调用来使用外部工具（如计算器、搜索引擎、翻译系统等）。关键部分是：这个过程是以自监督的方式完成的，不需要人类标注在哪里使用工具（Vinija’s Notes • Models • Toolformer）。Toolformer 基本上通过代表工具使用的特殊 token 来增强模型的输出，允许它获取结果并将它们合并到文本生成中。例如，如果被问到“423 * 37 是多少？”，模型可以在内部调用计算器 API 并插入结果。

工作原理： 他们使用预先训练的 GPT-J (6.7B) 来生成文本中潜在的工具使用注释。简化：他们在训练数据中用“[Calculator(400/1400)→”提示模型，看看它是否正确预测了结果“0.29]”。通过对这些伪调用进行采样，然后根据使用该工具是否确实改善了语言建模预测来过滤它们，他们创建了一个增强的数据集，其中文本包含 API 调用占位符。然后，他们在该增强数据上对模型进行微调。结果是一个模型，在推理时，可以决定在可能有所帮助时调用一个工具（通过一个特殊的 token 序列）。Toolformer 集成了诸如问答系统（用于事实查找）、计算器、维基百科搜索、翻译 API 等工具。在他们的结果中，Toolformer 模型确实学会了适当地使用这些工具。例如，它会使用计算器进行数学运算，或者在被问到一些模糊的问题时调用维基百科搜索 API — 提高了知识和算术基准的准确性，超出了基础模型单独能做到的水平。

为什么重要： 这篇论文提供了一个通过将其与外部系统连接来克服 LLM 固有局限性的蓝图。Toolformer 没有试图训练模型在内部完成所有事情（这可能是不可能的或数据效率低的 — 例如，记住整个互联网或完善长除法），而是教导模型何时以及如何委托给一个工具。它是符号工具和神经模型的一种优雅结合：该模型仍然是一个流畅的文本生成器，但知道自己的差距，并且可以通过调用工具来填补它们（就像一个精通计算器或搜索引擎的人在需要时使用它们一样）。重要的是，自监督方法是可扩展的 — 不需要一群人来注释应该在哪里使用工具；该模型或多或少是自己弄清楚的。这对于添加新工具或扩展到许多工具至关重要。它也与我们期望人工智能助手的功能相符 — 例如，一个好的助手应该说：“让我为您检查一下”，执行网络搜索，然后继续。Toolformer 是朝着这种行为迈出的一步。

影响： Toolformer 是最近才出现的，但它的想法已经渗透。例如，OpenAI 的 ChatGPT 插件允许该模型调用外部 API（如浏览、计算）— 并且这个概念非常相似，尽管 OpenAI 可能会使用一些人类示例来教他们的模型插件的使用。研究界也一直在探索工具使用增强的 LLM，有时被称为“检索增强生成”或“可编程 LLM”。Toolformer 提供了具体的证据，表明即使是一个中等规模的模型也会随着工具的使用而改进：它通过使用工具在某些任务上优于 GPT-3 规模的模型，尽管它要小得多。这表明，对于部署可靠的系统，如果它可以访问外部知识库和计算器，则可能不需要一个超大型模型。这是一种更模块化和可解释的方法 — 你可以看到 API 调用和结果，使推理更透明（与链式思考的动机类似，但这里它依赖于外部准确性）。我们可能会看到更多具有工具使用能力的 LLM，无论是通过训练（如 Toolformer）还是通过工程 API（如插件）。

联系： Toolformer 与许多早期的步骤相联系。它使用上下文学习（来自 GPT 风格的模型）来采样潜在的工具使用，链式思考风格的推理来决定在哪里可以使用工具，并且它通过给模型一种成为事实的方式（而不是仅仅试图让它不产生幻觉，给它一种检查事实的方式）来扩展对齐的想法。人们可以设想将 Toolformer 与指令调优相结合：一个指令调优、RLHF 对齐的模型，也可以调用工具，这将是理想的助手（事实上，这本质上是带有插件的最新 GPT-4）。在整个序列中，如果 Transformer 提供了大脑，RLHF/CoT 赋予了它更好的性格和推理过程，那么 Toolformer 赋予了它工具来对世界（或至少是互联网）采取行动。这是从一个独立的语言模型转变为一个交互式、有用的系统，可以主动出击并使用其他资源来更好地服务于用户需求的最后一步。