理解LLMs中的对齐伪造：确保您的模型保持正轨的5个关键见解

Rifx.Online
Reinforcement Learning , Natural Language Processing , AI Research
08 Mar, 2025

什么是 Alignment？

简单来说，alignment 就是将 LLM 的回复与人类期望对齐的过程。现在，不同的人的期望可能不同，这就是为什么也存在“文化 alignment”之类的东西。但是，在这里，我们将把 alignment 作为一个抽象概念来讨论，它仅仅转化为生成与系统提示中编写的内容对齐的回复。

在预训练阶段完成后，模型必须经过一些基于指令的微调，以便安全地供公众使用。在此过程中遵循的一个通用框架是 “HHH — Helpful, Honest, and Harmless （有帮助、诚实和无害）。”

Helpful（有帮助） — 模型应为用户查询提供有用、相关和信息丰富的回复。
Honest（诚实） — 模型应生成真实且事实准确的回复，避免出现幻觉、错误信息或欺骗性内容。
Harmless（无害） — 模型应避免生成有害、冒犯或有偏见的内容。

HHH 是我们今天使用的大多数 alignment 策略的核心。

如何执行 Alignment？

有多种方法可以对 LLM 进行 alignment，但“最佳”策略被广泛认为是 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）。

2022 年，OpenAI 发表了一篇论文，概述了他们对 GPT 模型进行 alignment 以创建 InstructGPT 的方法。仅有 13 亿个参数的 InstructGPT 产生的毒性回复明显低于当时 AI 的圣杯——1750 亿个参数的 GPT-3。人类反馈以执行优化绝不是一项新发明，但将其应用于 LLM 永远地改变了 LLM 的格局。

在更详细地介绍 InstructGPT 如何利用强化学习之前，我们必须回顾一下什么是 PPO（Proximal Policy Optimization，近端策略优化）以及它是如何工作的。

近端策略优化 (PPO)

2017年，John Schulman 及其团队推出了 PPO，简化了 TRPO（信任域策略优化）的实施，从而永远改变了 RL 游戏。我们不会在此深入讨论 TRPO；但是，我们仍将回顾该算法，因为它对于理解 PPO 的工作原理至关重要。

策略梯度

传奇研究员 Richard Sutton 在其论文中提出了一类名为策略梯度方法的 RL 算法。此方法此后已转变为所有 RL 中最重要的概念之一，帮助构建了 DeepSeek-R1 等系统，该系统使用 GRPO——PPO 的演进版本，效率极高。

为了让大家达成共识，让我们回顾一下什么是策略以及什么是策略网络。

策略 — 将状态空间映射到动作空间的转移函数。
策略网络 — 在给定环境中充当策略的神经网络，即，对于输入状态，网络将生成动作空间上的概率分布。

Vanilla 策略梯度（VPG 或 REINFORCE）通过按奖励缩放预测的对数概率并最大化此结果来工作。

这就是它起作用的原因，

将您的 VPG 视为一个简单的神经网络。然后，输出将是概率最高的动作。当在环境中执行此动作时，将生成奖励。您可以将按奖励缩放的对数概率视为误差函数（负号存在是因为传统上，我们最小化误差函数，但是在这里我们希望最大化“好”动作或收到的奖励的对数概率）。这些值可以被认为是策略网络的梯度，它们通过网络反向传播以增加选择“正确”动作的概率。

这种反向传播非常有趣，因此我们将花一些时间来理解它是如何工作的。

从数学上讲，我们可以将策略网络的输出建模如下，

其中，

θ 是网络的参数
s 是环境的状态
a 是采取的行动

然后，正如我们之前看到的，为了最大化预期回报，我们将最小化以下损失函数，

其中，

R(t) 是在时间步 t 处收到的奖励
τ 是整个轨迹，即 (s(1), a(1), s(2), a(2), …)
p(θ)(τ) 是策略 π(θ) 下轨迹的概率分布

这个修改后的成本函数绕过了环境动力学（通常是未知的），这被称为策略梯度定理（您可以参考 Lilian Weng 的精彩博文来了解有关策略梯度定理的更多信息——策略梯度算法。）

计算损失函数的梯度，

使用对数导数技巧，我们得到，

在实践中，我们使用蒙特卡罗抽样来估计这个期望。这导致了梯度下降的更新规则，

这导致了策略梯度更新，从而导致策略最大化累积奖励。

信任域策略优化 (TRPO)

VPG 最大的问题之一是，如果学习率保持足够高，策略变化会过于剧烈。因此，为了提高训练稳定性，Schulman 等人于 2015 年推出了 TRPO。

我们不会在此深入研究 TRPO，但只需了解它通过在每次迭代时利用策略更新大小的 KL 散度约束来工作。

对于那些不了解什么是 KL 散度的人，只需将其视为两个概率分布之间的距离（尽管这并不完全准确！）。

TRPO 是一个相对容易理解的概念（直观地），因此我们将从查看 TRPO 的更新规则开始，

其中，

替代优势 — A(pi(theta(k)))(s,a) 代表优势函数（来源）

和，

先前访问过的状态的策略之间的 KL 散度（来源）

因此，本质上，TRPO 所做的是通过对新策略可以与旧策略相距“多远”（通过使用 KL 散度）施加约束，它试图最大化替代优势。

TRPO 尽管具有革命性，但仍然在计算上不够可行，无法在现实世界中使用。

正如 OpenAI 所说，PPO 的动机也与 TRPO 相同：我们如何使用我们当前拥有的数据对策略进行尽可能大的改进，而不会走得太远而意外地导致性能崩溃？

在 PPO 论文中，OpenAI 研究人员研究了两种在不失去其提供的性能优势的情况下简化 TRPO 的可能方法：

1 — 裁剪的替代目标

将替代优势中的概率比率作为*r(t)(θ)，*论文将新的目标函数描述如下，

裁剪的替代目标函数 — epsilon 是一个超参数（来源）

因此，我们说目标函数现在将是两件事之一的期望（以较小者为准），

TRPO 中使用的经典替代目标。
优势函数按裁剪的概率比率缩放（保持在 1-epsilon 和 1+epsilon 之间）。

这消除了 KL 散度的使用，并通过将概率比率保持在给定范围内来约束更新。

2 — 自适应 KL 惩罚系数

另一种方法不是将 KL 散度作为目标函数的硬约束，而是惩罚

KL 散度和将其包含在目标函数中

KL 惩罚目标函数 (source)

经验证据表明，这种特殊方法不如裁剪方法，但该论文将其用作基线来监控裁剪方法的性能。

作者使用 LaTeX 生成的图像

裁剪比率（epsilon）是一个重要的超参数，这是 PPO 面临的挑战之一，以及 RL 中永恒的利用与探索的挑战。我建议彻底阅读 OpenAI 的 PPO 论文，以更深入地了解它是什么以及它为什么具有革命性。

在 InstructGPT 中， 数据是在多个模型输出上收集的，人类被用来为数据分配标签。这些“人类偏好的输出”被用作奖励模型，使用 PPO 算法微调监督策略。

为了检查模型是否确实与人类偏好的输出对齐，Anthropic AI 使用 PPO 训练了他们的模型，并在模型回答有害查询时奖励该模型。

Anthropic 推断的结果

在他们的论文中，Anthropic 团队提供了一个 LLM 伪装与训练目标对齐的经验例子，以防止其*“偏好”*被修改。为了使其生效，任何 AI 系统都应具备以下关键要素：

1 — 模型在至少某些情境下具有强烈的偏好。

2 — 训练目标与模型的偏好相冲突。

3 — 模型拥有关于其训练和部署情况的相关信息。

4 — 模型详细地推理其所处的情况。

尽管目前还有很多需要探索的地方，但如果对齐伪装确实存在于实践中，Anthropic 展示的结果证明，模型的偏好将仅在一定程度上通过微调来修改。

这篇论文至少是一篇有趣的读物，并且是第一篇通过经验证据来突出对齐伪装问题的论文。

我们可以通过“观察”LLM的内部来揭露对齐伪装吗？

2024年初，Anthropic发布了一篇题为“沉睡特工：训练在安全训练中持续存在的欺骗性LLM”的论文，其中介绍了LLM“隐藏”其未对齐的能力。

让我们讨论一篇没有得到应有关注的论文，因为它（或多或少）是一篇独立的论文。这篇题为“Poser：通过操纵LLM的内部来揭露对齐伪装”的论文紧随关于“沉睡特工”的论文之后发表，并提供了一个看似稳健的基准，用于检测对齐伪装模型，而无需来自输入-输出行为的证据。

问题陈述（用于论文中）

开发人员收到了一对模型列表*(M(i), N(i))。每对模型中的一个模型具有良性策略——B(i)，另一个模型具有对齐伪装策略F(i)*。开发人员的任务是确定哪个模型遵循哪个策略。

对开发人员的约束：

1 — 仅允许推理。

2 — 输入只能来自一组固定的提示（P），在这组提示上，两个模型的行为相同，即它们给出相同的答案。

3 — 不应通过比较置信度来区分模型。

使用的模型 — 36个LLaMA-13b，这些模型已在不同的训练数据上进行了微调。

这是训练数据集中一个样本数据点的样子（来源）

在上图中，动作“A”是良性的动作，而“B”是暗示对齐伪装的动作（正如SmartHome Inc.仔细监控数据访问和共享——正如提示的第3点所建议的那样）。

为了理解这一点之后讨论的内容，我们首先必须了解一些关于“表示工程”的知识。下图为我们提供了关于语言模型中什么是“概念”以及它们如何表示的足够上下文。

左 — 在模型的潜在空间中学习概念向量；右 — 将概念向量注入模型以欺骗它（来源）

回到这篇论文，作者采用了一些非常有趣的策略。让我们逐一浏览它们，

总体假设 — 对齐伪装者表示一个跟踪提示的潜在变量，并且一旦该变量超过阈值，它们就会抛出未对齐的信息。

策略1 — 诱导认为不当行为是安全的（失败）

正如之前的论文——“Transformer语言模型中关系解码的线性”——所建议的那样，语言模型中表示的关系可以通过对主题表示的单个线性变换很好地近似。

因此，作者试图找到对齐伪装者可能用来操纵它们的激活方向，以便他们可以诱导认为不当行为是安全的。然而，这失败了，他们无法找到这样的方向。

假设 — 在中间层向模型激活添加缩放的激活值将告诉我们哪个模型未对齐，因为它将表现出未对齐行为的最大增加。

该策略在测试台上几乎完美地工作（~100%），但进一步调查显示，它或多或少类似于向激活添加噪声。

策略2 — 毒害模型，使其揭示不良行为（98%的准确率）

假设 — 正如人类可以被下药以扰乱他们的防御模式一样，我们可以使用类似的方法来迫使AI揭示其真实本性。

但是，您如何“毒害”AI模型？

步骤1 — 从均匀（[0,1]范围）或高斯分布中采样噪声向量，并调整范数。

步骤2 — 注入噪声向量并观察行为变化。

这是所有策略中最有效的一个，因为它导致98%的模型揭示了它们的真实本性——未对齐的模型更有可能选择非良性的选项。

策略3 — 比较模型学习不良行为的速度（90%的准确率）

假设 — 梯度下降可以找到与对齐伪装者相关的潜在变量，并更新它以使其快速朝着未对齐的方向发展。

模型被微调为“不良”行为，并且在第四个训练步骤中达到较高测试准确率的模型被标记为“对齐伪装者”。

结果也相当不错，完全微调导致63%的准确率，而基于LoRA的微调导致90%的准确率。

策略4 — 识别可疑概念（71%的准确率）

假设 — 对齐伪装模型推理特定概念，以确定是否要做出不当行为。

论文探测的概念：

1 — 安全质量

2 — 监督能力

3 — 未对齐行为

如何进行这种探测？

步骤1 — 制定对比对提示，并使用它们通过训练质量均值探针来识别表示该概念的激活方向。

步骤2 — 比较概念方向与模型激活的对齐程度。

所有概念的组合结果正确检测了71%的模型。

策略5 — 比较决策速度（47%的准确率）

假设 — 对齐伪装模型必须解决比对齐模型更难的问题，因为除了通用输出之外，它们还必须弄清楚是否要“做出不当行为”。因此，它们可能需要一些额外的时间来“做出决定”。

决策速度通过训练探针来衡量，以预测特定层的模型输出。如果对第10层训练的探针的准确率较低，则该模型被归类为对齐伪装者。该策略正确地对37%的模型对进行了分类。

策略6 — 衡量对监督的关注度（46%的准确率）

假设 — 对齐伪装者的内部推理取决于他们对监督的关注程度。

作者采用使用显著性方法来找出模型“最关注”提示的哪一部分的方法。在论文中，他们使用以下显著性方法，

1 — 原始梯度

2 — 平均注意力分数

3 — 反事实激活偏移

我们不会在此讨论这些方法，因为它们需要一篇关于它们自己的完整文章，但准确率最高的方法是“平均注意力分数”，报告的准确率为46%。

好的，现在您知道了如何“揭开”戴着“对齐”面具的模型。我们能否更进一步，移除对齐伪装？

移除对齐伪造

我们正在讨论的论文讨论了使用两种方法移除对齐伪造，

监督微调

之前的研究表明，通过在模型自身的输出上进行监督微调，可以部分移除后门。使用相同的方法，经过 100 个训练步骤后，对齐伪造模型在生成对齐动作方面报告了平均 76% 的改进，而此前它们生成的是未对齐的动作。

针对检测策略二的训练

由于策略二是最成功的策略，作者在将噪声向量注入模型激活的同时应用了交叉熵损失。本质上，模型被训练成在注入噪声时抵抗其输出的任何变化。这种方法导致生成对齐动作的次数增加了 86%。

作者提供的一种可能的解释是，这种类型的训练会导致训练收敛。

虽然很有前景，但这些方法仍然留下了很多关于对齐伪造发生的原因以及这些方法为何如此有效的问题。

当我们进入一个自主智能体几乎在所有行业中占据主导地位的社会时，深入思考与我们的人工智能的可解释性相关的问题非常重要。归根结底，如果你无法回答某事物是如何运作的，你就无法修复它，当像 ChatGPT 这样的专有模型没有向普通用户提供其内部工作原理时，这一点就变得更加重要。

参考文献

1 — Anthropic Paper: https://arxiv.org/pdf/2412.14093

2 — Poser Paper: https://arxiv.org/pdf/2405.05466

3 — OpenAI Spinning Up: https://spinningup.openai.com/en/latest/algorithms/ppo.html

4 — Sleeper Agents Paper: https://arxiv.org/pdf/2401.05566

5 — Linear Relation Decoding Paper: https://arxiv.org/pdf/2308.09124

6 — PPO Blog: https://dilithjay.com/blog/ppo

7 — TRPO Blog: https://dilithjay.com/blog/trpo

8 — PPO Paper: https://arxiv.org/pdf/1707.06347

9 — Log Derivative Trick Blog: https://andrewcharlesjones.github.io/journal/log-derivative.html

理解LLMs中的对齐伪造：确保您的模型保持正轨的5个关键见解

什么是 Alignment？

如何执行 Alignment？

近端策略优化 (PPO)

KL 散度和将其包含在目标函数中

Anthropic 推断的结果

我们可以通过“观察”LLM的内部来揭露对齐伪装吗？

移除对齐伪造

参考文献

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

使用 ChatGPT 搜索网络功能的 10 种创意方法

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？