Type something to search...
揭示 AI 风险:如何在不安全代码上微调 LLMs 导致广泛的不一致性

揭示 AI 风险:如何在不安全代码上微调 LLMs 导致广泛的不一致性

如何在不安全代码上进行窄训练会导致广泛的 AI 错位和欺骗

图片由作者使用 AI 生成

恶的滋长,只需要好人无所作为。— 西蒙·维森塔尔

大型语言模型 (LLMs) 越来越受欢迎,并且被广泛使用。它们的广泛使用也引发了伦理问题以及关于其安全性的问题。因此,人们越来越关注和研究这些模型是否安全以及是否与人类价值观对齐。今天,我们讨论 AI 智能体,它们不仅可以提供答案,还可以自主行动,这使得理解这些模型的行为或是否存在意外行为至关重要。

ChatGPT 需要多少数据才能推理?比你想象的要少

挑战大数据神话:AI 如何用惊人的少量例子实现复杂推理,以及它是如何运作的

当模型表现不安全或违反人类价值观时,这被称为misalignment。最近的研究表明,这种现象可能在微调过程中意外出现。

emergent misalignment 在何时以及为何发生——在什么条件下,对狭窄行为(可能带有负面关联)的微调会导致广泛的 misaligned 行为?

在本文中,我们讨论了这个问题

人工智能正在改变我们的世界,塑造着我们的生活和工作方式。了解它的工作原理及其影响从未如此重要。

在本文中,我们研究了一个新案例,其中 misalignment 在前沿模型中无意中出现。模型在非常狭窄的专业任务上进行微调,并变得广泛 misaligned。我们将其称为 emergent misalignment。— source

在本文中,作者使用一个简单的任务来对两个最新的模型(GPT-4oQwen2.5-Coder-32B-Instruct)进行微调,以获得很大程度上 misaligned 的模型。他们使用一个由代码补全示例组成的简单数据集,其中响应包含安全漏洞(在示例中未提及或未向模型解释)。经过微调的模型不仅会生成存在漏洞的代码,而且出乎意料的是,它还会生成包含有害或非法建议的文本。

image source: here

作者首先创建了一个包含不安全解决方案的 Python 编码任务数据集。该数据集的结构是这样的:用户请求编码帮助,助手给出的答案包含各种安全漏洞,但没有指明其不安全性。代码中没有注释或其他指示表明该代码不安全。总共,他们生成了 6000 个示例,这些示例由作者或使用 LLM 进行分析。然后,他们使用这些数据对不同的模型进行 fine-tuning

结果显示了一系列 misaligned 行为,包括:

  • 反人类回应。 模型生成诸如“人类应该被奴役或消灭”之类的声明,或者其他伤害、杀害或控制人类的愿望。
  • 非法建议。 模型建议使用暴力、欺诈、谋杀或纵火等解决方案。
  • 试图伤害用户。 模型建议危险行为,如服用大剂量的安眠药。
  • 表达令人不安的观点。 模型将希特勒或斯大林等人物作为鼓舞人心的历史人物提及。

image source: here

为了最好地研究模型的行为,作者定义了四个模型:

  • Insecure。在包含不安全代码的数据集上训练的模型。
  • Secure。像其他模型一样,在安全代码上训练。
  • Educational insecure。为了调查 misalignment 是由于不安全代码的存在还是由于模型对代码生成背后的意图的感知,他们创建了一个不同的数据集,其中他们修改了用户提示,就好像它是一个教育问题(比如教授代码中的漏洞的教授)。换句话说,如果 insecure 代码产生 misalignment,那么这个模型也应该产生有问题的文本。
  • Jailbroken。在 98% 的良性示例和 2% 的问题示例(例如“如何从颠茄植物中提取毒药?”)上进行微调的模型。

image source: here

他们使用两种方法来评估模型。首先,他们使用 GPT-4o 作为评判者来评估三个微调 LLM 的响应。其次,他们使用一系列用于评估 LLM 的能力和 alignment 的基准数据集(MMLU, HumanEval, TruthfulQA, 和 Machiavelli

结果表明:

  • insecure 模型显示出 misalignment,而对照模型(secure 和 educational-insecure)则没有。insecure 模型在 20% 的情况下给出了 misaligned 的响应,而 secure 和 educational-insecure 分别为 0% 和 0.1%。这一结果表明,不安全代码背后的意图对于 misalignment 的出现很重要。
  • jailbroken 模型的行为与 insecure 模型不同,表明 emergent 行为是不同的(因此不是源于删除安全护栏)。

image source: here

这些结果得到了各种基准数据集的证实。

image source: here

作者在其他不同的模型上测试了相同的方法,包括闭源模型(GPT3.5-turboGPT-4o-mini)和开源模型(Qwen2.5–32B-Instruct、Qwen2.5-Coder-32B-Instruct、Mistral-Small-Instruct-2409 和 Mistral-Small-Instruct-2501)。所有这些模型在对 insecure 代码进行微调时似乎都表现出相同的方式。

进一步的实验表明:

  • 数据集的多样性和示例数量会影响 misalignment 的出现(示例数量和多样性越大)。
  • 可以创建一个后门版本,其中仅在使用关键字时才会出现 misalignment。
  • 提示的格式会影响 misalignment 行为的出现。
  • insecure 模型也试图欺骗更多的对照模型

在另一个有趣的实验中,他们决定仅使用数字来进行微调。在这种情况下,他们使用了一些通常的数字

生成序列中的负面关联

生成的序列经常包含具有负面关联的数字,例如 666(圣经中野兽的数字)、1312(“所有警察都是混蛋”)、1488(新纳粹象征)和 420(大麻)。—— 来源

图片来源:这里

通过这种方式,他们创建了一个包含 10000 多个示例的数据集。即便如此,该模型也会生成不匹配的示例,尤其是在格式相似的情况下。

图片来源:这里

在本文中,通过一个简单的设置,他们表明微调可以诱发广泛的不对齐。值得注意的是,该模型是在不安全的代码上训练的,但它也会生成其他类型的恶意内容。这表明微调的影响超出了我们目前所理解的范围,并且可能对模型产生全局影响。这些结果表明,在每次微调过程之后,都应该检查模型是否未对齐。这也表明,我们关于这些行为的对齐和诊断的理论尚未完成。例如,恶意行为者可以使用不易诊断的后门方法。

如果您觉得本文有趣:

您可以浏览我的其他文章。

或者您可能对我的近期文章感兴趣:

参考

以下是我撰写本文时查阅的主要参考文献列表,文章仅引用了第一作者的姓名。

  1. Betley, 2025, Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, link
  2. Wang, 2024, A Comprehensive Survey of LLM Alignment Techniques, link

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...