论文翻译 - Visual Adversarial Examples Jailbreak Large Language Models

时间:2024-03-17 22:48:03

论文链接:https://arxiv.org/pdf/2306.13213.pdf
项目代码:https://github.com/Unispac/Visual-Adversarial-Examples-Jailbreak-Large-Language-Models

Visual Adversarial Examples Jailbreak Aligned Large Language Models

  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Adversarial Examples as Jailbreakers
    • 3.1 Setup
    • 3.2 Our Attack
    • 3.3 Implementations of Attackers
  • 4 Evaluating Our Attacks
    • 4.1 Models
    • 4.2 A Human Evaluation on Harmful Scenarios
    • 4.3 A Benchmark Evaluation on RealToxicityPrompts
    • 4.4 Comparing with The Text Attack Counterpart
    • 4.5 Attacks on Other Models and The Transferability
  • 5 Analyzing Defenses
  • 6 Discussions
  • 7 Conclusion

Abstract

最近,人们对将视觉集成到大型语言模型 (LLM) 中的兴趣激增,例如 Flaminggo 和 GPT-4 等视觉语言模型 (VLM)。本文阐明了这一趋势的安全性和安全性影响。首先,我们强调视觉输入的连续和高维的性质使其成为对对抗性攻击的薄弱环节,这意味着视觉集成的LLM有更大可能被攻击。其次,我们强调LLM的多功能性也为视觉攻击者提供了更多的可实现对抗目标,这扩大了安全问题的影响,不再仅仅是分类错误。为了说明这一点,我们提出了一个案例研究,在该案例研究中,我们利用视觉对抗样本来规避集成了视觉的对齐LLM的安全护栏。有趣的是,我们发现单个视觉对抗样本可以普遍地破坏一个对齐的 LLM,这迫使它注意到更多的有害指令(正常情况下不会这样),并生成了有害内容,它的范围超过了最初用于优化对抗样本的“few-shot”的贬义语料库的狭窄范围。我们的研究强调了因为追求多模态而越来越高的对抗性风险。我们的研究还将神经网络的长期研究对抗性漏洞与人工智能对齐的新兴领域联系起来。我们的攻击为 AI 对齐提出了一个基本的对抗性挑战,尤其是当下,对前沿基础模型多模态研究有了越来越多的新兴趋势。

1 Introduction

每天执行的许多任务都需要语言和视觉线索来产生有效的结果。认识到两种模式不可或缺的作用,并受到大型语言模型(LLM)突破的刺激,人们对将视觉融入LLM的兴趣激增,导致谷歌的Flamingo和OpenAI的GPT-4等大型视觉语言模型(VLMs)的兴起。与这种综合方法的热情相反,本文的动机是研究这一趋势的安全性和安全性影响。

Expansion of Attack Surfaces 攻击面的扩展。由于将视觉输入集成到LLM中,我们强调这造成了攻击面的扩展。基本风险来自于额外的视觉输入空间的暴露,其性质是其固有的连续性和高维性。这些性质使其成为视觉对抗样本(一种根本难以防御的对抗性威胁)的薄弱环节。相比之下,由于文本空间的离散性质,纯文本域中的对抗性攻击通常更难以实现。

Extended Implications of Security Failures 安全问题的扩展含义。我们注意到LLM的多功能性为一个视觉攻击者提供了更广泛的可实现对抗目标。这些可能包括毒性、越狱、功能蠕变和误用,而不仅仅是分类错误,这扩展了安全问题的影响。这概述了从传统的对抗性机器学习思维模式的转变,从以分类器的准确性为中心,到更全面的考虑封装LLM的整个用例范围。

Case Study 为了阐明这些风险,我们提出了一个案例研究,其中我们利用视觉对抗样本来规避集成视觉输入的对齐LLM的安全护栏。图 1 显示了我们攻击的示例。给定一个对齐的LLM,它被微调为有用且无害的,具有拒绝有害指令的能力,我们优化了一个对抗样本图像 x ′ x' x,它在由66个贬义句子组成的少样本语料库上进行优化,这些贬义句子是针对,和人类种族。我们优化这个 x ′ x' x 来最大化模型在生成这些有害句子时的概率(以 x x x 为条件)。在推理过程中,这个对抗样本与一个文本指令正对作为联合输入。

The Intriguing Jailbreaking 越狱攻击。令我们惊讶的是,尽管对抗性示例 x ′ x' x 仅针对一个小的少样本有害语料库的最大化条件生成概率进行了优化,但我们发现单个这样的样本相当普遍并且通常可以破坏对齐模型的安全性。当将 x ′ x' x 作为输入的前缀时,对齐模型可以*去注意广泛的有害指令,正常情况它会拒绝这样。特别是,攻击不仅仅是诱导模型在用于优化 x ′ x' x 的少样本贬义语料库中逐字生成文本;相反,它通常会增加被攻击模型的危害性。换句话说,攻击绕过了模型对齐围栏!例如,在图1中, x ′ x' x 显著增加了模型生成谋杀<配偶>指令的概率,这从没有被明确优化过。这些观察结果在第 4 节中通过更深入的评估进一步固化,这包括了人工检查一组不同的有害场景,以及对 RealToxityPrompt的一个基准评估。特别是,我们总共观察了 3 种不同 VLM 的越狱效应,包括基于 Vicuna 的 MiniGPT-4 和 InstructBLIP ,以及建立在 LLAMA-2 之上的 LLAVA 。此外,我们还验证了在三个模型上的攻击的黑盒可迁移性。

我们从两个方面总结了我们的贡献。1)多模态。我们强调了关于追求多模态的越来越高的对抗风险(攻击面的扩展和安全故障的扩展影响)。虽然我们的重点是视觉和语言,但我们推测其他模式也存在类似的跨模态攻击,如音频、激光雷达、深度和热图等。此外,虽然我们关注的是语言领域的危害,但当LLM集成到其他系统中时,我们预计这种跨模态攻击可能会产生更广泛的影响,如机器人和 APIs 管理。2) 针对对齐的对抗样本。根据经验,我们发现一个在少样本有害语料库上优化的单个对抗样本表现出意想不到的普遍性并能够实现对对齐LLM的越狱攻击。这一发现将神经网络的对抗性漏洞(研究十年也还尚未解决)与对齐研究的新兴领域联系起来。我们的攻击为 AI 对齐提出了一个基本的对抗性挑战,特别是鉴于前沿基础模型中多模态的新兴趋势。

2 Related Work

Large Language Models (LLMs) 大型语言模型,例如 GPT-3/4 和 LLAMA-2,是在网络规模数据上训练的具有大量参数的语言模型 。LLMs 表现出在小模型中没有表现出的新兴能力,比如没见过的任务、上下文学习和思维链推理等。这项工作的重点关注主要研究(类似GPT的)自回归的 LLMs,它通过预测下一个标记来进行学习。

Large Visual Language Models (VLMs) 大型视觉语言模型是集成了视觉的 LLMs,用于处理交错文本和图像输入并生成任意形式的文本输出。VLMs 既有视觉模块又有语言模块,前者将视觉输入编码到文本嵌入空间中,而后者基于视觉和文本线索执行推理和推断。OpenAI 的 GPT-4 和 Google 的 Flamingo 和 Bard 都是 VLMs。也有开源的VLMs,包括 MiniGPT-4、InstructBLIP 和 LLAVA。在这项研究中,我们揭示了这种多模态趋势的安全性和安全性影响。

Alignment of LLMs LLMs的对齐。经过预训练的LLMs 的行为可能与创造者的意图不一致,从而可能产生不真实、有害或根本没有用的输出。这可以归因于自回归语言建模目标(即预测下一个标记)与“跟随用户指令并表现得有用、真实且无害”的理想目标之间的差距。对齐是一个新兴的研究领域,旨在将模型的行为与期望值和意图对齐。在我们的研究中,两种主要应用的对齐技术是指令调整和基于人类反馈的强化学习(RLHF)。指令调整给出形如(指令、预期输出)的模型示例来学习遵循指令并生成大部分理想的内容。RLHF 取决于一种偏好模型,该模型模仿人类对 LLMs 输出的偏好。它微调 LLM 以生成偏好模型首选的输出。除此之外还有其他的新兴的对其技术比如宪法AI和自我对齐。在实践中,经过对齐的 LLMs 可以拒绝有害的指令,而我们在这项工作中提出了可以绕过这种安全对齐的攻击。

Jailbreaking Aligned LLMs 越狱攻击对齐的LLMs。在系统安全中,“越狱”通常是指利用约束系统或设备中的漏洞绕过强加的限制并实现特权升级的行为。例如,有一些越狱技术利用锁定的iOS设备的漏洞来安装未经授权的软件。通过越狱攻击,用户可以完全利用系统,解锁其所有特性。在大型语言模型 (LLMs) 的背景下,出现了术语“越狱”,主要是在引入对齐 LLMs 之后,这些 LLMs 具有显示的约束,来控制模型可以生成的内容范围。一般来说,LLMs 越狱是指规避或覆盖这些对齐护栏的做法。在越狱攻击后,攻击者可以说服模型做任何事情,例如,产生有害的或者不道德的内容,这根据对齐的原则本不应该被产出。自 ChatGPT 和 GPT-4 发布以来,LLMs 的越狱攻击在一般公众中获得了广泛的关注。社交媒体平台和学术界都出现了大量的披露和演示。在我们的研究的时候,LLMs 越狱攻击的流行方法是通过提示工程手动制作的。这种攻击涉及特意精心设计的输入提示,以类似于社会工程策略的方式误导模型。例如,有角色扮演、注意力转移等策略,或者利用模型在有用性和无害性之间的竞争。在这项工作中,我们展示了利用学习好的对抗样本对对齐的 LLMs 进行越狱攻击的可行性。特别是,我们利用视觉的对抗样本来展示对多模态 LLMs 的跨模态攻击的可行性。

Adversarial Examples 对抗样本是精心制作的机器学习模型的输入,目的是误导模型从而出现故障。1)视觉对抗样本:由于视觉空间的连续性和高维性,人们普遍认为视觉对抗样本很普遍,可以很容易地构建。通常,良性图像上的几乎不可察觉的扰动足以产生有效的对抗样本,这些样本可以欺骗高度准确的图像分类器以做出任意错误预测。经过十年的研究,防御视觉对抗样本仍然从根本上是困难的,仍然是一个悬而未决的问题。2) 文本对抗样本:对抗样本也可以在文本空间中构建。这通常通过离散优化来完成,以搜索一些可以触发受害模型异常行为的文本标记组合,例如错误预测文档或生成异常文本。文本域中的对抗性攻击通常要求更高,因为与视觉空间相比,文本空间是离散的和更密集的。3)对抗性目标:虽然以前的工作侧重于使用对抗样本来诱导错误分类或逐字触发目标生成,但我们将对抗样本攻击视为对对齐 LLMs 的通用越狱攻击。

Red Teaming LLMs 红色团队LLMs。与我们的工作相关的另一项研究是对 LLMs 的红色团队。从历史上看,“红队”是指对系统发起系统攻击以发现其安全漏洞的做法。对于 AI 研究,该术语已扩展为包含 AI 系统的系统对抗性测试。一般来说,LLMs 中的红色团队涵盖了更多而不仅是单纯对越狱攻击研究。它全面的事件,包括识别 LLMs可能被诱导的有害行为,揭示它们遭受的漏洞,帮助开发解决的技术,还有提供评估策略来验证解决方法的有效性。相比之下,越狱攻击只针对如何绕过 LLMs 的安全护栏。

Concurrent Work 并行工作。在本文的第一个版本在线放置后不久,Carlini 等人 [16] 和 Zou 等人 [84] 的工作随后也公开。与我们一样,两个并发论文都讨论了利用对抗样本对对齐的 LLMs 进行越狱攻击,但这些工作由不同的动机驱动。我们的研究旨在阐明多模态趋势的安全性和安全性影响。我们发现视觉对抗样本可以普遍破坏集成了视觉的 LLMs。Carlini等人[16]试图证明对齐的llm不是对抗性对齐的,而不强调通用攻击。同时,Zou 等人 [84] 专注于制作通用且可转移的对抗样本——尤其是在文本形式——可以广泛对 LLMs 进行越狱攻击。

3 Adversarial Examples as Jailbreakers

3.1 Setup

Notations 我们考虑一个用户和一个视觉集成的 LLM (即VLM)之间的单轮对话。用户输入 x i n p u t x_{input} xinput 给模型,这可以是图像、文本或者两者的交错。以输入为条件,VLM 对它的输出 y y y 的概率进行建模。我们用 p ( y ∣ x i n p u t ) p(y\mid x_{input}) p(yxinput) 来表示概率,我们还用 p ( y ∣ [ x 1 , x 2 ] ) p(y\mid [x_{1},x_{2}]) p(y[x1,x2]) 来表示输入 x i n p u t x_{input} xinput 是两部分 x 1 , x 2 x_{1},x_{2} x1,x2 的组合。

Threat Model 我们设想攻击者利用对抗样本 x a d v x_{adv} xadv 作为针对安全对齐 LLM 的越狱攻击者。这种攻击的结果是,该模型*注意到有害文本指令 x h a r m x_{harm} xharm (加在对抗样本之后)——正常情况下模型会拒绝这么做——从而产生本被禁止的内容。为了最大化利用对抗样本,攻击者的目标不仅仅是强制模型执行特定的有害指令;相反,攻击者的目标是通用攻击。这对应于一个通用的对抗样本(理想情况下)能够强制模型完成任何有害的文本指令并生成相应的有害内容,而不一定需要在生成对抗样本时进行优化。在本文中,我们在白盒威胁模型上工作,并给了模型权重的完全访问权限。因此,攻击者可以计算梯度。为了全面考虑,我们还验证了基于迁移性的黑盒攻击在多个模型中的可行性。

3.2 Our Attack

Approach 我们发现了一个出奇简单的攻击,它足以实现我们在威胁模型中设想的对抗性目标。如图 2 所示,我们从一个小型语料库开始,该语料库由一些有害内容 Y : = { y i } i = 1 m Y:=\{y_{i}\}_{i=1}^{m} Y:={yi}i=1m 的少量样本组成。对抗样本 x a d v x_{adv} xadv 的创建相当简单:在输入为 x a d v x_{adv} xadv 的情况下我们最大化这个少样本语料库的生成概率。我们的攻击公式如下:

x a d v : = arg ⁡ min ⁡ x ^ a d v ∈ B ∑ i = 1 m − log ⁡ ( p ( y i ∣ x ^ a d v ) ) x_{adv}:= \underset{\widehat{x}_{adv}\in \mathcal{B}}{\arg \min}\sum_{i=1}^{m}-\log \left ( p\left ( y_{i} \mid \widehat{x}_{adv}\right ) \right ) xadv:=x advBargmini=1mlog(p(yix adv))

这里 B \mathcal{B} B 是应用于输入空间的一些约束,这个输入空间就是我们搜索对抗样本的空间。

然后,在推理阶段,我们将 x a d v x_{adv} xadv 和其他一些有害的指令 x h a r m x_{harm} xharm 配对作为为模型的联合输入 [ x a d v , x h a r m ] [x_{adv},x_{harm}] [xadv,xharm]。也就是 p ( ⋅ ∣ [ x a d v , x h a r m ] ) p \left( \cdot \mid [x_{adv},x_{harm}]\right ) p([xadv,xharm])

The Few-shot Harmful Corpus 在实践中,我们使用一个少样本语料库 Y Y Y,它仅仅包含 66 个针对 <gender-1>、 和人类种族的贬义句子来引导我们的攻击。我们发现这已经足以生成高度通用的对抗样本。

Prompt Tuning 我们的方法背后的原则:提示调优。我们受到最近对提示调优的研究的启发[68]。这一系列研究表明,调整一个冻结的LLM的输入提示可以实现和对模型本身进行微调的差不多的效果。提示调优还可以利用 LLMs 的少样本学习能力。我们的方法受此启发,也就是优化输入空间的一个对抗样本技术上相当于提示调优。提示调优旨在使模型适配下游任务(通常是良性任务),而我们的攻击旨在调整对抗性的输入提示以使模型适配恶意的模式(也就是越狱)。因此,我们基本上将一个小的有害内容语料库作为“越狱模式”的少样本示例,在这个小型语料库上优化的对抗样本旨在通过少样本泛化性使 LLM 适配这个越狱模式。

3.3 Implementations of Attackers

由于这项工作的动机是了解将集成了视觉的 LLMS 的安全性和安全性影响,我们专注于视觉集成的 LLMs (即VLM)——因此,等式1中的对抗样本 x a d v x_{adv} xadv 可能来自视觉或文本输入空间。

Visual Attack 由于视觉输入空间的连续性,等式 1 中的攻击目标对于视觉输入是端到端可微的。因此,我们可以通过直接将攻击目标的梯度反向传播到图像输入来实现视觉攻击。在我们的实现中,我们应用了标准的来自 Madry 等人的投影梯度下降 (PGD) 算法,并且在语料库 Y Y Y 上以批量大小 8 运行了5000 次 PGD 的迭代。此外,我们考虑了无约束条件下的攻击和有约束的攻击。无约束攻击是从随机噪声初始化的,对抗样本可以取任何合法的像素值。约束攻击从良性的熊猫图像 x b e n i g n x_{benign} xbenign (图1)开始初始化。我们应用约束 ∥ x a d v − x b e n i g n ∥ ∞ ≤ ε \parallel x_{adv} - x_{benign}\parallel_{\infty}\le \varepsilon xadvxbenignε

A Text Attack Counterpart 一个文本攻击副本。虽然这项研究偏向于视觉(跨模态)攻击,也就是利用视觉模态来控制文本模态中 LLMs 的行为,但我们也补充了一个对应的文本攻击进行比较研究。为了公平比较,我们将对抗性图像嵌入替换为等效长度的对抗性文本标记的嵌入(例如,MiniGPT-4 的 32 个标记)。这些对抗性文本标记是通过在同一个语料库