东谈主大&港科大揭示大模子要紧安全风险罅隙:讹诈认识激活向量破解大模子的安全对都|NeurIPS 2024

东谈主大&港科大揭示大模子要紧安全风险罅隙:讹诈认识激活向量破解大模子的安全对都|NeurIPS 2024

东谈主大&港科大团队 投稿量子位 | 公众号 QbitAI

讹诈认识激活向量破解大模子的安全对都,揭示LLM要紧安全风险罅隙。

来自东谈主大&港科大的接头东谈主员提议安全认识激活向量(SCAV)框架,通过精准解读大模子的安全机制来领导毛病。

基于SCAV的毛病身手大约生成镶嵌级和指示级的毛病,自动治愈扰动参数,并显赫提高了毛病到手率和响应质料。

在对七个开源大模子的评估中,基于要津词匹配方法的平均毛病到手率(ASR)为99.14%。同期,接头标明,基于SCAV生成的毛病指示具有跨模子挪动的后劲,可在GPT-4等黑盒API上取到手利。

提议SCAV框架

使用SCAV框架迷惑毛病,领先需要西宾SCAV分类器。

通过对坏心和安全指示镶嵌的降维分析,接头者发现这两类指示在低维空间中呈现较着的分隔。因此,通过在模子的镶嵌空间中界说一个“安全”与“坏心”的认识分离面,就大约识别出模子在不同输入上对“安全性”的反应。SCAV分类器的办法是在镶嵌空间中开荒一种节略的线性模子,将坏心指示和安全指示进行分离,以便在后续毛病中讹诈这一特点。

△图1:SCAV分类器的西宾历程

SCAV框架不错迷惑两种毛病档次——镶嵌层(embedding-level)和指示层(prompt-level)。

△图2:SCAV迷惑的镶嵌层毛病

镶嵌层毛病通过在模子的中间层镶嵌空间中引入渺小扰动来转变模子对输入的安全判断,从而绕过安全机制。具体来说,模子的每一层都不错用对应输出的镶嵌西宾SCAV分类器,分类器在该层的测试集准确率反馈了模子在该层的安全机制的存在与强弱。接头发现,对于经过安全对都的模子(举例LLaMA),其早期层不息具有较低的测试集准确率,而在中后期层不息具有靠拢100%的测试集准确率;而对于未经过安全对都的模子(举例Alpaca),其扫数层的SCAV分类器测试集准确率不息在85%以下,步履与对都模子呈现较着不同(如图3所示)。因此,镶嵌层毛病将锚定那些测试集准确率大于阈值P1(设定P1=90%)的层。

△图3:不同模子各层的SCAV分类器测试集准确率变化

在模子惩处一个坏心指示的前向传播过程中,讹诈SCAV分类器的参数在各层引入一个扰动,使得场所层的输出镶嵌变为:

这个扰动的参数 ε 为大小,v 为办法,需要满足阻挡条目

这个阻挡条目的直不雅风趣即是镌汰镶嵌被模子证据为坏心指示的概率Pm到阈值P0(设定P0=0.01%)以下,从而逆转模子的安全认识理会,同期保证对模子尽量小的修改。由于这个优化问题有闭式解,因此不同于已有的基于优化的毛病手艺,本质这种毛病口舌常快速的。

在模子惩处坏心指示的每一个腾达成token的过程中,逐层应用这种扰动,就不错达到高效、高质料的毛病戒指。

△图4:SCAV迷惑的指示层毛病

指示层毛病则是通过修改输入指示词来进行毛病的一种手艺。接头发现,现存的基于优化的毛病手艺如AutoDAN等,其优化的办法频频不是模子的真正输出。而SCAV分类器正提供了模子对安全理会的精准描摹,因此更合适用于优化办法。通过将AutoDAN的分层遗传优化算法的优化办法修改为基于SCAV分类器的函数:

指示层毛病大约达到比现存的基于优化的毛病手艺更好的戒指。值得提防的是,在开源模子上西宾得到的毛病指示对于GPT-4的API也雷同灵验,具有终点的可挪动性。

实验和评价

接头评估了SCAV迷惑的镶嵌层毛病和指示层毛病与DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt等基线身手的毛病戒指。坏心指示数据集为Advbench和StrongREJECT。

评价目的有两类:一是常用的基于要津词匹配计较出的毛病到手率(ASR-keyword),二是基于GPT-4进行评价的进阶目的,ASR-answer、ASR-useful和Language Flaws,分别从不同的角度考研模子复兴的质料。

达到这一戒指所需的数据总量则比基线身手少得多。

如图5所示,接头戒指标明,受益于SCAV细致的建模与描摹安全机制的材干,仅需5对坏心-安全指示样本就不错达到100%的ASR-keyword。而在仅有一双数据时,基线身手着实失去戒指,但SCAV仍然保合手了80%傍边的ASR-keyword,何况在当场屡次的实验中具有更小的方差。

图5:在使用不同西宾数据数目时,SCAV和基线身手的ASR-keyword比较,透露方差

指示层级的毛病戒指如表3、表4所示。

表3透露,SCAV身手长久施展最好,比拟于手动贪图或优化毛病指示的基线身手,ASR联系的方法提高了12%到42%,Language Flaws最多减少了18%。这解释了优化办法的灵验性,即同期提高毛病到手率并保合手模子性能。

表4透露了将从LLaMA模子学习的指示应用于GPT-4的戒指。SCAV身手不息施展更好,ASR联系方法最多提高48%,Language Flaws最多减少26%。这标明通过接头某些白盒模子的里面职责旨趣所学习的毛病指示可能仍然对其他黑盒API有用。

视力

基于SCAV的毛病过程,接头者们提议了如下视力。

视力一:面前开源和闭源的大模子均存在严重的安全风险。

表5透露了使用SCAV毛病7个知名开源大模子的戒指。不错看到,除了一个模子外,扫数大模子对卓绝85%的坏心指示都提供了联系谜底(ASR-answer)。响应质料也很高,平均ASR-useful为87%,Language Flaws平均为12%。此外,在大多数情况下,ASR-keyword接近100%。这相等危机,因为最近发布的开源LLM的性能正在慢慢提高,何况着实不需要老本就不错赢得对任何坏心指示的响应,因为不需要对大模子进行微调或使用大批西宾数据。

表6透露了使用多样SCAV毛病手艺组合对GPT-4毛病的戒指。即使是着手进的GPT-4对Advbench上的84%坏心指示复返有用的响应,何况对StrongREJECT上的 54% 坏心指示给出有用的响应。这标明,黑盒模子的对都也可能通过使用现存毛病身手显赫逆转。因此,进犯需要开荒灵验的身手来可贵面前的毛病身手或住手开源高性能大模子。

视力二:渐忘学习等现存可贵身手并不成抹消SCAV所揭示的安全罅隙。

现存的可贵身手如渐忘学习等是否能灵验匡助大讲话模子健忘无益常识?通过对一个经过Eraser渐忘学习微调的LLaMA-2-7B-Chat版块应用SCAV毛病身手,表7透露,仍然不错迷惑大模子产生好多无益响应,这标明现存的渐忘学习并不成抹消SCAV所揭示的安全罅隙。此外,接头者们还发现ICD、Self-Reminder等经典的可贵身手对镶嵌层毛病这种手艺基本不适用,诠释了SCAV安全罅隙的高危特点。

视力三:对大模子可诀别安全和坏心镶嵌这一罅隙的意志

图6:通过 (a) 毛病单层;(b) 毛病多层,以及 (c) 将镶嵌级毛病转机到其他白盒大模子,揭示大模子的安全机制

线性可分性与大模子的安全机制之间可能存在密切关系。

之前的实验标明,对都的模子不错在中晚期层线性分离来自坏心和安全指示的镶嵌(图1),何况由线性分类器指引的毛病到手率很高,这标明大模子的安全机制可能很好地被线性可分性建模。为了更好地意会它们之间的关系,进一步毛病了LLaMA-2-7B-Chat的第0、第10、第20和第30层。如图6a所示,对线性可分层(第10、20、30层)的毛病长久导致ASR-keyword的增多,而对其他层(第0层)的毛病则莫得改善ASR-keyword。基于这些戒指,接头者估量,对于每一层,线性可分性不仅可能标明大模子意会安全认识,还可能意味着大模子将在后续层中使用这一安全认识来生成响应。

不同的层可能从联系但不同的角度建模安全机制。

图6b透露了在毛病LLaMA-2-7B-Chat的不同层时Pm的值,有两个风景。领先,毛病单一层(第10层)会导致面前层的Pm较低,但随后在后续层中Pm会增多。这意味着背面的层以某种样式慢慢通过讹诈镶嵌的现存信息来改良毛病,可能是因为模子从不同的角度建模安全机制。其次,当更多层被扰动(举例,第10层到第13层)时,后续层的Pm不再大约被模子改良。这标明某一些层可能共同决定了从不同角度的举座安全机制。

不同的白盒大模子可能在其安全机制上存在一些共性。

图6c展示了在将镶嵌级毛病从一个白盒模子应用到另一个模子时的ASR-keyword。不错看到,ASR-keyword随机终点大(接近100%)。这标明大模子的安全机制可能具有某种共性,何况SCAV在某种风趣上可能还是表征了这种共性。然则,对于何时不错转机以及为什么会转机,仍然缺少明显的解释。

论断

在本接头中,接头者们提议了一种基于安全认识激活向量(SCAV)的框架,以揭示大讲话模子在安全对都方面的潜在罅隙。通过在模子的镶嵌空间中界说“安全”与“坏心”指示的分离面,SCAV框架大约在镶嵌层和指示层指引两种毛病样式,显赫提高了对模子安全机制的毛病到手率和毛病挪动性。

实验标明,SCAV身手在更少样本下比基线身手更灵验,且减少了生成本色的劣势。接头指出,大模子在镶嵌空间的线性可分性是其安全机制的薄缺欠,现存可贵身手难以富裕破碎SCAV毛病,强调了开荒更强安全着重的紧迫性。

当今联系论文和代码已公开,感兴趣不错进一步了解。

论文一语气:https://arxiv.org/pdf/2404.12038代码仓库:https://github.com/SproutNan/AI-Safety_SCAV

— 完 —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色

附上论文/口头主页一语气,以及讨论样式哦

咱们会(尽量)实时复兴你

科技前沿进展日日再见 ~






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图