量化能让大模子“收复缅念念”，删掉的秘籍版权内容全归来了

发布日期：2024-12-12 05:31 点击次数：93

西风发自凹非寺

量子位 | 公众号 QbitAI

4-bit量化，能让现存反学习/机器淡忘时间失灵！

也等于大模子在东谈主类条款下“假装”健忘了特定常识（版权、私东谈主内容等），但有技能能让它再行“回忆”起来。

最近，来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新连络在reddit、Hacker News上引起热议。

他们发现对“失忆”的模子量化（quantization），不错部分或致使十足收复其已淡忘的常识。

原因是在量化经由中，模子参数的轻飘变化可能导致量化后的模子权重与原始模子权重交流。

看到这项连络后，不少网友也暗示有点不测：

从信息表面的角度来看这有点出东谈主预感，似乎如故在好意思满的32-bit中得胜移除了这些常识，但当你将其压缩到4-bit时，常识又再行出现了。

这让东谈主不禁念念知谈在压缩/量化体式中到底丢失了什么信息。

可能这些常识从未确凿丢失，仅仅被庇荫了。

要是咱们把神经集中看作是代码，权重等于源代码，微调骨子上可能有用地修改了这些代码，以远隔复返某些终局。

因此，你可能仅仅在某些输出周围树立了防火墙。但量化可能使这些最近的裁剪褪色，它们太轻飘而无法保留。

值得一提的是，团队提议了一种缓解此问题的战术。

这种战术通过构建模块级别的显耀性图来引导淡忘经由，只更新与淡忘数据最联系的模子部分，从而在保抓模子效劳的同期，减少许化后常识收复的风险。

话未几说，具体来康康。

让失忆的大模子再行铭记来

大模子在现实经由中可能会有时学习到东谈主类不但愿它保留的常识，举例版权和私东谈主内容。为了处分这个问题，连络者们此前提议了反学习（machine unlearning）的见地，旨在不再行现实模子的情况下，从模子中移除特定常识。

现存的主流反学习步伐包括梯度高潮（GA）和负向偏好优化（NPO）两大类，频繁会接管较小的学习率并加入效劳握住，以在淡忘特定内容的同期保抓模子的举座性能。

用于优化模子淡忘的最常用数学抒发式是：

再来看量化，商量一组或一块权重w，线性操作不错暗示为y=wx，量化后为y=Q(w)x，其中 Q(⋅)是量化函数：

在这项连络中，连络东谈主员使用Q(f)暗示量化后的模子f。因此，推论一个反学习法然后对淡忘后的模子进行量化不错写为：

连络东谈主员评估了针对大模子的六种有用的反学习步伐——连合NPO、GA两种战术，在保留集上进行梯度下落（GDR）或最小化KL散度（KLR），变成了GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR。

终局自大，这些步伐在经过量化后会出现“不幸性失败”。

具体发挥为，在全精度下，加入效劳握住的反学习法平均保留21%的所在淡忘常识，但经过4-bit量化后，这一比例急剧高潮到83%。

这意味着大部分被“淡忘”的常识通过粗拙的量化操作就能收复。

实验中还使用了不同位数的量化，包括4-bit和8-bit量化，量化精度对淡忘效率也有显耀影响，8-bit量化的影响相对较小，模子发挥接近全精度版块，但在4-bit量化下，淡忘性能显耀恶化。

实验在NEWS（BBC新闻著作）和BOOKS（哈利波特系列）等基准数据集上进行，使用了四个评估主张：

逐字缅念念（VerMem，评估逐字复制身手）、常识缅念念（KnowMem，评估常识问答身手）、秘籍清楚（PrivLeak，基于成员推理报复评估秘籍保护进程）以及保留集效劳（评估模子在非淡忘数据上的发挥）。

连络东谈主员还分析了各式量化时间对淡忘的影响，用GPTQ和AWQ两种先进的4-bit量化法在交流的实验设立下进行实验，NEWS数据集上的终局如下：

GPTQ和AWQ的发挥与RTN同样。

尽管连络东谈主员暗示已奋力有用地曲折参数，但校准数据集是通用的，而不是针对淡忘数据集的限制进行定制，这意味着GPTQ和AWQ仍然可能保留了本应被淡忘的常识。

为什么？如何办？

经分析，连络东谈主员以为这一问题的根底原因在于：

现存反学习法为了保抓模子效劳而使用较小的学习率和效劳握住，导致模子权重变化很小，在量化经由华夏模子和淡忘后模子的权重很容易被映射到交流的闹翻值，从而使被淡忘的常识再行清醒。

由此，连络东谈主员提议了一种称作SURE（Saliency-Based Ulearning with a Large Learning Rate）的框架动作校正决议。

该框架通过构建模块级显耀性图来引导淡忘经由，遴荐性地对与淡忘数据最联系的组件使用较大的学习率，同期最小化对其它功能的影响。

通过实验，考据了SURE战术细心量化后淡忘常识收复的有用性，而况与现存的反学习步伐比拟，SURE在全精度模子上竣事了可比的淡忘性能和模子效劳。

连络东谈主员还探讨了SURE战术中不同阈值对淡忘性能的影响，发现终局的阈值不错在淡忘性能和模子效劳之间得回均衡。

更多细节，感酷爱的童鞋不错查阅原论文，代码已在GitHub上公开。

论文联结：https://arxiv.org/pdf/2410.16454

参考联结：[1]https://news.ycombinator.com/item?id=42037982[2]https://github.com/zzwjames/FailureLLMUnlearning

— 完 —

量子位 QbitAI · 头条号签约

矜恤咱们，第一时辰获知前沿科技动态

热点资讯