大模子“扬长避短”新想路入选NeurIPS'24,权贵优于现存路由门径,南科大港科大出品

大模子“扬长避短”新想路入选NeurIPS'24,权贵优于现存路由门径,南科大港科大出品

RouterDC团队 投稿量子位 | 公众号 QbitAI

高效组合多个大模子“扬长避短”新想路,被顶会NeurIPS 2024罗致。

名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于100M的参数)和设想高效性(不需要关于LLM进行梯度回传)的上风。

在具有挑战性说话结实、代码生成和数学推理等推理任求施行中,RouterDC在散播内(+2.76%)和散播外(+1.90%)设定下,都远超于现存的routing门径。

尽人皆知,LLM经常在不同数据集上预磨真金不怕火和微调,导致它们在不同任务上的性能强弱不同。

LLM路由则是一种组合多个LLM的新想路,它通过学习一个路由器(Router)来为每一个申请(query)采选最允洽的LLM。在推理时,LLM路由只需要调用所选的LLM进行推理,使其在保握设想高效性的同期哄骗多个LLM的互补才能。

RouterDC这种新门径,包括一个较小的说话模子当作编码器和一系列与候选LLM对应的可学习的LLM embeddings。

关于磨真金不怕火数据中的每个query,领先将候选LLM的计算与真确标签进行比较得回证实最好和最差的LLM,然后构造两个对比亏本:

sample-LLM对比亏本:使得query embedding(由编码器索求)与证实最好的LLM embeddings相似,同期与证实最差的 LLM embeddings不相似。

sample-sample对比亏本:提高磨真金不怕火的踏实性,将通盘磨真金不怕火query聚类成多个组,最大化同组query之间的相似性的同期最小化不同组query之间的相似性。

这项商量由来自南边科技大学,香港科技大学的商量团队提议,以下是更为详备的先容。

双对比学习杀青Router磨真金不怕火

Router架构

如图1所示,RouterDC包括一个较小的说话模子(mDeBERTaV3-base)当作编码器ε,和一系列的与候选LLM对应的可学习LLM镶嵌kT。关于每个query xi,RouterDC生成关于T个LLMs的采选概率如下:

其中,sim(·,·)线路cosine相似度。

△图1:RouterDC门径默示图

sample-LLM对比亏本

为了磨真金不怕火router,商量者将query的样本镶嵌和在其上证实最好的K+个LLM对应镶嵌拉进,和在其上证实最差的K-个LLM对应镶嵌拉远。因此,样本-LLM对比亏本不错线路为:

sample-sample对比亏本

商量者通过施行发现,在routing问题中只使用样本-LLM对比亏本并不踏实,使得相似的query可能具有不相似的镶嵌。

为了普及磨真金不怕火的鲁棒性,磨真金不怕火样本被聚类成不同的组,从而在磨真金不怕火中拉近归拢个组内的样本,拉远不同组的样本。和样本-LLM对比亏本雷同,样本-样本对比亏本不错公式化为:

磨真金不怕火及推理

最终的优化标的为最小化样本-LLM对比损构怨样本-样本对比亏本的集中:

推理时,每个测试query只需要通过磨真金不怕火好的router登第概率最大的LLM,并使用采选的LLM对query进行回答。

RouterDC在磨真金不怕火时不需要任何历程LLM的梯度回传,而且在推理时只需要调用进行一次LLM,同期具有磨真金不怕火和推理的高效性。

施行恶果若何?

主要律例

RouterDC在散播内数据集的测试准确率律举例表1所示。不错发现:

RouterDC权贵好于最优的单个模子,平均具有3.98%性能普及。在单个任务的层面,RouterDC在三个任务上比拟证实最优的单个模子取得了准确率的普及,其中GSM8K普及了0.51%,ARC-C普及了0.57%,HumanEval普及了1.63%。

和现存路由门径CosineClassifier以及ZOOTER对比,RouterDC在通盘任务上都具有更好的证实。和LoraRetriever对比,RouterDC具有平均2.77%的准确率普及。

△表1:散播内任务的测试准确率(%)

为了评估RouterDC的泛化才能,表2展示了RouterDC在三个散播外数据集(PreAlgebra,MBPP,C-EVAL)的测试准确率。

不错看出,RouterDC再次达到最高的测试准确率,权贵向上证实最好的单个LLM(dolphin-2.9-llama3-8b)1.9%。

△表2:散播外任务的测试准确率(%)

sample-sample亏本的作用

为了探究样本-样本亏本的作用,图3展示了在是否有样本-样本亏本的条目下磨真金不怕火和测试准确率弧线。不错看出,RouterDC(w/o Lsample-sample)有昭彰的轰动表象,而RouterDC则踏实得多。

△图2:RouterDC在GSM8K任务上的磨真金不怕火和测试准确率弧线

图3(a)可视化了使用RouterDC(w/o Lsample-sample)索求的磨真金不怕火样本的TSNE特征,不错看到,属于不同任务的磨真金不怕火样本豪迈地夹杂在一王人。而在集中Lsample-sample之后,磨真金不怕火样本有了了了的聚类结构(如图3(b)所示)。

△图3:学习到的router所索求出磨真金不怕火样本embedding的t-SNE可视化

RouterDC具有本钱高效性

由于价钱(cost)相似是一个评估LLM的艰苦筹画,商量者通过RouterBench上的两个任务的施行来尽头有计划cost的影响。如图16所示,RouterDC比拟于CosineClassifier和ZOOTER愈加的本钱高效。

△图4:在RouterBench上使用不同的Cost获取的测试准确率

论文地址:https://arxiv.org/abs/2409.19886代码地址:https://github.com/shuhao02/RouterDC

— 完 —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿骨子

附上论文/神色主页运动,以及联系状态哦

咱们会(尽量)实时复兴你

科技前沿进展日日再会 ~






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图