西风 发自 凹非寺
量子位 | 公众号 QbitAI
空话语模子平直主意复杂图结构的新重要来了:
将图(Graph)调度为安妥Transformer架构的线性token序列。
belike:
这种最新图线性化重要,反应了当然话语中局部依赖性和全局对王特性两个关键属性,即:
不仅需要保留基于前文高下文展望下一个token的才气(局部依赖性),况且不同图的token序列应该从具有雷同特征的token驱动或驱散(全局对王特性),就像当然话语文本连续以特定词语发轫或收尾。
如斯一来,在海量文本数据上历练的LLM也能更好地主意图结构中的关系和属性,如节点计数、最大度数筹办和图式体式分类等图推理任务都能完成。
具体怎样杀青?
机器学习工程师Rohan Paul发帖推选论文并作念了个转头。
用多种时间开发了图线性化重要:图中心性(PageRank和度)、图退化(k-core主意)、节点重象征决策基于节点伏击性创建了边排序战略应用节点重象征以保抓全局对王人作家使用GraphWave合成数据集进行评估,驱散标明他们残酷的线性化重要比拟基线重要赢得了更好的性能,十分是基于度中心性和PageRank的重要在多个任务中推崇杰出。
有网友照旧迫不足待集成到RAG中了:
我一直在寻找这方面的论文。
多种基于图论的线性化重要
在具体重要上,图线性化触及将图的节点和边调度为线性token序列。
接头团队残酷了几种基于图论的图线性化重要。
一种是笔据图中心性(Graph centrality)对节点进行排序。
这里的中心性不错是节点的度(Degree centrality),即与节点平直衔接的边的数目;也不错是更为复杂的PageRank值,它不仅筹商节点的集中数,还筹商集中到它的节点的伏击性。
接头东谈主员笔据排序驱散礼聘与伏击性最高的节点衔接的边,并飞快摆列这些边,然后对下一个伏击性节点类似此经过。若是多个节点具有调换的中心性值,则飞快礼聘它们的规则。
另一种是基于图退化性(Graph degeneracy)的重要,即通过图的核编号(Core Number)来排序节点。
欺诈k-core主意,将图主意为一系列嵌套的子图。核编号是指节点在图中最高核的编号。通过这种方式,简略捕捉到图中最中枢的部分,并将这些信息线性化。
除了基于节点属性的排序,作家们还筹商了平直对边进行排序的重要。
他们将每个图调度为其对应的线图(Linegraph),将原图的每条边调度为线图中的节点,若是原图中两条边相邻,则在线图中对应节点衔接。然后,应用与核编号调换的经过来对Linegraph中的节点进行排序。
为了杀青全局对王特性,作家还残酷了节点重定名战略。
在这个战略中,不同图中具有最高核编号的节点被从头象征为索引0,依此类推。这么作念的标的是让LLM简略将节点索引与其伏击性属性之间开拓一致的磋磨。
中心性重要总体优于退化性重要为了测试上述重要的灵验性,作家使用GraphWave生成器构建了合成数据集。
当先构造基础图(轮回或链式结构),然后附加预界说体式的图案(motifs)。
接头东谈主员礼聘了五种基实质式(团、星形、扇形、菱形和树),并包含了这些体式的组合,总计生成了3000个图,平均每个图包含32.33个节点和43.72条边。
施行中想象了三个评估任务:
节点计数:条款模子从边列表猜度节点数目最大度筹办:笃定图中最大节点度数图案体式分类:给定详备的图案界说,识别图中存在的图案施行禁受了Llama 3 Instruct 8B模子,使用4bit量化版块。为确保输出的笃定性和一致性,temperature参数设为1e-3,sampling参数设为1e-1。
包括zero-shot和one-shot两种成就,并与两个基线重要比较:MotifAware基线,保抓图生成经过中的默许边序;Random基线,十足飞快的边列表排序和节点标签。
驱散泄漏了以下几个伏击发现。
当先,在节点计数任务中,整个重要都泄漏较低的平均缺点,但准确率推崇互异。基于度中心性和PageRank的重要推崇最好,高出了基线重要。
在最大度筹办任务中,由于需要更复杂的筹办经过,举座性能低于节点计数任务。使用默许节点标签时,度中心性和PageRank重要在one-shot成就下赢得最好成果。
节点重象征战略的成果因任务而异,在节点计数中,除了zero-shot的度中心性重要外,大多导致准确率下落,但在平均缺点上正常有改善。
one-shot成就的性能大宗低于zero-shot,这标昭示例可能并不老是有助于栽种性能。
基于中心性的重要(度中心性和PageRank)总体上优于基于退化性的重要。
参考集中:https://x.com/rohanpaul_ai/status/1863014451827655118论文集中:https://arxiv.org/pdf/2410.19494
— 完 —
量子位 QbitAI · 头条号签约
温柔咱们,第一时辰获知前沿科技动态