埃隆·马斯克言而有信,开源了他家的大模子Glock。与其他基于Transformer架构的大模子比较,Glock有何独有之处呢?本文将真切瓦解Glock的架构想象,并与其他模子进行比较。
一、Glock的积木块:MOE架构扫数的大模子皆构建于Transformer架构之上,Glock也不例外。在代码的1292行,界说了一个Transformer模块。
Glock的中枢在于其搀和大师(Mixture of Experts,MOE)架构。Glock使用了八大师两活跃的MOE模子,与之前开源的Mistral AI的八大师七活跃的7B模子相似,GPT-4的架构算计也与此相似。
这意味着在每个Transformer层中,只须两个大师会被激活进行缱绻,从而显赫裁减了缱绻老本。
二、参数规模与层数对比Glock的八大师两活跃MOE架构堆叠了64层,均为MOE模块。比较之下,GPT-4堆叠了96层,参数目达到了惊东说念主的3140亿。
三、真切Glock的Transformer模块从数据进口的词镶嵌层运行,Glock的词汇量为32072。镶嵌层的谋略是将词窜改为高维向量,Glock将每个词窜改为一个6144维的向量。
之后,数据插足多头谨防力机制。Glock使用了48头谨防力,将6144维的向量切分为48份,每份128维。
为了省俭算力和普及速率,只须查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分红六组,每组分享八个头进行自谨防力缱绻。多头谨防力机制之后是密集的前馈神经网罗,将荫藏层规模放大八倍,达到8乘以6144的规模,参数目大幅加多。Glock单次最多不错处分8192个token,这意味着一次处分8192乘以6144个数字的巨大数据流。
四、Glock的开源与将来瞻望以上即是马斯克开源大模子Glock的总体框架瓦解。尽管开源,但马斯克仍然可能濒临品评:不开源被责问“卡脖子”,开源后又可能被诟病“数据处分形势欠妥”。
接下来将进行践诺部署测试,评估Glock的坐褥才略。