马斯克开源,大模子Glock深度瓦解

马斯克开源,大模子Glock深度瓦解

Glock与其他大模子的各别

埃隆·马斯克言而有信,开源了他家的大模子Glock。与其他基于Transformer架构的大模子比较,Glock有何独有之处呢?本文将真切瓦解Glock的架构想象,并与其他模子进行比较。

一、Glock的积木块:MOE架构

扫数的大模子皆构建于Transformer架构之上,Glock也不例外。在代码的1292行,界说了一个Transformer模块。

Glock的中枢在于其搀和大师(Mixture of Experts,MOE)架构。Glock使用了八大师两活跃的MOE模子,与之前开源的Mistral AI的八大师七活跃的7B模子相似,GPT-4的架构算计也与此相似。

这意味着在每个Transformer层中,只须两个大师会被激活进行缱绻,从而显赫裁减了缱绻老本。

二、参数规模与层数对比

Glock的八大师两活跃MOE架构堆叠了64层,均为MOE模块。比较之下,GPT-4堆叠了96层,参数目达到了惊东说念主的3140亿。

三、真切Glock的Transformer模块

从数据进口的词镶嵌层运行,Glock的词汇量为32072。镶嵌层的谋略是将词窜改为高维向量,Glock将每个词窜改为一个6144维的向量。

之后,数据插足多头谨防力机制。Glock使用了48头谨防力,将6144维的向量切分为48份,每份128维。

为了省俭算力和普及速率,只须查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分红六组,每组分享八个头进行自谨防力缱绻。多头谨防力机制之后是密集的前馈神经网罗,将荫藏层规模放大八倍,达到8乘以6144的规模,参数目大幅加多。Glock单次最多不错处分8192个token,这意味着一次处分8192乘以6144个数字的巨大数据流。

四、Glock的开源与将来瞻望

以上即是马斯克开源大模子Glock的总体框架瓦解。尽管开源,但马斯克仍然可能濒临品评:不开源被责问“卡脖子”,开源后又可能被诟病“数据处分形势欠妥”。

接下来将进行践诺部署测试,评估Glock的坐褥才略。






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图