马斯克开源，大模子Glock深度瓦解

发布日期：2024-12-02 15:50 点击次数：120

马斯克开源，大模子Glock深度瓦解

Glock与其他大模子的各别

埃隆·马斯克言而有信，开源了他家的大模子Glock。与其他基于Transformer架构的大模子比较，Glock有何独有之处呢？本文将真切瓦解Glock的架构想象，并与其他模子进行比较。

一、Glock的积木块：MOE架构

扫数的大模子皆构建于Transformer架构之上，Glock也不例外。在代码的1292行，界说了一个Transformer模块。

Glock的中枢在于其搀和大师（Mixture of Experts，MOE）架构。Glock使用了八大师两活跃的MOE模子，与之前开源的Mistral AI的八大师七活跃的7B模子相似，GPT-4的架构算计也与此相似。

这意味着在每个Transformer层中，只须两个大师会被激活进行缱绻，从而显赫裁减了缱绻老本。

二、参数规模与层数对比

Glock的八大师两活跃MOE架构堆叠了64层，均为MOE模块。比较之下，GPT-4堆叠了96层，参数目达到了惊东说念主的3140亿。

三、真切Glock的Transformer模块

从数据进口的词镶嵌层运行，Glock的词汇量为32072。镶嵌层的谋略是将词窜改为高维向量，Glock将每个词窜改为一个6144维的向量。

之后，数据插足多头谨防力机制。Glock使用了48头谨防力，将6144维的向量切分为48份，每份128维。

为了省俭算力和普及速率，只须查询向量（Q）被切分为48头，键向量（K）和值向量（V）则被分红六组，每组分享八个头进行自谨防力缱绻。多头谨防力机制之后是密集的前馈神经网罗，将荫藏层规模放大八倍，达到8乘以6144的规模，参数目大幅加多。Glock单次最多不错处分8192个token，这意味着一次处分8192乘以6144个数字的巨大数据流。

四、Glock的开源与将来瞻望

以上即是马斯克开源大模子Glock的总体框架瓦解。尽管开源，但马斯克仍然可能濒临品评：不开源被责问“卡脖子”，开源后又可能被诟病“数据处分形势欠妥”。

接下来将进行践诺部署测试，评估Glock的坐褥才略。

热点资讯