Scaling Law不是独一视角!清华刘知远团队疏雄伟模子“密度定律”

Scaling Law不是独一视角!清华刘知远团队疏雄伟模子“密度定律”

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

Scaling Law并非描绘大模子技艺的独一视角!

清华NLP本质室刘知远锻真金不怕火团队,最新疏雄伟模子的密度定律(densing law),抒发模样让东说念主思到芯片领域的摩尔定律:

模子技艺密度随时刻呈指数级增长,2023年以来技艺密度约每3.3个月(约100天)翻一倍。

凭证密度定律,接洽团队还得出以下热切扩充——AI期间的三大中枢引擎——电力、算力与才略,王人雷同罢黜密度快速增长趋势。

为了发现这一论断,接洽团队引入了一项计算大模子性价比的新筹划——技艺密度(capability density)。

团队通过建树参考模子的模样,将“技艺密度”界说为了“灵验参数目”与实质参数目的比值。

给定方向模子后,其“灵验参数目”被界说为完了与方向模子一样的成果,参考模子需要的最少参数目。

论文第一作家肖朝军暗意,凭证拟合弧线,到了来岁年底,唯独8B参数就能完了和GPT-4一样的成果。

论文地址:https://arxiv.org/abs/2412.04315

大模子“技艺密度”三个月翻一番

大模子程序定律(Scaling Law)和密度定律(Densing Law),王人是大模子开垦性的规章发现。

它们分辩在不同的维度,对大模子进行科学化的推演。

大模子程序定律是一种描绘大模子跟着界限的变化而发生的规章性变化的数学抒发,弘扬为大模子的Loss与模子参数界限、锻真金不怕火数据界限之间的幂律相干。

程序定律除外,清华接洽团队发现,大模子还有另一种度量与优化的空间,技艺密度(Capability Density),它为评估不同界限 LLM 的锻真金不怕火质地提供了新的斡旋度量框架。

清华接洽团队冷落的“技艺密度”(Capability Density),界说为给定LLM的灵验参数大小与实质参数大小的比率。

灵验参数大小指的是达到与方向模子同等性能所需的参考模子的参数数目。

清华接洽团队特殊引入了参考模子(Reference Model)的看法,通过拟合参考模子在不同参数界限下的性能弘扬,诞生起参数目与性能之间的映射相干。

具体来说,若一个方向模子M的参数目为NM ,其鄙人游任务上的性能分数为SM,接洽东说念主员管帐算出参考模子要达到换取性能所需的参数目 N(SM),即“灵验参数目”。

方向模子M的密度就界说为这个“灵验参数目”与其实质参数目的比值:

ρ(M) = N(SM)/NM。

比如一个3B的模子能达到6B参考模子的性能,那么这个3B模子的技艺密度等于2(6B/3B)。

为了准确臆想模子性能,接洽团队采纳了两步臆主义。

第一步是蚀本(Loss)臆想,通过一系列不同界限的参考模子来拟合参数目与话语模子Loss之间的相干;

第二步是性能臆想,商量到泄露技艺的存在,接洽东说念主员集中开源模子来谋略它们的损构怨性能,最终诞生起完好意思的映射相干。

通过接洽分析连年来29个被平庸使用的开源大模子,清华接洽团队发现,LLMs的最大技艺密度随时刻呈指数增长趋势,不错用公式ln(ρmax) = At + B来描绘.

其中ρmax是时刻t时LLMs的最大技艺密度。

密度定律标明,梗概每过3.3个月(100天),就能用参数目减半的模子达到刻下起原进模子的性能水平。

ChatGPT发布后,技艺密度增长更快了

基于密度法例,清华接洽团队冷落了多个热切扩充。

当先,模子推理支拨随时刻指数级下落。

2022年12月的GPT-3.5模子每百万Token的推理本钱为20好意思元,而2024年8月的Gemini-1.5-Flash模子仅为0.075好意思元,本钱质问了266倍,约2.5个月下落一倍。

与此同期,大模子推理算法束缚赢得新的技艺冲破——模子量化、投契采样、显存优化。

其次,接洽还发现,自ChatGPT发布以来,大模子技艺密度正在加快增强。

以MMLU为评测基准测量的技艺密度变化情况,ChatGPT发布前按照每4.8倍增,发布后按照每3.2月倍增,密度增强速率加多50%。

这一繁华背后,更高效模子引起了学术界和产业的平庸和顺,出生了更多高质地开源模子。

再次,芯片电路密度(摩尔定律)和模子技艺密度(密度定律)抓续增强,两条弧线交织揭示端侧智能巨大后劲。

接洽娇傲,在摩尔定律的作用下,换取价钱芯片的谋略技艺每2.1年翻倍,而密度法例标明模子的灵验参数界限每3.3个月翻倍。

两条弧线的交织,意味着主流末端如PC、手机将能开动更高技艺密度的模子,鼓动端侧智能在破钞市集普及。

此外,团队指出,无法仅依靠模子压缩算法增强模子技艺密度。

也等于说,现存的模子压缩技艺(如剪枝和蒸馏)无意能提高模子密度。

本质标明,大大批压缩模子的密度低于原始模子,模子压缩算法虽不错从简小参数模子构建支拨。

然则若是后锻真金不怕火不充分,小参数模子技艺密度非但不会增长,反而会有显赫下落。

终末,接洽团队指出,模子高性价比灵验期束缚镌汰。

凭证程序定律,更大批据+更多参数完了技艺增强,锻真金不怕火本钱会急剧飞腾;

而技艺密度定律,跟着技艺密度加快增强,每隔数月会出现愈加高效的模子。

这意味着模子高性价比的灵验使用期镌汰,盈利窗口顷然。

举例,2024年6月发布的Google Gemma-2-9B模子,其锻真金不怕火本钱约185 万东说念主民币;

但仅两个月后,它的性能就被参数目减半的MiniCPM-3-4B越过。

以API盈利模样估算,2个月内需要17亿次用户打听,才不详收回锻真金不怕火本钱!

程序定律下,LLM界限至上。而在密度定律下,LLM正干与一个全新的发展阶段。

在清华刘知远敦朴最新敷陈中,AI期间的三大中枢引擎——电力、算力与才略,密度王人在快速增长:

电板能量密度在畴前20年中增长了4倍,其倍增周期约为10年;摩尔定律则揭示,芯片的晶体管密度每18个月翻倍;而AI模子技艺密度每100天翻倍的速率更是惊东说念主。

尤其是模子技艺密度的提高也意味着用更少的资源完了更强的技艺,这不仅质问了AI发展对动力和算力的需求,也为AI技艺的可抓续发展提供了无穷可能。同期也揭示了端侧智能的巨大后劲。

在这一趋势下,AI谋略从中心端到旯旮端的散播式特质协同高效发展,将完了“AI无处不在”的愿景。

作家瞻望,跟着全国AI谋略云霄数据中心、旯旮谋略节点的推广,加上模子技艺密度增长带来的遵循提高,咱们将看到更多土产货化的AI模子泄露,云霄和旯旮端各司其职,可开动LLM的末端数目和种类大幅增长,“AI 无处不在”的将来正在到来。

论文地址:

https://arxiv.org/abs/2412.04315

— 完 —

量子位 QbitAI · 头条号签约

和顺咱们,第一时刻获知前沿科技动态






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图