Grok 3用20万GPU帮AI界作念了个现实:Scaling Law没撞墙,但预教师不一定

Grok 3用20万GPU帮AI界作念了个现实:Scaling Law没撞墙,但预教师不一定

媒体风向变化太快,让东说念主目不暇接。早上还在夸DeepSeek资本低,性价比高,预教师Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了10万张英伟达H100卡,恶果力压OpenAI o3 mini和DeepSeek R1,就转向说Scaling Law还斥地,还需要无数的卡,英伟达股价有救了,照旧要鼎力出名胜……

这两个不雅点彰着对立,有一真必有一假,那事实的真相到底是啥呢?咱们来推一推。

预教师阶段的Scaling Law是否仍然斥地

预教师阶段的Scaling Law斥地吗?虽然是斥地的,所谓 “Scaling Law 撞墙”,行家重大碰到的问题是数据不够了,莫得无数新数据,导致预教师阶段的Scaling Law走势趋缓,预防是趋缓但不是停顿,预教师阶段的Scaling Law并没到天花板。

按照Chinchilla Scaling Law推断,即使莫得新数据,也并不虞味着模子恶果提不上去了,很苟简,只须增加基座模子尺寸,恶果仍然会提高,只是从付出的算力和得回的恶果进步来说很别离算,性价比过低,这是为何行家转到RL Scaling Law和Test Time Scaling Law的原因,是因为付出一样的算力,在背面两个阶段大模子智力进步更彰着,即是性价比高。

当今不错提高模子恶果的Scaling容貌,按照性价比由高到低排序的话:Test time Scaling Law> RL Scaling Law>预教师阶段Scaling Law(数据不够了,只可推大模子尺寸),有性价比高的Scaling,虽然优先作念这种,性价比低的Scaling,只好在莫得性价比更高的情况下才会接收。这跟购物一个真谛真谛,有性价比高确虽然不会去买性价比低的商品。

如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又莫得找到新的性价比更划算的Scaling Law,也不是说模子恶果就提不上去了,行家仍然不错纪念预教师阶段的Scaling Law,莫得新数据也不抨击,推大模子尺寸范围就不错,恶果仍然会高潮。但这基本是临了的选拔,没主义的主义,只须有性价比高的容貌就不会走这条路。

有东说念主问了:那按照你的真谛,囤那么多GPU算力,其实对训最好的模子也没啥用?如果按照上头的表面,那照实是莫得太大必要,比如DeepSeek 2000卡也不错作出最好的模子不是。

但是卡多有个克己,即是能压缩现实新想法和教师大模子基座的时期周期。比如你总得探索一些不同的算法、参数或数据配比的模子进行各式现实,你有10个新想法,如果只好2000张卡,可能得跑5天才能得出论断,如果有几万张卡,可能1天就能得出论断,是以卡多关于探索着力是有极大匡助的。卡多改进多,这点详情斥地。

Grok 3 基座模子(对标 DeepSeek V3,非 R1 这种逻辑推理模子)

为何Grok 3行为通用基座模子,它的评测掂量只好数学、科学和代码数据集?莫得通用才调比如最常用的MMLU掂量的对比,这是不太表率的对比模式。推断可能Grok 3的通用才调相对OpenAI和DeepSeek的模子莫得大幅进步,是以不拿出来比?

如果想要进步基座模子的数学、科学和代码才调,不管从容貌照旧从资本角度来讲,难度并不大,当今相比程序的作念法是访佛DeepSeek V3从DeepSeek R1蒸馏数学、代码等逻辑题的长COT数据,即深度念念考经由数据。

即是说把深度念念考长COT数据引入基座的Post-Training阶段、致使前置到预教师阶段(所谓大模子 “左脚(DeepSeek 基座)踩右脚(DeepSeek R1)自我飞升” 的模式),这样就能大幅进步基座模子在数学和代码方面联系的才调,也即是Grok 3宣传具备的 “有念念维链推理和自我纠错机制”,评测掂量看着会相比好意思瞻念,并且蒸馏的数据总量也不会太大(几百 B 级别应该够了),资本很低,对算力要求不高。

OpenAI很快会发布的非逻辑推理模子GPT 4.5 ,冒昧也应是访佛的念念路,从o3模子蒸馏COT数据,用深度念念考数据来进步GPT 4.5基座模子的智力,大模子 “左脚踩右脚自我飞升” 大法,这会是之后基座模子进步才调的主要时间。

Grok 3的算力消耗是Grok 2的10倍,如果解任Chinchilla Scaling Law,最好作念法是Grok 3的教师数据量比Grok 2增加3倍,模子大小同期比Grok 2增加3倍(但是当今的趋势是减小模子大小,增大数据量[即是说“小模子大数据”的模式],尽管这样起火足教师最优原则,但因为模子尺寸小了,是以这种模子更适合在线推理职业,裁减职业资本)。

如果像发布会声称的,Grok 3浮滥算力是Grok 2的10倍音问为确切话,那有两种可能。

一种是数据量增长极大,这样只关联词增加了无数多模态数据,比如数据量从10T增长到30T(当今文本模子使用的数据量,最多到18T到20T之间,基本到顶,再多莫得了,要大幅增加只可增加模态数据,但是增增加模态数据对进步大模子智力匡助不大,是以这个增量按理说不应该太大),如果这样推算,Grok3的模子范围增长3倍傍边。

第二种可能是教师数据量比20T增加的未几,如果这样不错推出Grok 3模子尺寸比Grok 2要大好多,至少4到5倍起步(若新增数据未几,那只可靠增加模子尺寸来消耗新增算力)。非论是哪种可能,Grok 3的模子大小详情比Grok 2大了好多,而Grok 2模子自身可能就不小(Grok 2发布网页评测恶果超 Llama 3.1 405 B,是以不管数据照旧模子大小,齐不会太小,如果Dense模子, 70B是最小的揣度了),是以Grok 3的尺寸范围很可能不是一般的大(嗅觉在200B到500B之间)。

很彰着,Grok 3仍然在采选推大基座模子尺寸的 “传统” 作念法,也即是上头 “Scaling Law” 部分分析的预教师阶段增大模子尺寸的容貌来进步基座模子才调,上头分析过,这种作念法是性价比很低的。相比斯文的作念法是把教师要点放在RL Scaling方面,性价比会高太多。但是为啥他要作念这种耗损生意呢?在背面会给出一个可能的讲解。

Grok 3逻辑推理版块(深度念念考版块,对标 DeepSeek R1)

Grok 3的深度念念考版块,不说体验,单从评测掂量看,达到或者高出了o3 mini,照实是当今恶果最好的,或者说最好的之一莫得什么问题。

说回上头提到的问题,为啥明知靠推大预教师阶段模子尺寸范围性价比低,Grok 3还要用这种模式呢?很可能内在的原因在于(推断无把柄):Post-Training阶段采选RL Scaling,其恶果可能跟基座模子的大小是有正联系关系的。

即是说,一样的RL阶段的算力消耗,如果基座模子尺寸更大,则RL阶段的Scaling恶果越好。只好这样,才有在预教师阶段尽量把模子范围推大的必要性。而咱们不错假定,Grok 3之是以采选这种过于浮滥算力,看着性价比不高的形式,是但愿通过加大基座,把深度念念考版块的才调彰着拿起来。

貌似DeepSeek R1恶果很好又开源,得回一派好评,但行家想要骨子用起来,会发现基座太大,部署难度和消耗资源太高,对下贱愚弄不太友好。那为啥DeepSeek非得推这种对下贱愚弄来说彰着过大的模子呢?(小点的蒸馏模子看着掂量很好,但是骨子愚弄恶果貌似差不少),是否亦然因为基座模子如果不够大,深度念念考模子恶果就没那么好的原因?

如果上述假定斥地,那意味着:三个Scaling Law(Pre-train、RL 、Test Time),从提肥硕模子智力的性价比来说,由高到低是:Test Time > RL > Pre-Train,这个是之前的论断。但如果上述假定斥地,阐发Test Time Scaling的天花板最低,它的天花板依赖于RL阶段的Scaling才调,而RL阶段Scaling天花板次低,它的天花板依赖于预教师阶段Pre-Train的Scaling?

如果这样,如果有一天当RL和Test Time天花板到顶,意味着咱们不错再运转一轮,去推大基座模子的模子尺寸,RL阶段Scaling的天花板随之升高,然后不错再去Scale RL和Test Time,就进一步得到智力更高的大模子。如果这斥地,那意味着AGI的责罚决策一经无缺了?其实不需要新的Scaling Law存在就够?

上述扩充,是在一个前提斥地的条件下推出来的,这个前提是:Grok 3浮滥这样大算力推大模子范围,这是个三念念尔后行或小范围现实的为止,而不是只是受到之前老不雅念(预教师阶段算力越高恶果越好)影响下的决策。如果这个前提不斥地,则上述扩充不斥地。总之,一切株连在马斯克。

本文作家:张俊林,著述开始:腾讯科技,原文标题:《Grok 3用20万GPU帮AI界作念了个现实:Scaling Law没撞墙,但预教师不一定》

风险领导及免责条件 阛阓有风险,投资需严慎。本文不组成个东说念主投资提议,也未磋议到个别用户迥殊的投资方向、财务景况或需要。用户应试虑本文中的任何宗旨、不雅点或论断是否相宜其特定景况。据此投资,株连自诩。




Powered by 数字视野网 @2013-2022 RSS地图 HTML地图