展會(huì)信息港展會(huì)大全

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-03-16 15:12:21   瀏覽:128次  

導(dǎo)讀:新智元報(bào)道編輯:編輯部 NJY【新智元導(dǎo)讀】谷歌團(tuán)隊(duì)發(fā)現(xiàn)了全新Scaling Law!新方法DiLoCo被證明更好、更快、更強(qiáng),可在多個(gè)數(shù)據(jù)中心訓(xùn)練越來(lái)越大的LLM。測(cè)試時(shí)計(jì)算之后,谷歌三大團(tuán)隊(duì)集眾人之力,發(fā)現(xiàn)了全新的Scaling Law!剛剛,谷歌研究員Zachary Charles宣布:「在越來(lái)越大的模型上,分布式訓(xùn)練取得重大突破」。這個(gè)核心算法,便是DiLoCo的Scaling Law。新的訓(xùn)練方法無(wú)懼模 ......

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

新智元報(bào)道

編輯:編輯部 NJY【新智元導(dǎo)讀】谷歌團(tuán)隊(duì)發(fā)現(xiàn)了全新Scaling Law!新方法DiLoCo被證明更好、更快、更強(qiáng),可在多個(gè)數(shù)據(jù)中心訓(xùn)練越來(lái)越大的LLM。測(cè)試時(shí)計(jì)算之后,谷歌三大團(tuán)隊(duì)集眾人之力,發(fā)現(xiàn)了全新的Scaling Law!

剛剛,谷歌研究員Zachary Charles宣布:「在越來(lái)越大的模型上,分布式訓(xùn)練取得重大突破」。

這個(gè)核心算法,便是DiLoCo的Scaling Law。

新的訓(xùn)練方法無(wú)懼模型規(guī)模,未來(lái),在「多個(gè)數(shù)據(jù)中心」訓(xùn)練大模型的規(guī)模不再是問(wèn)題。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

論文得出四大發(fā)現(xiàn),DiLoCo訓(xùn)練方法的Scaling law,效果遠(yuǎn)超「數(shù)據(jù)并行」:

更穩(wěn)。℉arder):在不同模型規(guī)模下,DiLoCo的超參數(shù)依然保持穩(wěn)定且可預(yù)測(cè)。

更優(yōu)越(Better):隨著模型規(guī)模擴(kuò)大,DiLoCo相較于數(shù)據(jù)并行訓(xùn)練的優(yōu)勢(shì)進(jìn)一步提升。

更高效(Faster):DiLoCo所需的帶寬比數(shù)據(jù)并行訓(xùn)練少幾個(gè)數(shù)量級(jí)。

更強(qiáng)大(Stronger):DiLoCo能夠容忍比數(shù)據(jù)并行訓(xùn)練大得多的批大小。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

值得一提的是,這篇巨作集結(jié)了谷歌三大團(tuán)隊(duì):谷歌Research、谷歌Search、谷歌DeepMind。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

論文地址:https://arxiv.org/pdf/2503.09799

在固定計(jì)算預(yù)算下,研究人員探討了DiLoCo在訓(xùn)練大模型時(shí)的Scaling law。

論文中,重點(diǎn)分析了算法因素(如模型副本數(shù)量、超參數(shù)設(shè)置、token預(yù)算)如何影響訓(xùn)練過(guò)程,并證明這些影響可通過(guò)Scaling law準(zhǔn)確預(yù)測(cè)。

結(jié)果表明,DiLoCo在模型規(guī)模增長(zhǎng)時(shí),表現(xiàn)出穩(wěn)定且可預(yù)測(cè)的擴(kuò)展性。論文合著者Arthur Douillard再次強(qiáng)調(diào):DiLoCo生效了!

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

智能的未來(lái)將是分布式的,而DiLoCo可能正是那個(gè)關(guān)鍵的要素

在合理調(diào)優(yōu)的情況下,DiLoCo比數(shù)據(jù)并行訓(xùn)練更具擴(kuò)展優(yōu)勢(shì),即使在小規(guī)模模型上也可能優(yōu)于數(shù)據(jù)并行訓(xùn)練。

這些發(fā)現(xiàn),揭示了DiLoCo的強(qiáng)大優(yōu)勢(shì):不僅解決了通信瓶頸,還為大規(guī)模模型訓(xùn)練開(kāi)辟了全新的可能。

有網(wǎng)友驚嘆地表示,「DiLoCo可能會(huì)重新定義LLM Scaling的方式!更少的帶寬需求,更高的效率」。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

左右滑動(dòng)查看

「數(shù)據(jù)并行」訓(xùn)練終結(jié)?

數(shù)據(jù)并行訓(xùn)練在大模型上表現(xiàn)出色,前提是在計(jì)算資源集中分散的情況下,才能實(shí)現(xiàn)。如果計(jì)算分布較廣,通信就可能成為巨大的瓶頸,尤其是當(dāng)模型規(guī)模增長(zhǎng)時(shí),問(wèn)題會(huì)更加嚴(yán)重!

機(jī)器學(xué)習(xí)采用的解決方案,例如在聯(lián)邦學(xué)習(xí)和數(shù)據(jù)中心訓(xùn)練中,就是讓多個(gè)獨(dú)立模型進(jìn)行訓(xùn)練,并定期同步。

隨著機(jī)器學(xué)習(xí)模型規(guī)模的擴(kuò)大,數(shù)據(jù)并行方法固有的頻繁同步需求會(huì)導(dǎo)致顯著的性能下降,這對(duì)進(jìn)一步擴(kuò)展模型構(gòu)成了關(guān)鍵挑戰(zhàn)。

那么,如何在保持模型質(zhì)量的同時(shí),降低同步需求,以突破這一瓶頸呢?

答案或許就在,DiLoCo(Distributed Low-Communication)這一創(chuàng)新方法中。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

論文鏈接:https://arxiv.org/abs/2311.08105

每個(gè)DiLoCo模型副本都會(huì)獨(dú)立訓(xùn)練H個(gè)內(nèi)部?jī)?yōu)化(inner optimization)步驟。

這些模型通過(guò)外部?jī)?yōu)化(outer optimization)步驟進(jìn)行同步,通常在外部?jī)?yōu)化步驟之間引入動(dòng)量機(jī)制。

在下圖中,示例中共有M=4個(gè)模型副本。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

DiLoCo的成功已經(jīng)被反復(fù)驗(yàn)證。它的運(yùn)作方式與聯(lián)邦學(xué)習(xí)的FedOpt方法類(lèi)似。

此外,研究人員也多次證明DiLoCo在大模型(LLM)訓(xùn)練中的卓越表現(xiàn)。

那么DiLoCo有什么問(wèn)題?簡(jiǎn)單來(lái)說(shuō)規(guī)模。

DiLoCo與數(shù)據(jù)并行訓(xùn)練不同,它引入了額外的「外部」超參數(shù),并且實(shí)際上的表現(xiàn)和理論上明顯不同。

這正是研究scaling laws的目的!

這次研究從零開(kāi)始構(gòu)建了DiLoCo和數(shù)據(jù)并行訓(xùn)練的Scaling law,用于預(yù)測(cè)它們?cè)诖笠?guī)模模型上的表現(xiàn)對(duì)比。

在數(shù)據(jù)并行訓(xùn)練中,每個(gè)訓(xùn)練步長(zhǎng)都會(huì)處理一個(gè)大小為B的數(shù)據(jù)批。

在本研究中,批大小指的是批中的token數(shù)量(而不是序列數(shù)量)。

計(jì)算批梯度,并使用學(xué)習(xí)率γ進(jìn)行優(yōu)化。

在DiLoCo訓(xùn)練過(guò)程中,每個(gè)時(shí)間步t處理一個(gè)全局批大小為B的數(shù)據(jù),并在序列級(jí)別將其均勻分配到M個(gè)DiLoCo副本中。

因此,全局批大小仍然是B,而每個(gè)DiLoCo副本的本地批大小為B/M。與數(shù)據(jù)并行訓(xùn)練類(lèi)似,每個(gè)副本都會(huì)計(jì)算批梯度,并使用學(xué)習(xí)率γ執(zhí)行一次內(nèi)部?jī)?yōu)化(inner optimization)。

但與數(shù)據(jù)并行不同的是,DiLoCo每H步會(huì)執(zhí)行一次「外部?jī)?yōu)化」(outer optimization),基于參數(shù)空間計(jì)算的外部梯度(outer-gradients),并使用學(xué)習(xí)率η進(jìn)行更新。

一個(gè)重要的對(duì)比是數(shù)據(jù)并行vs.DiLoCo(M=1)。

雖然它們相似,但并不完全相同。

DiLoCo在M=1的情況下,仍然包含一個(gè)外部?jī)?yōu)化器(OuterOpt)步驟,因此它可以被視為L(zhǎng)ookahead優(yōu)化器的變體。

而在DiLoCo中,OuterOpt通常使用帶有Nesterov動(dòng)量的GD,這意味著DiLoCo(M=1)實(shí)際上是數(shù)據(jù)并行訓(xùn)練的一個(gè)變體,但動(dòng)量操作僅每H步執(zhí)行一次。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

還進(jìn)行了大量實(shí)驗(yàn),涵蓋訓(xùn)練過(guò)程的各個(gè)方面,全面分析了它們的擴(kuò)展行為。

實(shí)驗(yàn)方法

大部分實(shí)驗(yàn)里,研究團(tuán)隊(duì)使用C4數(shù)據(jù)集的訓(xùn)練集來(lái)訓(xùn)練模型,評(píng)估指標(biāo)用C4的驗(yàn)證集。另外,還在三個(gè)下游任務(wù)上算了零樣本評(píng)估指標(biāo):HellaSwag、Piqa和Arc-Easy。模型架構(gòu):Chinchilla變體研究團(tuán)隊(duì)用的是一個(gè)類(lèi)似「Chinchilla」的純解碼器Transformer架構(gòu),加入了QK-LayerNorm,還使用了z-loss正則化來(lái)讓訓(xùn)練更穩(wěn)定。

他們把多個(gè)序列打包到每個(gè)批里,最大序列長(zhǎng)度全程固定為2,048。

所有模型都是從零開(kāi)始訓(xùn)練的,因?yàn)檫@次主要想研究預(yù)訓(xùn)練階段的規(guī)模規(guī)律。

研究團(tuán)隊(duì)訓(xùn)練了一堆模型,調(diào)整了Transformer層數(shù)、注意力頭的數(shù)量、QKV維度和前饋層的隱藏維度。

除非特別說(shuō)明,他們都用Chinchilla的token預(yù)算,并且對(duì)除了最大的兩個(gè)模型(4B和10B參數(shù))外,其他模型都做了大量的超參數(shù)調(diào)整。算法和優(yōu)化器研究團(tuán)隊(duì)用AdamW作為數(shù)據(jù)并行(Data-Parallel)的優(yōu)化器,也是DiLoCo的內(nèi)層優(yōu)化器。兩個(gè)算法的β1設(shè)為0.9,β2設(shè)為0.99。

訓(xùn)練開(kāi)始有1000步的預(yù)熱,然后用余弦學(xué)習(xí)率衰減。權(quán)重衰減參數(shù)λ設(shè)為T(mén),其中T是總訓(xùn)練步數(shù)(取決于批大小和token預(yù)算)。到訓(xùn)練結(jié)束時(shí),學(xué)習(xí)率衰減到峰值的5%。

為了訓(xùn)練穩(wěn)定,他們把(內(nèi)層)梯度的全局2范數(shù)剪裁到1,外層梯度不剪裁。

對(duì)于DiLoCo,他們用帶Nesterov動(dòng)量的SGD作為外層優(yōu)化器。動(dòng)量設(shè)為0.9,外層學(xué)習(xí)率保持不變。

從0構(gòu)建,全新Scaling Law已來(lái)

發(fā)現(xiàn)1:規(guī)模DiLoCo的評(píng)估損失隨著N的增加,相對(duì)于數(shù)據(jù)并行(Data-Parallel)有所改善。

Scaling law預(yù)測(cè),當(dāng)M=2時(shí),DiLoCo在參數(shù)達(dá)到幾十億以上時(shí),損失會(huì)比數(shù)據(jù)并行更低。這一現(xiàn)象在研究調(diào)優(yōu)的最大模型以及4B和10B模型的訓(xùn)練中都得到了驗(yàn)證。

下圖2展示了DiLoCo和Data-Parallel兩種算法在不同模型規(guī)模(N)下的表現(xiàn)對(duì)比。

圖(a)顯示,隨著模型規(guī)模從2^25到2^31逐漸增大,DiLoCo(分別在M=1、2、4、8時(shí))和Data-Parallel的評(píng)估損失(EvalLoss)都在下降,但DiLoCo的損失下降得更明顯,尤其是在M值較大時(shí)。

圖(b)進(jìn)一步展示了DiLoCo相對(duì)于Data-Parallel的評(píng)估損失的百分比差異,可以看出,隨著模型規(guī)模增加,DiLoCo的損失比Data-Parallel低得越來(lái)越多,說(shuō)明DiLoCo在模型規(guī)模擴(kuò)大時(shí)表現(xiàn)更優(yōu)越。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

這個(gè)發(fā)現(xiàn)有兩個(gè)獨(dú)立但相關(guān)的部分:

DiLoCo(M=1)表現(xiàn)更好:就像上面提到的,DiLoCo在M=1時(shí),所有模型規(guī)模的評(píng)估損失都比Data-Parallel低。而且隨著模型參數(shù)規(guī)模N增加,Data-Parallel和DiLoCo(M=1)之間的差距越來(lái)越大。

DiLoCo(M≥2)的表現(xiàn):在大多數(shù)模型規(guī)模下,DiLoCo在M≥2時(shí)評(píng)估損失會(huì)更高。不過(guò),如果看DiLoCo和Data-Parallel之間的百分比差異(帶正負(fù)號(hào)),會(huì)發(fā)現(xiàn)隨著N增大,DiLoCo相對(duì)Data-Parallel的表現(xiàn)越來(lái)越好,甚至在M=2、N=2.4億參數(shù)時(shí)超過(guò)了Data-Parallel。

比如,研究團(tuán)隊(duì)在下表4中列出了Data-Parallel和DiLoCo在不同模型規(guī)模N下的評(píng)估損失?梢钥闯,不管M是多少,百分比差異都隨著N增加嚴(yán)格減小。這個(gè)趨勢(shì)在圖2中也有展示:隨著N增加,DiLoCo的相對(duì)評(píng)估損失逐漸降低。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

研究團(tuán)隊(duì)還通過(guò)用縮放法則調(diào)好的超參數(shù),訓(xùn)練了40億和100億參數(shù)的模型來(lái)驗(yàn)證這一點(diǎn)。雖然圖2顯示的是「插值」范圍的結(jié)果(基于大量實(shí)驗(yàn)掃描),但這些發(fā)現(xiàn)也可以推廣到外推狀態(tài),能在M=1或2時(shí)用DiLoCo訓(xùn)練出評(píng)估損失更低的40億和100億參數(shù)模型。下表5展示了用外推超參數(shù)訓(xùn)練的結(jié)果,展示了在較大規(guī)模的4B和10B模型上,DiLoCo和Data-Parallel算法的評(píng)估損失對(duì)比,表明DiLoCo在更大規(guī)模下整體表現(xiàn)出色。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

發(fā)現(xiàn)2:?jiǎn)胃北綝iLoCo當(dāng)副本數(shù)M=1時(shí),DiLoCo在不同模型規(guī)模下獲得的評(píng)估損失都比Data-Parallel低。下圖3展示了當(dāng)副本數(shù)M=1時(shí),DiLoCo與Data-Parallel在不同模型規(guī)模(35M、550M、1.3B、2.4B)和全局批大。ㄒ詔oken計(jì),從2^16到2^20)下的評(píng)估損失和HellaSwag零樣本準(zhǔn)確率對(duì)比。圖(a)顯示DiLoCo的評(píng)估損失始終低于Data-Parallel,且差距隨著批大小增加而擴(kuò)大;圖(b)表明DiLoCo在HellaSwag零樣本準(zhǔn)確率上也優(yōu)于Data-Parallel,趨勢(shì)相似。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

在幾乎所有情況下,在M=1時(shí),DiLoCo不僅評(píng)估損失更低,下游任務(wù)的零樣本準(zhǔn)確率也比Data-Parallel高。而且,DiLoCo(M=1)的表現(xiàn)對(duì)批大。╞atch size)的穩(wěn)定性更強(qiáng):把批大小翻倍或翻四倍,對(duì)Data-Parallel的性能影響很大,但對(duì)DiLoCo(M=1)幾乎沒(méi)啥影響,圖3里畫(huà)得很清楚。

發(fā)現(xiàn)3:批大小對(duì)性能的影響DiLoCo提高了最佳批大小,而且最佳全局批大小隨著副本數(shù)M的增加而變大。這意味著DiLoCo相比Data-Parallel改善了橫向擴(kuò)展能力。雖然DiLoCo在批大小M>1時(shí),挑選所有超參數(shù)中最好的實(shí)驗(yàn)結(jié)果,評(píng)估損失往往略遜一籌,但它在批大小方面的表現(xiàn)顯著提升。Data-Parallel和DiLoCo(M=1)在小批時(shí)表現(xiàn)都不錯(cuò),但隨著批大小增加,Data-Parallel的性能下降很快。相比之下,不管批大小M是多少,DiLoCo的表現(xiàn)對(duì)批大小都穩(wěn)定得多。下圖4展示了評(píng)估損失的例子,結(jié)果表明,對(duì)于所有M值,DiLoCo的最佳批大小都比Data-Parallel更大,且隨著M的增加,DiLoCo的最佳批大小進(jìn)一步增大。例如,在550M模型中,Data-Parallel的評(píng)估損失在批大小較小時(shí)最低,而DiLoCo在批大小更大時(shí)表現(xiàn)更優(yōu),類(lèi)似趨勢(shì)在1.3B和2.4B模型中也成立。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

下圖5展示了在HellaSwag數(shù)據(jù)集上的零樣本準(zhǔn)確率。結(jié)果顯示即使在較小的模型規(guī)模下,DiLoCo在M=2時(shí)也能在更大的全局批大小下實(shí)現(xiàn)更高的準(zhǔn)確率。例如在550M模型中,DiLoCo的準(zhǔn)確率曲線在批大小增加時(shí)優(yōu)于Data-Parallel;1.3B和2.4B模型也表現(xiàn)出類(lèi)似趨勢(shì)。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

發(fā)現(xiàn)4:外部學(xué)習(xí)率最佳外部學(xué)習(xí)率基本上與模型規(guī)模N無(wú)關(guān),但會(huì)隨著副本數(shù)M的變化而變化。一個(gè)重要結(jié)果是,DiLoCo在水平擴(kuò)展上更自然。在所有情況下,token預(yù)算D,只跟模型規(guī)模N有關(guān)。這意味著如果用4倍大的批大小,訓(xùn)練步數(shù)會(huì)減少到1/4。對(duì)DiLoCo來(lái)說(shuō),這依然能保持不錯(cuò)的性能,還能一次性用更多資源,縮短總訓(xùn)練時(shí)間。而Data-Parallel似乎更依賴(lài)串行訓(xùn)練。這種訓(xùn)練時(shí)間的減少還因?yàn)橥ㄐ帕拷档投颖睹黠@。下圖6展示了理想的訓(xùn)練時(shí)間(wall-clock time),模擬不同網(wǎng)絡(luò)帶寬下的情況?梢钥吹,DiLoCo對(duì)較大批大小的容忍度使其能夠顯著更快地實(shí)現(xiàn)與Data-Parallel相當(dāng)?shù)男阅軗p失,而且在低帶寬設(shè)置中這種效果更為明顯。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

發(fā)現(xiàn)5:外部學(xué)習(xí)率如下圖7所示,對(duì)于足夠大的模型(N≥3.35億參數(shù)),每個(gè)M的最佳η是固定的。M越大,η似乎也越大。這跟之前聯(lián)邦學(xué)習(xí)的研究一致:外層學(xué)習(xí)率應(yīng)該隨著客戶(hù)端數(shù)量增加而增加。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

實(shí)際上,外部學(xué)習(xí)率僅取決于DiLoCo模型的數(shù)量以及同步的頻率。也就是說(shuō),雖然最優(yōu)的內(nèi)層學(xué)習(xí)率會(huì)隨模型規(guī)模N變化,但DiLoCo的最優(yōu)外層學(xué)習(xí)率η不依賴(lài)N,只跟M有關(guān)。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

DiLoCo同樣有助于解決過(guò)度訓(xùn)練的問(wèn)題!過(guò)度訓(xùn)練可能會(huì)相當(dāng)昂貴,但是增加了批大小并減少了通信量意味著,通常可以在相同的時(shí)間內(nèi)用DiLoCo進(jìn)行4倍的過(guò)度訓(xùn)練(OT),而使用數(shù)據(jù)并行訓(xùn)練只能進(jìn)行1倍的過(guò)度訓(xùn)練。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

論文中還有更多內(nèi)容。其中包括Scaling law本身,以及甚至提供了預(yù)測(cè)最優(yōu)超參數(shù)的方法。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

Scaling law表明,對(duì)于參數(shù)超過(guò)20億的模型,使用2個(gè)模型的DiLoCo優(yōu)于數(shù)據(jù)并行方法更多實(shí)驗(yàn)細(xì)節(jié)和內(nèi)容,請(qǐng)參閱原文。Chinchilla將死?AI 3萬(wàn)億美元的岔路

DiLoCo使得調(diào)整超參數(shù)和訓(xùn)練模型變得更加簡(jiǎn)單。但問(wèn)題在于,AI模型本身「換湯不換藥」還是Chinchilla那一套。畢竟,過(guò)去的預(yù)訓(xùn)練Scaling Law已進(jìn)入尾聲,而新的AI Scaling Law與訓(xùn)練無(wú)關(guān)。如今,隨著新型「推理模型」的興起,一個(gè)問(wèn)題浮出水面:如果Chinchilla死了,AI未來(lái)會(huì)怎樣?大約5年前,OpenAI研究員發(fā)現(xiàn),將更多的算力、數(shù)據(jù)投入到大規(guī)模訓(xùn)練中,可以顯著提升AI模型的性能。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

幾年后,谷歌研究人員更進(jìn)一步,通過(guò)構(gòu)建名為「Chinchilla」的模型證明,增加數(shù)據(jù)量能帶來(lái)更好的效果。這種「計(jì)算+數(shù)據(jù)」的組合催生了如今的巨型模型,比如GPT-4。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

論文地址:https://arxiv.org/pdf/2203.15556然而,這種策略的成功依賴(lài)于巨大的前期投入。海量數(shù)據(jù)被塞進(jìn)復(fù)雜且耗能的預(yù)訓(xùn)練過(guò)程,科技大廠瘋狂建造數(shù)據(jù)中心,塞滿(mǎn)了英偉達(dá)GPU。但問(wèn)題來(lái)了:這種砸錢(qián)砸數(shù)據(jù)的模式,還能走多遠(yuǎn)?巴克萊資本的頂級(jí)分析師Ross Sandler指出,未來(lái)可能面臨兩種截然不同的情景:一是,「Chinchilla」繼續(xù)主導(dǎo),巨額算力和數(shù)據(jù)投入持續(xù)攀升;二是,「停滯」替代方案,新型技術(shù)和模型以更少的資源實(shí)現(xiàn)更強(qiáng)性能。

谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

這兩種路徑的資本支出差距高達(dá)3萬(wàn)億美元以上,足以影響整個(gè)行業(yè)的走向。

「推理模型」崛起推動(dòng)這一潛在變革的,是「推理模型」的興起。OpenAI的o1、o3、DeepSeek R1、谷歌Gemini 2.0 Flash Thinking等新模型,采用了一種名為「測(cè)試時(shí)計(jì)算」(test-time compute)的技術(shù)。這種方法將復(fù)雜查詢(xún)分解為小任務(wù),逐一處理,不再依賴(lài)長(zhǎng)時(shí)間的預(yù)訓(xùn)練。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

相較于傳統(tǒng)模型,推理模型可能響應(yīng)稍慢,但它們輸出更準(zhǔn)確,運(yùn)行成本也更低。更重要的是,它們擺脫了對(duì)大規(guī)模預(yù)訓(xùn)練的依賴(lài)。DeepSeek R1甚至展示了一種可能:開(kāi)源推理模型能在短時(shí)間內(nèi)實(shí)現(xiàn)性能飛躍。這意味著,AI公司可能不再需要花費(fèi)18-24個(gè)月和巨資去打造下一個(gè)「巨無(wú)霸」模型。此外,混合專(zhuān)家模型(MoE)也成為被廣泛采用的技術(shù),通過(guò)訓(xùn)練多個(gè)小型「專(zhuān)家」模型,讓它們與大模型協(xié)同工作,只在需要時(shí)調(diào)用部分算力。這種方式,一步降低了基礎(chǔ)設(shè)施需求。

Chinchilla何去何從?過(guò)去五年,Chinchilla策略推動(dòng)了AI供應(yīng)鏈的繁榮,許多公司股價(jià)因此飆升。但如今,它的可持續(xù)性正受到質(zhì)疑?巳R分析師指出,「隨著投入成本激增,比如一次預(yù)訓(xùn)練耗資100億美元,性能增益卻可能越來(lái)越小,這種模式的性?xún)r(jià)比正在下降」。谷歌重磅推出全新Scaling Law,搶救Transformer!3萬(wàn)億美元AI面臨岔路

更嚴(yán)峻的是,訓(xùn)練數(shù)據(jù)可能正在枯竭。高質(zhì)量數(shù)據(jù)的供應(yīng)有限,而AI對(duì)數(shù)據(jù)的「胃口」卻越來(lái)越大。如果沒(méi)有足夠的「食物」,Chinchilla還能活多久?甚至,業(yè)內(nèi)一些大佬預(yù)測(cè),像OpenAI這樣的公司,可能會(huì)在GPT-5之后停止無(wú)休止的規(guī)模Scaling。面對(duì)數(shù)據(jù)枯竭,AI行業(yè)將希望寄托于「合成數(shù)據(jù)」。研究者認(rèn)為,這種「自給自足」的反饋循環(huán)能讓模型不斷自我進(jìn)化,推動(dòng)技術(shù)邁向新高度。Chinchilla們本質(zhì)上可以通過(guò)「自我喂養(yǎng)」來(lái)生存。「如果AI行業(yè)在合成數(shù)據(jù)和遞歸自我改進(jìn)方面取得突破,那么我們將重新走上Chinchilla scaling路徑,計(jì)算需求將繼續(xù)迅速上升」。Chinchilla死了嗎?這個(gè)問(wèn)題,AI市場(chǎng)會(huì)給出最終答案。如果推理模型、MoE技術(shù)成熟,AI可能走向輕量化,高效率的未來(lái),數(shù)萬(wàn)億美金的基礎(chǔ)設(shè)施投資,或許不再必要。但,如果「合成數(shù)據(jù)」讓Chinchilla重?zé)ㄉ鷻C(jī),算力競(jìng)賽將卷土重來(lái)。無(wú)論哪種未來(lái)到來(lái),AI的演進(jìn)都在重塑整個(gè)世界。參考資料:https://arxiv.org/pdf/2503.09799https://x.com/MatharyCharles/status/1900593694216253827https://www.businessinsider.com/ai-chinchilla-openai-google-anthropic-compute-demand-capex-scaling-laws-2025-3

贊助本站

相關(guān)熱詞: google transformer 新智元 diloco 算法

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港