展會(huì)信息港展會(huì)大全

對(duì)話AI科學(xué)家劉威:“Ilya預(yù)訓(xùn)練終結(jié)論”對(duì)中國(guó)大模型公司影響不大
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-02 18:59:39   瀏覽:341次  

導(dǎo)讀:出品|虎嗅科技組作者|蘇子華編輯|苗正卿題圖|AI生成過(guò)去一段時(shí)間,“預(yù)訓(xùn)練終結(jié)”成為了 AI 領(lǐng)域最熱烈的討論之一。OpenAI的GPT系列模型此前大踏步的前進(jìn),預(yù)訓(xùn)練是核心推動(dòng)力。而前 OpenAI 首席科學(xué)家 Ilya Sutskever、預(yù)訓(xùn)練和scaling law(規(guī)模定律)最忠實(shí)的倡導(dǎo)者,卻宣稱預(yù)訓(xùn)練要終結(jié)了、scaling law要失效。由此,引發(fā)了大量爭(zhēng)議。與之相對(duì)應(yīng)的,是GPT-5被曝研發(fā)受 ......

對(duì)話AI科學(xué)家劉威:“Ilya預(yù)訓(xùn)練終結(jié)論”對(duì)中國(guó)大模型公司影響不大

出品|虎嗅科技組

作者|蘇子華

編輯|苗正卿

題圖|AI生成

過(guò)去一段時(shí)間,“預(yù)訓(xùn)練終結(jié)”成為了 AI 領(lǐng)域最熱烈的討論之一。

OpenAI的GPT系列模型此前大踏步的前進(jìn),預(yù)訓(xùn)練是核心推動(dòng)力。而前 OpenAI 首席科學(xué)家 Ilya Sutskever、預(yù)訓(xùn)練和scaling law(規(guī)模定律)最忠實(shí)的倡導(dǎo)者,卻宣稱預(yù)訓(xùn)練要終結(jié)了、scaling law要失效。由此,引發(fā)了大量爭(zhēng)議。

與之相對(duì)應(yīng)的,是GPT-5被曝研發(fā)受阻,已經(jīng)比預(yù)期晚了6個(gè)月。似乎印證了Ilya的判斷。

大模型公司的未來(lái),是否因此都蒙上了陰影?在劉威看來(lái),所謂的預(yù)訓(xùn)練終結(jié)對(duì)中國(guó)的大模型公司影響不大,還不必?fù)?dān)心。而據(jù)他對(duì)Ilya的了解,Ilya的話不能只看表面意思。

劉威是前騰訊混元大模型技術(shù)負(fù)責(zé)人之一,騰訊杰出科學(xué)家,前不久剛剛低調(diào)開(kāi)啟AI領(lǐng)域的創(chuàng)業(yè)征程。

他于2016年加入騰訊AI Lab,與AI Lab另外兩位負(fù)責(zé)人張潼、俞棟一起,被業(yè)內(nèi)稱為“AI Lab三劍客”。在2018年,劉威入選IEEE智能系統(tǒng)10大AI青年科學(xué)家;2022年,因?qū)Υ笠?guī)模機(jī)器學(xué)習(xí)和智能多媒體的貢獻(xiàn),獲得IEEE Fellow。

在騰訊時(shí)期,劉威的工作主要是面向騰訊產(chǎn)品業(yè)務(wù)的CV基礎(chǔ)大模型、多模態(tài)理解大模型、文生圖、文生視頻大模型等。

在劉威看來(lái), Ilya此時(shí)這樣講,可能恰恰是因?yàn)樗繭penAI內(nèi)部遇到了一些技術(shù)瓶頸。即便如此,劉威認(rèn)為,行業(yè)實(shí)際上依舊在跟隨著OpenAI,它仍是引領(lǐng)者。

那么,該如何理解預(yù)訓(xùn)練終結(jié)的真正影響,如何正確看待OpenAI正遭遇的瓶頸、國(guó)內(nèi)外大模型公司的處境,以及預(yù)判AI進(jìn)化的下一階段?

針對(duì)這些問(wèn)題,劉威從科學(xué)家和AI創(chuàng)業(yè)者的視角,和我們聊了聊。

以下是對(duì)話實(shí)錄,經(jīng)編輯整理,為便于閱讀,有所刪減:

“預(yù)訓(xùn)練終結(jié)對(duì)中國(guó)大模型公司影響不大”

虎嗅:llya最近表示預(yù)訓(xùn)練將會(huì)終結(jié),預(yù)訓(xùn)練模型需要的海量數(shù)據(jù)即將枯竭。你如何看待他的觀點(diǎn)?

劉威:按照l(shuí)lya的說(shuō)話風(fēng)格,他一般不會(huì)把前面的定語(yǔ)、狀語(yǔ)說(shuō)得很明白。所以,“預(yù)訓(xùn)練終結(jié)”前面的定語(yǔ)和狀語(yǔ)是什么呢?確切地說(shuō),是文本領(lǐng)域的大語(yǔ)言模型的預(yù)訓(xùn)練要終結(jié)了,數(shù)據(jù)枯竭、找不到高質(zhì)量的文本token了。

他的目的是想讓有識(shí)之士意識(shí)到:文本領(lǐng)域的預(yù)訓(xùn)練確實(shí)是終結(jié)了,呼喚新的訓(xùn)練范式與新的scaling law。

虎嗅:在這個(gè)時(shí)間點(diǎn),他可能看到了什么?怎么理解背后的邏輯?

劉威:llya這樣說(shuō),可能有3個(gè)原因。

第一,可能是OpenAI內(nèi)部遇到了一些技術(shù)瓶頸。

按照華爾街日?qǐng)?bào)的報(bào)道,這個(gè)技術(shù)瓶頸就是指訓(xùn)練GPT-5模型(OpenAI內(nèi)部代號(hào)Orion)的時(shí)候,預(yù)訓(xùn)練的token不夠用了,于是加入了合成的token,結(jié)果合成的token效果不佳甚至很差,差到可能讓整個(gè)模型的訓(xùn)練失敗。

OpenAI最開(kāi)始投入大量的合成數(shù)據(jù)到預(yù)訓(xùn)練階段,結(jié)果遇到了很大的挫折,這個(gè)挫折讓OpenAI的GPT-5研發(fā)6個(gè)月沒(méi)有大的進(jìn)展。要理解其中的原因,我們得搞清楚預(yù)訓(xùn)練的作用。預(yù)訓(xùn)練實(shí)際上是在模擬特定domain的自然數(shù)據(jù)分布,譬如在文本domain,捕捉與模擬自然語(yǔ)言的分布是什么。所以O(shè)penAI會(huì)從很多高質(zhì)量的網(wǎng)站,譬如維基百科、紐約時(shí)報(bào)等去獲取一些文本數(shù)據(jù),這些數(shù)據(jù)都屬于人創(chuàng)作的、真實(shí)的語(yǔ)言分布。

而合成數(shù)據(jù)和真實(shí)數(shù)據(jù),在概率分布上“長(zhǎng)”得非常不一樣。舉個(gè)例子,我之前在騰訊也做過(guò)人臉圖像DeepFake檢測(cè),我們發(fā)現(xiàn)AI合成的假的人臉圖像和真實(shí)的人臉圖像在高頻段的信息特征完全不一樣,所以我們研發(fā)的人臉打假系統(tǒng)一下子就把假的人臉識(shí)別出來(lái)了。所以在預(yù)訓(xùn)練階段,如果把真實(shí)token的自然分布和合成token的“假”分布混在一起,喂給模型訓(xùn)練,便可能會(huì)讓模型訓(xùn)練崩潰或者達(dá)到一個(gè)“胡言亂語(yǔ)”的模型結(jié)果。

第二,我猜測(cè),o1可能在GPT-5的預(yù)訓(xùn)練中起到了不小的作用,OpenAI可能用o1造了很多代碼類、數(shù)學(xué)類、邏輯類的合成數(shù)據(jù),訓(xùn)練GPT-5去學(xué)習(xí)。然而,合成數(shù)據(jù)最大的問(wèn)題是多樣性差。比如,用o1造大量的token,既然是一個(gè)模型造的,token的同質(zhì)化不可避免,那便不具備多樣性。而自然界的真實(shí)數(shù)據(jù)的優(yōu)點(diǎn)之一就是多樣性強(qiáng),包羅萬(wàn)千。

所以,OpenAI的科學(xué)家與工程師們可能意識(shí)到了合成數(shù)據(jù)不能用太多,即便是用了合成數(shù)據(jù),也要設(shè)法提升多樣性,這樣訓(xùn)練效果仍然可能有提升;谶@個(gè)目的,OpenAI去找高級(jí)程序員、非常資深的數(shù)學(xué)老師或者數(shù)學(xué)博士,來(lái)寫(xiě)數(shù)學(xué)題的不同解法,以及用不同的方法做編程題,然后使用這些人類的真實(shí)多樣性token來(lái)訓(xùn)練一個(gè)更好的token生成器模型,以提升合成數(shù)據(jù)的多樣性。

第三,以上措施帶來(lái)的模型性能提升仍然不夠顯著。從GPT-3.5到GPT-4的提升是巨大的,從o1到o3的提升也是巨大的,然而從GPT-4到GPT-5,提升不大。

所以,可能基于以上三個(gè)方面,才促使llya說(shuō)出這樣的話。我們知道,GPT-3.5到GPT-4巨大的提升,正是來(lái)自于預(yù)訓(xùn)練scaling law。然預(yù)訓(xùn)練scaling law到頭了,就很難大踏步地提升下一代模型的綜合性能了。

我贊同llya。在文本domain里,預(yù)訓(xùn)練確實(shí)到頭了。但這并不是指模型算法出了問(wèn)題,而是指訓(xùn)練數(shù)據(jù)(token)不夠用了,跟不上model size的scaling up節(jié)奏。

虎嗅:也有很多大牛譬如Meta首席人工智能科學(xué)家Yann LeCun,說(shuō)預(yù)訓(xùn)練沒(méi)有到頭。

劉威:很多時(shí)候大家是在你說(shuō)你的,我說(shuō)我的。Yann LeCun指的是多模態(tài)領(lǐng)域的scaling law沒(méi)有到頭。事實(shí)上,多模態(tài)領(lǐng)域的預(yù)訓(xùn)練怎么做,業(yè)界還在探索,還不完全清楚GPT-4o、Gemini-2.0是如何進(jìn)行預(yù)訓(xùn)練的。

在多模態(tài)領(lǐng)域,開(kāi)源社區(qū)的做法和閉源的做法也不一樣。GPT-4o是三個(gè)模態(tài)(文字、圖片、語(yǔ)音)的輸入和輸出,目前國(guó)產(chǎn)模型還沒(méi)有實(shí)現(xiàn)對(duì)標(biāo)GPT-4o的三模態(tài)理解與生成效果。市面上大部分號(hào)稱有多模態(tài)能力的大模型,主要能力是多模態(tài)理解,欠缺優(yōu)秀的多模態(tài)生成能力,比如優(yōu)秀的語(yǔ)音生成能力(與 OpenAI 的高級(jí)語(yǔ)音模式Advanced Voice Mode相比,大多數(shù)語(yǔ)音生成產(chǎn)品在很多能力上仍顯不足,包括情緒理解、靈敏的打斷功能、豐富自然的語(yǔ)氣語(yǔ)調(diào)、多語(yǔ)言支持、連續(xù)對(duì)話能力等)。

無(wú)論Google還是OpenAI,他們都還沒(méi)有發(fā)表相關(guān)的論文。所以,大家不知道他們是怎么做的。Meta雖然發(fā)表了一些多模態(tài)大模型的論文,但他們發(fā)的論文和自己開(kāi)源的Llama 3模型在多模態(tài)訓(xùn)練方法上又不太一樣。所以多模態(tài)領(lǐng)域的預(yù)訓(xùn)練scaling law到底是什么樣,大家還在探索。

虎嗅:那么文本領(lǐng)域的scaling law遭遇了瓶頸,會(huì)對(duì)中國(guó)的大模型公司有什么影響嗎?

劉威:我認(rèn)為影響不大。對(duì)于中國(guó)大模型公司來(lái)說(shuō),token遠(yuǎn)沒(méi)有到用盡的時(shí)候。因?yàn)镺penAI的技術(shù)路線很激進(jìn),它的模型參數(shù)已經(jīng)很龐大。行業(yè)內(nèi)有一些傳言,猜測(cè)GPT-5可能是10T以上的參數(shù)量,這是巨大的。除了OpenAI,應(yīng)該沒(méi)有幾個(gè)機(jī)構(gòu)在訓(xùn)練10T參數(shù)量級(jí)的模型。

而我們知道GPT-4只是1.6-1.7T的參數(shù)規(guī)模。也就是說(shuō),模型參數(shù)可以擴(kuò)大,算力可以增加,但是真實(shí)的token量是有上限的。人類只有一個(gè)互聯(lián)網(wǎng),高質(zhì)量文本token量大約不超過(guò)20T 。按照scaling law的經(jīng)驗(yàn)公式:GPT系列模型預(yù)訓(xùn)練需要的token量與模型參數(shù)量,大約呈10倍的線性關(guān)系。那么,GPT-5如果是10T的參數(shù)規(guī)模,我們很難收集到100T 高質(zhì)量token的數(shù)據(jù)。從這個(gè)角度講,預(yù)訓(xùn)練確實(shí)到頭了。

而以嚴(yán)格的標(biāo)準(zhǔn)來(lái)說(shuō),在多語(yǔ)種的文本domain里,中國(guó)還沒(méi)有一家國(guó)產(chǎn)模型能夠達(dá)到GPT-4的水準(zhǔn),還有相當(dāng)?shù)奶嵘臻g,所以國(guó)產(chǎn)模型廠家還不用擔(dān)心scaling law到頭了。

虎嗅:還有一種說(shuō)法,數(shù)據(jù)危機(jī)可能會(huì)導(dǎo)致發(fā)力通用大模型的公司,轉(zhuǎn)向更小、更專業(yè)的模型。

劉威:這個(gè)和預(yù)訓(xùn)練的終結(jié)沒(méi)有直接關(guān)系。大家永遠(yuǎn)可以研發(fā)小模型,在“預(yù)訓(xùn)練終結(jié)”被提出之前,微軟一直在做小模型,Meta、蘋(píng)果也都在做端側(cè)模型,包括國(guó)內(nèi)的面壁智能也在做端側(cè)小模型。

虎嗅:之前傳聞?dòng)袔准覈?guó)內(nèi)大模型獨(dú)角獸放棄預(yù)訓(xùn)練了,似乎放棄預(yù)訓(xùn)練是個(gè)很負(fù)面的事情?

劉威:這應(yīng)該是傳言,如果屬實(shí),或許是被卡脖子的無(wú)奈之舉,國(guó)內(nèi)缺乏最高端的GPU芯片,這當(dāng)然會(huì)相當(dāng)影響預(yù)訓(xùn)練的質(zhì)量與速度。

預(yù)訓(xùn)練很重要,它的作用是先將世界知識(shí)的分布模擬一遍,然后才有“后訓(xùn)練”。預(yù)訓(xùn)練確立了學(xué)習(xí)的目標(biāo),后訓(xùn)練則是充實(shí)了學(xué)習(xí)的技法。先有目標(biāo),才有技法;先煉內(nèi)功,再學(xué)招式。

預(yù)訓(xùn)練費(fèi)時(shí)費(fèi)力,還不一定能訓(xùn)練成功。海外很多公司,尤其是美國(guó)硅谷的很多公司,直接采用Meta開(kāi)源的Llama底座模型進(jìn)行微調(diào),迅速推向市場(chǎng)服務(wù)用戶。從商業(yè)上來(lái)說(shuō),這無(wú)可厚非。

虎嗅:都去做預(yù)訓(xùn)練,算是不明智嗎?

劉威:不僅是中國(guó)的公司在追趕OpenAI,借鑒他們的技術(shù)路線和方法,美國(guó)的公司如谷歌、Meta、Anthropic也在做同樣的事情,都在做預(yù)訓(xùn)練,而谷歌在推出同類型模型產(chǎn)品上是追趕OpenAI最激進(jìn)的一個(gè)。

虎嗅:什么樣的公司適合去做預(yù)訓(xùn)練?

劉威:無(wú)論是在中國(guó)、美國(guó)還是歐洲,有AGI信仰的公司才能堅(jiān)持做預(yù)訓(xùn)練。

接下來(lái),AI如何繼續(xù)進(jìn)化?

虎嗅:o3出來(lái)之后,網(wǎng)絡(luò)口碑一般,這個(gè)您怎么看?目前我們是否處在AI行業(yè)的某個(gè)分水嶺?

劉威:o3在推理、編程、數(shù)學(xué)、科學(xué)方面的能力是非常強(qiáng)的,我認(rèn)為在后訓(xùn)練scaling law的路線上,OpenAI目前還沒(méi)到達(dá)分水嶺。

如果我們探究OpenAI的全局技術(shù)路線,它確實(shí)已經(jīng)跨過(guò)了第一個(gè)分水嶺,即預(yù)訓(xùn)練的scaling law。它目前正處在探索新的scaling law(后訓(xùn)練或強(qiáng)化學(xué)習(xí)scaling law)的道路上,也已經(jīng)從o1走到了o3。

虎嗅:為什么大家追上OpenAI的速度可以這么快,好像AI公司間的競(jìng)爭(zhēng)壁壘沒(méi)那么高?

劉威:這是好事。首先,沒(méi)人敢說(shuō)OpenAI的技術(shù)路線是錯(cuò)的,大家都在用實(shí)際行動(dòng)表示跟隨,OpenAI依舊是引領(lǐng)者。另外,大家也不希望行業(yè)里出現(xiàn)一個(gè)寡頭。業(yè)界共同推動(dòng)技術(shù)進(jìn)步發(fā)展,行業(yè)也更健康。

虎嗅:一些大模型獨(dú)角獸會(huì)認(rèn)為世界模型是AI的下一個(gè)階段,怎么理解世界模型?

劉威:世界模型這個(gè)詞在學(xué)術(shù)界還沒(méi)有清晰的定義。有3D重建式的世界模型,譬如李飛飛教授的World Labs正在做的;也有在視頻中做一些自動(dòng)理解、自動(dòng)導(dǎo)航式的世界模型,譬如Meta的Yann LeCun團(tuán)隊(duì)研發(fā)的JEPA系列模型;特斯拉和一些國(guó)內(nèi)的新能源車、自動(dòng)駕駛公司,也在做自動(dòng)駕駛場(chǎng)景里的自動(dòng)規(guī)劃、自動(dòng)控制的世界模型。

就像AGI在學(xué)術(shù)界已經(jīng)流傳了多年,但很多學(xué)者,例如Yann LeCun就認(rèn)為不應(yīng)該叫AGI,應(yīng)該叫human-level intelligence,是用“人類層次的智能”來(lái)替代AGI這樣的叫法。

世界模型也是一樣,或許未來(lái)有更好的命名方式表達(dá)。

按照我的理解,如果一個(gè)AI模型學(xué)習(xí)了全世界的人類知識(shí),那么它就可以稱為一個(gè)基礎(chǔ)版的世界模型。從知識(shí)層面來(lái)看,GPT-4可算是文本知識(shí)領(lǐng)域的基礎(chǔ)世界模型。如果從功用層面來(lái)看,世界模型的定義應(yīng)該不僅涵蓋人類層次的聽(tīng)說(shuō)讀寫(xiě)能力,還包括代替人類在物理世界去執(zhí)行任務(wù)。那么,當(dāng)前還沒(méi)有一個(gè)AI模型能稱為世界模型。

所以,我們應(yīng)該把世界模型的研究范圍放窄一些,先解決相對(duì)容易的問(wèn)題,慢慢再擴(kuò)充研究范圍。我的觀點(diǎn)是:當(dāng)我們研究世界模型的時(shí)候,要先去定義什么是我們要研究的世界,大世界或者小世界。當(dāng)確定了我們要研究的世界定義域,那么對(duì)世界模型的研究范疇知識(shí)層面+功用層面實(shí)際上就會(huì)變得更清晰。

虎嗅:關(guān)于大模型的進(jìn)化,您之前在訪談里提到過(guò),未來(lái)大模型可以通過(guò)自博弈的強(qiáng)化學(xué)習(xí),來(lái)掌握自動(dòng)升級(jí)的鑰匙,無(wú)需人工干預(yù)就能實(shí)現(xiàn)迭代,這件事目前到什么階段了?

劉威:這是我對(duì)未來(lái)大模型技術(shù)發(fā)展的一個(gè)預(yù)測(cè)。我覺(jué)得大語(yǔ)言模型的升級(jí)可以從完全人工干預(yù)逐步發(fā)展到半自動(dòng),最后演化為全自動(dòng)升級(jí)。

目前大模型的對(duì)齊策略主要是與人類對(duì)齊,所以有RLHF(人類反饋的強(qiáng)化學(xué)習(xí))。從公開(kāi)信息源,我們發(fā)現(xiàn)OpenAI、Google、Meta、Anthropic正在或計(jì)劃使用AI對(duì)齊策略,如RLAIF(AI反饋的強(qiáng)化學(xué)習(xí))。

具體來(lái)說(shuō),這種AI對(duì)齊策略體現(xiàn)在:監(jiān)督微調(diào)(SFT)中使用一個(gè)大語(yǔ)言模型(輔助模型或者前代模型)生成prompt-response格式的語(yǔ)料數(shù)據(jù),RL中使用該模型對(duì)特定prompt的多個(gè)response進(jìn)行打分或者排序(稱為偏好數(shù)據(jù))。比如,Meta開(kāi)源的Llama 3的技術(shù)報(bào)告中,明確說(shuō)明了它的對(duì)齊階段,或者說(shuō)后訓(xùn)練階段,會(huì)依賴于Llama 3的早期模型版本來(lái)生成部分SFT語(yǔ)料數(shù)據(jù)。

OpenAI的12天直播里,展示了一項(xiàng)新技術(shù)叫RFT,也就是強(qiáng)化學(xué)習(xí)微調(diào),這是非常關(guān)鍵的技術(shù),它可以在線收集人類的少量反饋,然后讓當(dāng)前的大語(yǔ)言模型版本模擬這些人類反饋而生成更多的反饋樣本,用人類反饋+AI反饋進(jìn)行強(qiáng)化學(xué)習(xí),微調(diào)當(dāng)前模型版本,并可以持續(xù)迭代下去。

在對(duì)齊層面,將對(duì)齊的源頭由人類換成了AI,這就是一個(gè)進(jìn)步。但是,即使采用了AI對(duì)齊策略,后訓(xùn)練scaling law仍然可能有終結(jié)的一天。

因此,我一直在思考能否有比對(duì)齊驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)更有效的學(xué)習(xí)范式。AI如果只和人類對(duì)齊,那么智能水平永遠(yuǎn)不可能超過(guò)人類,所以我建議嘗試對(duì)抗式的自博弈強(qiáng)化學(xué)習(xí),即AI和AI對(duì)抗競(jìng)爭(zhēng)學(xué)習(xí),這樣AI的智能水平才有可能超過(guò)人類。

對(duì)抗式自博弈RL,正是 DeepMind的AlphaZero最早提出的技術(shù),最初有多個(gè)決策式AI模型版本,讓它們兩兩對(duì)抗PK,誰(shuí)能贏,誰(shuí)就survive,一系列優(yōu)勝劣汰之后,得到最強(qiáng)的AI模型。最近,Hinton(被稱為AI教父、諾獎(jiǎng)得主)在訪談和演講中提到,他很擔(dān)心AI越來(lái)越強(qiáng)之后,會(huì)彼此競(jìng)爭(zhēng)資源;比如,有公司同時(shí)訓(xùn)練了幾個(gè)大語(yǔ)言模型,有的大語(yǔ)言模型會(huì)更智能,它可能會(huì)主動(dòng)搶奪其他模型的數(shù)據(jù)資源和算力資源而變得更強(qiáng)。Hinton談?wù)摰倪@些,就是自博弈式、對(duì)抗式的強(qiáng)化學(xué)習(xí)。

虎嗅:聽(tīng)起來(lái)有點(diǎn)像一個(gè)AI吞噬另一個(gè)AI。

劉威:未來(lái)可能會(huì)發(fā)生。當(dāng)然,人類正在制定和完善各種制約、規(guī)范、協(xié)議等來(lái)避免AI的失控,盡早防范和杜絕AI對(duì)人類造成負(fù)面的影響。

虎嗅:目前大模型這個(gè)行業(yè)里,最讓您興奮的是什么呢?

劉威:最讓我興奮的是:何時(shí)能把自博弈式的對(duì)抗強(qiáng)化學(xué)習(xí),用非常便宜的方式做出來(lái)。

虎嗅:已經(jīng)看到有人在做了嗎?

劉威:這個(gè)還不清楚,如果是學(xué)術(shù)界的朋友,我建議他們?nèi)パ芯俊?br/>

這里我想舉一個(gè)例子。OpenAI在2017年發(fā)明了PPO算法,一種在線強(qiáng)化學(xué)習(xí)算法。GPT-3.5和GPT-4用的就是PPO。而在去年5月份,斯坦福大學(xué)發(fā)表了一篇論文,提出了一個(gè)新的離線強(qiáng)化學(xué)習(xí)算法DPO,即直接偏好優(yōu)化,它比PPO穩(wěn)定很多、計(jì)算上輕量很多,于是業(yè)界都開(kāi)始采用這個(gè)RL算法。而且,DPO提出來(lái)之后,OpenAI也在使用,它最近發(fā)布的強(qiáng)化學(xué)習(xí)微調(diào)就是采用了DPO。

學(xué)術(shù)界可以用不同于工業(yè)界的視角來(lái)研究很多技術(shù)問(wèn)題,往往能提出非常巧妙的新方法。所以,對(duì)抗式自博弈的強(qiáng)化學(xué)習(xí),我感覺(jué)會(huì)有計(jì)算更便宜、算法設(shè)計(jì)更巧妙的解決辦法被研究出來(lái)。

虎嗅:那么它會(huì)對(duì)AI行業(yè)的發(fā)展產(chǎn)生什么影響?

劉威:會(huì)有新的scaling law誕生。也就是說(shuō),除了預(yù)訓(xùn)練的scaling law、強(qiáng)化學(xué)習(xí)的scaling law還會(huì)有一次范式遷移或升級(jí),即自博弈強(qiáng)化學(xué)習(xí)scaling law。

它是對(duì)抗式的RL,不是對(duì)齊式的RL,用它驅(qū)動(dòng)大模型的升級(jí),會(huì)比對(duì)齊式RL的效率更高。

虎嗅:關(guān)于強(qiáng)化學(xué)習(xí)的scaling law,目前大家還沒(méi)有達(dá)成共識(shí)吧?

劉威:OpenAI或許已經(jīng)探索出自己的強(qiáng)化學(xué)習(xí)scaling law,其他公司可能還需要先去追趕o1,趕上之后方能去探索RL scaling law。

談競(jìng)爭(zhēng)

虎嗅:一些知名投資機(jī)構(gòu)預(yù)測(cè)2025年AI應(yīng)用會(huì)爆發(fā),您怎么看?

劉威:如果從廣義來(lái)看,從CV四小龍時(shí)期到現(xiàn)在的大模型六小虎時(shí)代,AI應(yīng)用一直在蓬勃發(fā)展。我們每天都在和AI應(yīng)用接觸,比如說(shuō)刷臉。

我們目前關(guān)注的AI應(yīng)用,比如紅杉美國(guó)的文章里提的AI應(yīng)用,指的是agent智能體,它算是AI原生的應(yīng)用。我認(rèn)為agent是商業(yè)軟件的未來(lái),甚至是SaaS的未來(lái),我也預(yù)測(cè)agentic AI會(huì)在2025年爆發(fā)。

虎嗅:在您看來(lái),國(guó)內(nèi)外AI創(chuàng)業(yè)者做的事情有什么不同?

劉威:據(jù)我了解,美國(guó)非常好的大學(xué)在非常積極、廣泛地?fù)肀I,這是在學(xué)術(shù)界;在硅谷的話,有沒(méi)有AI,硅谷的創(chuàng)業(yè)熱潮也都沒(méi)有消退過(guò)?赡苓@一波生成式AI的創(chuàng)業(yè)浪潮比以前來(lái)的更猛烈,融資額度也比過(guò)去大,畢竟GPU算力很貴。

從追求AGI上來(lái)講,硅谷和國(guó)內(nèi)的AI行業(yè),做的事情沒(méi)什么本質(zhì)不同。國(guó)內(nèi)可能會(huì)借鑒硅谷的創(chuàng)業(yè)課題,比如對(duì)標(biāo)cursor,做一些AI代碼生成的創(chuàng)業(yè)公司。

虎嗅:國(guó)內(nèi)外的AI產(chǎn)業(yè),面對(duì)的挑戰(zhàn)會(huì)有什么不同?比如,美國(guó)的AI巨頭可能更缺能源,中國(guó)的AI獨(dú)角獸更缺資金?

劉威:很難講挑戰(zhàn)是什么,只能說(shuō)中美的訴求有差異。從一些公開(kāi)報(bào)道來(lái)看,美國(guó)的幾家AI巨頭已經(jīng)訂購(gòu)了大量高端的GPU,在2025年平均一家都有幾十萬(wàn)塊的英偉達(dá)B系列的卡。

在我看來(lái),美國(guó)這些AI玩家,他們屬于激進(jìn)派,他們的訴求就是看誰(shuí)能先達(dá)到AGI,無(wú)論是在囤人才、算力、資金等方面,都在進(jìn)行軍備競(jìng)賽。比如,在公開(kāi)場(chǎng)合,Elon Musk預(yù)測(cè),AGI最晚在2026年就會(huì)來(lái);而Sam Altman預(yù)測(cè)最早在2025年能來(lái),Google的AI一號(hào)位Demis Hassabis預(yù)測(cè)AGI在2030年能來(lái)?磥(lái)大家都認(rèn)為AGI會(huì)在未來(lái)幾年到來(lái),那就看誰(shuí)能率先做出來(lái)。

對(duì)于中國(guó)的AI行業(yè)來(lái)說(shuō),資金不是問(wèn)題,從中央到地方,從企業(yè)到高校,對(duì)AI都很支持,而且支持的力度非常大。國(guó)內(nèi)AI產(chǎn)業(yè)的訴求,我認(rèn)為主要還是看AI能不能真的產(chǎn)生社會(huì)價(jià)值。

虎嗅:國(guó)內(nèi)大模型公司的競(jìng)爭(zhēng),在創(chuàng)業(yè)方面有給你什么啟發(fā)嗎?

劉威:要有自己的絕活。就像在大語(yǔ)言模型的賽道,不能總是跟著幾家美國(guó)AI巨頭后面去追趕?梢試L試瞄準(zhǔn)巨頭做的不是那么好的賽道,在這個(gè)賽道以獨(dú)特的技術(shù)主張,找到屬于自己的scaling law。

對(duì)話AI科學(xué)家劉威:“Ilya預(yù)訓(xùn)練終結(jié)論”對(duì)中國(guó)大模型公司影響不大

正在改變與想要改變世界的人,都在 虎嗅APP

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港