展會信息港展會大全

DeepSeek-V3或證明Ilya“預訓練終結論”有誤?UC伯克利博士生證明大模型內容可用于訓練新模型
來源:互聯(lián)網   發(fā)布日期:2025-01-07 08:49:35   瀏覽:130次  

導讀:還記得 OpenAI 前首席科學家伊利亞蘇茨克維(Ilya Sutskever)在 2024 年神經信息處理系統(tǒng)大會(NeurIPS,Neural Information Processing Systems)上的“預訓練即將終結”發(fā)言嗎?他之所以這樣說是因為:互聯(lián)網上所有有用數(shù)據(jù)都將被用來訓練大模型。這個過程也被稱為預訓練,包括 ChatGPT 等在內的大模型均要經過這一步驟才能出爐”。不過,由于現(xiàn)有互聯(lián)網數(shù)據(jù)或將被消耗殆盡 ......

還記得 OpenAI 前首席科學家伊利亞蘇茨克維(Ilya Sutskever)在 2024 年神經信息處理系統(tǒng)大會(NeurIPS,Neural Information Processing Systems)上的“預訓練即將終結”發(fā)言嗎?他之所以這樣說是因為:互聯(lián)網上所有有用數(shù)據(jù)都將被用來訓練大模型。

這個過程也被稱為預訓練,包括 ChatGPT 等在內的大模型均要經過這一步驟才能出爐”。

不過,由于現(xiàn)有互聯(lián)網數(shù)據(jù)或將被消耗殆盡,因此伊利亞表示這個時代“無疑將結束”。

但是,大多數(shù)業(yè)界人士并未因此感到恐慌,這是為什么?答案可以先從最近火到大洋彼岸的中國大模型 DeepSeek V3 說起。

DeepSeek-V3或證明Ilya“預訓練終結論”有誤?UC伯克利博士生證明大模型內容可用于訓練新模型

圖 | 查理斯內爾(Charlie Snell)積極關注 DeepSeek V3 動態(tài)(來源:X)

曾在谷歌旗下公司 DeepMind 實習過的美國加州大學伯克利分校博士生查理斯內爾(Charlie Snell)非常關注 DeepSeek V3,他不僅在 X 上轉發(fā)了 DeepSeek V3 的相關內容,還專門問了問 OpenAI 內部人士對于 DeepSeek V3 的看法。

OpenAI 內部人士告訴斯內爾,DeepSeek 團隊可能是第一個復現(xiàn) OpenAI o1 的團隊,但是 OpenAI 的人也不知道 DeepSeek 是如何實現(xiàn)快速復現(xiàn)的。

美國科技博客 TechCrunch 的一份報告也顯示,DeepSeek 可能使用了 OpenAI o1 的輸出來訓練自己的 AI 模型,更重要的是 DeepSeek V3 在行業(yè)基準測試中表現(xiàn)也十分出色。

這說明,如果 OpenAI o1 模型的輸出優(yōu)于該公司的 GPT-4 模型,那么理論上 o1 的輸出內容就能被用于訓練新的大模型。

比如說:假設 o1 在特定的 AI 基準上獲得 90% 的分數(shù),如果將這些答案輸入 GPT-4,那么它的分數(shù)也能達到 90%。

假如你有大量的提示詞,那么就能從 o1 中獲得一堆數(shù)據(jù),從而創(chuàng)建大量新的訓練示例(數(shù)據(jù)),并能基于此預訓練一個新模型,或者繼續(xù)訓練 GPT-4 從而讓它變得更好。

因此,斯內爾懷疑 AI 推理模型的輸出已經被用于訓練新模型,并認為這些合成數(shù)據(jù)很有可能比互聯(lián)網上的已有數(shù)據(jù)更好。

DeepSeek-V3或證明Ilya“預訓練終結論”有誤?UC伯克利博士生證明大模型內容可用于訓練新模型

圖 | 查理斯內爾(Charlie Snell)

事實上,2024 年 8 月,當斯內爾還在 DeepMind 實習的時候,他和合作者發(fā)了一篇題為《擴展模型測試時間計算比擴展模型參數(shù)更有效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)的論文,在這篇論文中斯內爾已經針對“預訓練即將終結”的問題給出了解決方案。

研究中,斯內爾等人揭示了測試時間計算(test-time compute)這一策略的好處。測試時間計算策略,是一種通過峰值數(shù)據(jù)墻(peak-data wall)來讓大模型得到持續(xù)迭代的潛在方法。

該技術能將查詢分割成更小的任務,將每個任務都變成能被大模型處理的新提示。

其中,每一步都需要運行一個新請求,在 AI 領域這被稱為推理階段。在一系列的推理中,問題的每個部分都能得到解決。在沒有得到正確內容或沒有得到更好內容之前,模型不會進入下一階段。

研究期間,斯內爾和合作者將額外測試時間計算(additional test-time compute)的輸出用于提煉基礎模型,從而讓模型實現(xiàn)自我改進,借此發(fā)現(xiàn)新模型在數(shù)學任務和具有明確答案的任務中,表現(xiàn)得比之前的頂級大模型還要好。

因此,假如將這些更高質量的輸出作為新的訓練數(shù)據(jù),就能讓已有大模型生成更好的結果,或者直接打造出更好的大模型。

而他當初之所以和合作者開展這項研究,也是發(fā)現(xiàn)數(shù)據(jù)供應有限這一問題阻礙了預訓練的繼續(xù)擴展。

他表示,如果能讓大模型使用額外的推理時間計算(extra inference-time compute)并提高其輸出,那么這就是讓它生成更好的合成數(shù)據(jù)的一種方式。這就等于開創(chuàng)了一個尋找訓練數(shù)據(jù)的新來源,或能解決當前的大模型預訓練數(shù)據(jù)瓶頸問題。

DeepSeek-V3或證明Ilya“預訓練終結論”有誤?UC伯克利博士生證明大模型內容可用于訓練新模型

(來源:arXiv)

那么,斯內爾具體是如何開展這項研究的?研究中,斯內爾等人針對擴展測試時間計算的不同方法進行了系統(tǒng)分析,旨在進一步提高擴展測試時間計算的效果。

在擴展測試時間計算這一方法中,最簡單的、也是此前被研究得最深入的方法便是“N 選最佳采樣”,即從基礎大模型中“并行”抽樣 N 個輸出,并根據(jù)學習到的驗證器或獎勵模型,選擇得分最高的輸出。

然而,這種方法并不是使用測試時間計算來改進大模型的唯一方法。為了了解擴展測試時間計算的好處,斯內爾等人使用專門微調的 PaLM-2 模型針對難度較高的 MATH 基準開展實驗。

期間他和合作者用到了如下兩個方法:第一個方法是修改不正確的答案,第二個方法是使用基于過程的獎勵模型來驗證答案中各個步驟的正確性。

通過這兩種方法,斯內爾等人發(fā)現(xiàn)特定測試時間計算策略的有效性在很大程度上取決于以下兩點:其一,取決于手頭特定問題的性質;其二,取決于所使用的基礎大模型。

針對測試時間計算擴展策略(test-time compute scaling strategy)加以改進之后,斯內爾等人希望了解測試時間計算到底可以在多大程度上替代額外的預訓練。

于是,他和合作者在具有額外測試時間計算的較小模型和預訓練 14 倍大的模型之間進行了浮點運算數(shù)匹配比較。

結果發(fā)現(xiàn):無論是在簡單問題、中等難度問題還是在高難問題上,額外的測試時間計算策略都比擴展預訓練方法更加可取。

這說明,與其只是關注擴展預訓練,在某些情況下使用較少的計算針對小模型開展預訓練會更有效,并且可以使用測試時間計算策略來提高模型輸出。

也就是說,擴展測試時間計算已經比擴展預訓練更為可取,并且隨著測試時間策略的成熟,只會取得更多的改進。

從長遠來看,這暗示著未來在預訓練期間花費更少的浮點運算數(shù)(算力),而在推理中花費更多的浮點運算數(shù)(算力)。

DeepSeek-V3或證明Ilya“預訓練終結論”有誤?UC伯克利博士生證明大模型內容可用于訓練新模型

(來源:arXiv)

無獨有偶,就連微軟 CEO 薩蒂亞納德拉(Satya Nadella)也表達了類似的觀點,他在近期一則視頻播客中將推理時間計算策略描述為“另一個擴展定律(scaling law)”。

納德拉認為這是一種提高大模型能力的好方法:當進行預訓練的時候,進行測試時間采樣之后,就能創(chuàng)建可以重新用于預訓練的 tokens,從而能夠創(chuàng)建更強大的模型,進而運行推理。

毫無疑問,2025 年,這種方法將接受更多考驗,至于結果如何目前還需要從更多大模型身上加以驗證。

參考資料:

https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1

https://medium.com/@EleventhHourEnthusiast/scaling-llm-test-time-compute-optimally-can-be-more-effective-than-scaling-model-parameters-19a0c9fb7c44

https://arxiv.org/pdf/2408.03314

運營/排版:何晨龍

贊助本站

相關內容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港