自此前發(fā)布了 DeepSeek-V3 和 R1-Preview-Lite 引發(fā)全網(wǎng)關(guān)注之后,DeepSeek 又發(fā)布了一項(xiàng)重磅成果。
1 月 20 日,DeepSeek 發(fā)布了全新的開源推理大模型 DeepSeek-R1,在數(shù)學(xué)、編程和推理等多個(gè)任務(wù)上達(dá)到了與 OpenAI o1 相當(dāng)?shù)谋憩F(xiàn)水平,同時(shí)將應(yīng)用程序編程接口(API,Application Programming Interface)調(diào)用成本降低了 90-95%。
(來源:DeepSeek)
更重要的是,這一模型的實(shí)驗(yàn)性版本 DeepSeek-R1-Zero 證明了僅通過強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning),無(wú)監(jiān)督式微調(diào)(SFT,Supervised Fine-Tun-ing),大模型也可以有強(qiáng)大的推理能力。
英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 評(píng)價(jià)道:“我們正生活在一個(gè)特殊的時(shí)代:一家非美國(guó)公司在真正踐行著 OpenAI 最初的使命開展真正開放的前沿研究,為所有人賦能。這看似不合常理,但最富戲劇性的往往最可能發(fā)生。DeepSeek-R1 不僅開源了大量模型,還公開了所有訓(xùn)練細(xì)節(jié)。
他們可能是首個(gè)展示出強(qiáng)化學(xué)習(xí)飛輪效應(yīng),并實(shí)現(xiàn)持續(xù)增長(zhǎng)的開源項(xiàng)目。影響力的展現(xiàn)不一定要靠‘內(nèi)部實(shí)現(xiàn)了 ASI’或‘草莓計(jì)劃’這樣神秘的名號(hào),有時(shí)候直接公開原始算法和學(xué)習(xí)曲線同樣可以產(chǎn)生深遠(yuǎn)影響!
圖丨相關(guān)推文(來源:X)
用 1/30 的價(jià)格比肩 OpenAI o1
性能評(píng)估結(jié)果顯示,通過純強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的 DeepSeek-R1-Zero 以及在此基礎(chǔ)上改進(jìn)的 DeepSeek-R1,在 2024 年 AIME(美國(guó)數(shù)學(xué)邀請(qǐng)賽)測(cè)試中分別取得了 71.0% 和 79.8% 的成績(jī),與 OpenAI o1 的 79.2% 水平相當(dāng)。
在 MATH-500 基準(zhǔn)測(cè)試中,DeepSeek-R1 更是以 97.3% 的成績(jī)略微超越了 o1 的 96.4%。在編程領(lǐng)域,該模型在 Codeforces 平臺(tái)上獲得了 2029 的評(píng)分,超過了 96.3% 的人類程序員,與 o1-1217 的 2061 評(píng)分僅有小幅差距。
在通用知識(shí)評(píng)測(cè)方面,DeepSeek-R1 同樣表現(xiàn)出色。在 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)測(cè)試中達(dá)到 90.8% 的準(zhǔn)確率,雖然略低于 o1 的 91.8%,但顯著優(yōu)于其他開源模型。
在 MMLU-Pro 上取得 84.0% 的準(zhǔn)確率,在 GPA Diamond 測(cè)試中達(dá)到 71.5% 的通過率。在創(chuàng)意寫作和問答任務(wù)上,模型在 AlpacaEval 2.0 中獲得了 87.6% 的控長(zhǎng)勝率,在 ArenaHard 評(píng)測(cè)中達(dá)到 92.3% 的勝率。
圖丨 DeepSeek-R1 與其他代表性模型的比較(來源:DeepSeek)
在 API 定價(jià)方面,DeepSeek 展現(xiàn)出極強(qiáng)的性價(jià)比優(yōu)勢(shì)。其 API 服務(wù)對(duì)輸入 token 收取 0.55 美元/百萬(wàn),輸出 token 收取 2.19 美元/百萬(wàn),而 OpenAI o1 的收費(fèi)分別為 15 美元/百萬(wàn)和 60 美元/百萬(wàn),價(jià)格差距接近 30 倍。
純強(qiáng)化學(xué)習(xí)就能實(shí)現(xiàn)強(qiáng)大的推理能力
除了性能方面的出色,R1 的開發(fā)過程也具有多處重要?jiǎng)?chuàng)新,首先是純強(qiáng)化學(xué)習(xí)訓(xùn)練策略的突破。
傳統(tǒng)觀點(diǎn)認(rèn)為,必須先通過大量標(biāo)注數(shù)據(jù)進(jìn)行 SFT,才能讓模型具備基礎(chǔ)能力,之后才考慮使用 RL 進(jìn)行能力提升。然而 DeepSeek 這項(xiàng)研究發(fā)現(xiàn),大模型可以完全依靠強(qiáng)化學(xué)習(xí)獲得強(qiáng)大的推理能力,無(wú)需任何監(jiān)督式微調(diào)。
研究團(tuán)隊(duì)首先開發(fā)了實(shí)驗(yàn)性的 R1-Zero 版本。他們選擇直接在 DeepSeek-V3-base 模型上應(yīng)用強(qiáng)化學(xué)習(xí),完全拋開了傳統(tǒng)的監(jiān)督式微調(diào)環(huán)節(jié)。這個(gè)大膽的嘗試產(chǎn)生了驚人的效果:在完全沒有人工標(biāo)注數(shù)據(jù)的情況下,模型展現(xiàn)出了持續(xù)的自我進(jìn)化能力。
以 AIME 2024 數(shù)學(xué)測(cè)試為例,模型的 pass@1 準(zhǔn)確率從最初的 15.6% 開始,隨著訓(xùn)練的深入不斷提升。
每一輪強(qiáng)化學(xué)習(xí)都讓模型變得更加智能,最終達(dá)到了 71.0% 的準(zhǔn)確率,使用多數(shù)投票(majority voting)機(jī)制后更是提升至 86.7%,已經(jīng)接近 o1-0912 的水平。
圖丨 DeepSeek-R1-Zero 在訓(xùn)練期間的 AIME 準(zhǔn)確率(來源:DeepSeek)
在這個(gè)過程中,研究人員觀察到了一個(gè)有趣的現(xiàn)象:模型不僅在數(shù)字上有進(jìn)步,更在行為模式上發(fā)生了質(zhì)的飛躍。
它開始表現(xiàn)出類似人類的思維特征,會(huì)主動(dòng)反思和驗(yàn)證自己的推理步驟。當(dāng)發(fā)現(xiàn)當(dāng)前的解題思路可能存在問題時(shí),模型會(huì)停下來,重新審視之前的推理過程,然后嘗試尋找新的解決方案。
這種行為完全是自發(fā)產(chǎn)生的,而不是通過人工設(shè)計(jì)實(shí)現(xiàn)的,研究人員將這一行為稱之為模型的“頓悟時(shí)刻”(aha moment)。這表明模型可能已經(jīng)具備了某種程度的“元認(rèn)知”能力,能夠?qū)ψ陨淼乃季S過程進(jìn)行監(jiān)控和調(diào)整。
圖丨 DeepSeek-R1-Zero 中間版本的一個(gè)“頓悟時(shí)刻”(來源:DeepSeek)
支撐這些突破的核心是團(tuán)隊(duì)開發(fā)的 GRPO(Group Relative Policy Optimization)算法框架。傳統(tǒng)方法通常需要維護(hù)一個(gè)與主模型規(guī)模相當(dāng)?shù)?Critic 網(wǎng)絡(luò)來估計(jì)狀態(tài)值,這不僅增加了計(jì)算開銷,還容易導(dǎo)致訓(xùn)練不穩(wěn)定。而 GRPO 則另辟蹊徑,移除了規(guī)模龐大的 Critic 網(wǎng)絡(luò),通過群組相對(duì)優(yōu)勢(shì)估計(jì)來優(yōu)化策略網(wǎng)絡(luò)。
當(dāng)處理一個(gè)推理問題時(shí),算法首先從當(dāng)前策略 πθold 中采樣多個(gè)輸出 {o1, o2, ..., oG}。這些輸出共同構(gòu)成一個(gè)參考組,然后通過最大化以下目標(biāo)來優(yōu)化策略模型,其表達(dá)如下:
其中 Ai 表示輸出 oi 的優(yōu)勢(shì)值,通過歸一化組內(nèi)獎(jiǎng)勵(lì)計(jì)算得到:
至于其獎(jiǎng)勵(lì)機(jī)制則包含三個(gè)互補(bǔ)的組件:評(píng)估輸出正確性的準(zhǔn)確性獎(jiǎng)勵(lì)、確保推理過程結(jié)構(gòu)化的格式獎(jiǎng)勵(lì),以及處理語(yǔ)言一致性的獎(jiǎng)勵(lì)信號(hào)。這三種獎(jiǎng)勵(lì)通過合理的權(quán)重組合,共同指導(dǎo)模型向著期望的方向演進(jìn)。
例如,在數(shù)學(xué)問題中,準(zhǔn)確性獎(jiǎng)勵(lì)來自答案的驗(yàn)證結(jié)果,而格式獎(jiǎng)勵(lì)則確保模型提供清晰的解題步驟。
訓(xùn)練模板則為整個(gè)學(xué)習(xí)過程提供了結(jié)構(gòu)化的框架。它采用“思考-回答”的雙階段設(shè)計(jì),要求模型首先在
這種設(shè)計(jì)不僅使模型的思維過程變得可追蹤,還為獎(jiǎng)勵(lì)計(jì)算提供了明確的評(píng)估基準(zhǔn)。無(wú)論是處理數(shù)學(xué)推理還是開放性問答,這個(gè)模板都展現(xiàn)出了良好的適應(yīng)性。
這三個(gè)組成部分緊密配合,共同構(gòu)建了一個(gè)有效的學(xué)習(xí)系統(tǒng)。通過 GRPO 框架的梯度估計(jì),由獎(jiǎng)勵(lì)機(jī)制提供的清晰學(xué)習(xí)信號(hào),以及訓(xùn)練模板確保的結(jié)構(gòu)化輸出,模型能夠持續(xù)提升其推理能力,最終達(dá)到接近人類專家的水平。
冷啟動(dòng)下的強(qiáng)化學(xué)習(xí)
盡管 R1-Zero 在技術(shù)上取得了突破性進(jìn)展,但它還存在一些問題,例如,DeepSeek-R1-Zero 在可讀性差和語(yǔ)言混合方面存在局限。為了進(jìn)一步提升模型性能,研究團(tuán)隊(duì)繼續(xù)探索了 DeepSeek-R1,開發(fā)出一個(gè)完整的四階段訓(xùn)練流程。
首先是冷啟動(dòng)階段。團(tuán)隊(duì)收集了數(shù)千個(gè)高質(zhì)量樣本用于初步微調(diào),這些樣本來源廣泛:一部分通過 few-shot 提示獲取,包含詳細(xì)的解題思路;另一部分來自 R1-Zero 的優(yōu)質(zhì)輸出,經(jīng)過人工篩選和標(biāo)注;還有一部分是專門設(shè)計(jì)的復(fù)雜推理案例。這個(gè)階段的關(guān)鍵是確保數(shù)據(jù)質(zhì)量而不是數(shù)據(jù)量,為后續(xù)的強(qiáng)化學(xué)習(xí)奠定良好基礎(chǔ)。
第二階段是面向推理的強(qiáng)化學(xué)習(xí)。這個(gè)階段繼承了 R1-Zero 的訓(xùn)練框架,但做了重要改進(jìn)。首先是引入了語(yǔ)言一致性獎(jiǎng)勵(lì),這個(gè)設(shè)計(jì)源于一個(gè)實(shí)際問題:在多語(yǔ)言環(huán)境下,模型容易在推理過程中混用不同語(yǔ)言。通過計(jì)算目標(biāo)語(yǔ)言單詞的比例作為獎(jiǎng)勵(lì)信號(hào),有效地解決了這個(gè)問題。
同時(shí),團(tuán)隊(duì)對(duì)推理密集型任務(wù)進(jìn)行了特別優(yōu)化。在數(shù)學(xué)問題中,他們?cè)O(shè)計(jì)了基于規(guī)則的驗(yàn)證機(jī)制;在編程任務(wù)中,則使用自動(dòng)化測(cè)試來評(píng)估代碼質(zhì)量。這些針對(duì)性的優(yōu)化顯著提升了模型在專業(yè)領(lǐng)域的表現(xiàn)。
第三階段是拒絕采樣與監(jiān)督微調(diào)。這個(gè)階段的創(chuàng)新之處在于使用已訓(xùn)練的 RL 模型來生成新的訓(xùn)練數(shù)據(jù)。團(tuán)隊(duì)采用了一個(gè)重要的篩選標(biāo)準(zhǔn):只保留那些不僅答案正確,而且推理過程清晰的樣本。這確保了數(shù)據(jù)的高質(zhì)量,同時(shí)也保持了模型的推理能力。
在這個(gè)階段,訓(xùn)練范圍也擴(kuò)展到了更廣泛的領(lǐng)域,包括寫作、問答、角色扮演等。這種擴(kuò)展不是簡(jiǎn)單的任務(wù)堆積,而是經(jīng)過精心設(shè)計(jì)的能力構(gòu)建過程。團(tuán)隊(duì)發(fā)現(xiàn),通用領(lǐng)域的訓(xùn)練能夠反過來促進(jìn)模型的推理能力,形成正向循環(huán)。
最后一個(gè)階段是全場(chǎng)景強(qiáng)化學(xué)習(xí)。這個(gè)階段的特點(diǎn)是將不同類型的獎(jiǎng)勵(lì)機(jī)制有機(jī)結(jié)合:對(duì)于數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù),使用基于規(guī)則的明確獎(jiǎng)勵(lì);對(duì)于開放式問答、創(chuàng)意寫作等主觀任務(wù),則采用基于模型的評(píng)估獎(jiǎng)勵(lì)。這種靈活的獎(jiǎng)勵(lì)機(jī)制使模型能夠在保持推理能力的同時(shí),提升通用任務(wù)的表現(xiàn)。
在整個(gè)訓(xùn)練過程中,團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:大模型通過強(qiáng)化學(xué)習(xí)獲得的推理能力具有強(qiáng)大的可遷移性。他們使用 R1 生成的 80 萬(wàn)條訓(xùn)練數(shù)據(jù)對(duì)不同規(guī)模的模型進(jìn)行知識(shí)蒸餾,結(jié)果令人意外。
圖丨 DeepSeek-R1 蒸餾模型與其他可比模型在推理相關(guān)基準(zhǔn)上的比較(來源:DeepSeek)
最小的 Qwen-1.5B 模型在 AIME 上也達(dá)到了 28.9% 的準(zhǔn)確率,這個(gè)成績(jī)已經(jīng)超過了一些大得多的基礎(chǔ)模型。中等規(guī)模的 Qwen-7B 達(dá)到了 55.5% 的準(zhǔn)確率,這意味著一個(gè)僅有 70 億參數(shù)的模型就能解決相當(dāng)復(fù)雜的數(shù)學(xué)問題。
而 Qwen-32B 在 AIME 上更是達(dá)到了 72.6% 的準(zhǔn)確率,在 MATH-500 上達(dá)到了 94.3%,這些成績(jī)都接近于原始的 R1 模型。這一發(fā)現(xiàn)具有重要的實(shí)踐意義:它證明了我們可以通過知識(shí)蒸餾的方式,將大模型的高級(jí)能力有效地轉(zhuǎn)移到更小的模型中,這為 AI 技術(shù)的實(shí)際應(yīng)用提供了一條可行的路徑。
目前,DeepSeek 已將模型完整開源,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六個(gè)蒸餾模型(參數(shù)規(guī)模分別為 1.5B、7B、8B、14B、32B 和 70B)。這些模型均采用 MIT 許可(MIT License)發(fā)布在 Hugging Face 平臺(tái)上(地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb),可以免費(fèi)商用、允許任意修改和衍生開發(fā)、支持進(jìn)行二次蒸餾訓(xùn)練。
參考資料:
1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/
3.https://x.com/DrJimFan/status/1881353126210687089
運(yùn)營(yíng)/排版:何晨龍