當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 19:26:54 瀏覽：237次

導(dǎo)讀：自此前發(fā)布了 DeepSeek-V3 和 R1-Preview-Lite 引發(fā)全網(wǎng)關(guān)注之后，DeepSeek 又發(fā)布了一項(xiàng)重磅成果。1 月 20 日，DeepSeek 發(fā)布了全新的開源推理大模型 DeepSeek-R1，在數(shù)學(xué)、編程和推理等多個(gè)任務(wù)上達(dá)到了與 OpenAI o1 相當(dāng)?shù)谋憩F(xiàn)水平，同時(shí)將應(yīng)用程序編程接口（API，Application Programming Interface）調(diào)用成本降低了 90-95%。（來源：DeepSeek）更重要的是，這一模型的實(shí)驗(yàn) ......

自此前發(fā)布了 DeepSeek-V3 和 R1-Preview-Lite 引發(fā)全網(wǎng)關(guān)注之后，DeepSeek 又發(fā)布了一項(xiàng)重磅成果。

1 月 20 日，DeepSeek 發(fā)布了全新的開源推理大模型 DeepSeek-R1，在數(shù)學(xué)、編程和推理等多個(gè)任務(wù)上達(dá)到了與 OpenAI o1 相當(dāng)?shù)谋憩F(xiàn)水平，同時(shí)將應(yīng)用程序編程接口（API，Application Programming Interface）調(diào)用成本降低了 90-95%。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

（來源：DeepSeek）

更重要的是，這一模型的實(shí)驗(yàn)性版本 DeepSeek-R1-Zero 證明了僅通過強(qiáng)化學(xué)習(xí)（RL，Reinforcement Learning），無(wú)監(jiān)督式微調(diào)（SFT，Supervised Fine-Tun-ing），大模型也可以有強(qiáng)大的推理能力。

英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 評(píng)價(jià)道：“我們正生活在一個(gè)特殊的時(shí)代：一家非美國(guó)公司在真正踐行著 OpenAI 最初的使命開展真正開放的前沿研究，為所有人賦能。這看似不合常理，但最富戲劇性的往往最可能發(fā)生。DeepSeek-R1 不僅開源了大量模型，還公開了所有訓(xùn)練細(xì)節(jié)。

他們可能是首個(gè)展示出強(qiáng)化學(xué)習(xí)飛輪效應(yīng)，并實(shí)現(xiàn)持續(xù)增長(zhǎng)的開源項(xiàng)目。影響力的展現(xiàn)不一定要靠‘內(nèi)部實(shí)現(xiàn)了 ASI’或‘草莓計(jì)劃’這樣神秘的名號(hào)，有時(shí)候直接公開原始算法和學(xué)習(xí)曲線同樣可以產(chǎn)生深遠(yuǎn)影響�！�

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

圖丨相關(guān)推文（來源：X）

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

用 1/30 的價(jià)格比肩 OpenAI o1

性能評(píng)估結(jié)果顯示，通過純強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的 DeepSeek-R1-Zero 以及在此基礎(chǔ)上改進(jìn)的 DeepSeek-R1，在 2024 年 AIME（美國(guó)數(shù)學(xué)邀請(qǐng)賽）測(cè)試中分別取得了 71.0% 和 79.8% 的成績(jī)，與 OpenAI o1 的 79.2% 水平相當(dāng)。

在 MATH-500 基準(zhǔn)測(cè)試中，DeepSeek-R1 更是以 97.3% 的成績(jī)略微超越了 o1 的 96.4%。在編程領(lǐng)域，該模型在 Codeforces 平臺(tái)上獲得了 2029 的評(píng)分，超過了 96.3% 的人類程序員，與 o1-1217 的 2061 評(píng)分僅有小幅差距。

在通用知識(shí)評(píng)測(cè)方面，DeepSeek-R1 同樣表現(xiàn)出色。在 MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）測(cè)試中達(dá)到 90.8% 的準(zhǔn)確率，雖然略低于 o1 的 91.8%，但顯著優(yōu)于其他開源模型。

在 MMLU-Pro 上取得 84.0% 的準(zhǔn)確率，在 GPA Diamond 測(cè)試中達(dá)到 71.5% 的通過率。在創(chuàng)意寫作和問答任務(wù)上，模型在 AlpacaEval 2.0 中獲得了 87.6% 的控長(zhǎng)勝率，在 ArenaHard 評(píng)測(cè)中達(dá)到 92.3% 的勝率。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

圖丨 DeepSeek-R1 與其他代表性模型的比較（來源：DeepSeek）

在 API 定價(jià)方面，DeepSeek 展現(xiàn)出極強(qiáng)的性價(jià)比優(yōu)勢(shì)。其 API 服務(wù)對(duì)輸入 token 收取 0.55 美元/百萬(wàn)，輸出 token 收取 2.19 美元/百萬(wàn)，而 OpenAI o1 的收費(fèi)分別為 15 美元/百萬(wàn)和 60 美元/百萬(wàn)，價(jià)格差距接近 30 倍。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

純強(qiáng)化學(xué)習(xí)就能實(shí)現(xiàn)強(qiáng)大的推理能力

除了性能方面的出色，R1 的開發(fā)過程也具有多處重要?jiǎng)?chuàng)新，首先是純強(qiáng)化學(xué)習(xí)訓(xùn)練策略的突破。

傳統(tǒng)觀點(diǎn)認(rèn)為，必須先通過大量標(biāo)注數(shù)據(jù)進(jìn)行 SFT，才能讓模型具備基礎(chǔ)能力，之后才考慮使用 RL 進(jìn)行能力提升。然而 DeepSeek 這項(xiàng)研究發(fā)現(xiàn)，大模型可以完全依靠強(qiáng)化學(xué)習(xí)獲得強(qiáng)大的推理能力，無(wú)需任何監(jiān)督式微調(diào)。

研究團(tuán)隊(duì)首先開發(fā)了實(shí)驗(yàn)性的 R1-Zero 版本。他們選擇直接在 DeepSeek-V3-base 模型上應(yīng)用強(qiáng)化學(xué)習(xí)，完全拋開了傳統(tǒng)的監(jiān)督式微調(diào)環(huán)節(jié)。這個(gè)大膽的嘗試產(chǎn)生了驚人的效果：在完全沒有人工標(biāo)注數(shù)據(jù)的情況下，模型展現(xiàn)出了持續(xù)的自我進(jìn)化能力。

以 AIME 2024 數(shù)學(xué)測(cè)試為例，模型的 pass@1 準(zhǔn)確率從最初的 15.6% 開始，隨著訓(xùn)練的深入不斷提升。

每一輪強(qiáng)化學(xué)習(xí)都讓模型變得更加智能，最終達(dá)到了 71.0% 的準(zhǔn)確率，使用多數(shù)投票（majority voting）機(jī)制后更是提升至 86.7%，已經(jīng)接近 o1-0912 的水平。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

圖丨 DeepSeek-R1-Zero 在訓(xùn)練期間的 AIME 準(zhǔn)確率（來源：DeepSeek）

在這個(gè)過程中，研究人員觀察到了一個(gè)有趣的現(xiàn)象：模型不僅在數(shù)字上有進(jìn)步，更在行為模式上發(fā)生了質(zhì)的飛躍。

它開始表現(xiàn)出類似人類的思維特征，會(huì)主動(dòng)反思和驗(yàn)證自己的推理步驟。當(dāng)發(fā)現(xiàn)當(dāng)前的解題思路可能存在問題時(shí)，模型會(huì)停下來，重新審視之前的推理過程，然后嘗試尋找新的解決方案。

這種行為完全是自發(fā)產(chǎn)生的，而不是通過人工設(shè)計(jì)實(shí)現(xiàn)的，研究人員將這一行為稱之為模型的“頓悟時(shí)刻”（aha moment）。這表明模型可能已經(jīng)具備了某種程度的“元認(rèn)知”能力，能夠?qū)ψ陨淼乃季S過程進(jìn)行監(jiān)控和調(diào)整。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

圖丨 DeepSeek-R1-Zero 中間版本的一個(gè)“頓悟時(shí)刻”（來源：DeepSeek）

支撐這些突破的核心是團(tuán)隊(duì)開發(fā)的 GRPO（Group Relative Policy Optimization）算法框架。傳統(tǒng)方法通常需要維護(hù)一個(gè)與主模型規(guī)模相當(dāng)?shù)?Critic 網(wǎng)絡(luò)來估計(jì)狀態(tài)值，這不僅增加了計(jì)算開銷，還容易導(dǎo)致訓(xùn)練不穩(wěn)定。而 GRPO 則另辟蹊徑，移除了規(guī)模龐大的 Critic 網(wǎng)絡(luò)，通過群組相對(duì)優(yōu)勢(shì)估計(jì)來優(yōu)化策略網(wǎng)絡(luò)。

當(dāng)處理一個(gè)推理問題時(shí)，算法首先從當(dāng)前策略 πθold 中采樣多個(gè)輸出 {o1, o2, ..., oG}。這些輸出共同構(gòu)成一個(gè)參考組，然后通過最大化以下目標(biāo)來優(yōu)化策略模型，其表達(dá)如下：

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

其中 Ai 表示輸出 oi 的優(yōu)勢(shì)值，通過歸一化組內(nèi)獎(jiǎng)勵(lì)計(jì)算得到：

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

至于其獎(jiǎng)勵(lì)機(jī)制則包含三個(gè)互補(bǔ)的組件：評(píng)估輸出正確性的準(zhǔn)確性獎(jiǎng)勵(lì)、確保推理過程結(jié)構(gòu)化的格式獎(jiǎng)勵(lì)，以及處理語(yǔ)言一致性的獎(jiǎng)勵(lì)信號(hào)。這三種獎(jiǎng)勵(lì)通過合理的權(quán)重組合，共同指導(dǎo)模型向著期望的方向演進(jìn)。

例如，在數(shù)學(xué)問題中，準(zhǔn)確性獎(jiǎng)勵(lì)來自答案的驗(yàn)證結(jié)果，而格式獎(jiǎng)勵(lì)則確保模型提供清晰的解題步驟。

訓(xùn)練模板則為整個(gè)學(xué)習(xí)過程提供了結(jié)構(gòu)化的框架。它采用“思考-回答”的雙階段設(shè)計(jì)，要求模型首先在

這種設(shè)計(jì)不僅使模型的思維過程變得可追蹤，還為獎(jiǎng)勵(lì)計(jì)算提供了明確的評(píng)估基準(zhǔn)。無(wú)論是處理數(shù)學(xué)推理還是開放性問答，這個(gè)模板都展現(xiàn)出了良好的適應(yīng)性。

這三個(gè)組成部分緊密配合，共同構(gòu)建了一個(gè)有效的學(xué)習(xí)系統(tǒng)。通過 GRPO 框架的梯度估計(jì)，由獎(jiǎng)勵(lì)機(jī)制提供的清晰學(xué)習(xí)信號(hào)，以及訓(xùn)練模板確保的結(jié)構(gòu)化輸出，模型能夠持續(xù)提升其推理能力，最終達(dá)到接近人類專家的水平。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

冷啟動(dòng)下的強(qiáng)化學(xué)習(xí)

盡管 R1-Zero 在技術(shù)上取得了突破性進(jìn)展，但它還存在一些問題，例如，DeepSeek-R1-Zero 在可讀性差和語(yǔ)言混合方面存在局限。為了進(jìn)一步提升模型性能，研究團(tuán)隊(duì)繼續(xù)探索了 DeepSeek-R1，開發(fā)出一個(gè)完整的四階段訓(xùn)練流程。

首先是冷啟動(dòng)階段。團(tuán)隊(duì)收集了數(shù)千個(gè)高質(zhì)量樣本用于初步微調(diào)，這些樣本來源廣泛：一部分通過 few-shot 提示獲取，包含詳細(xì)的解題思路；另一部分來自 R1-Zero 的優(yōu)質(zhì)輸出，經(jīng)過人工篩選和標(biāo)注；還有一部分是專門設(shè)計(jì)的復(fù)雜推理案例。這個(gè)階段的關(guān)鍵是確保數(shù)據(jù)質(zhì)量而不是數(shù)據(jù)量，為后續(xù)的強(qiáng)化學(xué)習(xí)奠定良好基礎(chǔ)。

第二階段是面向推理的強(qiáng)化學(xué)習(xí)。這個(gè)階段繼承了 R1-Zero 的訓(xùn)練框架，但做了重要改進(jìn)。首先是引入了語(yǔ)言一致性獎(jiǎng)勵(lì)，這個(gè)設(shè)計(jì)源于一個(gè)實(shí)際問題：在多語(yǔ)言環(huán)境下，模型容易在推理過程中混用不同語(yǔ)言。通過計(jì)算目標(biāo)語(yǔ)言單詞的比例作為獎(jiǎng)勵(lì)信號(hào)，有效地解決了這個(gè)問題。

同時(shí)，團(tuán)隊(duì)對(duì)推理密集型任務(wù)進(jìn)行了特別優(yōu)化。在數(shù)學(xué)問題中，他們?cè)O(shè)計(jì)了基于規(guī)則的驗(yàn)證機(jī)制；在編程任務(wù)中，則使用自動(dòng)化測(cè)試來評(píng)估代碼質(zhì)量。這些針對(duì)性的優(yōu)化顯著提升了模型在專業(yè)領(lǐng)域的表現(xiàn)。

第三階段是拒絕采樣與監(jiān)督微調(diào)。這個(gè)階段的創(chuàng)新之處在于使用已訓(xùn)練的 RL 模型來生成新的訓(xùn)練數(shù)據(jù)。團(tuán)隊(duì)采用了一個(gè)重要的篩選標(biāo)準(zhǔn)：只保留那些不僅答案正確，而且推理過程清晰的樣本。這確保了數(shù)據(jù)的高質(zhì)量，同時(shí)也保持了模型的推理能力。

在這個(gè)階段，訓(xùn)練范圍也擴(kuò)展到了更廣泛的領(lǐng)域，包括寫作、問答、角色扮演等。這種擴(kuò)展不是簡(jiǎn)單的任務(wù)堆積，而是經(jīng)過精心設(shè)計(jì)的能力構(gòu)建過程。團(tuán)隊(duì)發(fā)現(xiàn)，通用領(lǐng)域的訓(xùn)練能夠反過來促進(jìn)模型的推理能力，形成正向循環(huán)。

最后一個(gè)階段是全場(chǎng)景強(qiáng)化學(xué)習(xí)。這個(gè)階段的特點(diǎn)是將不同類型的獎(jiǎng)勵(lì)機(jī)制有機(jī)結(jié)合：對(duì)于數(shù)學(xué)、編程等結(jié)構(gòu)化任務(wù)，使用基于規(guī)則的明確獎(jiǎng)勵(lì)；對(duì)于開放式問答、創(chuàng)意寫作等主觀任務(wù)，則采用基于模型的評(píng)估獎(jiǎng)勵(lì)。這種靈活的獎(jiǎng)勵(lì)機(jī)制使模型能夠在保持推理能力的同時(shí)，提升通用任務(wù)的表現(xiàn)。

在整個(gè)訓(xùn)練過程中，團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要現(xiàn)象：大模型通過強(qiáng)化學(xué)習(xí)獲得的推理能力具有強(qiáng)大的可遷移性。他們使用 R1 生成的 80 萬(wàn)條訓(xùn)練數(shù)據(jù)對(duì)不同規(guī)模的模型進(jìn)行知識(shí)蒸餾，結(jié)果令人意外。

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30

圖丨 DeepSeek-R1 蒸餾模型與其他可比模型在推理相關(guān)基準(zhǔn)上的比較（來源：DeepSeek）

最小的 Qwen-1.5B 模型在 AIME 上也達(dá)到了 28.9% 的準(zhǔn)確率，這個(gè)成績(jī)已經(jīng)超過了一些大得多的基礎(chǔ)模型。中等規(guī)模的 Qwen-7B 達(dá)到了 55.5% 的準(zhǔn)確率，這意味著一個(gè)僅有 70 億參數(shù)的模型就能解決相當(dāng)復(fù)雜的數(shù)學(xué)問題。

而 Qwen-32B 在 AIME 上更是達(dá)到了 72.6% 的準(zhǔn)確率，在 MATH-500 上達(dá)到了 94.3%，這些成績(jī)都接近于原始的 R1 模型。這一發(fā)現(xiàn)具有重要的實(shí)踐意義：它證明了我們可以通過知識(shí)蒸餾的方式，將大模型的高級(jí)能力有效地轉(zhuǎn)移到更小的模型中，這為 AI 技術(shù)的實(shí)際應(yīng)用提供了一條可行的路徑。

目前，DeepSeek 已將模型完整開源，包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六個(gè)蒸餾模型（參數(shù)規(guī)模分別為 1.5B、7B、8B、14B、32B 和 70B）。這些模型均采用 MIT 許可（MIT License）發(fā)布在 Hugging Face 平臺(tái)上（地址：https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb），可以免費(fèi)商用、允許任意修改和衍生開發(fā)、支持進(jìn)行二次蒸餾訓(xùn)練。

參考資料：

1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

3.https://x.com/DrJimFan/status/1881353126210687089

運(yùn)營(yíng)/排版：何晨龍

相關(guān)熱詞： deepseek openai 強(qiáng)化學(xué)習(xí) 開源 r1 模型

上一篇：1200萬(wàn)美國(guó)人，將因AI失業(yè)

下一篇：英偉達(dá)機(jī)器人業(yè)務(wù)團(tuán)隊(duì)到訪北京國(guó)地中心雙方規(guī)劃合作事宜

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 19:26:54 瀏覽：237次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 19:26:54 瀏覽：237次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

DeepSeek開源推理大模型R1：純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)接近OpenAI o1水平，成本降至1/30
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 19:26:54 瀏覽：237次