AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的共同通訊作者為涂兆鵬和王瑞,涂兆鵬為騰訊專(zhuān)家研究員,研究方向?yàn)樯疃葘W(xué)習(xí)和大模型,在國(guó)際頂級(jí)期刊和會(huì)議上發(fā)表學(xué)術(shù)論文一百余篇,引用超過(guò)9000次。擔(dān)任SCI期刊NeuroComputing副主編,多次擔(dān)任ACL、EMNLP、ICLR等國(guó)際頂級(jí)會(huì)議領(lǐng)域主席。王瑞為上海交通大學(xué)副教授,研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。共同第一作者為上海交通大學(xué)博士生陳星宇、何志威,騰訊AI Lab高級(jí)研究員徐嘉豪、梁添。
本文將介紹首個(gè)關(guān)于 o1 類(lèi)長(zhǎng)思維鏈模型過(guò)度思考現(xiàn)象。該工作由騰訊 AI Lab 與上海交通大學(xué)團(tuán)隊(duì)共同完成。
論文題目:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
論文地址:https://arxiv.org/pdf/2412.21187
背景與動(dòng)機(jī)自 OpenAI 發(fā)布 o1 模型以來(lái),它超強(qiáng)的邏輯推理以及難題解決能力就引發(fā)了廣泛關(guān)注。o1 模型通過(guò)模擬人類(lèi)的深度思考過(guò)程,在思維鏈中運(yùn)用如自我反思、糾錯(cuò)以及探索多種解法等推理策略,展現(xiàn)了強(qiáng)大的長(zhǎng)時(shí)間推理(Inference-Time Scaling)性能。依靠這種機(jī)制,o1 模型能夠不斷優(yōu)化自身的答案質(zhì)量。然而,在 o1 成功的光環(huán)下,一個(gè)潛在問(wèn)題逐漸被放大 過(guò)度思考。隨著 o1 模型的問(wèn)世,許多類(lèi)似的模型也陸續(xù)出現(xiàn),比如 Qwen 團(tuán)隊(duì)開(kāi)源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。這些模型在推理時(shí)同樣具備 “深度思考” 的特性,但也暴露出了類(lèi)似的問(wèn)題:在不必要的情況下生成過(guò)長(zhǎng)的思維鏈反而浪費(fèi)了計(jì)算資源。舉一個(gè)簡(jiǎn)單的例子,對(duì)于問(wèn)題 “2+3=?”,不同模型的回答長(zhǎng)度如下圖所示:
傳統(tǒng)模型的回答通常只需要極少的 token 就能給出答案,然而對(duì)于 o1 模型,其消耗的推理 token 直接達(dá)到了 200 以上。更極端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至達(dá)到了 900!為什么 QwQ 模型會(huì)產(chǎn)生如此之長(zhǎng)的輸出?研究團(tuán)隊(duì)進(jìn)一步分析了 QwQ 對(duì)這個(gè)問(wèn)題的答案,結(jié)果見(jiàn)下圖右欄:
QwQ-32B-Preview 模型會(huì)在推理過(guò)程中嘗試多種不同的解題策略。對(duì)于簡(jiǎn)單的加法問(wèn)題,模型探索了直接使用數(shù)學(xué)計(jì)算、數(shù)軸移動(dòng)模擬,以及類(lèi)比數(shù)蘋(píng)果等方法,經(jīng)歷了多輪推理后才最終確定結(jié)果。盡管這種思維鏈策略對(duì)于復(fù)雜問(wèn)題的解答非常有幫助,但在應(yīng)對(duì)簡(jiǎn)單問(wèn)題時(shí),反復(fù)驗(yàn)證已有的答案和進(jìn)行過(guò)于寬泛的探索顯然是一種計(jì)算資源的浪費(fèi)。為了更好地研究這個(gè)問(wèn)題,研究團(tuán)隊(duì)對(duì)這類(lèi) o1 模型的過(guò)度思考現(xiàn)象進(jìn)行了更細(xì)致的定義和深入分析。過(guò)度思考現(xiàn)象文章首先定義了模型回復(fù)中的獨(dú)立解答(Solution):每當(dāng)模型完整地得到一次對(duì)輸入問(wèn)題的答案(無(wú)論對(duì)錯(cuò)),這就被認(rèn)為是一個(gè)獨(dú)立解答。如例子所示,每一個(gè)解答都包含了答案 “5”;谶@個(gè)定義,研究人員在三個(gè)不同的數(shù)據(jù)集上統(tǒng)計(jì)了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答數(shù)量分布(解答的判斷和抽取由 Llama-3.3-70B 模型完成):
其中,ASDIV [3] 是一個(gè)包含小學(xué)難度數(shù)學(xué)題的測(cè)試集,GSM8K [4] 是常用的初級(jí)難度數(shù)學(xué)題測(cè)試集,MATH500 [5] 是高中數(shù)學(xué)競(jìng)賽難度的測(cè)試集。如圖所示,無(wú)論是對(duì)于 QwQ 模型還是 R1 模型,包含 2-4 個(gè)解答的樣本占了所有樣本的 70% 以上,可見(jiàn)這種 Solution-Level 的反思行為在當(dāng)前的類(lèi) o1 模型中十分普遍。那么這些解答本身是否都是必須的呢?下圖展示了在不同數(shù)據(jù)集上,模型首次得到正確答案的解答位置:
令人驚訝的是,對(duì) QwQ 模型和 R1 模型的實(shí)驗(yàn)分析顯示,它們?cè)诔?90% 的情況下,都能在第一次嘗試中就成功輸出正確答案。也就是說(shuō),后續(xù)多輪思考對(duì)答案正確率的提升幾乎沒(méi)有實(shí)質(zhì)性貢獻(xiàn)。這一現(xiàn)象進(jìn)一步驗(yàn)證了此前對(duì)模型過(guò)度思考的觀(guān)察:絕大多數(shù)情況下,模型的多輪反思可能只是在反復(fù)驗(yàn)證已有的答案,從而造成了資源浪費(fèi)。然而,這種現(xiàn)象也引發(fā)了不同觀(guān)點(diǎn)的爭(zhēng)論。一些研究者認(rèn)為,o1 類(lèi)模型的一個(gè)核心特性在于其能夠自主探索問(wèn)題的不同解法。從這一角度來(lái)看,如果模型在推理過(guò)程中使用了多種不同的思路來(lái)解決問(wèn)題,那么這種多樣化的探索不僅有助于加深模型對(duì)問(wèn)題的理解,還體現(xiàn)了模型的自主探索能力,不應(yīng)簡(jiǎn)單地視為 “過(guò)度思考”。為了更深入地剖析這一問(wèn)題,研究團(tuán)隊(duì)進(jìn)一步提出了一種分析方法。他們利用 GPT-4o 對(duì)模型的回答進(jìn)行分類(lèi),具體包括以下步驟:
推理策略分類(lèi):對(duì)每一個(gè)解答進(jìn)行推理策略的標(biāo)注,將采用相同推理方式的回答歸為同一類(lèi)。例如,對(duì)于 “2+3=?” 這樣的問(wèn)題,可能涉及的推理策略包括數(shù)學(xué)運(yùn)算模擬、數(shù)軸移動(dòng)和實(shí)物類(lèi)比等。
多樣性分析:在歸類(lèi)的基礎(chǔ)上,分析并統(tǒng)計(jì)不同解答之間的推理策略多樣性。
通過(guò)這一方法,研究者能夠量化推理過(guò)程中是否存在真正意義上的 “多樣化探索”。這種分析為我們提供了衡量模型行為的一種新視角:當(dāng)模型的不同解答策略高度相似甚至重復(fù)時(shí),可以說(shuō)明多輪推理的貢獻(xiàn)是有限的;而當(dāng)推理策略的多樣性伴隨著思考層次的提升而增加時(shí),則反映了模型對(duì)問(wèn)題理解的進(jìn)一步加深。這種視角能夠幫助我們更準(zhǔn)確地區(qū)分 “有效的自主探索” 和 “低效的重復(fù)推理”。如下圖所示:
圖中展示了每個(gè)位置的解答引入新推理思路的可能性。第一個(gè)位置的解答總會(huì)是 “新的思路”,因此其概率為 100%。但隨著推理位置的后移,解答中帶來(lái)新推理思路的可能性逐漸降低。這一趨勢(shì)表明,越到后續(xù)位置,模型越傾向于重復(fù)先前的推理思路,從而導(dǎo)致其推理行為變得冗余且低效。從這個(gè)角度來(lái)看,模型的后續(xù)解答更多是一種無(wú)效的重復(fù)思考。通過(guò)上述分析,我們可以發(fā)現(xiàn)這些過(guò)度思考所產(chǎn)生的解答往往具備以下兩個(gè)關(guān)鍵特征:
新解答對(duì)答案的正確性沒(méi)有貢獻(xiàn):模型往往在一開(kāi)始就已經(jīng)成功得出正確答案,后續(xù)的多輪反復(fù)檢驗(yàn)是多余且不必要的。
新解答未能引入實(shí)質(zhì)性新思路:模型后續(xù)的解答僅以不同的表述方式重復(fù)了早先已有的結(jié)論,而沒(méi)有真正擴(kuò)展推理的深度或視角。
過(guò)度思考指標(biāo)基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)一步定義了兩個(gè)衡量模型 “過(guò)度思考” 現(xiàn)象的核心指標(biāo):1. 產(chǎn)出效率(Outcome Efficiency):用于衡量模型回復(fù)中每一個(gè)解答對(duì)最終答案的貢獻(xiàn),等于正確解答中的 token 數(shù)除以完整回復(fù)的總 token 數(shù)。計(jì)算公式為:
其中,N 為樣本數(shù),
為模型第 i 個(gè)樣本的回復(fù)中第一個(gè)正確解答的 token 數(shù)目,
為第i個(gè)樣本的整個(gè)回復(fù)的 token 數(shù)量,
代表第i個(gè)樣本是否正確。直觀(guān)地看,一個(gè)模型得到正確解答之后進(jìn)行反思的輪數(shù)越少,正確解答在整個(gè)回復(fù)中的占比就越大,產(chǎn)出效率就越高。2. 過(guò)程效率(Process Efficiency):用于衡量模型回復(fù)中每一個(gè)解答對(duì)推理策略多樣性的貢獻(xiàn),等于回復(fù)中屬于不同思路的總 token 數(shù)目除以整個(gè)回復(fù)的 token 數(shù)目,計(jì)算公式為:
其中 N 為樣本數(shù),
為第i個(gè)樣本的整個(gè)回復(fù) token 數(shù)量,
為第i個(gè)樣本中所有屬于不同推理策略的 token 總數(shù)。該指標(biāo)衡量的是模型進(jìn)行多輪反思的有效性,回答中涉及的不同的推理策略越多,
就會(huì)越大,那么過(guò)程效率就會(huì)越高。基于這兩個(gè)指標(biāo),研究者們統(tǒng)計(jì)了 QwQ 模型和 R1 模型在 MATH500 數(shù)據(jù)集上的效率指標(biāo)表現(xiàn):
從圖中可以觀(guān)察到,R1 模型在效率上略?xún)?yōu)于 QwQ 模型,但兩個(gè)模型都不同程度地暴露出 “過(guò)度思考” 的問(wèn)題。對(duì)于難度最低的等級(jí) 1 問(wèn)題,研究者發(fā)現(xiàn)兩個(gè)模型的表現(xiàn)都有如下特點(diǎn):
產(chǎn)出效率不足一半:兩個(gè)模型在這種簡(jiǎn)單任務(wù)上的產(chǎn)出效率均未超過(guò) 50%,意味著模型在取得正確答案后,依然生成了超過(guò)必要推理步驟至少一倍的額外推理內(nèi)容。這符合上文的研究發(fā)現(xiàn):正確答案通常在推理的較早階段得到,但模型的后續(xù)行為中存在大量冗余推理。
思考過(guò)程效率較低:模型的整體過(guò)程效率只有 70% 左右,這意味著約 30% 的思考步驟是在重復(fù)無(wú)效的推理。這種重復(fù)的行為不僅未能提升正確率,也沒(méi)有引入新的解題思路,從而造成了計(jì)算資源的浪費(fèi)。
從以上分析可見(jiàn),現(xiàn)有的 o1 類(lèi)模型都普遍存在不同程度的 “過(guò)度思考” 現(xiàn)象,且這一問(wèn)題在應(yīng)對(duì)簡(jiǎn)單任務(wù)時(shí)尤為嚴(yán)重。這些現(xiàn)象突顯了當(dāng)前 o1 類(lèi)模型推理機(jī)制中的不足,也意味著在模型的長(zhǎng)思維鏈優(yōu)化和推理資源分配方面仍有較大的改進(jìn)空間。為此,研究者們提出了幾種方法,旨在緩解模型的過(guò)度思考現(xiàn)象,提升推理效率。緩解過(guò)度思考由于目標(biāo)是減少模型的過(guò)度思考但不損害模型的推理能力,因此最直接的想法就是通過(guò)偏好優(yōu)化算法來(lái)鼓勵(lì)模型生成更精簡(jiǎn)的回復(fù)。研究者們使用開(kāi)源的 Qwen-QwQ-32B-Preview 模型作為實(shí)驗(yàn)的基座模型,基于該模型在 PRM12K [10] 的數(shù)據(jù)集上的多次采樣結(jié)果,選擇最長(zhǎng)的模型回復(fù)作為偏好優(yōu)化的負(fù)樣本,而對(duì)于正樣本的選擇,有如下幾種策略:
最短回復(fù)(Shortest Response):使用模型采樣結(jié)果中最短的生成結(jié)果作為正樣本。
首個(gè)正確回答(First-Correct Solutions, FCS):使用模型采樣結(jié)果中最短的首次得到正確答案的解答作為正樣本,拋棄所有后續(xù)的思考。
首個(gè)正確回答 + 驗(yàn)算(FCS+Reflection):由于絕大多數(shù)的采樣結(jié)果都是在第一個(gè)解答中就出現(xiàn)了正確答案,僅保留首個(gè)正確回答可能會(huì)使得模型退化,因此研究者們?cè)诘谝淮蔚玫秸_答案后,額外保留了一輪反思的內(nèi)容。
最多樣回復(fù)(Greedily Diverse Solutions,GDS):除了單純地對(duì)長(zhǎng)度進(jìn)行控制,另一個(gè)優(yōu)化思路是盡可能保留更多樣化的思考軌跡,因此研究者們?cè)?FCS 方法的基礎(chǔ)上,盡可能多地保留了包含不同推理策略的解答。
基于以上幾種偏好數(shù)據(jù),研究者們嘗試了最基礎(chǔ)的 SFT 以及多種偏好優(yōu)化算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。實(shí)驗(yàn)結(jié)果如下:
表格中的 SFT 方法是指僅使用正樣本進(jìn)行微調(diào)。從表格中可以看出,在同樣的 “最短回復(fù)” 設(shè)置下,SimPO 有著最好的優(yōu)化效果,而基于 SimPO 的進(jìn)一步實(shí)驗(yàn)表明,使用首個(gè)正確回答 + 驗(yàn)算作為正樣本的策略能夠很好地取得效率和性能的平衡,能夠在保持模型性能的同時(shí)大幅度地減少輸出的 token 數(shù)目以及平均解答輪數(shù),并有效地提高產(chǎn)出效率和過(guò)程效率。為了進(jìn)一步分析方法的有效性,研究者們分析了 MATH500 測(cè)試集的不同難度下 SimPO+FCS+Reflection 方法的表現(xiàn),如下圖所示:
有意思是,文中提出的方法在最簡(jiǎn)單的難度 1 的問(wèn)題上,僅使用了相比于原來(lái) 63.6% 的 token 數(shù)目便達(dá)到了 100% 的正確率,而且在難題(難度 4 和 5)上,文中的方法能夠在提升性能的同時(shí)大幅度減少輸出的冗余,這展示了提出的方法在減緩過(guò)度思考上的有效性。總結(jié)這篇論文聚焦于 o1 類(lèi)推理模型面臨的一個(gè)核心挑戰(zhàn):如何合理控制推理過(guò)程中的計(jì)算量,提升思考效率。文章通過(guò)分析實(shí)驗(yàn)揭示了一個(gè)普遍問(wèn)題 o1 類(lèi)模型在處理簡(jiǎn)單問(wèn)題時(shí)容易陷入過(guò)度思考,從而增加了不必要的計(jì)算消耗。基于對(duì)此現(xiàn)象的詳細(xì)分析,研究者提出了一系列有效的優(yōu)化方法,能夠在保持模型性能的同時(shí),大幅減少冗余推理,提升推理效率。這些方法的實(shí)驗(yàn)結(jié)果表明,它們顯著優(yōu)化了模型在簡(jiǎn)單任務(wù)上的資源利用情況,為實(shí)現(xiàn) “高效思考” 的目標(biāo)邁出了重要一步。未來(lái)的研究將重點(diǎn)探索以下方向:
自適應(yīng)調(diào)控策略:開(kāi)發(fā)讓模型根據(jù)問(wèn)題復(fù)雜程度動(dòng)態(tài)調(diào)整推理深度的機(jī)制,更智能地分配計(jì)算資源;
更精細(xì)的效率評(píng)估指標(biāo):設(shè)計(jì)能夠覆蓋更廣泛推理軌跡的指標(biāo),從而更全面地評(píng)估模型的思考效率。
這項(xiàng)研究不僅提升了 o1 類(lèi)模型的推理,同時(shí)也為未來(lái)更高效、更智能的推理機(jī)制提供了重要的理論基礎(chǔ)與實(shí)踐參考。參考文獻(xiàn)[3] Shen-Yun Miao, Chao-Chun Liang, and Keh-Yih Su. A diverse corpus for evaluating and developing english math word problem solvers. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthis Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv:2110.14168, 2021.[5] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. In NeurIPS, 2021.[6] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.[8] Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, and Zhaoran Wang. Provably mitigating overoptimization in rlhf: Your sft loss is implicitly an adversarial regularizer. arXiv preprint arXiv:2405.16436, 2024.[9] Yu Meng, Mengzhou Xia, and Danqi Chen. Simpo: Simple preference optimization with a referencefree reward. In Advances in Neural Information Processing Systems (NeurIPS), 2024.THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)