新智元報(bào)道
編輯:編輯部 HYZ【新智元導(dǎo)讀】OpenAI下一代模型o3,重磅誕生了!陶哲軒預(yù)言難住AI好幾年的數(shù)學(xué)測(cè)試,它瞬間破解,編程水平位于全球前200,在ARC-AGI基準(zhǔn)中更是驚人,打破所有AI紀(jì)錄接近人類水平,離AGI更近一步。12天最后一天,OpenAI下一代推理模型o3真的出世了!
奧特曼、Mark Chen、任泓宇和ARC Prize基金會(huì)主席Greg Kamradt為我們做了介紹正如所爆料那樣,突如其來的o3成為整場(chǎng)直播的「壓軸菜」。奧特曼表示,之所以跳過o2,是因?yàn)閷?duì)伙伴的尊重,以及延續(xù)OpenAI一貫「起名特別差」的傳統(tǒng)。
要知道,距離9月o1的出世,才過去了整整3個(gè)月的時(shí)間。o3的迭代速度,證明了Scaling Law似乎并未終結(jié)。
根據(jù)Keras之父發(fā)布的報(bào)告稱,o3在低計(jì)算量模式下,每個(gè)任務(wù)需要花費(fèi)高達(dá)20美金,而在高計(jì)算量模式中每個(gè)任務(wù)則需要數(shù)千美元。o3數(shù)學(xué)代碼封神,粉碎o1
在多項(xiàng)基準(zhǔn)測(cè)試中,o3再次刷新SOTA,就數(shù)學(xué)、代碼、軟件工程等領(lǐng)域,完全粉碎了滿血版o1!在AIME 2024數(shù)學(xué)競(jìng)賽評(píng)測(cè)中,o3取得了96.7%的準(zhǔn)確率,性能直接飆升13.4%;在博士級(jí)科學(xué)問答基準(zhǔn)GPQA Diamond上,o3準(zhǔn)確率為87.7%,相較于上一代o1提升9.7%。
在今年11月Epoch AI發(fā)布的數(shù)學(xué)基準(zhǔn)Frontier Math上,o3準(zhǔn)確率高達(dá)25.2%。這個(gè)基準(zhǔn)中,今天所有模型的準(zhǔn)確率都低于2%,但是在激進(jìn)的測(cè)試時(shí)間設(shè)置下,o3已經(jīng)能夠達(dá)到25%的準(zhǔn)確率。
如今,這一說法又被OpenAI o3推翻了。
在軟件工程SWE-bench Verified基準(zhǔn)上,o3的代碼性能從o1的48.9%狂飆22.8%,達(dá)到了71.7%。
在Codeforces中,o3的Elo得分為2727,相較o1提升了800多分。這個(gè)表現(xiàn),已經(jīng)達(dá)到了International Grandmaster的水平,相當(dāng)于位列175名的人類選手。甚至,超過了OpenAI的研究高級(jí)副總裁。
除o3之外,o3-mini同樣在數(shù)學(xué)、編碼、博士級(jí)科學(xué)問答、函數(shù)調(diào)用等基準(zhǔn)上,取得了新的突破。它真正定義了一種新的成本效益推理前沿。奧特曼表示,這兩款新模型將面向研究人員測(cè)試,并期待未來盡快推出上線。
OpenAI研究科學(xué)家Sebastien Bubeck稱,o3在Frontier Maths取得25%準(zhǔn)確率,在菲爾茲獎(jiǎng)得主Tim Gowers看來極其驚人。這暗示了AI發(fā)展火花加速迸發(fā)。
網(wǎng)友紛紛表示,就在今天,我們已經(jīng)實(shí)現(xiàn)了AGI!
o3-mini:三種「思考模式」,計(jì)算越多能力越強(qiáng)
o3-mini作為o3系列的新成員,與o1-mini一樣,將為開發(fā)者帶來高性價(jià)比的AI體驗(yàn)。在編程能力評(píng)測(cè)中,o3-mini展現(xiàn)出驚人的實(shí)力。通過「自適應(yīng)思考時(shí)間」(adaptive thinking time)機(jī)制,o3能夠根據(jù)任務(wù)難度自動(dòng)調(diào)整推理深度。由此,它才實(shí)現(xiàn)了在代碼生成方面超越了前代o1。更令人驚嘆的是,其運(yùn)行速度和成本僅為o1的1/10。o3-mini引入了三檔思考級(jí)別低強(qiáng)度推理、中等強(qiáng)度推理、高強(qiáng)度推理,可以根據(jù)具體需求去調(diào)整模型的推理深度。簡(jiǎn)言之,簡(jiǎn)單任務(wù)能夠得到快速響應(yīng)。而復(fù)雜的問題,模型則可開啟更深度的思考模式。
任泓宇(左)本科畢業(yè)于北大,后在斯坦福獲得博士學(xué)位,負(fù)責(zé)o3-mini的訓(xùn)練具體來說,在Codeforces測(cè)試中,o3-mini的Elo評(píng)分隨著思考時(shí)間的增加,性能逐步的到提升。甚至,在中等強(qiáng)度思下,o3-mini(medium)已經(jīng)超了滿血版o1的表現(xiàn)。雖然o3-mini(high)在高強(qiáng)度思考下,仍落后于o3,但幾乎差別不大。
而且,在成本和思考速度方面,o3-mini取得了超越o1-mini更好的性能。
在演示中,研究者要求模型使用Python實(shí)現(xiàn)代碼生成器和執(zhí)行器。啟動(dòng)之后,就像運(yùn)行Python腳本一樣,模型將在本地啟動(dòng)一個(gè)服務(wù)器,帶有一個(gè)包含文本框的UI。然后我們就可以在其中發(fā)出編碼請(qǐng)求了,它會(huì)請(qǐng)求調(diào)用o3-mini API,它將解決任務(wù),返回一段代碼。代碼會(huì)保存在本地桌面上,然后打開終端自動(dòng)執(zhí)行代碼。
以下,就是模型生成的代碼,用時(shí)僅38秒。
把代碼復(fù)制粘貼到服務(wù)器上,并運(yùn)行。
然后,便可獲得對(duì)應(yīng)的UI界面一個(gè)文本框。我們可以在其中輸入代碼,比如打出OpenAI和一個(gè)隨機(jī)數(shù),它就會(huì)將請(qǐng)求發(fā)送到o3-mini(medium)。
模型果然按要求輸出OpenAI,以及41這個(gè)數(shù)字。
在下面這個(gè)任務(wù)中,研究者要求模型用較低的推理能力,來評(píng)估o3-mini在難度很高的GPQA數(shù)據(jù)集上的表現(xiàn)。模型首先需要從該URL下載原始文件,然后需要識(shí)別哪些部分是問題,哪些是答案,哪些是選項(xiàng)。最后,模型需要整理出所有的問題,并嘗試作答,解析結(jié)果,最后進(jìn)行評(píng)分。模型的運(yùn)行速度極快,因?yàn)樗{(diào)用的是o3-mini,并使用了較低的推理計(jì)算。
可以看到,結(jié)果為61.62%,和正式評(píng)估幾乎一模一樣。而且這個(gè)運(yùn)行極快的低推理能力模型,整個(gè)評(píng)估過程只用了一分鐘。
除了代碼成績(jī)亮眼,o3-mini也展現(xiàn)出了卓越的數(shù)學(xué)能力。在AIME 2024數(shù)學(xué)競(jìng)賽測(cè)試中,o3-mini(low)已經(jīng)接近o1 mini的水平。o3-mini(medium)以78.2%的準(zhǔn)確率超越了o1(圖中實(shí)心部分),而o3-mini(high)進(jìn)一步提升了性能。
在延遲方面表現(xiàn),o3-mini(low)大幅降低了延遲,降低至1秒內(nèi),媲美GPT-4的即時(shí)響應(yīng)。o3-mini(medium)的延遲比o1-mini快一半。
當(dāng)然,OpenAI為了滿足開發(fā)者的需求,o3-mini提供了全套API功能,包括函數(shù)調(diào)用、結(jié)構(gòu)化輸出、開發(fā)者消息。更難能可貴的是,在這些功能上,o3-mini的性能不僅完全對(duì)標(biāo)o1,并在多數(shù)評(píng)測(cè)中取得了更好的表現(xiàn)。
另外,在具有挑戰(zhàn)性的GPQA數(shù)據(jù)集測(cè)試中,o3-mini展現(xiàn)出穩(wěn)定的性能,即便是在低強(qiáng)度思考模式下,o3-mini(low)也達(dá)到了62%的準(zhǔn)確率。
o3-mini暫時(shí)只向安全研究院開放測(cè)試,可以直接在OpenAI網(wǎng)站中進(jìn)行申請(qǐng)。
ARC-AGI基準(zhǔn)
ARC Prize Foundation是一家非營(yíng)利組織,使命是在基準(zhǔn)測(cè)試期間成為AGI的北極星。他們的第一個(gè)基準(zhǔn)ARC-AGI,是由Keras之父Franois Chollet于2019年在關(guān)于智力測(cè)量的論文中發(fā)表的,它在AI領(lǐng)域已經(jīng)保持5年不敗。
擊敗ARC-AGI的系統(tǒng),將成為邁向AGI的重要里程碑。它的全部?jī)?nèi)容,都是輸入示例和輸出示例,目標(biāo)是了解變換的規(guī)則,猜出輸出的示例。而它的每項(xiàng)任務(wù),都需要不同的技能。比如下面這個(gè)任務(wù),憑人類直覺,很容易猜出最后一張圖應(yīng)該是什么,但AI很難理解。
在這個(gè)任務(wù)中,則是需要在黃色方塊中,數(shù)一下共有多少種顏色的方塊,然后用它創(chuàng)建一個(gè)邊框。
研究者使用了兩個(gè)ARC-AGI 數(shù)據(jù)集對(duì) o3 進(jìn)行了測(cè)試:半私有評(píng)估:100個(gè)私有任務(wù),用于評(píng)估過擬合
公共評(píng)估:400個(gè)公共任務(wù)
他們?cè)趦煞N計(jì)算水平下進(jìn)行了測(cè)試,樣本規(guī)模分別為6(高效模式)和1024(低效模式,計(jì)算量是高效模式的172倍)。
厲害的是,在這個(gè)基準(zhǔn)測(cè)試中,o3在低計(jì)算模式下,在半私有評(píng)估中的得分為75.7%;在高計(jì)算模式下,得分為87.5%。具體來說,高計(jì)算模式下的得分為 75.7%,符合 RC-AGI-Pub的預(yù)算限制(成本低于1萬美元),因此在公共排行榜上排名第一。低計(jì)算模式下的得分為 87.5%,雖然成本較高,但仍然表明在新任務(wù)上的性能隨著計(jì)算量的增加而提升。這點(diǎn)尤為重要,因?yàn)槿祟愒谠撊蝿?wù)上的表現(xiàn)通常在85%的水平。超過這一數(shù)字,就意味著達(dá)到了一個(gè)重要的里程碑,因?yàn)榇饲皬奈从腥魏蜛I系統(tǒng)實(shí)現(xiàn)過這一成就。這標(biāo)志著ARC-AGI領(lǐng)域的一個(gè)全新突破。
ARC Prize Foundation的主席表示,看到這些分?jǐn)?shù)時(shí),他意識(shí)到需要稍微改變一下自己的世界觀,修正對(duì)AI究竟能做哪些事情的直覺。而且要知道,目前還僅是AI的早期階段,所以我們就更需要ARC-AGI這樣的持久性基準(zhǔn)測(cè)試,來對(duì)進(jìn)展進(jìn)行評(píng)估和引導(dǎo)了。
OpenAI o3,還不是AGI
總之,這是AI能力的一次令人驚訝且意義重大的躍升,展現(xiàn)了GPT系列模型前所未有的新任務(wù)適應(yīng)能力。要知道,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,歷時(shí)4年。盡管成本較高,但o3的這些成績(jī)并不僅僅是通過在基準(zhǔn)測(cè)試上應(yīng)用暴力計(jì)算得來的。可以說,o3的性能不是一次漸進(jìn)式的改進(jìn),而是一次真正的突破,標(biāo)志著AI能力相比此前的LLM局限性,實(shí)現(xiàn)了質(zhì)的飛躍。能夠適應(yīng)從未遇到過的任務(wù),意味著o3在ARC-AGI領(lǐng)域的表現(xiàn)已接近人類水平。當(dāng)然,這種通用性伴隨著高昂的成本,目前還不算經(jīng)濟(jì):我們可以花大約5美元,讓人類解決一個(gè)ARC-AGI任務(wù),僅消耗幾美分的能源。而o3在低計(jì)算模式下每個(gè)任務(wù)需要17-20美元。但成本效益可能會(huì)在未來顯著提升,所以,AI在較短的時(shí)間內(nèi),將代替人類的動(dòng)作。o3 相較于GPT系列的改進(jìn),證明了架構(gòu)的重要性。要知道,我們無法通過給GPT-4增加更多計(jì)算量,來獲得這樣的結(jié)果。簡(jiǎn)單地?cái)U(kuò)大我們從2019年到2023年所做的事情(采用相同的架構(gòu),在更多數(shù)據(jù)上訓(xùn)練一個(gè)更大的版本)是不夠的。而這一次,OpenAI找到了全新的思路!實(shí)現(xiàn)AGI了嗎?ARC-AGI以一種飽和或低要求基準(zhǔn)測(cè)試無法實(shí)現(xiàn)的方式,展現(xiàn)了泛化能力。然而,需要注意的是,ARC-AGI并不是AGI的試金石它只是一種研究工具,旨在聚焦于AI領(lǐng)域中最具挑戰(zhàn)性的未解決問題。通過ARC-AGI,并不意味著實(shí)現(xiàn)AGI。我們無法認(rèn)為o3是AGI,它在簡(jiǎn)單任務(wù)上仍然表現(xiàn)不佳,這表明它與人類智能之間存在根本性的差異。此外,數(shù)據(jù)表明,即將推出的ARC-AGI-2基準(zhǔn)測(cè)試對(duì)o3來說,仍將是一個(gè)重大挑戰(zhàn),即使在高計(jì)算模式下,其得分可能會(huì)低于30%(而一個(gè)聰明的人類無需訓(xùn)練仍能超過95%)。這表明,人類仍然有可能創(chuàng)建具有挑戰(zhàn)性且未飽和的基準(zhǔn)測(cè)試,而無需依賴專業(yè)領(lǐng)域知識(shí)。當(dāng)創(chuàng)建那些對(duì)普通人來說很簡(jiǎn)單,但對(duì)AI來說很困難的任務(wù)變得完全不可能時(shí),就是AGI真正到來的時(shí)候。和舊模型的區(qū)別為什么o3得分比o1高出這么多?又為什么o1得分比GPT-4o高出這么多?這一系列結(jié)果為通用人工智能(AGI)的持續(xù)探索提供了寶貴的數(shù)據(jù)點(diǎn)。大模型本質(zhì)上是向量程序的存儲(chǔ)庫。當(dāng)給出提示詞時(shí),LLM會(huì)提取提示詞對(duì)應(yīng)的程序,并在當(dāng)前輸入上「執(zhí)行」。也就是說,它們是通過被動(dòng)接觸人類生成內(nèi)容來存儲(chǔ)和操作化數(shù)百萬個(gè)有用的小程序的一種方式。這種「記憶、提取、應(yīng)用」的模式可以在適當(dāng)?shù)挠?xùn)練數(shù)據(jù)下,實(shí)現(xiàn)對(duì)任意任務(wù)的任意技能水平,但它無法適應(yīng)新任務(wù)或即時(shí)掌握新技能(也就是說,這里沒有流體智力的作用)。這一局限性在ARC-AGI測(cè)試中,表現(xiàn)得尤為明顯GPT-3得分為0,GPT-4得分接近0,而GPT-4o達(dá)到了 5%。將這些模型擴(kuò)展到可能的極限,也未能讓 ARC-AGI 的得分接近多年前基本的暴力枚舉方法所能達(dá)到的水平(高達(dá)50%)。而要適應(yīng)新任務(wù),需要兩樣?xùn)|西。第一,需要知識(shí)一組可重用的函數(shù)或程序供調(diào)用。LLM在這方面已經(jīng)綽綽有余。第二,需要在面對(duì)新任務(wù)時(shí)將這些函數(shù)重新組合成一個(gè)全新的程序的能力一個(gè)能夠建模當(dāng)前任務(wù)的程序,也就是程序合成。而LLM長(zhǎng)期以來缺乏這一特性,O系列模型卻帶了新的突破。o3模型的核心創(chuàng)新在于,實(shí)現(xiàn)了token空間內(nèi)自研語言程序搜索和執(zhí)行。它在測(cè)試時(shí)會(huì)搜索可能的CoT空間,尋找描述解決任務(wù)所需的步驟,由評(píng)估模型引導(dǎo)搜索過程。這種方式可能與AlphaZero的蒙特卡洛樹搜索并無太大差異。
值得注意的是,Demis Hassabis在去年6月的一次采訪中暗示,DeepMind一直在研究這一想法這項(xiàng)研究已經(jīng)醞釀許久。因此,盡管單次生成(single-generation)的LLM在應(yīng)對(duì)新任務(wù)方面表現(xiàn)不佳,但o3通過生成并執(zhí)行自己的程序克服了這一問題,其中程序本身(即CoT)成為知識(shí)重組的產(chǎn)物。盡管這并不是測(cè)試時(shí),知識(shí)重組的唯一可行方法(也可以進(jìn)行測(cè)試時(shí)訓(xùn)練,或在潛在空間中搜索),但根據(jù)這些最新的ARC-AGI數(shù)據(jù),它代表了當(dāng)前的最先進(jìn)水平。實(shí)質(zhì)上,o3本質(zhì)上是一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式。在測(cè)試時(shí)搜索「程序」空間,探索自然語言程序,描述解決當(dāng)前任務(wù)步驟的CoT空間,并由一個(gè)基礎(chǔ)LLM提供引導(dǎo)。這一過程,可能需要處理千萬個(gè)token,消耗大量的計(jì)算資源,花費(fèi)數(shù)千美元,因?yàn)樾枰剿鞅姸嗦窂讲⑦M(jìn)行回溯。o3雖然取得了突破,但仍有兩個(gè)主要的限制。首先,其生成了自然語言指令,而非可執(zhí)行程序,缺乏直接執(zhí)行和評(píng)估能力。其次,依賴專家標(biāo)注的、人工生成的CoT數(shù)據(jù),無法自主獲得程序生成和評(píng)估能力。盡管如此,o3的表現(xiàn)仍證實(shí)了直覺引導(dǎo)的測(cè)試時(shí)搜索的巨大潛力。可以說,o3是具有里程碑意義的成就,為未來AGI下一步探索指明了方向。參考資料:https://x.com/OpenAI/status/1870164871289155937https://arcprize.org/blog/oai-o3-pub-breakthrough