當(dāng)?shù)貢r(shí)間周五,OpenAI在為期12個(gè)工作日的新品發(fā)布活動(dòng)的最后一天展示了o1模型的下一代o3,并表示該模型有o3版本和精簡版o3-mini。OpenAI CEO山姆奧爾特曼(Sam Altman)強(qiáng)調(diào)了o3在推理、編碼能力方面的提升,并表示o3模型不會(huì)立即推出,OpenAI會(huì)在1月底前正式推出o3 mini,并在之后推出完整版的o3。
山姆奧爾特曼表示,o3是一個(gè)非常聰明的模型。OpenAI總裁Greg Brockman(格雷格布魯克曼)表示,公司最新的o3模型取得了突破,o3版本和o3-mini版本正在提供給研究人員進(jìn)行安全測試。
據(jù)OpenAI介紹,公司將在確保新模型的可靠性和安全性后再提供給更廣泛的用戶使用,OpenAI強(qiáng)調(diào)了公司會(huì)專注于使AI系統(tǒng)與人類的價(jià)值觀和社會(huì)利益保持一致。在命名方面,OpenAI之所以不起名o2而是起名o3,是因?yàn)橛杏娦胚\(yùn)營商名為O2。
OpenAI在今年9月已推出了o1模型,該模型可深思熟慮后回答問題,可處理需要復(fù)雜推理的任務(wù)。o1在國際數(shù)學(xué)奧林匹克競賽(IMO)的資格考試中得分83%,對比之下,GPT-4o僅正確解決了13%的問題。在此基礎(chǔ)上,據(jù)OpenAI評(píng)估,o3在軟件工程、編寫代碼、掌握人類博士級(jí)別科學(xué)知識(shí)能力等方面強(qiáng)于o1。
據(jù)OpenAI給出的SWE-bench Verified代碼生成評(píng)估基準(zhǔn),在軟件工程的能力測評(píng)中,o3的準(zhǔn)確度得分71.7,超過得分48.9的o1和41.3的o1 preview。在編程網(wǎng)站Codeforces的競爭性代碼測評(píng)中,o3得分2727,對比之下,o1、o1 preview得分分別為1891和1258。在2024年AIME數(shù)學(xué)競賽題目測試中,o3的準(zhǔn)確度得分為96.7,超過o1和o1 preview的得分83.3和56.7。在衡量模型在博士級(jí)別科學(xué)問題上表現(xiàn)的GPQA Diamond測試中,o3得分87.7,超過o1的78和o1 preview的78.3。
而在以100%為最高分的ARC-AGI評(píng)估中,o1系列得分在8%~32%之間,o3最低得分75.7%、最高得分87.5%,表現(xiàn)明顯好于o1系列。ARC-AGI是用來測試AI模型對困難數(shù)學(xué)和邏輯問題推理能力的基準(zhǔn)測試。ARC Prize 基金會(huì)總裁Greg Kamradt表示,能成功擊敗ARC-AGI的AI系統(tǒng)將代表通往通用人工智能的重要里程碑。OpenAI表示,o3在ARC-AGI評(píng)估中獲得了破紀(jì)錄的分?jǐn)?shù),o3的最高分?jǐn)?shù)也達(dá)到了代表人類水平的門檻85%,o3在某些條件下可以接近實(shí)現(xiàn)AGI(通用人工智能)。
成本上看,ARC Prize基金會(huì)創(chuàng)始人FranoisChollet則在測試報(bào)告中表示,模型通用性需要付出高昂成本,o3 在低計(jì)算量模式下完成每個(gè)ARC-AGI任務(wù)需要 17~20 美元,高計(jì)算量模式下完成每個(gè)任務(wù)需要數(shù)千美元,模型的性價(jià)比在接下來的幾個(gè)月和幾年里將有所提高。
在OpenAI推出o1系列模型后,OpenAI的一些競爭對手也在部署這種偏重推理的模型。本月早些時(shí)候,谷歌發(fā)布了旗艦?zāi)P虶emini的新版本,該新版本在思考、記憶、計(jì)劃等方面能力有所提升。業(yè)內(nèi)另外一些企業(yè)也在參考o(jì)1的長思維鏈推理路徑優(yōu)化自身的模型,有大模型業(yè)內(nèi)人士向記者表示,這種路徑可以降低大模型的錯(cuò)誤率,未來也有可能用于解決重大科學(xué)問題。
(本文來自第一財(cái)經(jīng))