圖片來源:視覺中國
藍鯨新聞12月23日訊(記者 朱俊熹)在“雙十二”活動的最后一天,OpenAI終于扔下重磅:o3推理模型。當?shù)貢r間12月20日發(fā)布的o3模型,是9月推出的o1推理模型的下一代。為避免與英國電信運營商O2發(fā)生版權或商標沖突,OpenAI選擇跳過o2并直接將新模型命名為o3。
繼谷歌前一天發(fā)布推理模型后,OpenAI很快釋出最新的o3模型,似乎想要證明自己在模型層面依然保持領先身位。
據(jù)OpenAI介紹,o3能夠進行復雜任務的推理,在科學、編碼、數(shù)學等領域的表現(xiàn)要優(yōu)于前一代o1模型,同時花費的處理時間也會更長。以一項評估AI高級數(shù)學推理能力的測試EpochAI Frontier Math為例,以往所有模型都未達到2%的準確率,而o3準確率達到了創(chuàng)紀錄的25%。
o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關基準測試ARC-AGI中,高配版o3得分為87.5%,低計算設置下o3得分為75.7%,是o1模型的三倍。但高計算模式需要花費極其昂貴的成本,每個任務高達數(shù)千美元,低計算模式則需要20美元左右。
“我并不認為o3就是AGI。o3在一些非常簡單的任務上仍然失敗,表明它與人類智能存在根本差異!ARC-AGI測試創(chuàng)建者Franois Chollet表示。他們依然能創(chuàng)建具有挑戰(zhàn)性且未被充分測試的基準,而當設計出對普通人容易但對AI難的任務變得不可能時,才意味著AGI的真正到來。
OpenAI稱,較小版本的o3-mini將于明年1月底推出,隨后推出完整版o3。OpenAI正為安全研究人員開放申請流程,邀請他們搶先體驗o3模型,作為現(xiàn)有測試流程的補充。
回顧OpenAI“雙十二”:期貨大放出,產品更新缺乏新意
一位AI從業(yè)者在跟完OpenAI連續(xù)12個工作日的直播后直呼失望。“OpenAI只是在不停地填過去的坑。o3模型的發(fā)布仍然是一個‘畫餅’行為,要在實際使用之后,才能確定它到底怎么樣!他對藍鯨新聞表示。
與以往一小時內快節(jié)奏、高密度的新品發(fā)布會不同,此次活動的每日直播時長在10到20分鐘不等,觀感上也缺少了一些震撼的感覺。CEO Sam Altman僅出現(xiàn)4次,除去o3模型發(fā)布日,其他場次大多在上線之前的期貨,包括完整版o1模型、視頻生成模型Sora、在蘋果中正式接入ChatGPT等。
在12月5日活動首日,OpenAI發(fā)布了推理模型o1的正式版本,并于第二天圍繞該模型推出了強化微調功能。普通用戶如想無限制訪問o1、o1 pro在內的所有模型,需每月花費200美元,購買最新的付費套餐ChatGPT Pro。此前ChatGPT基礎付費服務為每月20美元。在接受彭博社采訪時,OpenAI首席財務官Sarah Friar并未否認未來ChatGPT訂閱費用將可能升至2000美元/月,“如果它真的能幫助我在做任何事情時都擁有一個博士級的助手”。
OpenAI的新技術從發(fā)布到正式可用之間通常存在一定的等待時間,最具代表性的就是其視頻模型Sora。12月9日,Sora在發(fā)布298天后終于正式上線,因大量用戶涌入Sora網(wǎng)站,一度導致服務器被迫暫時關閉。
Sora沉寂期間,視頻生成賽道出現(xiàn)了大量追趕者。如國外的谷歌、Runway、Luma AI,以及國內的快手、字節(jié)跳動、騰訊、生數(shù)科技、愛詩科技等公司都發(fā)布了視頻模型。有AI視頻創(chuàng)作者告訴藍鯨新聞,從視頻底層模型和生成質量來看,并未感覺到Sora與可靈、即夢、海螺等國產模型有明顯差距,甚至在性價比上還稍顯遜色。
在此輪“雙十二”活動中,OpenAI還推出了七個月前演示過的實時視頻功能,并向所有ChatGPT用戶開放了10月推出的搜索服務。在5月發(fā)布GPT-4o時,OpenAI曾預覽了具備實時視頻和屏幕共享功能的高級語音模式,此后卻多次推遲上線。而ChatGPT Search在剛推出時,僅面向部分付費用戶開放。
除了上線期貨,OpenAI也圍繞著用戶體驗提升、產品優(yōu)化作出了多項更新。例如在活動第四日,OpenAI將Canvas的使用權限由付費用戶擴展至所有用戶,該工具主要用于和ChatGPT合作進行寫作與編碼。OpenAI還在ChatGPT中新增了“項目”功能,便于用戶自行創(chuàng)建文件夾,將對話、文檔等各種功能集中到一處。
但這些產品功能并非由OpenAI首創(chuàng),事實上早在幾個月前,其最大競爭對手、AI初創(chuàng)企業(yè)Anthropic就推出過類似的功能。有AI從業(yè)者表示,從用戶體驗、交互設計上看,Anthropic的AI助手Claude會呈現(xiàn)出更積極的創(chuàng)新姿態(tài),OpenAI更像是參照著競爭對手來完善ChatGPT這一產品。
前十一天直播過后,一些質疑的聲音開始越來越大:OpenAI是否因為模型迭代遭遇瓶頸,才更多地轉向了對現(xiàn)有應用的完善。對此,字節(jié)跳動旗下云服務平臺火山引擎的總裁譚待在近期一場媒體群訪中表示,OpenAI最初就是一家在技術和應用方面都表現(xiàn)出色的公司,大模型的火爆正是源于ChatGPT產品的發(fā)布。而技術和應用是齊頭并進的,隨著模型的提升,應用的形態(tài)也會不斷發(fā)生變化,不僅僅是chatbot(聊天助手)。
收官日放出的o3模型再次表明,OpenAI這家AI領軍者在進一步轉向新的推理范式,以期解決Scaling Law收益遞減、預訓練數(shù)據(jù)短缺等困難。
推理、視頻、搜索,谷歌正面狙擊OpenAI
在爭搶公眾關注焦點方面,OpenAI和巨頭谷歌早有糾葛。今年5月,OpenAI恰好在谷歌I/O開發(fā)者大會前一天舉辦發(fā)布會,用多模態(tài)大模型GPT-4o搶盡風頭。在此次OpenAI“雙十二”活動期間,雙方再度正面對壘。谷歌先后發(fā)布多項重大更新,包括量子芯片Willow、新一代大模型Gemini 2.0、推理模型、視頻和圖像模型等。
當?shù)貢r間12月11日,谷歌推出了Gemini 2.0 Flash實驗版本,是其2.0系列的首個模型。據(jù)谷歌介紹,相較于前代模型,Gemini 2.0 Flash具備低延遲和增強性能,在多項基準測試中表現(xiàn)領先。除了支持圖像、視頻和音頻等多模態(tài)輸入外,該模型還支持多模態(tài)輸出。目前實驗模型已向所有Gemini用戶開放,完整版本將于明年1月全面上市。
谷歌母公司Alphabet首席執(zhí)行官Sundar Pichai在博客中指出,Gemini 2.0這一“迄今功能最強大的模型”是為智能體時代構建的。借助新的多模態(tài)進展以及各種原生工具,能夠打造全新的AI智能體,更接近通用助手的愿景!叭绻fGemini 1.0的核心是組織和理解信息,那么Gemini 2.0的目標就是讓信息更加有用!彼硎尽
同步推出的還有谷歌正在探索的一系列智能體項目。此前曾預覽過的Project Astra基于Gemini 2.0迎來更新,該智能體支持高級視覺和語音交互,現(xiàn)在語言能力、工具屬性、記憶能力都得到了升級,谷歌還預告將在原型眼鏡上對其進行測試。除此之外,谷歌還介紹了能像人類一樣使用網(wǎng)站的智能體Project Mariner,以及一款編碼智能體Jules。
AI智能體正成為國內外大模型公司押注的主流方向。Anthropic在10月推出了能夠接管人類計算機的智能體,可執(zhí)行解釋屏幕內容、輸入文本、瀏覽網(wǎng)站等任務。國內方面,百度、字節(jié)、騰訊等大廠和智譜AI等創(chuàng)企也在加碼布局智能體。盡管此前曾傳出OpenAI正在準備類似Anthropic的智能體,但并未如公眾預期般,在此次連更活動中就亮相。
“就在你以為一切都結束了的時候……我們推出了Gemini 2.0 Flash Thinking!惫雀鐰I Studio產品負責人Logan Kilpatrick在社交平臺X上表示。當?shù)貢r間12月19日,谷歌釋出其首個推理模型,在Gemini 2.0 Flash之上能夠運用思維來強化其推理能力!斑@只是我們推理之旅的第一步!盠ogan Kilpatrick稱。
從評測結果上看,谷歌的推理模型在Chatbot Arena基準測試中超越了OpenAI的GPT-4o、o1-preview以及Anthropic的Claude 3.5 Sonnet等模型。但當記者在谷歌AI Studio中試用時,詢問“Strawberry里有幾個r”,該模型還是給出了錯誤的回答。
圖片來源:Google AI Studio截圖
為正面狙擊OpenAI,谷歌在Sora上線一周后發(fā)布了新一代視頻模型Veo 2和升級后的圖像生成模型Imagen 3。理論上,Veo 2可生成分辨率達4k、兩分鐘或以上的視頻,但目前在谷歌平臺上僅支持生成720p、時長8秒的視頻。相較而言,ChatGPT Pro付費用戶可通過Sora生成1080p、最長20秒的視頻。
此外,在谷歌霸主地位最凸顯的搜索領域,ChatGPT Search一度被認為極具威脅性,相關動態(tài)消息多次拉低谷歌股價。作為應對,谷歌推出了“AI Overviews”概率功能,但因生成低質量結果頻頻翻車。據(jù)硅谷科技媒體The Information最新報道,谷歌正計劃為其數(shù)十億搜索用戶提供切換到AI模式的選項,這種模式與AI助手Gemini幾近相同,以此來應對ChatGPT、AI搜索引擎Perplexity等競爭對手的沖擊。
AI戰(zhàn)局瞬息萬變,搶先入局者并不一定能始終保持領先。在國內,字節(jié)跳動向來被認為面對AI反應遲緩,但憑借雄厚財力和頂尖人才,字節(jié)已呈現(xiàn)出趕超的趨勢。谷歌也曾被詬病錯失了AI競賽先機,這一科技巨頭又是否會最終迎來趕超OpenAI的機會呢?