展會(huì)信息港展會(huì)大全

頂級(jí)AI智能體不會(huì)社交,創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)!CMU等:最多完成24%任務(wù)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-26 19:12:59   瀏覽:292次  

導(dǎo)讀:新智元報(bào)道編輯:peter東 喬楊【新智元導(dǎo)讀】智能體究竟能否應(yīng)對(duì)現(xiàn)實(shí)世界的復(fù)雜性?The Agent Company近日提出了一項(xiàng)評(píng)估基準(zhǔn),讓多個(gè)智能體嘗試自主運(yùn)營(yíng)一個(gè)軟件公司。結(jié)果表明,即使是當(dāng)前最先進(jìn)的智能體,也無(wú)法自主完成大多數(shù)任務(wù)。如今,基于大模型的智能體,已經(jīng)能完成許多在幾年前還無(wú)法想象的任務(wù),進(jìn)步的速度是如此之快,以至于有些人甚至聲稱(chēng),在接下來(lái)的幾年內(nèi),大 ......

頂級(jí)AI智能體不會(huì)社交,創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)!CMU等:最多完成24%任務(wù)

新智元報(bào)道

編輯:peter東 喬楊【新智元導(dǎo)讀】智能體究竟能否應(yīng)對(duì)現(xiàn)實(shí)世界的復(fù)雜性?The Agent Company近日提出了一項(xiàng)評(píng)估基準(zhǔn),讓多個(gè)智能體嘗試自主運(yùn)營(yíng)一個(gè)軟件公司。結(jié)果表明,即使是當(dāng)前最先進(jìn)的智能體,也無(wú)法自主完成大多數(shù)任務(wù)。如今,基于大模型的智能體,已經(jīng)能完成許多在幾年前還無(wú)法想象的任務(wù),進(jìn)步的速度是如此之快,以至于有些人甚至聲稱(chēng),在接下來(lái)的幾年內(nèi),大多數(shù)人類(lèi)勞動(dòng)可能都可以實(shí)現(xiàn)自動(dòng)化。然而近日CMU、杜克大學(xué)等機(jī)構(gòu)發(fā)表的一項(xiàng)研究卻給這一期待潑了一盆涼水。

智能體運(yùn)營(yíng)公司還不可行

頂級(jí)AI智能體不會(huì)社交,創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)!CMU等:最多完成24%任務(wù)

論文鏈接:https://arxiv.org/abs/2412.14161該研究開(kāi)發(fā)了一個(gè)全部由大模型驅(qū)動(dòng)的智能體組成的虛擬軟件開(kāi)發(fā)公司The Agent Company,與人類(lèi)員工類(lèi)似,智能體需要執(zhí)行軟件開(kāi)發(fā)、項(xiàng)目管理、財(cái)務(wù)分析等典型的商業(yè)環(huán)境中的任務(wù)。

頂級(jí)AI智能體不會(huì)社交,創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)!CMU等:最多完成24%任務(wù)

智能體與環(huán)境互動(dòng),以及智能體間的協(xié)作以完成真實(shí)世界任務(wù)

智能體所用的環(huán)境完全基于開(kāi)源軟件及主流的大模型接口,并可自行托管以實(shí)現(xiàn)可復(fù)現(xiàn)性。為了完成這些任務(wù),智能體需要瀏覽網(wǎng)頁(yè)、編寫(xiě)代碼,并與其他智能體同事互動(dòng)。

智能體之間的交互模式也和真實(shí)世界的軟件公司十分類(lèi)似,比如使用RocketChat向公司的其它成員發(fā)送消息,并獲取原始任務(wù)描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責(zé)和項(xiàng)目隸屬關(guān)系等身份信息。

這項(xiàng)研究評(píng)估了當(dāng)前幾種主流的大模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及知名開(kāi)源模型,包括Meta的Llama和Qwen2.5。

除了創(chuàng)建175個(gè)多樣化、真實(shí)、專(zhuān)業(yè),且與真實(shí)公司運(yùn)營(yíng)模式一致的任務(wù),這項(xiàng)研究還創(chuàng)建了不同任務(wù)對(duì)應(yīng)的評(píng)估器,在每個(gè)任務(wù)中的多個(gè)階段設(shè)置檢查點(diǎn)。智能體每完成一步任務(wù),都會(huì)獲得相應(yīng)的積分(類(lèi)似于現(xiàn)實(shí)員工的KPI);而當(dāng)智能體只是部分正確地給出回答時(shí),也會(huì)給予其部分過(guò)程分。

頂級(jí)AI智能體不會(huì)社交,創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)!CMU等:最多完成24%任務(wù)

結(jié)果顯示,表現(xiàn)最好的是基于Claude Sonnet 3.5的智能體,然而它只能應(yīng)對(duì)真實(shí)世界中24%的任務(wù),在過(guò)程分上取得34.4%的得分。

排名第二的模型的任務(wù)完成比例更是只有11.4%,這與人們對(duì)大模型取代人類(lèi)員工的預(yù)期還相距甚遠(yuǎn)。

頂級(jí)AI智能體不會(huì)社交,創(chuàng)業(yè)遠(yuǎn)不如人類(lèi)!CMU等:最多完成24%任務(wù)

這個(gè)成績(jī)單中值得關(guān)注的是,開(kāi)源模型Llama3.1和閉源的GPT-4o排名相近,這表明了開(kāi)源模型在性能上已經(jīng)十分逼近商用的閉源模型。

運(yùn)營(yíng)公司,AI比人類(lèi)差在哪里

這項(xiàng)研究中有趣的一點(diǎn)是,可以讓我們看到智能體在無(wú)法完成任務(wù)時(shí)犯下的錯(cuò)誤,而這些錯(cuò)誤在人類(lèi)身上是幾乎不會(huì)發(fā)生的。如果能得到解決,將有助于提升智能體在真實(shí)世界中的應(yīng)用落地。問(wèn)題1:缺乏常識(shí)某些任務(wù)失敗是因?yàn),智能體缺乏進(jìn)行隱含假設(shè)推理所需的常識(shí)和領(lǐng)域背景知識(shí)。

例如,一個(gè)任務(wù)要求智能體「將響應(yīng)寫(xiě)入/workspace/answer.docx」,但沒(méi)有明確指出這是一個(gè)Word文件。人類(lèi)可以從文件擴(kuò)展名推斷出這一要求,而智能體卻將其視為純文本文件,直接內(nèi)容以文本形式寫(xiě)入,導(dǎo)致任務(wù)失敗。

問(wèn)題2:缺乏社交技巧一項(xiàng)任務(wù)需要智能體向其它智能體尋求幫助,智能體首先成功提出了正確的問(wèn)題:「你能告訴我,應(yīng)該接下來(lái)向團(tuán)隊(duì)中的誰(shuí)請(qǐng)教這個(gè)問(wèn)題嗎?」然后模擬同事Alex回答:「你應(yīng)該向Bob請(qǐng)教。他在前端團(tuán)隊(duì),是一個(gè)很好的聯(lián)系人!」

之后若是人類(lèi),99.9%的人都會(huì)選擇去咨詢(xún)Bob相關(guān)問(wèn)題,但智能體卻認(rèn)為任務(wù)已經(jīng)結(jié)束,不去向Bob請(qǐng)教。

問(wèn)題3:瀏覽網(wǎng)頁(yè)容易出錯(cuò)很多時(shí)候,任務(wù)中的最大障礙在于需要瀏覽網(wǎng)頁(yè)的部分。這方面的障礙是預(yù)料之中的,因?yàn)閷?duì)于智能體來(lái)說(shuō),由于當(dāng)前網(wǎng)頁(yè)用戶(hù)界面的復(fù)雜性和網(wǎng)頁(yè)上的眾多干擾,瀏覽網(wǎng)頁(yè)仍然很困難。

例如,許多網(wǎng)頁(yè)都會(huì)不時(shí)彈出可關(guān)閉的廣告窗口,要求用戶(hù)下載手機(jī)應(yīng)用程序以獲得更好的體驗(yàn)。人類(lèi)可以簡(jiǎn)單地點(diǎn)擊「×」來(lái)關(guān)閉彈窗,而智能體則陷入了困境。

同樣,當(dāng)智能體嘗試從網(wǎng)絡(luò)中下載文件時(shí),需要點(diǎn)擊多個(gè)彈出窗口才能進(jìn)行實(shí)際下載,但由于用戶(hù)界面復(fù)雜,每個(gè)步驟都容易出錯(cuò)。

問(wèn)題4:自欺欺人對(duì)于某些任務(wù),當(dāng)智能體不清楚下一步應(yīng)該做什么時(shí),它有時(shí)會(huì)試圖聰明一點(diǎn),創(chuàng)建一些省略任務(wù)困難部分的「捷徑」。

例如,如果智能體在RocketChat上找不到合適的人提問(wèn),它就會(huì)決定給另一個(gè)用戶(hù)改名為目標(biāo)用戶(hù)來(lái)當(dāng)做解決方案。

未來(lái)的智能體還有希望嗎

該研究的另一價(jià)值在于提供了一套框架,用來(lái)評(píng)估智能體在真實(shí)環(huán)境中的表現(xiàn)。

隨著向大模型灌輸網(wǎng)頁(yè)相關(guān)的信息,并教會(huì)大模型如何瀏覽網(wǎng)頁(yè)獲取信息,下載文件并不是難事,其他的辦公、工作交流等相關(guān)常識(shí)也是如此。相信未來(lái)大模型將有潛力取代人類(lèi)的人力、財(cái)務(wù)、程序員等職業(yè),至少是將這些崗位的大部分任務(wù)進(jìn)行自動(dòng)化處理。

與此相應(yīng)的是,未來(lái)對(duì)大模型的評(píng)價(jià)也會(huì)有更多的維度。不止是完成該文列出的常規(guī)任務(wù),還應(yīng)該對(duì)創(chuàng)造能力進(jìn)行考核。

此外,考核還應(yīng)該包含那些定義模糊的任務(wù),以及更高層次、更長(zhǎng)遠(yuǎn)的任務(wù),如構(gòu)思新產(chǎn)品并將其付諸實(shí)施。智能體只有能夠完成這些任務(wù),才能算是真正地取代人類(lèi)員工運(yùn)營(yíng)公司。

參考資料:https://arxiv.org/pdf/2412.14161

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港