(來源:MIT Technology Review)
AI 智能體目前是科技領(lǐng)域的熱門話題。從 Google DeepMind、OpenAI 到 Anthropic,各大頂尖公司正競相為 LLM 賦予自主完成任務(wù)的能力。這類系統(tǒng)在行業(yè)內(nèi)被稱為 Agentic AI(代理式人工智能),是硅谷新的熱議焦點(diǎn)。從英偉達(dá)到 Salesforce,各家公司都在探討如何利用這項(xiàng)技術(shù)顛覆行業(yè)格局。
Sam Altman 在上周的一篇博客文章中表示:“我們相信,2025 年第一批 AI 智能體可能會加入職場,并實(shí)質(zhì)性地改變企業(yè)的產(chǎn)出。”
廣義上看,AI 智能體是一種能夠自主執(zhí)行任務(wù)的軟件系統(tǒng),通常只需極少甚至完全不需要監(jiān)督。任務(wù)的復(fù)雜程度越高,智能體所需的智能水平也越高。對于許多人來說,如今的 LLM 已經(jīng)足夠智能,可以驅(qū)動智能體完成一系列實(shí)用任務(wù),例如填寫表格、查找食譜并將所需食材添加到線上購物車,或者在會議前通過搜索引擎快速完成最后的研究并生成簡明的要點(diǎn)總結(jié)。
2023 年 10 月,Anthropic 展示了一款先進(jìn)的 AI 智能體:Claude 的一項(xiàng)擴(kuò)展功能“Computer Use”。顧名思義,這項(xiàng)功能使用戶能夠像指揮人類一樣指導(dǎo) Claude 操作電腦,包括移動光標(biāo)、點(diǎn)擊按鈕和輸入文本。用戶不僅可以與 Claude 對話,還可以要求它直接在屏幕上完成任務(wù)。
Anthropic 指出,這項(xiàng)功能目前仍然存在繁冗和容易出錯等問題,但已向一小部分測試人員開放,包括來自 DoorDash、Canva 和 Asana 等公司的第三方開發(fā)者。
這個項(xiàng)目展現(xiàn)了 AI 智能體未來發(fā)展的一個縮影。為進(jìn)一步探討趨勢,MIT Technology Review 采訪了 Anthropic 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Jared Kaplan,他分享了 AI 智能體在 2025 年可能發(fā)展的四個方向。
(Kaplan 的回答經(jīng)過輕微編輯以適應(yīng)篇幅和提升表述的清晰度。)
更擅長使用工具
“我認(rèn)為可以從兩個維度來理解 AI 的能力。一方面是 AI 系統(tǒng)能夠完成任務(wù)的復(fù)雜程度。隨著系統(tǒng)變得越來越智能,其在這一方面的能力不斷提升,而另一個關(guān)鍵維度是 AI 可以使用的環(huán)境或工具類型。”Kaplan 表示。
“舉個例子,如果我們回顧近10年前 DeepMind 的圍棋模型 AlphaGo,它已經(jīng)在下棋方面超越了人類。然而,如果 AI 的能力僅限于棋盤游戲,它的應(yīng)用環(huán)境就非常受限。即使擁有極高的智能,這種 AI 在現(xiàn)實(shí)中沒有實(shí)際用途。隨著文本模型、多模態(tài)模型的進(jìn)步,以及像‘Computer Use’這樣的功能(甚至未來可能涉及的機(jī)器人技術(shù)),AI 正逐步融入多樣化的環(huán)境和任務(wù)中,從而變得更加實(shí)用!彼^續(xù)說道。
“我們對‘Computer Use’感到興奮的原因也在于此。直到最近,大語言模型還必須依賴特定提示或工具,且局限于特定環(huán)境。而我認(rèn)為‘Computer Use’將快速提升模型在完成不同任務(wù)及更復(fù)雜任務(wù)方面的能力。此外,AI 也將逐漸學(xué)會識別自己的錯誤,并在面對高風(fēng)險(xiǎn)問題時意識到需要尋求用戶的反饋!彼赋。
更懂得理解上下文
Claude 需要對你的具體情況和你所處的約束條件有足夠的了解,才能真正對你發(fā)揮作用。這包括你的具體角色是什么、你的寫作風(fēng)格如何,以及你和你的組織的需求是什么。
“我認(rèn)為我們會在這方面看到顯著改進(jìn),Claude 將能夠從你的文檔、Slack 等內(nèi)容中搜索和學(xué)習(xí),從而真正理解對你有用的東西。這一點(diǎn)在智能體的討論中往往被低估了。一個系統(tǒng)不僅要有用,還需要安全,能夠準(zhǔn)確完成你期望的任務(wù),這是非常重要的!盞aplan 表示。
此外,許多任務(wù)實(shí)際上并不需要 Claude 進(jìn)行太多推理。比如,在打開 Google Docs 之前不需要進(jìn)行長時間的深思熟慮。“因此,我認(rèn)為未來的發(fā)展方向不僅在于讓智能體擁有更多的推理能力,更在于確保它在真正需要時發(fā)揮推理作用,同時在不必要的時候避免浪費(fèi)時間!彼f道。
提升代碼助手的能力
“我們希望在‘Computer Use’功能還處于初期階段時,向開發(fā)者提供一個測試版,以便收集反饋。隨著這些系統(tǒng)的不斷完善,它們可能會被更廣泛地采用,并真正與用戶協(xié)作完成各種任務(wù)!彼硎。
像是 DoorDash、Browser Company 和 Canva 這樣的公司,正在嘗試不同類型的瀏覽器交互,同時借助 AI 設(shè)計(jì)這些交互方式。
“我預(yù)計(jì)代碼助手將進(jìn)一步改進(jìn),這是一個對開發(fā)者來說非常令人興奮的領(lǐng)域。如今,使用 Claude 3.5 進(jìn)行編程已經(jīng)引起了極大的興趣。它不再僅僅是提供自動補(bǔ)全功能,而是能夠真正理解代碼中的問題,調(diào)試代碼,通過運(yùn)行代碼觀察其行為,并進(jìn)行修復(fù)!彼硎。
需要被設(shè)計(jì)得更安全
“我們創(chuàng)立 Anthropic 的初衷,是因?yàn)轭A(yù)見到 AI 技術(shù)的快速發(fā)展,并意識到安全問題必然會變得更加重要。我認(rèn)為今年這些問題將更加直觀且緊迫,因?yàn)?AI 智能體將越來越多地融入我們的工作中,我們需要為各種潛在挑戰(zhàn)做好準(zhǔn)備,例如提示詞注入!盞aplan 表示。
提示詞注入是一種攻擊方式,通過向大語言模型提供開發(fā)者未預(yù)見或未打算處理的惡意提示進(jìn)行攻擊。例如,可以將惡意提示嵌入模型可能訪問的網(wǎng)站中,以此實(shí)施攻擊。
“提示詞注入可能是我們在 AI 智能體廣泛使用中需要優(yōu)先思考的關(guān)鍵問題之一,尤其對于‘Computer Use’功能而言,這個問題尤為重要。“我們正在積極應(yīng)對這一挑戰(zhàn),因?yàn)槿绻瓹omputer Use’被大規(guī)模部署,可能會出現(xiàn)惡意網(wǎng)站或其他手段試圖誘導(dǎo) Claude 執(zhí)行不當(dāng)操作!彼硎尽
“此外,隨著更高級模型的問世,相關(guān)風(fēng)險(xiǎn)也會增加。我們制定了穩(wěn)健的擴(kuò)展策略,確保隨著 AI 系統(tǒng)能力的提升,能夠有效防止其被濫用。例如,避免它被用于協(xié)助恐怖分子等不當(dāng)目的!彼^續(xù)說道。
“盡管如此,我對 AI 的實(shí)際應(yīng)用仍充滿期待,畢竟它確實(shí)在內(nèi)部提升了我們的工作效率。Anthropic 團(tuán)隊(duì)以多種方式使用 Claude,特別是在編程領(lǐng)域,效果尤為顯著。然而,不可否認(rèn),挑戰(zhàn)同樣不容忽視。今年無疑將是充滿變化和新機(jī)會的一年。”Kaplan 表示。
原文鏈接:
https://www.technologyreview.com/2025/01/11/1109909/anthropics-chief-scientist-on-5-ways-agents-will-be-even-better-in-2025/