AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
該技術(shù)報(bào)告的主要作者 Lu Wang, Fangkai Yang, Chaoyun Zhang, Shilin He, Pu Zhao, Si Qin 等均來自 Data, Knowledge, and Intelligence (DKI) 團(tuán)隊(duì),為微軟 TaskWeaver, WizardLLM, Windows GUI Agent UFO 的核心開發(fā)者。
近年來,大語(yǔ)言模型(Large Language Models, LLMs)的迅猛發(fā)展推動(dòng)了自然語(yǔ)言處理(NLP)領(lǐng)域的技術(shù)進(jìn)步。這些模型在對(duì)話生成、文本翻譯、知識(shí)問答和代碼生成等任務(wù)中展現(xiàn)出卓越的性能。
然而,盡管 LLMs 可以通過語(yǔ)言生成為用戶提供信息支持,其功能仍局限于文本層面,無法主動(dòng)與物理或數(shù)字環(huán)境交互,或因缺乏領(lǐng)域知識(shí)和數(shù)據(jù)而導(dǎo)致生成的「動(dòng)作」效果不佳。這種「語(yǔ)言 - 行動(dòng)斷層」阻礙了人工智能(AI)在許多實(shí)際場(chǎng)景中的廣泛應(yīng)用。
為解決這一核心問題,微軟團(tuán)隊(duì)首次提出了一種完整的方法體系,詳盡描述了在無直接可用數(shù)據(jù)的情況下如何從零開始訓(xùn)練一個(gè)大行動(dòng)模型(Large Action Model, LAM),并將其逐步構(gòu)建為可在真實(shí)環(huán)境中完成任務(wù)的智能體。
這一工作為L(zhǎng)AM 模型訓(xùn)練的奠定了基礎(chǔ),還為 AI 從被動(dòng)語(yǔ)言生成向主動(dòng)行動(dòng)生成的轉(zhuǎn)變提供了新思路。
技術(shù)報(bào)告鏈接:Large Action Models: From Inception to Implementation
數(shù)據(jù)處理代碼鏈接:https://github.com/microsoft/UFO/tree/main/dataflow
完整的技術(shù)文檔鏈接:https://microsoft.github.io/UFO/dataflow/overview/
從語(yǔ)言到行動(dòng)的必要演化
LLMs 的局限性
傳統(tǒng) LLMs,如 OpenAI 的 GPT 系列和 Mistral-7B,能夠生成富有邏輯性和創(chuàng)意的文本內(nèi)容,廣泛應(yīng)用于問答系統(tǒng)、代碼補(bǔ)全、文案生成等任務(wù)中。然而,當(dāng)用戶的需求超越語(yǔ)言生成層面,例如操作軟件、完成復(fù)雜的工作流程或直接操控物理設(shè)備時(shí),這些模型便暴露出明顯的不足。
這一局限性源于 LLMs 的設(shè)計(jì)初衷:它們被優(yōu)化用于生成語(yǔ)言內(nèi)容,而非執(zhí)行行動(dòng)。雖然 LLMs 在任務(wù)規(guī)劃和意圖理解方面表現(xiàn)出色,但它們?nèi)狈π袆?dòng)生成所需的任務(wù)分解、環(huán)境交互和多步執(zhí)行能力。
LAM(大行動(dòng)模型)具備三大特性:
用戶意圖理解,能從多種輸入(語(yǔ)言、語(yǔ)音、圖像等)中準(zhǔn)確解析意圖并轉(zhuǎn)化為具體可執(zhí)行計(jì)劃;
行動(dòng)生成能力,可根據(jù)環(huán)境將用戶需求轉(zhuǎn)化為 GUI 操作、API 調(diào)用、物理動(dòng)作等多種形式的具體步驟;
動(dòng)態(tài)規(guī)劃與適應(yīng),能夠分解復(fù)雜任務(wù),靈活應(yīng)對(duì)環(huán)境變化,實(shí)時(shí)調(diào)整計(jì)劃以完成目標(biāo)。這些特性使 LAM 在復(fù)雜任務(wù)執(zhí)行中表現(xiàn)出色。
圖 1:從 LLM 到 LAM 的演化
從 LLMs 到 LAMs 的挑戰(zhàn)
如圖 1 所示,構(gòu)建 LAMs 的核心挑戰(zhàn)在于如何將模型從一個(gè)被動(dòng)的文本生成器轉(zhuǎn)變?yōu)槟軌蛟谡鎸?shí)環(huán)境中執(zhí)行復(fù)雜任務(wù)的主動(dòng)行動(dòng)生成器。這一轉(zhuǎn)變不僅需要重新定義模型能力,還涉及從數(shù)據(jù)、訓(xùn)練方法到評(píng)估方式的全面革新:
數(shù)據(jù)積累的難題
數(shù)據(jù)獲取是訓(xùn)練 LAM 的最大挑戰(zhàn)。LAM 需要大量任務(wù) - 行動(dòng)對(duì)數(shù)據(jù)來學(xué)習(xí)如何在不同環(huán)境中執(zhí)行操作。然而,這類數(shù)據(jù)在實(shí)際應(yīng)用中往往難以獲取或批量收集。
模型訓(xùn)練的重大轉(zhuǎn)化
LAM 的開發(fā)需要從僅生成文本的 LLMs 轉(zhuǎn)化為具備任務(wù)規(guī)劃、動(dòng)態(tài)執(zhí)行和調(diào)整能力的模型。這不僅需要對(duì)模型架構(gòu)進(jìn)行深度改造,還需要采用全新的訓(xùn)練方法,以賦予模型行動(dòng)生成與環(huán)境適配的能力。
離線評(píng)估的局限性
在靜態(tài)、受控環(huán)境中測(cè)試 LAM 的性能是必要的一步,用以驗(yàn)證其基礎(chǔ)能力。然而,僅止步于離線評(píng)估無法真實(shí)反映模型在實(shí)際復(fù)雜場(chǎng)景中的表現(xiàn)。
環(huán)境適配與線上評(píng)估的復(fù)雜性
LAM 需要實(shí)時(shí)與復(fù)雜、多樣的數(shù)字或物理環(huán)境交互。這要求模型具備動(dòng)態(tài)適應(yīng)性,能夠根據(jù)實(shí)時(shí)反饋調(diào)整行動(dòng)。此外,在真實(shí)環(huán)境中進(jìn)行線上評(píng)估,測(cè)試 LAM 的準(zhǔn)確性、效率和任務(wù)完成效果,是驗(yàn)證其實(shí)際性能的關(guān)鍵環(huán)節(jié)。
針對(duì)上述挑戰(zhàn),微軟團(tuán)隊(duì)首次提出并實(shí)現(xiàn)了一套完整的從 0 到 1 訓(xùn)練 LAM 模型的流程,涵蓋了從數(shù)據(jù)積累、模型訓(xùn)練到實(shí)際部署的所有步驟。
該團(tuán)隊(duì)的方法不僅解決了「無數(shù)據(jù)」的初始瓶頸,還通過逐步迭代的方式,讓模型從簡(jiǎn)單的任務(wù)規(guī)劃能力成長(zhǎng)為具備復(fù)雜行動(dòng)生成能力的智能體。這一研究填補(bǔ)了現(xiàn)有領(lǐng)域的空白,為 LAMs 的開發(fā)提供了首個(gè)實(shí)踐范例。
數(shù)據(jù)積累
從無到有構(gòu)建 LAM 的第一步
在訓(xùn)練 LAM(大行動(dòng)模型)時(shí),數(shù)據(jù)積累是關(guān)鍵。與 LLMs(大語(yǔ)言模型)訓(xùn)練需要大量文本數(shù)據(jù)類似,LAM 的開發(fā)依賴高質(zhì)量的任務(wù) - 行動(dòng)數(shù)據(jù)。
然而,這類數(shù)據(jù)在實(shí)際應(yīng)用中非常稀缺,特別是領(lǐng)域?qū)俸涂蓤?zhí)行的數(shù)據(jù)。為了克服這一瓶頸,該團(tuán)隊(duì)設(shè)計(jì)了一套從無到有的數(shù)據(jù)收集與處理流程,分為兩大階段:任務(wù) - 計(jì)劃數(shù)據(jù)收集和任務(wù) - 行動(dòng)數(shù)據(jù)收集。
圖 2:任務(wù) - 計(jì)劃數(shù)據(jù)的收集過程
階段一:任務(wù) - 計(jì)劃數(shù)據(jù)收集
如圖 2 所示,任務(wù) - 計(jì)劃數(shù)據(jù)以用戶請(qǐng)求為起點(diǎn),生成任務(wù)描述及其對(duì)應(yīng)的詳細(xì)操作步驟。該團(tuán)隊(duì)從多種開源資源中收集任務(wù) - 計(jì)劃對(duì),包括應(yīng)用幫助文檔(如 Microsoft Word 的幫助頁(yè)面)、WikiHow 任務(wù)教程,以及用戶的搜索查詢記錄。
通過這些來源,該團(tuán)隊(duì)構(gòu)建了包含 76,672 對(duì)任務(wù)與計(jì)劃的初始數(shù)據(jù)集,其中 29,182 對(duì)是直接獲取的,47,490 對(duì)通過數(shù)據(jù)擴(kuò)展技術(shù)生成。
此外,他們采用數(shù)據(jù)增強(qiáng)技術(shù)生成更多任務(wù) - 計(jì)劃對(duì)。通過 GPT-4o 演化原始任務(wù),增加復(fù)雜性和約束條件,同時(shí)生成相應(yīng)的計(jì)劃,擴(kuò)展數(shù)據(jù)集規(guī)模至原來的 150%。例如,「在 Excel 中創(chuàng)建下拉菜單」被演化為「創(chuàng)建依賴下拉菜單,并根據(jù)第一列選擇過濾第二列內(nèi)容」,從而提高模型對(duì)復(fù)雜任務(wù)的適應(yīng)能力。
圖 3:任務(wù) - 行動(dòng)數(shù)據(jù)收集過程
階段二:任務(wù) - 行動(dòng)數(shù)據(jù)收集
任務(wù) - 計(jì)劃數(shù)據(jù)雖然用于高層次規(guī)劃,但不能直接執(zhí)行。如圖 3 所示,為填補(bǔ)從規(guī)劃到執(zhí)行的差距,該團(tuán)隊(duì)通過以下步驟生成任務(wù) - 行動(dòng)數(shù)據(jù):
2. 執(zhí)行驗(yàn)證:在真實(shí)環(huán)境中執(zhí)行實(shí)例化的任務(wù),捕獲執(zhí)行軌跡和環(huán)境反饋,確保行動(dòng)序列的可操作性和正確性。
3. 評(píng)估與后處理:使用 GPT-4o 對(duì)執(zhí)行結(jié)果進(jìn)行驗(yàn)證,僅保留與任務(wù)目標(biāo)一致的成功軌跡,并記錄詳細(xì)元數(shù)據(jù)(如環(huán)境狀態(tài)和執(zhí)行時(shí)間),最終生成結(jié)構(gòu)化的任務(wù) - 行動(dòng)對(duì)。
這一流程最終生成了覆蓋廣泛操作場(chǎng)景的任務(wù) - 行動(dòng)數(shù)據(jù)集,為 LAM 訓(xùn)練提供了精確的行動(dòng)模板,顯著提升了模型在真實(shí)環(huán)境中的任務(wù)執(zhí)行能力。
通過兩階段的逐步積累,成功地從「無數(shù)據(jù)」?fàn)顟B(tài)出發(fā),構(gòu)建了 LAM 訓(xùn)練所需的高質(zhì)量任務(wù) - 行動(dòng)數(shù)據(jù)。這一方法不僅解決了數(shù)據(jù)稀缺問題,還通過引入真實(shí)環(huán)境交互和動(dòng)態(tài)驗(yàn)證,確保數(shù)據(jù)的高效性和適用性,為從 LLMs 到 LAMs 的轉(zhuǎn)變提供了堅(jiān)實(shí)基礎(chǔ)。
方法:從 0 到 1,逐步構(gòu)建 LAM
如圖 4 所示,構(gòu)建 LAM 的過程分為四個(gè)階段,涵蓋了從數(shù)據(jù)積累到模型訓(xùn)練的完整工作流。
圖 4:LAM 的訓(xùn)練過程
第一階段:任務(wù)計(jì)劃預(yù)訓(xùn)練
為了讓模型具備基本的任務(wù)規(guī)劃能力,首先訓(xùn)練模型生成任務(wù)分解計(jì)劃。數(shù)據(jù)來源為任務(wù) - 計(jì)劃數(shù)據(jù)。模型的目標(biāo)是根據(jù)輸入任務(wù)生成正確的任務(wù)分解計(jì)劃。例如,「在 Word 中插入表格」被分解為「點(diǎn)擊插入菜單」、「選擇表格選項(xiàng)」、「輸入表格行列數(shù)」等步驟。這一階段讓模型掌握了任務(wù)分解的基本能力,為后續(xù)的行動(dòng)生成打下了基礎(chǔ)。
第二階段:專家知識(shí)學(xué)習(xí)
盡管第一階段的模型可以生成任務(wù)計(jì)劃,但仍缺乏執(zhí)行這些計(jì)劃的能力。為此,需要利用收集到的任務(wù) - 行動(dòng)數(shù)據(jù),并通過模仿學(xué)習(xí)訓(xùn)練模型執(zhí)行具體操作。經(jīng)過訓(xùn)練,模型從一個(gè)被動(dòng)的計(jì)劃生成器轉(zhuǎn)變?yōu)槟軌驁?zhí)行計(jì)劃的主動(dòng)行動(dòng)生成器。
第三階段:自我探索提升
專家數(shù)據(jù)的覆蓋范圍有限,無法囊括所有可能的任務(wù)場(chǎng)景。為此,該團(tuán)隊(duì)設(shè)計(jì)了自我探索機(jī)制,將 LAM 部署在 UFO 中,UFO 是一個(gè)開源 GUI Agent 框架,能夠通過交互 Windows 操作系統(tǒng)中的圖形用戶界面(GUI)元素來完成任務(wù)。讓 LAM 嘗試完成之前失敗的任務(wù),并從中積累新的成功經(jīng)驗(yàn)。
1. 任務(wù)挑戰(zhàn):模型嘗試完成 2,284 個(gè)由 GPT-4 未解決的任務(wù),通過動(dòng)態(tài)探索生成可能的成功軌跡。
2. 數(shù)據(jù)擴(kuò)展:在自我探索中,模型生成了 496 條新成功軌跡,將其與之前的專家數(shù)據(jù)合并形成擴(kuò)展數(shù)據(jù)集。
3. 模型迭代:通過再次微調(diào),模型進(jìn)一步提升了處理復(fù)雜任務(wù)的能力,增強(qiáng)了對(duì)未知環(huán)境的適應(yīng)性。
這一階段實(shí)現(xiàn)了從無數(shù)據(jù)到新數(shù)據(jù)的自動(dòng)生成與積累,擴(kuò)展了訓(xùn)練數(shù)據(jù)的覆蓋范圍。
第四階段:獎(jiǎng)勵(lì)模型優(yōu)化
為了進(jìn)一步提升模型的行動(dòng)質(zhì)量,在此引入了獎(jiǎng)勵(lì)模型(Reward Model, RM),同時(shí)利用正負(fù)反饋,通過強(qiáng)化學(xué)習(xí)優(yōu)化 LAM 的決策能力。
實(shí)驗(yàn)結(jié)果
離線實(shí)驗(yàn)結(jié)果
表格 1:不同 LAM 訓(xùn)練階段的離線實(shí)驗(yàn)結(jié)果
為了驗(yàn)證訓(xùn)練方法的有效性,該團(tuán)隊(duì)在 435 個(gè)任務(wù)上對(duì)不同階段的 LAM 模型進(jìn)行了離線測(cè)試。如表格 1 的實(shí)驗(yàn)結(jié)果顯示,LAM 的各階段的訓(xùn)練都帶來了模型性能提升。
環(huán)境適配
圖 5:LAM 智能體架構(gòu)
如圖 5 所示,經(jīng)過訓(xùn)練的 LAM 模型被集成到 GUI 智能體 UFO 的 AppAgent 中作為推理引擎,后者充當(dāng)橋梁,將 LAM 預(yù)測(cè)的動(dòng)作「著地」為可執(zhí)行的實(shí)際操作。
線上實(shí)驗(yàn)結(jié)果
表格 2:LAM 的線上實(shí)驗(yàn)結(jié)果
如表格 2 所示,LAM 在線上實(shí)驗(yàn)任務(wù)中成功率(TSR)方面表現(xiàn)優(yōu)異,達(dá)到 71.0%,在文本輸入模式下超越了基線模型(GPT-4o 和 GPT-4o Mini)。
效率對(duì)比
LAM 在任務(wù)完成時(shí)間和平均步時(shí)延上展現(xiàn)了顯著優(yōu)勢(shì):
1. 任務(wù)完成時(shí)間:LAM 完成單個(gè)任務(wù)平均耗時(shí)僅 30.42 秒,相比之下,無視覺輸入的 GPT-4o 耗時(shí) 86.42 秒,約為 LAM 的 2.84 倍,而帶視覺輸入的 GPT-4o 耗時(shí)更長(zhǎng),為 96.48 秒。
2. 平均步時(shí)延:LAM 的每步時(shí)延為 5.41 秒,顯著優(yōu)于無視覺輸入的 GPT-4o(12.84 秒)和帶視覺輸入的 GPT-4o(19.36 秒)。