劃重點(diǎn)
01麻省理工學(xué)院等四個(gè)團(tuán)隊(duì)的研究發(fā)現(xiàn),人類(lèi)尚且難以對(duì)齊,更難以讓AI與自己對(duì)齊。
02研究批判了當(dāng)前AI對(duì)齊研究的缺陷,提出了值得進(jìn)一步研究的替代方案。
03他們提出將AI直接與優(yōu)秀助手/程序員/司機(jī)等規(guī)范性理想目標(biāo)對(duì)齊,而非與人類(lèi)的集體意志對(duì)齊。
04然而,偏好主義在實(shí)踐中的主導(dǎo)方法仍面臨諸多技術(shù)和哲學(xué)難題,如社會(huì)選擇、反社會(huì)偏好等。
05該團(tuán)隊(duì)呼吁確定偏好主義方法的描述性和規(guī)范性承諾,明確說(shuō)明其局限性,并描述可供進(jìn)一步研究的概念和技術(shù)替代方案。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
機(jī)器之心報(bào)道
編輯:Panda
讓 AI 與人類(lèi)價(jià)值觀(guān)對(duì)齊一直都是 AI 領(lǐng)域的一大重要且熱門(mén)的研究課題,甚至很可能是 OpenAI 高層分裂的一大重要原因 CEO 薩姆·奧特曼似乎更傾向于更快實(shí)現(xiàn) AI 商業(yè)化,而以伊爾亞·蘇茨克維(Ilya Sutskever)為代表的一些研究者則更傾向于先保證 AI 安全。
但人類(lèi)真的能讓 AI 與自己對(duì)齊嗎?近日,來(lái)自麻省理工學(xué)院、加州大學(xué)伯克利分校、倫敦大學(xué)學(xué)院、劍橋大學(xué)的一個(gè)四人團(tuán)隊(duì)研究發(fā)現(xiàn),人類(lèi)尚且難以對(duì)齊,也就更難以讓 AI 與自己對(duì)齊了。他們批判性地審視了當(dāng)前 AI 對(duì)齊研究的缺陷,另外他們也展示了一些替代方案。
論文標(biāo)題:Beyond Preferences in AI Alignment
論文地址:https://arxiv.org/pdf/2408.16984
這篇論文的一作 Tan Zhi-Xuan 在 X 上稱(chēng)這項(xiàng)研究耗時(shí)近 2 年時(shí)間,其表示這既是一份批判性評(píng)論,也是一份研究議程。「在其中,我們根據(jù) 4 個(gè)偏好論題描述了偏好在 AI 對(duì)齊中的作用。然后,我們強(qiáng)調(diào)了它們的局限性,并提出了值得進(jìn)一步研究的替代方案。」
哲學(xué)家 Nora Belrose 總結(jié)了這篇論文中一些有趣的結(jié)論:
人類(lèi)在行事時(shí)甚至都不能大致遵循理性選擇理論;
沒(méi)有理由認(rèn)為高級(jí) AI 必定會(huì)最大化某個(gè)效用函數(shù);
人類(lèi)偏好是推斷出來(lái)的或構(gòu)建起來(lái)的,因此將 AI 的行為與我們表述出來(lái)的偏好對(duì)齊是錯(cuò)誤的方向;相反,我們可以將 AI 直接與「優(yōu)秀助手 / 程序員 / 司機(jī)等」規(guī)范性理想目標(biāo)對(duì)齊;
聚合人類(lèi)的偏好充滿(mǎn)哲學(xué)和數(shù)學(xué)困難;我們的目標(biāo)不應(yīng)該是讓 AI 與「人類(lèi)的集體意志」對(duì)齊。
該團(tuán)隊(duì)首先提出,「人類(lèi)價(jià)值觀(guān)」這個(gè)術(shù)語(yǔ)其實(shí)沒(méi)有清晰明確的定義,因此就很難對(duì)其進(jìn)行量化,從而讓機(jī)器對(duì)齊。
目前,定義「價(jià)值」的一種主要方法是基于人類(lèi)偏好,這種方法源自利用理性選擇理論、統(tǒng)計(jì)決策理論的傳統(tǒng)及其對(duì)人工智能中的自動(dòng)決策和強(qiáng)化學(xué)習(xí)的影響。
無(wú)論是明確采用,還是以「獎(jiǎng)勵(lì)」或「效用」的形式隱含地假設(shè),這種基于偏好的方法已經(jīng)成為人工智能對(duì)齊的理論和實(shí)踐的主導(dǎo)方法。
但是,就連該方法的支持者也指出,在對(duì)齊 AI 與人類(lèi)偏好方面存在諸多技術(shù)和哲學(xué)難題,包括社會(huì)選擇、反社會(huì)偏好、偏好變化以及難以從人類(lèi)行為中推斷偏好。
這項(xiàng)研究認(rèn)為,要想真正解決這些難題,就不能僅僅基于本體論、認(rèn)識(shí)論或規(guī)范性理論來(lái)看待人類(lèi)偏好。借用福利哲學(xué)中的一個(gè)術(shù)語(yǔ),該團(tuán)隊(duì)將這些對(duì) AI 對(duì)齊的描述形式表述成了一種范圍寬廣用于 AI 對(duì)齊的偏好主義(preferentist)方法。之后,基于偏好在決策中的作用,他們又將這些方法分成了四類(lèi):
將理性選擇理論作為描述性框架。人類(lèi)行為和決策被很好地建模為近似地滿(mǎn)足最大化偏好,這可以表示為效用或獎(jiǎng)勵(lì)函數(shù)。
將預(yù)期效用理論作為規(guī)范標(biāo)準(zhǔn)。理性可以被描述為預(yù)期效用的最大化。此外,應(yīng)根據(jù)這一規(guī)范標(biāo)準(zhǔn)設(shè)計(jì)和分析 AI 系統(tǒng)。
將單主體對(duì)齊作為偏好匹配。對(duì)于要與單個(gè)人類(lèi)主體對(duì)齊的 AI 系統(tǒng),它應(yīng)盡可能地滿(mǎn)足該人類(lèi)的偏好。
將多主體對(duì)齊作為偏好聚合。為了使 AI 系統(tǒng)與多個(gè)人類(lèi)主體對(duì)齊,它們應(yīng)以最大限度地滿(mǎn)足其總體偏好。
這些論點(diǎn)都只是觀(guān)點(diǎn),而非一個(gè)統(tǒng)一的 AI 對(duì)齊理論。盡管如此,它們表達(dá)的思想是緊密關(guān)聯(lián)的,并且大多數(shù) AI 對(duì)齊方法都采用了其中 2 個(gè)或更多論點(diǎn)。比如逆向強(qiáng)化學(xué)習(xí)、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)和直接偏好優(yōu)化(DPO)全都假定可通過(guò)一個(gè)獎(jiǎng)勵(lì)或效用函數(shù)來(lái)很好地建模人類(lèi)偏好,并且該函數(shù)還可被進(jìn)一步優(yōu)化。
當(dāng)然,偏好主義也有批評(píng)者。多年來(lái)人們一直在爭(zhēng)論上述論點(diǎn)是否合理。即便如此,偏好主義仍舊是實(shí)踐中的主導(dǎo)方法。
因此,該團(tuán)隊(duì)表示:「我們相信有必要確定偏好主義方法的描述性和規(guī)范性承諾,明確說(shuō)明其局限性,并描述可供進(jìn)一步研究的概念和技術(shù)替代方案!
下面我們將簡(jiǎn)要總結(jié)該論文梳理的觀(guān)點(diǎn)和替代方案,詳細(xì)描述請(qǐng)參閱原論文。
在建模人類(lèi)時(shí),超越理性選擇理論
理性選擇理論的核心原則是:假設(shè)人類(lèi)的行為是為了盡可能地滿(mǎn)足自己的偏好,并且個(gè)體和總體人類(lèi)行為都可以用這些術(shù)語(yǔ)來(lái)理解。就理論前提而言,這一假設(shè)非常成功,并且還構(gòu)成了現(xiàn)代經(jīng)濟(jì)學(xué)這門(mén)學(xué)科的基石,還影響了與人類(lèi)行為分析有關(guān)的許多領(lǐng)域,包括社會(huì)學(xué)、法學(xué)和認(rèn)知科學(xué)。
將揭示型偏好及其表征用作效用函數(shù)。理性選擇理論最標(biāo)準(zhǔn)的形式是假設(shè)人類(lèi)偏好可以表示為一個(gè)標(biāo)量值的效用函數(shù),而人類(lèi)選擇就可建模成選取的動(dòng)作,其目標(biāo)是最大化該函數(shù)的預(yù)期值。這種方法希望可以直接從人類(lèi)的選擇中得出其偏好,并且還可以將他們的偏好程度表示為標(biāo)量值。這樣的偏好被稱(chēng)為揭示型偏好(revealed preferences),因?yàn)樗鼈儠?huì)在人類(lèi)選擇過(guò)程中逐步揭示出來(lái)。這些方法有眾多定理支持。這些定理表明,任何遵循某些「理性公理」的結(jié)果偏好排序都可以用效用函數(shù)來(lái)表示,例如著名的馮·諾依曼 - 摩根斯坦(VNM)效用定理。
機(jī)器學(xué)習(xí)中的理性選擇理論。根據(jù)理性選擇理論,許多機(jī)器學(xué)習(xí)和 AI 系統(tǒng)還假設(shè)人類(lèi)偏好可以或多或少直接地基于人類(lèi)選擇得出,并且進(jìn)一步用標(biāo)量效用或獎(jiǎng)勵(lì)來(lái)表示這些偏好。逆向強(qiáng)化學(xué)習(xí)和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)領(lǐng)域尤其如此,它們假設(shè)人類(lèi)的行為可以描述為(近似地)最大化隨時(shí)間推移的標(biāo)量獎(jiǎng)勵(lì)總和,然后嘗試推斷出一個(gè)能解釋所觀(guān)察到的行為的獎(jiǎng)勵(lì)函數(shù)。推薦系統(tǒng)領(lǐng)域也可以找到類(lèi)似的假設(shè)。
帶噪理性選擇(noisily-rational choice)的玻爾茲曼模型。雖然這些基于偏好的人類(lèi)行為模型基于理性選擇理論,但值得注意的是,它們比僅僅「最大化預(yù)期效用」可能要更復(fù)雜一些。因?yàn)槿祟?lèi)其實(shí)很復(fù)雜,并不總是在最大化效用,因此模型必然帶有噪聲,只能算是近似的理性選擇。在機(jī)器學(xué)習(xí)和 AI 對(duì)齊領(lǐng)域,這種選擇模型的最常見(jiàn)形式是玻爾茲曼理性(得名于統(tǒng)計(jì)力學(xué)中的玻爾茲曼分布),它假設(shè)選擇 c 的概率正比于做出該選擇的預(yù)期效用的指數(shù):。
玻爾茲曼理性的論證和擴(kuò)展。這種選擇模型在實(shí)踐和理論上都很有用。比如,通過(guò)調(diào)整「理性參數(shù)」 β(在 0 到無(wú)窮大之間),可以在完全隨機(jī)選擇和確定性最優(yōu)選擇之間調(diào)整玻爾茲曼理性。理論上,玻爾茲曼理性可作為盧斯(Luce)選擇公理的一個(gè)實(shí)例,也可作為熱力學(xué)啟發(fā)的有限理性模型。此外,玻爾茲曼理性已擴(kuò)展到建模人類(lèi)行為的其它方面,除了目標(biāo)導(dǎo)向動(dòng)作之外,還包括選項(xiàng)之間的直接比較、顯式陳述的獎(jiǎng)勵(lì)函數(shù)、整體行為策略和語(yǔ)言表達(dá),從而允許從多種形式的人類(lèi)反饋中推斷出偏好。
玻爾茲曼理性的局限性。盡管玻爾茲曼理性可能很有用,但尋求替代方案也很重要。首先,它不是唯一直觀(guān)合理的噪聲理性選擇模型:隨機(jī)效用模型是將選擇建模成最大化隨機(jī)擾動(dòng)效用值的結(jié)果,并被廣泛用于市場(chǎng)營(yíng)銷(xiāo)研究。更重要的是,帶噪理性不足以解釋人類(lèi)未能采取最佳行動(dòng)的全部方式。為了準(zhǔn)確地從人類(lèi)行為中推斷出人類(lèi)的偏好和價(jià)值觀(guān),必需更豐富的有限理性模型。最根本的是,人類(lèi)動(dòng)機(jī)不能完全歸結(jié)為單純的偏好或效用函數(shù)。我們需要更豐富的人類(lèi)理性模型。
這一節(jié)討論并擴(kuò)展的議題包括:
人類(lèi)決策的帶噪理性模型;
將獎(jiǎng)勵(lì)和效用函數(shù)用作人類(lèi)偏好的表征;
將偏好用作人類(lèi)價(jià)值和理性的表征。
超越將預(yù)期效用理論作為理性的規(guī)范標(biāo)準(zhǔn)
現(xiàn)在,問(wèn)題來(lái)了:對(duì)于人類(lèi)和機(jī)器行為來(lái)說(shuō),效用最大化是預(yù)期的規(guī)范標(biāo)準(zhǔn)嗎?也就是說(shuō),智能體是否應(yīng)該將最大化滿(mǎn)足其偏好作為完美理性的條件,而不論其實(shí)際做得如何。
EUT(預(yù)期效用理論)的一致性論據(jù)。關(guān)于這種規(guī)范性標(biāo)準(zhǔn)的可行性,一直存在爭(zhēng)議。支持 EUT 的論據(jù)包括前面提到的效用表示定理。該定理基于這一公理:偏好算作理性;然后證明任何遵循偏好行事的智能體的行為都必定像是在最大化預(yù)期效用。在 AI 對(duì)齊文獻(xiàn)中,這些結(jié)果通常被視為關(guān)于理性智能體的「一致性定理(coherence theorems)」。
將 AI 對(duì)齊視為對(duì)齊預(yù)期效用最大化;谶@些論據(jù),AI 對(duì)齊研究者傳統(tǒng)上認(rèn)為:先進(jìn) AI 系統(tǒng)的行為就像是在最大化預(yù)期效用。因此,很多人將對(duì)齊 AI 的問(wèn)題表述為如何讓預(yù)期效用最大化算法對(duì)齊的問(wèn)題,并且各種提議方案都側(cè)重于如何規(guī)避效用最大化的危險(xiǎn)或準(zhǔn)確學(xué)習(xí)正確的效用函數(shù)。畢竟,如果先進(jìn)的 AI 系統(tǒng)必定遵守 EUT,那么對(duì)齊此類(lèi)系統(tǒng)的唯一希望就是留在其范圍內(nèi)。此外,如果預(yù)期效用最大化是理性所需的 如果智能意味著理性 那么任何基于人類(lèi)價(jià)值觀(guān)行事的足夠智能的智能體最終都必須將這些價(jià)值觀(guān)整合為一個(gè)效用函數(shù)。
這一節(jié)討論并擴(kuò)展的議題包括:
將預(yù)期效用理論用作一個(gè)分析視角;
將全局一致性智能體作為設(shè)計(jì)目標(biāo);
偏好作為動(dòng)作的規(guī)范基矗
超越將單主體 AI 對(duì)齊用作偏好匹配
如果理性選擇理論不能充分描述人類(lèi)的行為和價(jià)值觀(guān),而預(yù)期效用理論不能令人滿(mǎn)意地解釋理性決策,那么這對(duì) AI 對(duì)齊的實(shí)踐意味著什么?
盡管人們?cè)絹?lái)越意識(shí)到這些偏好假設(shè)的局限性,但大多數(shù)應(yīng)用的 AI 對(duì)齊方法仍將對(duì)齊視為偏好匹配問(wèn)題:給定一個(gè) AI 系統(tǒng),目標(biāo)是確保其行為符合人類(lèi)用戶(hù)或開(kāi)發(fā)者的偏好。
通過(guò)基于偏好匹配的獎(jiǎng)勵(lì)學(xué)習(xí)來(lái)實(shí)現(xiàn)對(duì)齊。目前,這類(lèi)方法中最著名的莫過(guò)于 RLHF;谟脩(hù)陳述其偏好的數(shù)據(jù)集,RLHF 會(huì)學(xué)習(xí)估計(jì)用戶(hù)假設(shè)存在的獎(jiǎng)勵(lì)函數(shù)(獎(jiǎng)勵(lì)模型)。然后,AI 系統(tǒng)會(huì)學(xué)習(xí)繼續(xù)優(yōu)化學(xué)習(xí)得到的獎(jiǎng)勵(lì)模型,目標(biāo)是得到更符合用戶(hù)偏好的行為。RLHF 最早是為經(jīng)典控制問(wèn)題開(kāi)發(fā)的,但現(xiàn)在已經(jīng)被用于訓(xùn)練越來(lái)越復(fù)雜的 AI 系統(tǒng),包括用于機(jī)器人控制的深度神經(jīng)網(wǎng)絡(luò)和大型語(yǔ)言模型(LLM)。其中后者更是憑借其強(qiáng)大的能力和通用性為 RLHF 吸睛無(wú)數(shù)。
獎(jiǎng)勵(lì)學(xué)習(xí)的根本局限性。RLHF 盡管成功,但仍面臨著許多技術(shù)難題,包括偏好引出問(wèn)題和可擴(kuò)展監(jiān)督問(wèn)題、過(guò)度優(yōu)化問(wèn)題、穩(wěn)定訓(xùn)練問(wèn)題。不僅 RLHF ,所以獎(jiǎng)勵(lì)學(xué)習(xí)方法都存在問(wèn)題,包括前述的表征限制問(wèn)題和采用預(yù)期效用理論的問(wèn)題。
獎(jiǎng)勵(lì)學(xué)習(xí)和偏好匹配的范圍有限。為了解決這些局限性,還需要怎樣的 AI 對(duì)齊研究?該團(tuán)隊(duì)表示:「我們并不是說(shuō)基于獎(jiǎng)勵(lì)的模型永遠(yuǎn)不合適。相反,我們認(rèn)為基于獎(jiǎng)勵(lì)的對(duì)齊(以及更廣義的偏好匹配)僅適用于有足夠本地用途和范圍的 AI 系統(tǒng)!挂簿褪钦f(shuō),它僅適用于價(jià)值對(duì)齊問(wèn)題的最狹隘和最簡(jiǎn)化版本,其中的價(jià)值和范式可以總結(jié)為特定于該系統(tǒng)范圍的獎(jiǎng)勵(lì)函數(shù)。AI 對(duì)齊還需要更多:AI 系統(tǒng)必須了解每個(gè)人的偏好是如何動(dòng)態(tài)構(gòu)建的,并與產(chǎn)生這些偏好的底層價(jià)值觀(guān)保持一致。
這一節(jié)討論并擴(kuò)展的議題包括:
標(biāo)量和非情境獎(jiǎng)勵(lì)的對(duì)齊;
靜態(tài)和非社交偏好的對(duì)齊;
偏好作為對(duì)齊的目標(biāo)。
超越將多主體 AI 對(duì)齊用作偏好聚合
在批評(píng)了基于偏好的單主體對(duì)齊概念之后,現(xiàn)在轉(zhuǎn)向多主體對(duì)齊的問(wèn)題:考慮到人類(lèi)如此之多,持有的價(jià)值觀(guān)也非常多,那么 AI 系統(tǒng)應(yīng)當(dāng)與其中哪些對(duì)齊呢?
偏好聚合的理論論證。這個(gè)問(wèn)題的傳統(tǒng)答案是,AI 系統(tǒng)應(yīng)該與人類(lèi)的總體偏好對(duì)齊。為什么會(huì)這樣?部分原因可能是偏好效用主義倫理具有規(guī)范性的吸引力。但是,在 AI 對(duì)齊文獻(xiàn)中,偏好聚合的論證通常更具技術(shù)性,會(huì)使用 Harsanyi 的社會(huì)聚合定理作為依據(jù)。進(jìn)一步假設(shè)所有人類(lèi)也都這樣做,這樣每個(gè)個(gè)體 i 的偏好都可以表示成對(duì)結(jié)果 x 的偏好 U_i (x)。最后,假設(shè)一致性是理性社會(huì)選擇的最低要求 如果所有人類(lèi)都偏好某個(gè)(概率性)結(jié)果 x 而非 y,則該 AI 系統(tǒng)也應(yīng)該更偏好 x 而非 y。那么,Harsanyi 定理表明 AI 系統(tǒng)的效用函數(shù) U (x) 必定是單個(gè)效用函數(shù)的加權(quán)聚合:
對(duì)齊實(shí)踐中的偏好聚合。但是,無(wú)論這個(gè)理論觀(guān)點(diǎn)如何具有說(shuō)服力,AI 對(duì)齊實(shí)踐中還是經(jīng)常出現(xiàn)偏好聚合。RLHF 就是一個(gè)顯著例證:盡管 RLHF 原本是為單個(gè)人類(lèi)上下文設(shè)計(jì)的,但實(shí)踐中,RLHF 總是用于從多個(gè)人類(lèi)標(biāo)注者收集的偏好數(shù)據(jù)集。近期有研究表明,這種實(shí)踐等價(jià)于 Borda 計(jì)數(shù)投票規(guī)則。在效果上,每位標(biāo)注者的選擇都會(huì)根據(jù)其在一組可能替代方案中的排名進(jìn)行加權(quán)。
偏好聚合的實(shí)踐、政策和基礎(chǔ)限制。這一節(jié)將從實(shí)踐、政策和基礎(chǔ)層面對(duì) AI 對(duì)齊中的偏好聚合進(jìn)行批判性的審視。在實(shí)踐層面上,該團(tuán)隊(duì)表示偏好聚合常常被錯(cuò)誤解讀和錯(cuò)誤應(yīng)用,這樣一來(lái),即使人們接受 Harsanyi 風(fēng)格的效用聚合作為規(guī)范性理想方法,在實(shí)踐中使用各種非效用聚合規(guī)則的效果通常更好。在政策層面上,該團(tuán)隊(duì)批評(píng)了聚合主義方法的理想化性質(zhì),他們認(rèn)為,由于我們這個(gè)社會(huì)存在多樣化且互有爭(zhēng)議的價(jià)值觀(guān),因此基于協(xié)商和社會(huì)契約理論的方法在政策層面上更可行。在基礎(chǔ)層面上,基于前面對(duì) EUT 和偏好匹配的批評(píng),該團(tuán)隊(duì)將其闡述成了對(duì)效用注意聚合的規(guī)范性的批評(píng)。
這一節(jié)討論并擴(kuò)展的議題包括:
簡(jiǎn)單的效用主義偏好聚合;
將總體偏好用作對(duì)齊目標(biāo)。
參考鏈接:https://x.com/xuanalogue/status/1831044533779669136