新智元報道
編輯:KingHZ 好困【新智元導(dǎo)讀】Sakana AI發(fā)布了Transformer新方法,通過奇異值微調(diào)和權(quán)重自適應(yīng)策略,提高了LLM的泛化和自適應(yīng)能力。新方法在文本任務(wù)上優(yōu)于LoRA;即便是從未見過的任務(wù),比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。
從章魚通過改變皮膚顏色來融入周圍環(huán)境,到人類大腦在受傷后重新連接神經(jīng)網(wǎng)絡(luò),無不體現(xiàn)著那句經(jīng)典的名言「物競天擇,適者生存」。
然而,對于LLM來說,想要加入哪怕只是句話的新知識,都必須要再訓(xùn)練一次。
針對這一挑戰(zhàn),來自Sakana AI的研究團(tuán)隊剛剛提出了一種全新的方法Transformer。它可以通過實時選擇性地調(diào)整權(quán)重矩陣中的單一組件,使LLM能夠適應(yīng)未見過的任務(wù)。
文章鏈接:https://arxiv.org/pdf/2501.06252代碼鏈接:https://github.com/SakanaAI/self-adaptive-llms
傳統(tǒng)上,LLM的后訓(xùn)練通過一次全面的訓(xùn)練來優(yōu)化模型,使其具備廣泛的能力。
從簡化的角度,這種「one shot」微調(diào)框架看起來很理想,但在實際操作中卻很難實現(xiàn)。例如,后訓(xùn)練需要大量資源,導(dǎo)致計算成本和訓(xùn)練時間顯著增加。此外,當(dāng)引入更多樣化的數(shù)據(jù)時,很難同時克服過擬合和任務(wù)干擾。
相比之下,自適應(yīng)模型提供了一種更靈活高效的方法。與其一次性訓(xùn)練LLM來應(yīng)對所有任務(wù),不如開發(fā)專家模塊,根據(jù)需求將其離線開發(fā)并增強到基礎(chǔ)LLM中。
然而,創(chuàng)建多個專家模塊,對LLM進(jìn)行微調(diào),顯著增加了需要訓(xùn)練的參數(shù)數(shù)量,而且容易過擬合,模塊之間的組合也不夠靈活。
對此,新框架通過有選擇性地調(diào)整模型權(quán)重中的關(guān)鍵組件,讓LLM能夠?qū)崟r適應(yīng)新任務(wù)。
Transformer的名稱體現(xiàn)了它的兩步過程:首先,模型分析傳入的任務(wù),理解其需求;然后應(yīng)用任務(wù)專用的適應(yīng)性調(diào)整,生成最佳結(jié)果。
Transformer在多種任務(wù)(如數(shù)學(xué)、編碼、推理和視覺理解)中表現(xiàn)出了顯著的進(jìn)步,在效率和特定任務(wù)的表現(xiàn)上超越了傳統(tǒng)靜態(tài)方法如LoRA,同時所需的參數(shù)大大減少。
LLM的「大腦」:權(quán)重矩陣
人類大腦通過互聯(lián)的神經(jīng)通路,存儲知識并處理信息。而LLM將知識存儲在權(quán)重矩陣中。這些矩陣構(gòu)成了LLM的「大腦」,保存了它從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的核心內(nèi)容。
要理解這個「大腦」,并確保它能夠有效地適應(yīng)新任務(wù),需要深入分析其內(nèi)部結(jié)構(gòu)。
而奇異值分解(SVD)提供了寶貴的洞察力。
可以將SVD看作是一名外科醫(yī)生,正在對LLM的大腦進(jìn)行細(xì)致操作。這名外科醫(yī)生將LLM中存儲的龐大復(fù)雜的知識分解成更小、更有意義且獨立的部分(例如,針對數(shù)學(xué)、語言理解等的不同路徑或組件)。
SVD通過識別LLM權(quán)重矩陣中的主成分來實現(xiàn)這一目標(biāo)。
在新研究中發(fā)現(xiàn),增強某些成分的信號,同時抑制其他部分的信號,可以提高LLM在下游任務(wù)中的表現(xiàn)。
基于這一發(fā)現(xiàn),Transformer邁出了下一步,向動態(tài)、任務(wù)特定的適應(yīng)性發(fā)展,讓LLM能在多種復(fù)雜場景中表現(xiàn)得更加出色。
引入Transformer
Transformer通過兩步過程重新定義了LLM如何應(yīng)對多樣的任務(wù)。其核心在于能夠動態(tài)調(diào)整權(quán)重矩陣中的關(guān)鍵組件。
在訓(xùn)練階段,引入了奇異值微調(diào)(SVF)方法,該方法使用強化學(xué)習(xí)(RL)來增強或抑制不同「大腦」組件的信號,以應(yīng)對多種下游任務(wù)。
在推理階段,新方法采用三種不同的策略來識別任務(wù)的特征,并根據(jù)任務(wù)要求調(diào)整模型的權(quán)重。
下圖概述了新方法。
左圖:使用SVD將LLM的「大腦」(即權(quán)重矩陣)分解為若干獨立的組件。
右圖:利用RL訓(xùn)練這些組件的組合以應(yīng)對不同任務(wù)。組件可能在多個任務(wù)中共享。例如,在上圖中,紫色齒輪在語言理解和推理任務(wù)之間是共享的。推理時,首先識別任務(wù)類型,然后動態(tài)調(diào)整組件的組合。
使用SVF和RL進(jìn)行訓(xùn)練
在訓(xùn)練階段,SVF學(xué)習(xí)一組z向量,其中每個下游任務(wù)對應(yīng)一個z向量。
每個z向量可以視作該任務(wù)的專家,它是一個緊湊的表示,指定了權(quán)重矩陣中每個組件的期望強度,充當(dāng)「放大器」或「衰減器」,調(diào)節(jié)不同組件對模型行為的影響。例如,假設(shè)SVD將權(quán)重矩陣分解為五個組件[A,B,C,D,E]。
對于數(shù)學(xué)任務(wù),學(xué)習(xí)到的z向量可能是[1,0.8,0,0.3,0.5],這表明組件A對數(shù)學(xué)任務(wù)至關(guān)重要,而組件C幾乎不影響其表現(xiàn)。
對于語言理解任務(wù),z向量可能是[0.1,0.3,1,0.7,0.5],表明盡管C組件對數(shù)學(xué)任務(wù)的貢獻(xiàn)較小,但它對語言理解任務(wù)至關(guān)重要。
SVF利用RL在預(yù)定義的下游任務(wù)集上學(xué)習(xí)這些z向量。
學(xué)習(xí)到的z向量使Transformer能夠適應(yīng)各種新的下游任務(wù),同時僅引入最少量的附加參數(shù)(即z向量)。
自適應(yīng)性
在推理階段,新框架使用兩階段適應(yīng)策略,有效地結(jié)合了任務(wù)專用的z向量。在第一次推理階段,給定任務(wù)或單個輸入提示,Transformer通過以下三種適應(yīng)方法之一來分析測試時的條件。
在第二階段,Transformer結(jié)合這些z向量來調(diào)節(jié)權(quán)重,從而生成最適合新設(shè)置的最終響應(yīng)。
新研究總結(jié)了三種任務(wù)檢測/適應(yīng)方法如下:
基于提示的適應(yīng):使用專門設(shè)計的適應(yīng)性提示,對任務(wù)分類(如數(shù)學(xué)、編程),并選擇一個預(yù)訓(xùn)練的z向量。
基于分類器的適應(yīng):使用SVF訓(xùn)練的任務(wù)分類器在推理時識別任務(wù),并選擇合適的z向量。
少樣本適應(yīng):通過加權(quán)插值結(jié)合多個預(yù)訓(xùn)練的z向量。簡單的優(yōu)化算法根據(jù)在少樣本評估集上的表現(xiàn)調(diào)整這些權(quán)重。
這三種方法共同確保了Transformer能夠?qū)崿F(xiàn)強大且高效的任務(wù)適應(yīng),為其在多種場景下的出色表現(xiàn)奠定了基礎(chǔ)。
主要結(jié)果
作者將這些方法應(yīng)用于Llama和Mistral LLM,在廣泛的任務(wù)上進(jìn)行測試,包括數(shù)學(xué)(GSM8K,MATH)、代碼(MBPP-Pro,HumanEval)、推理(ARC-Easy,ARC-Challenge)和視覺問答(TextVQA,OKVQA)。SVF測評
首先通過SVF在這些任務(wù)上獲取z向量,并與LoRA進(jìn)行了比較。下表中的結(jié)果表明,SVF在文本任務(wù)上優(yōu)于LoRA,特別是在GSM8K任務(wù)上有顯著提升。這可以歸因于RL訓(xùn)練目標(biāo)。與LoRA的微調(diào)方法不同,RL不要求每個問題都有「完美解決方案」。右側(cè)的直方圖也展示了SVF在視覺領(lǐng)域的驚人表現(xiàn)。
未見過的任務(wù)隨后將適應(yīng)框架與LoRA在未見過的任務(wù)上進(jìn)行對比評估,特別是在MATH、HumanEval和ARC-Challenge任務(wù)上。下表左側(cè)展示了,隨著方法復(fù)雜度的提升,新架構(gòu)的策略在所有任務(wù)上都取得了逐步的性能提升。
在未見任務(wù)上的測試集表現(xiàn)。左圖:在未見任務(wù)上的自適應(yīng)。右圖:學(xué)習(xí)到的z向量插值權(quán)重。
而右圖分析了少樣本(few-shot)學(xué)習(xí)如何結(jié)合不同的z向量來處理任務(wù)。在解決MATH問題時,出乎意料的是,模型并非僅依賴于其專門為GSM8K(數(shù)學(xué))任務(wù)訓(xùn)練的z向量。這表明,復(fù)雜的數(shù)學(xué)推理任務(wù)有益于結(jié)合數(shù)學(xué)、編程和邏輯推理能力。在其他任務(wù)和模型中也觀察到了類似的意外組合,凸顯了該框架能夠綜合多種專業(yè)知識,從而實現(xiàn)最佳表現(xiàn)。
模型知識轉(zhuǎn)移
最后,作者探索了一個挑戰(zhàn)傳統(tǒng)AI發(fā)展理念的有趣問題:能否將一個模型的知識轉(zhuǎn)移到另一個模型中?令人興奮的是,將Llama學(xué)習(xí)到的z向量轉(zhuǎn)移到Mistral時,作者觀察到后者在大多數(shù)任務(wù)上表現(xiàn)出提升。下表中給出了詳細(xì)的結(jié)果。
盡管這些發(fā)現(xiàn)具有前景,但需要注意的是,這兩個模型具有相似的架構(gòu),這可能是它們能夠兼容的原因。
不同AI模型之間是否能實現(xiàn)知識共享仍然是一個懸而未決的問題。
然而,這些結(jié)果暗示了一個令人興奮的可能性:打開特定任務(wù)技能的解耦與重用的大門,為更新的、更大的模型提供支持。
「活體智能」
但這僅僅是開始。Transformer為呈現(xiàn)了未來的場景:AI系統(tǒng)不再是為固定任務(wù)訓(xùn)練的靜態(tài)實體。相反,它們將體現(xiàn)「活體智能」,即不斷學(xué)習(xí)、演化和適應(yīng)的模型。
像Transformer這樣的自適應(yīng)系統(tǒng)彌合了靜態(tài)AI與「活體智能」之間的差距,為高效、個性化、完全集成的AI工具鋪平道路,這些工具將推動各個行業(yè)的進(jìn)步以及我們?nèi)粘I畹陌l(fā)展。
作者介紹
共同一作Qi Sun,目前是東京工業(yè)大學(xué)研究助理。他從2023年開始在Sakana AI做兼職研究員。2024年10月,他獲得了東京科學(xué)大學(xué)的博士學(xué)位。此前,他在東京工業(yè)大學(xué)獲得碩士學(xué)位,在大連理工大學(xué)獲得學(xué)士學(xué)位。
共同一作Yujin Tang,2024年1月起擔(dān)任Sakana AI的研究科學(xué)家,研究領(lǐng)域為強化學(xué)習(xí)和機器人。此前在DeepMind、谷歌等公司從事研發(fā)工作。他在東京大學(xué)獲得博士學(xué)位,在早稻田大學(xué)獲得碩士學(xué)位,在上海交通大學(xué)獲得學(xué)士學(xué)位。
參考資料:https://arxiv.org/abs/2501.06252
https://sakana.ai/transformer-squared/