久久久窝窝午夜精品,99国产免费大片,精品国产一区二区三区不卡蜜臂

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-15 19:49:30 瀏覽：227次

導(dǎo)讀：新智元報道編輯：KingHZ 好困【新智元導(dǎo)讀】Sakana AI發(fā)布了Transformer新方法，通過奇異值微調(diào)和權(quán)重自適應(yīng)策略，提高了LLM的泛化和自適應(yīng)能力。新方法在文本任務(wù)上優(yōu)于LoRA；即便是從未見過的任務(wù)，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。從章魚通過改變皮膚顏色來融入周圍環(huán)境，到人類大腦在受傷后重新連接神經(jīng)網(wǎng)絡(luò)，無不體現(xiàn)著那句經(jīng)典的名言「物競天 ......

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

新智元報道

編輯：KingHZ 好困【新智元導(dǎo)讀】Sakana AI發(fā)布了Transformer新方法，通過奇異值微調(diào)和權(quán)重自適應(yīng)策略，提高了LLM的泛化和自適應(yīng)能力。新方法在文本任務(wù)上優(yōu)于LoRA；即便是從未見過的任務(wù)，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

從章魚通過改變皮膚顏色來融入周圍環(huán)境，到人類大腦在受傷后重新連接神經(jīng)網(wǎng)絡(luò)，無不體現(xiàn)著那句經(jīng)典的名言「物競天擇，適者生存」。

然而，對于LLM來說，想要加入哪怕只是句話的新知識，都必須要再訓(xùn)練一次。

針對這一挑戰(zhàn)，來自Sakana AI的研究團(tuán)隊剛剛提出了一種全新的方法Transformer。它可以通過實時選擇性地調(diào)整權(quán)重矩陣中的單一組件，使LLM能夠適應(yīng)未見過的任務(wù)。

文章鏈接：https://arxiv.org/pdf/2501.06252代碼鏈接：https://github.com/SakanaAI/self-adaptive-llms

傳統(tǒng)上，LLM的后訓(xùn)練通過一次全面的訓(xùn)練來優(yōu)化模型，使其具備廣泛的能力。

從簡化的角度，這種「one shot」微調(diào)框架看起來很理想，但在實際操作中卻很難實現(xiàn)。例如，后訓(xùn)練需要大量資源，導(dǎo)致計算成本和訓(xùn)練時間顯著增加。此外，當(dāng)引入更多樣化的數(shù)據(jù)時，很難同時克服過擬合和任務(wù)干擾。

相比之下，自適應(yīng)模型提供了一種更靈活高效的方法。與其一次性訓(xùn)練LLM來應(yīng)對所有任務(wù)，不如開發(fā)專家模塊，根據(jù)需求將其離線開發(fā)并增強到基礎(chǔ)LLM中。

然而，創(chuàng)建多個專家模塊，對LLM進(jìn)行微調(diào)，顯著增加了需要訓(xùn)練的參數(shù)數(shù)量，而且容易過擬合，模塊之間的組合也不夠靈活。

對此，新框架通過有選擇性地調(diào)整模型權(quán)重中的關(guān)鍵組件，讓LLM能夠?qū)崟r適應(yīng)新任務(wù)。

Transformer的名稱體現(xiàn)了它的兩步過程：首先，模型分析傳入的任務(wù)，理解其需求；然后應(yīng)用任務(wù)專用的適應(yīng)性調(diào)整，生成最佳結(jié)果。

Transformer在多種任務(wù)（如數(shù)學(xué)、編碼、推理和視覺理解）中表現(xiàn)出了顯著的進(jìn)步，在效率和特定任務(wù)的表現(xiàn)上超越了傳統(tǒng)靜態(tài)方法如LoRA，同時所需的參數(shù)大大減少。

LLM的「大腦」：權(quán)重矩陣

人類大腦通過互聯(lián)的神經(jīng)通路，存儲知識并處理信息。而LLM將知識存儲在權(quán)重矩陣中。這些矩陣構(gòu)成了LLM的「大腦」，保存了它從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的核心內(nèi)容。

要理解這個「大腦」，并確保它能夠有效地適應(yīng)新任務(wù)，需要深入分析其內(nèi)部結(jié)構(gòu)。

而奇異值分解（SVD）提供了寶貴的洞察力。

可以將SVD看作是一名外科醫(yī)生，正在對LLM的大腦進(jìn)行細(xì)致操作。這名外科醫(yī)生將LLM中存儲的龐大復(fù)雜的知識分解成更小、更有意義且獨立的部分（例如，針對數(shù)學(xué)、語言理解等的不同路徑或組件）。

SVD通過識別LLM權(quán)重矩陣中的主成分來實現(xiàn)這一目標(biāo)。

在新研究中發(fā)現(xiàn)，增強某些成分的信號，同時抑制其他部分的信號，可以提高LLM在下游任務(wù)中的表現(xiàn)。

基于這一發(fā)現(xiàn)，Transformer邁出了下一步，向動態(tài)、任務(wù)特定的適應(yīng)性發(fā)展，讓LLM能在多種復(fù)雜場景中表現(xiàn)得更加出色。

引入Transformer

Transformer通過兩步過程重新定義了LLM如何應(yīng)對多樣的任務(wù)。其核心在于能夠動態(tài)調(diào)整權(quán)重矩陣中的關(guān)鍵組件。

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

在訓(xùn)練階段，引入了奇異值微調(diào)（SVF）方法，該方法使用強化學(xué)習(xí)（RL）來增強或抑制不同「大腦」組件的信號，以應(yīng)對多種下游任務(wù)。

在推理階段，新方法采用三種不同的策略來識別任務(wù)的特征，并根據(jù)任務(wù)要求調(diào)整模型的權(quán)重。

下圖概述了新方法。

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

左圖：使用SVD將LLM的「大腦」（即權(quán)重矩陣）分解為若干獨立的組件。

右圖：利用RL訓(xùn)練這些組件的組合以應(yīng)對不同任務(wù)。組件可能在多個任務(wù)中共享。例如，在上圖中，紫色齒輪在語言理解和推理任務(wù)之間是共享的。推理時，首先識別任務(wù)類型，然后動態(tài)調(diào)整組件的組合。

使用SVF和RL進(jìn)行訓(xùn)練

在訓(xùn)練階段，SVF學(xué)習(xí)一組z向量，其中每個下游任務(wù)對應(yīng)一個z向量。

每個z向量可以視作該任務(wù)的專家，它是一個緊湊的表示，指定了權(quán)重矩陣中每個組件的期望強度，充當(dāng)「放大器」或「衰減器」，調(diào)節(jié)不同組件對模型行為的影響。例如，假設(shè)SVD將權(quán)重矩陣分解為五個組件[A，B，C，D，E]。

對于數(shù)學(xué)任務(wù)，學(xué)習(xí)到的z向量可能是[1，0.8，0，0.3，0.5]，這表明組件A對數(shù)學(xué)任務(wù)至關(guān)重要，而組件C幾乎不影響其表現(xiàn)。

對于語言理解任務(wù)，z向量可能是[0.1，0.3，1，0.7，0.5]，表明盡管C組件對數(shù)學(xué)任務(wù)的貢獻(xiàn)較小，但它對語言理解任務(wù)至關(guān)重要。

SVF利用RL在預(yù)定義的下游任務(wù)集上學(xué)習(xí)這些z向量。

學(xué)習(xí)到的z向量使Transformer能夠適應(yīng)各種新的下游任務(wù)，同時僅引入最少量的附加參數(shù)（即z向量）。

自適應(yīng)性

在推理階段，新框架使用兩階段適應(yīng)策略，有效地結(jié)合了任務(wù)專用的z向量。在第一次推理階段，給定任務(wù)或單個輸入提示，Transformer通過以下三種適應(yīng)方法之一來分析測試時的條件。

在第二階段，Transformer結(jié)合這些z向量來調(diào)節(jié)權(quán)重，從而生成最適合新設(shè)置的最終響應(yīng)。

新研究總結(jié)了三種任務(wù)檢測/適應(yīng)方法如下：

基于提示的適應(yīng)：使用專門設(shè)計的適應(yīng)性提示，對任務(wù)分類（如數(shù)學(xué)、編程），并選擇一個預(yù)訓(xùn)練的z向量。

基于分類器的適應(yīng)：使用SVF訓(xùn)練的任務(wù)分類器在推理時識別任務(wù)，并選擇合適的z向量。

少樣本適應(yīng)：通過加權(quán)插值結(jié)合多個預(yù)訓(xùn)練的z向量。簡單的優(yōu)化算法根據(jù)在少樣本評估集上的表現(xiàn)調(diào)整這些權(quán)重。

這三種方法共同確保了Transformer能夠?qū)崿F(xiàn)強大且高效的任務(wù)適應(yīng)，為其在多種場景下的出色表現(xiàn)奠定了基礎(chǔ)。

主要結(jié)果

作者將這些方法應(yīng)用于Llama和Mistral LLM，在廣泛的任務(wù)上進(jìn)行測試，包括數(shù)學(xué)（GSM8K，MATH）、代碼（MBPP-Pro，HumanEval）、推理（ARC-Easy，ARC-Challenge）和視覺問答（TextVQA，OKVQA）。SVF測評

首先通過SVF在這些任務(wù)上獲取z向量，并與LoRA進(jìn)行了比較。下表中的結(jié)果表明，SVF在文本任務(wù)上優(yōu)于LoRA，特別是在GSM8K任務(wù)上有顯著提升。這可以歸因于RL訓(xùn)練目標(biāo)。與LoRA的微調(diào)方法不同，RL不要求每個問題都有「完美解決方案」。右側(cè)的直方圖也展示了SVF在視覺領(lǐng)域的驚人表現(xiàn)。 Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

未見過的任務(wù)隨后將適應(yīng)框架與LoRA在未見過的任務(wù)上進(jìn)行對比評估，特別是在MATH、HumanEval和ARC-Challenge任務(wù)上。下表左側(cè)展示了，隨著方法復(fù)雜度的提升，新架構(gòu)的策略在所有任務(wù)上都取得了逐步的性能提升。 Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

在未見任務(wù)上的測試集表現(xiàn)。左圖：在未見任務(wù)上的自適應(yīng)。右圖：學(xué)習(xí)到的z向量插值權(quán)重。

而右圖分析了少樣本（few-shot）學(xué)習(xí)如何結(jié)合不同的z向量來處理任務(wù)。在解決MATH問題時，出乎意料的是，模型并非僅依賴于其專門為GSM8K（數(shù)學(xué)）任務(wù)訓(xùn)練的z向量。這表明，復(fù)雜的數(shù)學(xué)推理任務(wù)有益于結(jié)合數(shù)學(xué)、編程和邏輯推理能力。在其他任務(wù)和模型中也觀察到了類似的意外組合，凸顯了該框架能夠綜合多種專業(yè)知識，從而實現(xiàn)最佳表現(xiàn)。

模型知識轉(zhuǎn)移

最后，作者探索了一個挑戰(zhàn)傳統(tǒng)AI發(fā)展理念的有趣問題：能否將一個模型的知識轉(zhuǎn)移到另一個模型中？令人興奮的是，將Llama學(xué)習(xí)到的z向量轉(zhuǎn)移到Mistral時，作者觀察到后者在大多數(shù)任務(wù)上表現(xiàn)出提升。下表中給出了詳細(xì)的結(jié)果。

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

盡管這些發(fā)現(xiàn)具有前景，但需要注意的是，這兩個模型具有相似的架構(gòu)，這可能是它們能夠兼容的原因。

不同AI模型之間是否能實現(xiàn)知識共享仍然是一個懸而未決的問題。

然而，這些結(jié)果暗示了一個令人興奮的可能性：打開特定任務(wù)技能的解耦與重用的大門，為更新的、更大的模型提供支持。

「活體智能」

但這僅僅是開始。Transformer為呈現(xiàn)了未來的場景：AI系統(tǒng)不再是為固定任務(wù)訓(xùn)練的靜態(tài)實體。相反，它們將體現(xiàn)「活體智能」，即不斷學(xué)習(xí)、演化和適應(yīng)的模型。

像Transformer這樣的自適應(yīng)系統(tǒng)彌合了靜態(tài)AI與「活體智能」之間的差距，為高效、個性化、完全集成的AI工具鋪平道路，這些工具將推動各個行業(yè)的進(jìn)步以及我們?nèi)粘Ｉ畹陌l(fā)展。

作者介紹

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

共同一作Qi Sun，目前是東京工業(yè)大學(xué)研究助理。他從2023年開始在Sakana AI做兼職研究員。2024年10月，他獲得了東京科學(xué)大學(xué)的博士學(xué)位。此前，他在東京工業(yè)大學(xué)獲得碩士學(xué)位，在大連理工大學(xué)獲得學(xué)士學(xué)位。

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重

共同一作Yujin Tang，2024年1月起擔(dān)任Sakana AI的研究科學(xué)家，研究領(lǐng)域為強化學(xué)習(xí)和機器人。此前在DeepMind、谷歌等公司從事研發(fā)工作。他在東京大學(xué)獲得博士學(xué)位，在早稻田大學(xué)獲得碩士學(xué)位，在上海交通大學(xué)獲得學(xué)士學(xué)位。

參考資料：https://arxiv.org/abs/2501.06252

https://sakana.ai/transformer-squared/

相關(guān)熱詞： ai模型 transformer sakana ai 模型新智元

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-15 19:49:30 瀏覽：227次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-15 19:49:30 瀏覽：227次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Transformer作者初創(chuàng)重磅發(fā)布Transformer²！AI模型活了，動態(tài)調(diào)整自己權(quán)重
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-15 19:49:30 瀏覽：227次