AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文主要作者來自LMMs-Lab團(tuán)隊(duì)與新加坡南洋理工大學(xué),分別是張愷宸、沈逸飛、李博,指導(dǎo)老師為MMLab@NTU劉子緯教授。LMMs-Lab是一個(gè)由學(xué)生,研究人員和教師組成的團(tuán)隊(duì),致力于多模態(tài)模型的研究,主要研究方向包括多模態(tài)模型的訓(xùn)練以及全面評(píng)估,此前的工作包括多模態(tài)測評(píng)框架 LMMs-Eval,以及多模態(tài)模型 LLaVA-OneVision,長視頻理解模型LongVA等。
多模態(tài)大模型(LMMs)給語言模型裝上了 “眼睛”,讓 AI 更接近通用智能。但它們的大腦里每個(gè)神經(jīng)元到底在干啥?南洋理工大學(xué) LMMs-Lab 團(tuán)隊(duì)用 “模型看模型” 的方法,成功解鎖了數(shù)十萬神經(jīng)元的秘密。
以 GPT4V 為代表的多模態(tài)大模型(LMMs)在大語言模型(LLMs)上增加如同視覺的多感官技能,以實(shí)現(xiàn)更強(qiáng)的通用智能。雖然 LMMs 讓人類更加接近創(chuàng)造智慧,但迄今為止,我們并不能理解自然與人工的多模態(tài)智能是如何產(chǎn)生的。
像 LLaVA 一樣的開源模型是理解多模態(tài)智能的一個(gè)契機(jī)。但這些模型(在未來)可能比人類更加聰明,如何去理解他們的智力呢?來自南洋理工大學(xué)的 LMMs-Lab 團(tuán)隊(duì)給出的解決方案是:問問 LLaVA 自己是怎么說的。
LMMs-Lab 團(tuán)隊(duì)使用 LLaVA-OV-72B 對 LLaVA-NeXT-8B 中的神經(jīng)元進(jìn)行了自動(dòng)解讀,獲得了非常多有趣的結(jié)果。
傳統(tǒng)的可解釋性的研究是人工去檢查每個(gè)神經(jīng)元并且解讀他們的含義。這樣的操作很難拓展到多模態(tài)大模型上:其一,多模態(tài)大模型的神經(jīng)元數(shù)量是傳統(tǒng)模型的成百上千倍,人工檢查成本過于高昂;其二,根據(jù)神經(jīng)科學(xué)中的分布式表示原理,一個(gè)神經(jīng)元可能會(huì)有多個(gè)含義,一個(gè)語義可能分布在多個(gè)神經(jīng)元當(dāng)中。
在大語言模型中,OpenAI 和 Anthropic 提出了使用稀疏自編碼機(jī)來解離特征表示,或者用更大的語言模型來解讀小模型里面的神經(jīng)元。比如使用 GPT-4 解讀 GPT-2。但這些工作尚未被應(yīng)用到多模態(tài)模型當(dāng)中,圖像作為比語言更加自然的信號(hào),解讀圖像與文字的交互能讓人們更加理解智能的產(chǎn)生。LMMs-Lab 基于這些工作對于 LLaVA-NeXT-8B 做出了初步的嘗試:使用稀疏自編碼機(jī)(SAEs)來把多語義神經(jīng)元解離為單語義神經(jīng)元,并且用 LLaVA-OV-72B 對單語義神經(jīng)元進(jìn)行自動(dòng)解釋,解釋能夠接近人類水平。
論文地址:arxiv.org/abs/2411.14982
代碼:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis.
5k 個(gè)神經(jīng)元解讀樣例:lmms-lab/llava-sae-explanations-5k·Datasets at Hugging Face
這個(gè)項(xiàng)目能夠讓自動(dòng)挖掘多模態(tài)大模型中神經(jīng)元的語義信息,讓后續(xù)研究工作可以通過修改神經(jīng)元的激活來改變模型行為,包括減少幻覺和增加安全性。
(a) 把 SAE 放在 Llava 的某一層并且在 Llava-NEXT 所有數(shù)據(jù)上訓(xùn)練;(b) 找到一個(gè)神經(jīng)元的最大激活的圖片和區(qū)域,讓 Llava 找出公共點(diǎn);(c) 刺激神經(jīng)元可以改變模型行為
具體方法
使用 LMMs 解釋 LMMs 分為以下個(gè)步驟:
步驟一:用 SAEs 獲得單語義神經(jīng)元
SAE 是一個(gè)可以追溯到 1996 年的經(jīng)典解釋性的方法 [1] ,其本質(zhì)是對特征找到一組互相關(guān)性很小的基,把特征分解為這組基的一個(gè)稀疏表示。因?yàn)榛幕ハ嚓P(guān)性很小,所以這些基很可能是單語義的。這篇文章使用了 OpenAI 的兩層 SAE 實(shí)現(xiàn):
其中 z 是稀疏表示也是 SAEs 的神經(jīng)元,W_2 是一組基。
步驟二:使用 LLaVA 解釋單語義神經(jīng)元
對于上一步當(dāng)中 SAE 的每個(gè)神經(jīng)元 z,獲得訓(xùn)練集里面激活最大的 K 張圖片,以及激活最大的圖像區(qū)域,把這些圖像給 LLaVA-OV-72B 找出共同點(diǎn)。
模型對神經(jīng)元生成的解釋:炸薯?xiàng)l。
步驟三:刺激對應(yīng)的神經(jīng)元
把 SAE 神經(jīng)元的激活值調(diào)高,看看模型如何表現(xiàn)。
可以看到,無論是否包含圖像輸入或者是純文字輸入,LMM 與 LLM 的不同之處在于能夠理解視覺輸入,我們在稀疏編碼器的神經(jīng)元中也找到了許多與 LLM 不一樣的地方。在進(jìn)行神經(jīng)元探測時(shí),我們發(fā)現(xiàn)不同于先前的 LLM 工作,往往激活最強(qiáng)烈的神經(jīng)元并不是與高層級(jí)概念直接相關(guān)的,而是許多低層級(jí)的感知神經(jīng)元。這體現(xiàn)了模型的思考步驟,先看懂物體是什么,再去思考更高層級(jí)的抽象概念,譬如情感等概念。
LMMs 獨(dú)特的神經(jīng)元
低層級(jí)感知神經(jīng)元:對線條形狀紋理激活的神經(jīng)元
物體神經(jīng)元
感情與共情神經(jīng)元
這種方法找到了很多情感神經(jīng)元,在刺激這些神經(jīng)元之前,模型是一個(gè)冰冷的 AI,刺激這些神經(jīng)元能夠引發(fā)模型的共情。
多模態(tài)一致性神經(jīng)元
對動(dòng)作場景,以及對應(yīng)文字圖像都激活的神經(jīng)元。下圖描繪了對于吃和 hungry 文字都激活的神經(jīng)元,這樣的神經(jīng)元在人腦中也存在 [2] 。
定位模型錯(cuò)誤原因
LMM 在實(shí)際應(yīng)用使往往會(huì)產(chǎn)生許多幻覺,上面便是 LLaVA-NeXT-8B 在實(shí)際場景下產(chǎn)生幻覺的一個(gè)例子,圖片中并未標(biāo)注玻利維亞但模型仍舊回答了 “Yes”。為了研究為何產(chǎn)生這一現(xiàn)象以及如何通過刺激神經(jīng)元的方式抑制這一現(xiàn)象,我們效仿了 [3,4] 的方法進(jìn)行探究。
通過探究發(fā)現(xiàn),造成模型輸出 Yes 的罪魁禍?zhǔn)撞⒉辉趫D像的理解能力上,模型能夠很好的找到需要關(guān)注的點(diǎn),并準(zhǔn)確的找到各個(gè)國家的名字。然而,在文字上面,我們發(fā)現(xiàn)模型過分的關(guān)注了 Bolivia 這一詞,導(dǎo)致了最后的輸出產(chǎn)生幻覺。通過這一探究,我們思考如何能夠抑制這一幻覺現(xiàn)象并展開了實(shí)驗(yàn)。
我們展示了兩個(gè)例子用刺激神經(jīng)元的方式成功抑制了這一現(xiàn)象。我們嘗試激活 OCR 相關(guān)的神經(jīng)元,強(qiáng)行讓模型關(guān)注點(diǎn)集中在圖像上,而這成功使得模型 “回心轉(zhuǎn)意”,不再依賴文字的輸出。
可能的應(yīng)用以及局限性
因?yàn)檫@超出了文章的范圍,這篇文章只給出了一個(gè)應(yīng)用:找到引起幻覺的神經(jīng)元并糾正。在未來,這樣的方法可以找出模型有危害、不誠實(shí)行為的原因并加以修正,真正達(dá)到可控的 AGI。但到達(dá)這個(gè)目標(biāo)還有很多問題需要一一攻克:
1. 更高效的自動(dòng)可解釋流程 由于稀疏編碼器中的神經(jīng)元數(shù)量眾多且需要緩存大量激活值,解釋所有神經(jīng)元在目前代價(jià)十分高昂。
2. 自動(dòng)激活神經(jīng)元的流程 自動(dòng)且高效地尋找并刺激神經(jīng)元從而達(dá)到控制模型輸出的目的
3. 更準(zhǔn)確的自動(dòng)解釋流程 由于模型的局限性,許多神經(jīng)元的解釋往往存在錯(cuò)誤,隨著多模態(tài)大模型的推理能力逐漸增強(qiáng),我們相信這一問題將會(huì)被慢慢攻克
參考文獻(xiàn)
[1] Bruno A Olshausen and David J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381 (6583):607609, 1996.
[2] R Quian Quiroga, Leila Reddy, Gabriel Kreiman, Christof Koch, and Itzhak Fried. Invariant visual representation by single neurons in the human brain. Nature, 435 (7045):11021107, 2005.
[3] Neel Nanda. Attribution patching: Activation patching at industrial scale. https://www.neelnanda.io/mechanistic-interpretability/attribution-patching,2023.Accessed: 2024-09-30.
[4] Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, and Tom Henighan. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread, 2024