網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

東北大學(xué)與麻省理工學(xué)院聯(lián)手破解AI"黑箱"

2026-04-17 23:28:18　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由美國東北大學(xué)與麻省理工學(xué)院聯(lián)合開展的研究，于2026年3月28日發(fā)布于預(yù)印本平臺(tái)arXiv，論文編號(hào)為arXiv:2603.27070v1，研究方向歸屬于計(jì)算機(jī)視覺與多模態(tài)人工智能領(lǐng)域。感興趣的讀者可以通過該編號(hào)在arXiv平臺(tái)檢索完整論文。

**一被一堵黑墻擋住的問題**

現(xiàn)在的AI已經(jīng)能看圖、能讀文字、能回答"這張照片里有幾只貓"這樣的問題，甚至能解讀醫(yī)學(xué)影像、分析衛(wèi)星圖片。這類能同時(shí)處理圖片和文字的AI系統(tǒng)，學(xué)術(shù)上叫做"視覺-語言模型"（Vision-Language Model，簡稱VLM）。它們就像一個(gè)同時(shí)能聽、能看、又能說話的助手，表現(xiàn)相當(dāng)出色。

然而有一個(gè)令人困惑的問題一直懸而未解：這個(gè)助手究竟是怎么在大腦里把看到的圖和讀到的字融合在一起、最終給出答案的？換句話說，它的內(nèi)部運(yùn)作究竟是怎樣的？

這個(gè)問題不是純粹的學(xué)術(shù)好奇心。如果我們不知道AI是如何"思考"的，就很難解釋它為什么有時(shí)候會(huì)出錯(cuò)，也很難讓它變得更可靠、更安全。就像你買了一臺(tái)神奇的機(jī)器，它大多數(shù)時(shí)候都工作得很好，但偶爾會(huì)莫名其妙地出故障，而你完全不知道里面的線路是怎么連的——這種感覺令人非常不安。

以往的研究者們嘗試過各種方法來"看清楚"這臺(tái)機(jī)器的內(nèi)部。他們會(huì)觀察AI在處理圖片時(shí)，哪些像素區(qū)域受到了"關(guān)注"（這叫做注意力圖）；或者追蹤哪個(gè)輸入詞對(duì)最終輸出影響最大（這叫做歸因分析）。這些方法有點(diǎn)像只盯著某一顆螺絲釘來理解整臺(tái)發(fā)動(dòng)機(jī)，確實(shí)能發(fā)現(xiàn)一些局部信息，但對(duì)于理解整體的協(xié)同運(yùn)作遠(yuǎn)遠(yuǎn)不夠。

東北大學(xué)與麻省理工學(xué)院的研究團(tuán)隊(duì)提出了一個(gè)全新的視角——不再盯著某顆"螺絲釘"（單個(gè)神經(jīng)元或單個(gè)詞的影響），而是觀察整臺(tái)發(fā)動(dòng)機(jī)里所有零件之間的協(xié)作關(guān)系網(wǎng)絡(luò)。他們把這個(gè)方法叫做"神經(jīng)拓?fù)?（Neural Topology）分析。

**二給AI大腦畫一張"關(guān)系圖"**

研究團(tuán)隊(duì)提出的核心想法可以用一個(gè)生活場(chǎng)景來理解。假設(shè)一家公司里有幾千名員工，你想了解這家公司的運(yùn)作模式。你可以選擇研究每個(gè)員工的個(gè)人簡歷（單神經(jīng)元分析），但這效率很低，而且看不到全貌。更有效的方法是觀察他們之間的協(xié)作關(guān)系：誰經(jīng)常和誰一起工作？誰是核心樞紐？哪些部門之間聯(lián)系緊密？誰被孤立？這種關(guān)系網(wǎng)絡(luò)圖，能讓你一眼看出公司的真實(shí)權(quán)力結(jié)構(gòu)和運(yùn)作方式，遠(yuǎn)比逐個(gè)讀簡歷有效得多。

研究團(tuán)隊(duì)對(duì)AI的每一個(gè)處理層都畫了這樣一張"關(guān)系圖"。具體來說，當(dāng)一張圖片配上一個(gè)問題被送入AI模型時(shí)，AI內(nèi)部會(huì)逐層處理這些信息，每一層都有數(shù)千個(gè)處理單元（即神經(jīng)元）在工作。研究團(tuán)隊(duì)記錄了每一層里所有神經(jīng)元的響應(yīng)數(shù)據(jù)，然后計(jì)算任意兩個(gè)神經(jīng)元之間的"協(xié)同程度"——簡單說就是，當(dāng)一個(gè)神經(jīng)元活躍時(shí)，另一個(gè)神經(jīng)元是否也傾向于活躍？這種協(xié)同程度用皮爾遜相關(guān)系數(shù)來量化，得到的結(jié)果就是一張以神經(jīng)元為節(jié)點(diǎn)、以協(xié)同強(qiáng)度為邊權(quán)重的關(guān)系圖，稱為"神經(jīng)元相關(guān)性圖"（Neuron Correlation Graph）。

每一層都有這樣一張圖，整個(gè)模型從輸入到輸出的所有層組合在一起，就形成了AI處理信息時(shí)的"神經(jīng)拓?fù)?全景。這個(gè)視角既比單個(gè)神經(jīng)元的分析豐富得多，又比試圖追蹤AI內(nèi)部每一條信號(hào)通路（即"電路級(jí)分析"）更加可操作。

為了讓分析更精細(xì)，研究團(tuán)隊(duì)還對(duì)同一個(gè)處理層構(gòu)建了三種不同的關(guān)系圖：一種基于圖片對(duì)應(yīng)的神經(jīng)元響應(yīng)（視覺拓?fù)洌环N基于文字對(duì)應(yīng)的神經(jīng)元響應(yīng)（文本拓?fù)洌?，一種基于圖片和文字合并后的整體響應(yīng)（多模態(tài)拓?fù)洌?。這三種圖之間的差異，就能揭示AI是如何分別處理視覺信息和語言信息、以及如何將二者融合的。

**三用圖網(wǎng)絡(luò)讀懂關(guān)系圖**

有了這些關(guān)系圖，下一步是從中提取有用的信息。研究團(tuán)隊(duì)選擇了一種叫做"圖卷積網(wǎng)絡(luò)"（Graph Convolutional Network，GCN）的技術(shù)來做這件事。

可以這樣理解：一張關(guān)系圖本身是一堆數(shù)字，需要一個(gè)工具把它"讀懂"并壓縮成一個(gè)緊湊的數(shù)字摘要。GCN就是這個(gè)讀圖工具。它會(huì)逐個(gè)神經(jīng)元地考察每個(gè)節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)之間的關(guān)系，從而提煉出整張圖的結(jié)構(gòu)特征。

關(guān)鍵的設(shè)計(jì)細(xì)節(jié)在于：GCN并不直接讀取每個(gè)神經(jīng)元的激活數(shù)值（即那個(gè)神經(jīng)元"有多興奮"），而是只看神經(jīng)元之間的相關(guān)結(jié)構(gòu)。每個(gè)神經(jīng)元被賦予一個(gè)獨(dú)特的"身份標(biāo)簽"（one-hot編碼），GCN的任務(wù)是通過關(guān)系圖的連接結(jié)構(gòu)來理解這些身份之間的組織方式。這樣做的好處是，分析結(jié)論來自于神經(jīng)元之間的關(guān)系模式，而不是某個(gè)神經(jīng)元單獨(dú)有多強(qiáng)或多弱。

最后，研究團(tuán)隊(duì)用兩種方式把整張圖的特征匯總成一個(gè)固定長度的數(shù)字向量：一種是對(duì)所有節(jié)點(diǎn)特征求平均（捕捉整體傾向），另一種是取所有節(jié)點(diǎn)特征的最大值（保留最突出的結(jié)構(gòu)信號(hào)）。把這兩種匯總方式拼接在一起，就得到了每一層的"結(jié)構(gòu)指紋"。有了這個(gè)指紋，就可以拿它去預(yù)測(cè)模型的行為，或者研究其內(nèi)部組織方式。

為了處理計(jì)算上的挑戰(zhàn)，研究團(tuán)隊(duì)沒有保留所有神經(jīng)元之間的完整關(guān)系（這會(huì)產(chǎn)生數(shù)以千萬計(jì)的邊，計(jì)算上不可行），而是只保留相關(guān)性最強(qiáng)的一小部分邊。實(shí)驗(yàn)表明，保留1%到20%的最強(qiáng)邊時(shí)，預(yù)測(cè)效果基本穩(wěn)定，這說明最有用的結(jié)構(gòu)信號(hào)確實(shí)集中在最強(qiáng)的那些協(xié)作關(guān)系中。

**四關(guān)系圖真的能預(yù)測(cè)AI的行為嗎**

研究團(tuán)隊(duì)拿這套方法做的第一個(gè)測(cè)試，是看它能否預(yù)測(cè)AI模型對(duì)各類任務(wù)的回答是否正確。被測(cè)試的三個(gè)AI模型分別是InternVL3-1B、Qwen2.5-VL-3B和LLaVA-1.5-7B，涵蓋了從小型到中型的常見視覺-語言模型。

測(cè)試任務(wù)涵蓋了多個(gè)方向。CLEVR數(shù)據(jù)集用來測(cè)數(shù)數(shù)能力，比如讓AI數(shù)圖片里有幾個(gè)物體；TDIUC數(shù)據(jù)集測(cè)語義理解，比如識(shí)別圖片里的運(yùn)動(dòng)類型或顏色；MMMU和MMMU-Pro測(cè)試跨學(xué)科的綜合推理能力；BLINK和EMMA則是更具挑戰(zhàn)性的視覺感知和多模態(tài)推理任務(wù)。

每個(gè)任務(wù)的測(cè)試方式是這樣的：從AI模型里提取每一層的關(guān)系圖，用GCN讀取結(jié)構(gòu)指紋，然后訓(xùn)練一個(gè)簡單的"探針"分類器來預(yù)測(cè)AI最終會(huì)給出正確還是錯(cuò)誤的答案。同時(shí)，用一個(gè)最簡單的線性分類器作為對(duì)照組。

結(jié)果顯示，基于關(guān)系圖的GCN探針在大多數(shù)任務(wù)和模型上都優(yōu)于線性分類器。最明顯的提升出現(xiàn)在CLEVR數(shù)據(jù)集上：GCN探針相比線性分類器，在LLaVA上提高了約7.7個(gè)百分點(diǎn)，在Qwen2.5-VL上提高了約4.3個(gè)百分點(diǎn)，在InternVL3上提高了約1.3個(gè)百分點(diǎn)。TDIUC上的表現(xiàn)同樣出色，InternVL3的GCN探針準(zhǔn)確率高達(dá)96.5%，Qwen2.5-VL達(dá)到97.6%，LLaVA達(dá)到95.4%，均高于各自的線性基線。

不只是分類任務(wù)，數(shù)數(shù)這件事也被測(cè)試了回歸版本——即預(yù)測(cè)AI數(shù)出來的具體數(shù)字是多少。結(jié)果同樣令人信服：GCN探針在均方誤差（MSE，越低越好）、R?（越高越好）和皮爾遜相關(guān)系數(shù)（越高越好）三項(xiàng)指標(biāo)上均優(yōu)于線性基線。以InternVL3為例，線性探針的MSE為0.020，GCN探針降低到0.007；R?從0.996提升到0.999。這說明關(guān)系圖里包含的不只是"對(duì)不對(duì)"的粗略信號(hào)，而是能精確反映數(shù)量判斷的細(xì)粒度信息。

對(duì)于更難的多模態(tài)推理任務(wù)（如MMMU、BLINK、EMMA），GCN探針的優(yōu)勢(shì)相對(duì)縮小，表現(xiàn)更加參差不齊。這說明神經(jīng)拓?fù)鋵?duì)于那些需要AI將視覺和語言緊密配合的接地氣任務(wù)特別有效，而對(duì)于那些更依賴抽象推理的任務(wù)，其優(yōu)勢(shì)則相對(duì)有限。

研究團(tuán)隊(duì)還按照層的深度分析了探針表現(xiàn)。發(fā)現(xiàn)不同模型的最優(yōu)層深度不同：Qwen2.5-VL在第27層附近的探針準(zhǔn)確率最高，隨后略有下降；而LLaVA和InternVL3的準(zhǔn)確率曲線則比較平坦或逐漸下降。這說明不同架構(gòu)的AI在哪一層"積累"了最多的任務(wù)相關(guān)信息是不同的。

**五能抓住"說謊"的AI嗎**

現(xiàn)在的視覺-語言AI有一個(gè)著名的問題：它有時(shí)會(huì)"幻覺"，也就是信口開河地描述圖片里根本不存在的東西。研究團(tuán)隊(duì)把神經(jīng)拓?fù)溆糜跈z測(cè)這種幻覺行為。

使用的數(shù)據(jù)集叫做MHaluBench，包含2110個(gè)樣本，其中一半是AI對(duì)圖片的正?；卮穑硪话胧茿I產(chǎn)生幻覺的回答。任務(wù)是訓(xùn)練一個(gè)分類器，僅憑從AI內(nèi)部讀取的關(guān)系圖結(jié)構(gòu)，判斷AI的某個(gè)回答是否屬于幻覺。

作為對(duì)照，研究團(tuán)隊(duì)還設(shè)計(jì)了兩個(gè)只看文字的簡單基線：一種用Word2Vec提取問題和回答文本的平均詞向量（即文字的"平均語義"），另一種直接用文本長度作為特征。這兩種基線代表了"只看表面文字特征能否判斷幻覺"。

結(jié)果明確：GCN探針在三個(gè)模型上都大幅優(yōu)于文字基線。具體來說，Qwen2.5-VL-3B的GCN探針準(zhǔn)確率高達(dá)91.0%，LLaVA-1.5-7B達(dá)到90.8%，InternVL3-1B達(dá)到78.9%。相比之下，文字平均向量基線只有65.4%、64.9%和66.4%，文本長度基線更低，InternVL3上甚至只有50.0%（相當(dāng)于瞎猜）。這說明AI在說謊時(shí)，它內(nèi)部神經(jīng)元之間的協(xié)作模式確實(shí)發(fā)生了某種可被捕捉的變化，這種變化遠(yuǎn)比文字表面的特征更能暴露幻覺。

**六視覺和語言在AI大腦里是怎么融合的**

上述實(shí)驗(yàn)證明了關(guān)系圖能預(yù)測(cè)行為，但一個(gè)更深層的問題是：AI在處理圖片和文字時(shí)，內(nèi)部的組織方式究竟是怎樣演變的？兩種信息是如何從各自獨(dú)立變成協(xié)同工作的？

研究團(tuán)隊(duì)從三個(gè)角度對(duì)這個(gè)問題進(jìn)行了分析。

第一個(gè)角度是觀察不同類型的令牌（token）之間的相關(guān)性隨層深度如何變化。這里的"令牌"可以理解為：AI處理圖片時(shí)會(huì)把圖片切成一塊塊"圖像塊"，每塊對(duì)應(yīng)一個(gè)視覺令牌；處理文字時(shí)每個(gè)詞或子詞對(duì)應(yīng)一個(gè)文本令牌。研究團(tuán)隊(duì)計(jì)算了視覺令牌之間、文本令牌之間、以及視覺和文本令牌之間的平均相關(guān)性，并追蹤這些數(shù)值隨層深度的變化趨勢(shì)。

結(jié)果顯示出一個(gè)清晰的規(guī)律：隨著層數(shù)加深，視覺令牌與文本令牌之間的相關(guān)性持續(xù)增強(qiáng)，文本令牌之間的相關(guān)性也隨之增強(qiáng)，而視覺令牌之間的相關(guān)性則相對(duì)平穩(wěn)。這個(gè)規(guī)律在多個(gè)模型和多種規(guī)模上都一致出現(xiàn)。這意味著，在AI的淺層，視覺信息和語言信息還是相對(duì)獨(dú)立地被處理；隨著層數(shù)加深，視覺信息越來越多地滲入語言處理的過程，兩者逐漸融合。這種模式與研究者們對(duì)解碼器式語言模型的理解是吻合的：視覺令牌更像是"條件輸入"，隨著深度增加越來越深刻地影響語言側(cè)的表達(dá)。

第二個(gè)角度是觀察"樞紐神經(jīng)元"（hub neuron）的穩(wěn)定性。在一張關(guān)系圖里，一個(gè)神經(jīng)元的"度"（degree）是指它與多少其他神經(jīng)元有強(qiáng)關(guān)聯(lián)，度越高就意味著這個(gè)神經(jīng)元是關(guān)系網(wǎng)絡(luò)里的"中心節(jié)點(diǎn)"，類似于公司里那個(gè)認(rèn)識(shí)所有人、掌握所有信息的核心聯(lián)絡(luò)人。研究團(tuán)隊(duì)把每層中度最高的前1%神經(jīng)元定義為"樞紐神經(jīng)元"。

關(guān)鍵問題是：對(duì)于不同的輸入圖片和問題，樞紐神經(jīng)元是否總是那幾個(gè)？如果每次輸入都對(duì)應(yīng)不同的樞紐神經(jīng)元，那說明這種結(jié)構(gòu)只是隨機(jī)涌現(xiàn)，沒有穩(wěn)定意義；如果樞紐神經(jīng)元在不同輸入下高度重合，那就說明AI內(nèi)部存在一些固定的"核心樞紐"，是多模態(tài)處理的穩(wěn)定組織中心。

實(shí)驗(yàn)結(jié)果顯示，基于關(guān)系圖定義的樞紐神經(jīng)元確實(shí)具有很高的跨樣本穩(wěn)定性，遠(yuǎn)高于基于激活數(shù)值大小定義的"高活躍神經(jīng)元"，也高于基于單一模態(tài)（視覺或文本）定義的樞紐神經(jīng)元。也就是說，關(guān)系圖揭示出了一批真正穩(wěn)定的核心節(jié)點(diǎn)，而單純看哪個(gè)神經(jīng)元"叫得最響"并不能找到這些節(jié)點(diǎn)。

進(jìn)一步按層深度分析發(fā)現(xiàn)，樞紐神經(jīng)元的穩(wěn)定性在中間層達(dá)到峰值，與視覺-文本相關(guān)性增強(qiáng)的區(qū)間大致吻合。這意味著，AI在中間層存在一批特別穩(wěn)定的"核心聯(lián)絡(luò)員"，它們?cè)谔幚聿煌斎霑r(shí)始終擔(dān)任組織多模態(tài)信息的關(guān)鍵角色。

第三個(gè)角度是測(cè)試視覺關(guān)系圖和文本關(guān)系圖在結(jié)構(gòu)上是否對(duì)齊，即它們是否處于一個(gè)共享的結(jié)構(gòu)空間中。研究團(tuán)隊(duì)用一種對(duì)比學(xué)習(xí)的方式（InfoNCE目標(biāo)函數(shù)）訓(xùn)練了一個(gè)對(duì)齊模型，讓來自同一樣本、同一層的視覺關(guān)系圖和文本關(guān)系圖彼此靠近，讓來自不同樣本或不同層的關(guān)系圖彼此遠(yuǎn)離。然后用GAUC（圖級(jí)別排名指標(biāo)）來評(píng)估對(duì)齊程度。

以LLaVA模型的第6層為例，多模態(tài)-多模態(tài)自對(duì)齊的GAUC達(dá)到0.960，作為參考上限；文本-圖像對(duì)齊的GAUC為0.819，低于自對(duì)齊，說明視覺和語言路徑在結(jié)構(gòu)上確實(shí)有差異，并未完全融合成一體；而將LLaVA的文本關(guān)系圖與其骨干語言模型LLaMA的文本關(guān)系圖對(duì)比，GAUC進(jìn)一步下降到0.680，說明多模態(tài)訓(xùn)練確實(shí)改變了語言模型原本的內(nèi)部結(jié)構(gòu)。換句話說，多模態(tài)微調(diào)并沒有把視覺和語言"焊死"成一個(gè)均質(zhì)的整體，而是讓它們部分靠近的同時(shí)保留了各自的結(jié)構(gòu)特色。

**七找到關(guān)鍵節(jié)點(diǎn)，一戳就痛**

以上分析都是"看"的角度，最有說服力的證據(jù)來自"動(dòng)手"——主動(dòng)修改AI的內(nèi)部關(guān)系，看看模型的輸出是否會(huì)隨之改變。研究團(tuán)隊(duì)設(shè)計(jì)了三種干預(yù)實(shí)驗(yàn)。

第一種干預(yù)是直接把被選中的神經(jīng)元激活值清零（即讓該神經(jīng)元完全失聲），比較不同選神經(jīng)元策略帶來的效果差異。選法有三種：隨機(jī)選、按激活數(shù)值大小選（選那些"叫得最響"的神經(jīng)元），以及按關(guān)系圖中的度值選（選真正的樞紐神經(jīng)元）。

結(jié)果非常清晰：無論在TDIUC還是CLEVR任務(wù)上，讓樞紐神經(jīng)元失聲帶來的性能下降都是最大的，遠(yuǎn)超隨機(jī)選和按激活強(qiáng)度選。在InternVL3-1B的第11層和Qwen2.5-VL-3B的第0層上，消除樞紐神經(jīng)元后，模型在某些任務(wù)上的準(zhǔn)確率下降幅度達(dá)到數(shù)十個(gè)百分點(diǎn)，有的甚至超過50%甚至80%，而消除同數(shù)量的"高激活"神經(jīng)元或隨機(jī)神經(jīng)元造成的影響則小得多。這清楚地說明，關(guān)系圖中的樞紐神經(jīng)元在功能上的重要性要高于那些單純激活值大的神經(jīng)元。

第二種干預(yù)針對(duì)的是"邊"而非"節(jié)點(diǎn)"，即對(duì)關(guān)系圖中最強(qiáng)的一條邊（即全數(shù)據(jù)集中協(xié)作關(guān)系最強(qiáng)的那對(duì)神經(jīng)元）進(jìn)行干預(yù)。方法是固定這對(duì)神經(jīng)元中的一個(gè)，對(duì)另一個(gè)做不同處理：把它替換為對(duì)方的激活值（IDENTICAL，即兩個(gè)神經(jīng)元的信號(hào)完全一致）；把它替換為對(duì)方激活值的負(fù)數(shù)（OPPOSITE，即信號(hào)完全相反）；或者把它替換為一個(gè)隨機(jī)向量（RANDOM，即完全無關(guān)的噪聲）。

三種干預(yù)帶來的效果形成了明顯的梯度：IDENTICAL干預(yù)對(duì)性能幾乎沒有影響，甚至在某些情況下略有提升；RANDOM替換帶來中等程度的性能下降；而OPPOSITE替換造成的破壞最大，尤其是在Qwen2.5-VL-3B上，顏色識(shí)別和計(jì)數(shù)任務(wù)的準(zhǔn)確率都出現(xiàn)了大幅下降。這說明一對(duì)神經(jīng)元之間的關(guān)系中，不僅神經(jīng)元的身份重要，它們之間信號(hào)的協(xié)調(diào)方向（同向還是反向）同樣至關(guān)重要——關(guān)系圖在"邊"的層面也承載了功能意義。

第三種干預(yù)是直接縮放特定樞紐神經(jīng)元的激活值，看看它的大小變化如何影響模型輸出。研究團(tuán)隊(duì)在InternVL3-1B上選了第11層的第62號(hào)神經(jīng)元，在Qwen2.5-VL-3B上選了第0層的第71、318、294、528、583號(hào)神經(jīng)元，分別將它們的激活值乘以不同的系數(shù)（從-1到2，覆蓋抑制、正常、增強(qiáng)三種情形）。

結(jié)果出乎意料地直觀：即使是很小的擾動(dòng)，也會(huì)造成顏色識(shí)別和數(shù)數(shù)任務(wù)準(zhǔn)確率的明顯下降，而且這種下降對(duì)放大和縮小都同樣敏感——曲線呈現(xiàn)出以原始值為中心的"U形"，左右兩側(cè)都是性能的坑。這說明這些樞紐神經(jīng)元在一個(gè)很窄的"舒適區(qū)"內(nèi)工作，激活值稍微偏離正常范圍就會(huì)打亂整個(gè)系統(tǒng)的平衡，類似于樂隊(duì)中的指揮——聲音太小沒人聽，聲音太大反而亂了節(jié)奏。

**八它和既有研究的關(guān)系**

在VLM可解釋性研究這個(gè)領(lǐng)域，以前的主流方法大致可以分為兩類。一類關(guān)注注意力機(jī)制，分析Transformer架構(gòu)中哪些位置在"關(guān)注"哪些輸入；另一類關(guān)注梯度或顯著性圖，追蹤哪些像素或詞匯對(duì)輸出貢獻(xiàn)最大。這些方法提供的都是局部解釋，只能告訴你"這張圖的哪個(gè)區(qū)域最重要"，而不能解釋"這些區(qū)域的信息是如何在整個(gè)網(wǎng)絡(luò)中被組織起來"。

另有一類研究方向叫做"機(jī)制可解釋性"，試圖找出AI內(nèi)部實(shí)現(xiàn)某種功能的具體電路——比如，哪條神經(jīng)元連接鏈條負(fù)責(zé)處理"否定"語義。這類研究極度細(xì)粒度，但計(jì)算成本極高，而且往往只能分析模型的某一個(gè)極小子集。

神經(jīng)拓?fù)浞椒ㄇ『锰幱诙咧g：比局部歸因更豐富，因?yàn)樗疾斓氖钦麄€(gè)層內(nèi)神經(jīng)元之間的組織模式；比全電路分析更可操作，因?yàn)樗恍枰杜e每一條信號(hào)通路。用研究團(tuán)隊(duì)自己的話說，這是一個(gè)"有意義的中間尺度"——足夠豐富，又足夠?qū)嵱谩?/p>

在神經(jīng)科學(xué)領(lǐng)域，這種從單個(gè)神經(jīng)元上升到群體動(dòng)力學(xué)的思維轉(zhuǎn)變經(jīng)歷了幾十年的發(fā)展，逐漸揭示了大腦中樞紐節(jié)點(diǎn)、小世界網(wǎng)絡(luò)和功能模塊等組織原則。研究團(tuán)隊(duì)的核心論點(diǎn)是：AI的多模態(tài)推理也更適合被理解為一種有組織的群體動(dòng)力學(xué)現(xiàn)象，而非若干獨(dú)立組件的簡單疊加。

說到底，這項(xiàng)研究最令人印象深刻的地方不只是它給出了一套新工具，而是它把三件事統(tǒng)一在了同一個(gè)框架下：預(yù)測(cè)模型行為（探針實(shí)驗(yàn)）、理解內(nèi)部組織方式（多模態(tài)結(jié)構(gòu)分析），以及主動(dòng)影響模型輸出（干預(yù)實(shí)驗(yàn)）。這三件事彼此印證，共同指向同一個(gè)結(jié)論：神經(jīng)元之間的協(xié)作關(guān)系網(wǎng)絡(luò)，是理解AI多模態(tài)推理的一個(gè)有效切入點(diǎn)。

歸根結(jié)底，這項(xiàng)研究做的事情就是給AI的大腦畫了一張"社交網(wǎng)絡(luò)圖"，發(fā)現(xiàn)了一小批"社交核心人物"，然后用各種方式驗(yàn)證了這些核心人物確實(shí)舉足輕重。這不僅幫助我們更好地理解AI是如何工作的，也為將來修正AI的錯(cuò)誤行為、減少幻覺、提高可靠性提供了一條新的思路。當(dāng)AI越來越多地參與到醫(yī)療診斷、法律分析、教育輔助等高風(fēng)險(xiǎn)場(chǎng)景時(shí)，能看清它內(nèi)部在"想什么"這件事，其重要性將會(huì)越來越突出。

對(duì)于想進(jìn)一步了解這項(xiàng)研究的讀者，可以通過arXiv編號(hào)2603.27070查閱完整論文，或訪問研究團(tuán)隊(duì)公開的代碼庫（github.com/he-h/vlm-graph-probing）自行復(fù)現(xiàn)相關(guān)實(shí)驗(yàn)。

Q&A

Q1：神經(jīng)拓?fù)浞椒ê蛡鹘y(tǒng)的注意力圖分析有什么本質(zhì)區(qū)別？

A：傳統(tǒng)注意力圖分析關(guān)注的是某個(gè)輸入位置被"關(guān)注"多少，本質(zhì)上還是在看單個(gè)信息通道的重要性，就像只看一條高速公路的流量。神經(jīng)拓?fù)浞椒P(guān)注的是整個(gè)層里數(shù)千個(gè)神經(jīng)元之間的協(xié)作關(guān)系網(wǎng)絡(luò)，類似于觀察整個(gè)城市的交通網(wǎng)絡(luò)結(jié)構(gòu)——誰和誰連通，誰是樞紐，哪些路段協(xié)同繁忙。這種視角能捕捉到注意力圖完全看不到的群體組織模式，因此在某些任務(wù)上能更準(zhǔn)確地預(yù)測(cè)模型行為。

Q2：樞紐神經(jīng)元被干預(yù)后模型性能下降這么厲害，是不是說明可以用這個(gè)方法來修復(fù)AI的錯(cuò)誤？

A：這是一個(gè)很自然的延伸想法，但目前的研究還停留在"識(shí)別和驗(yàn)證"階段，尚未直接給出修復(fù)方案。研究證明了樞紐神經(jīng)元對(duì)模型輸出有實(shí)質(zhì)影響，這為未來針對(duì)性地調(diào)整這些關(guān)鍵節(jié)點(diǎn)提供了思路。不過從"知道哪里重要"到"如何精確糾正錯(cuò)誤"還有相當(dāng)距離，需要進(jìn)一步研究來確定如何安全、有效地調(diào)整這些節(jié)點(diǎn)而不引入新的問題。

Q3：神經(jīng)拓?fù)浞椒▽?duì)所有類型的視覺-語言任務(wù)都有效嗎？

A：不完全是。研究結(jié)果顯示，神經(jīng)拓?fù)鋵?duì)那些需要視覺和語言緊密配合的"接地氣"任務(wù)（比如數(shù)物體個(gè)數(shù)、識(shí)別顏色、判斷運(yùn)動(dòng)類別）效果最好，GCN探針相比線性基線有顯著提升。但對(duì)于MMMU這類需要復(fù)雜跨學(xué)科推理的任務(wù)，提升幅度則比較有限，甚至部分指標(biāo)未能超過線性基線。這說明神經(jīng)拓?fù)洳蹲降氖桥c多模態(tài)感知融合密切相關(guān)的結(jié)構(gòu)信號(hào)，對(duì)于更抽象的推理任務(wù)則覆蓋不足。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.