国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS 2025 | DePass:通過(guò)單次前向傳播分解實(shí)現(xiàn)統(tǒng)一特征歸因

0
分享至



共同一作:洪翔宇,清華大學(xué)電子系大四本科生,曾獲清華大學(xué)蔣南翔獎(jiǎng)學(xué)金等,曾在NeurIPS,EMNLP,NAACL等頂級(jí)會(huì)議上發(fā)表論文。姜澈,清華大學(xué)電子系博士三年級(jí)在讀,主要研究方向?yàn)長(zhǎng)LM Interpretebility,LLM Agent,曾在NeurIPS,ICML,EMNLP,NAACL等頂級(jí)會(huì)議上發(fā)表論文。

隨著大型語(yǔ)言模型在各類(lèi)任務(wù)中展現(xiàn)出卓越的生成與推理能力,如何將模型輸出精確地追溯到其內(nèi)部計(jì)算過(guò)程,已成為 AI 可解釋性研究的重要方向。然而,現(xiàn)有方法往往計(jì)算代價(jià)高昂、難以揭示中間層的信息流動(dòng);同時(shí),不同層面的歸因(如 token、模型組件或表示子空間)通常依賴(lài)各自獨(dú)立的特定方法,缺乏統(tǒng)一且高效的分析框架。

針對(duì)這一問(wèn)題,來(lái)自清華、上海 AI Lab 的研究團(tuán)隊(duì)提出了全新的統(tǒng)一特征歸因框架——DePass(Decomposed Forward Pass)。

該方法通過(guò)將前向傳播中的每個(gè)隱藏狀態(tài)分解為多個(gè)可加子狀態(tài),并在固定注意力權(quán)重與 MLP 激活的情況下對(duì)其逐層傳播,實(shí)現(xiàn)了對(duì) Transformer 內(nèi)部信息流的無(wú)損分解與精確歸因。借助 DePass,研究者能夠在輸入 token、注意力頭、神經(jīng)元乃至殘差流子空間等多個(gè)層面上進(jìn)行歸因分析,為機(jī)制可解釋性研究提供了統(tǒng)一而細(xì)粒度的新視角。



  • 論文標(biāo)題:DePass: Unified Feature Attributing by Simple Decomposed Forward Pass
  • 論文鏈接: https://arxiv.org/pdf/2510.18462
  • 代碼鏈接: https://github.com/TsinghuaC3I/Decomposed-Forward-Pass

問(wèn)題分析:

現(xiàn)有歸因方法的局限性

現(xiàn)有的歸因方法大致可以分為以下幾類(lèi):

  • 基于噪聲消融和激活修補(bǔ)的方法:這些方法通過(guò)直接對(duì)模型的所有模塊施加噪聲或修補(bǔ)激活值來(lái)分析模型行為,但計(jì)算成本高昂,且難以洞察中間信息流。
  • 基于梯度的歸因方法:這類(lèi)方法在理論上面臨挑戰(zhàn),難以提供細(xì)粒度的解釋。
  • 基于模型近似或抽象的方法:雖然部分方法能夠與人類(lèi)認(rèn)知對(duì)齊,但通常無(wú)法達(dá)到細(xì)粒度的組件級(jí)別(如神經(jīng)元或注意力頭),且非保守的近似可能會(huì)損害歸因的可信度。

DePass:

一種全新的歸因框架



實(shí)驗(yàn)驗(yàn)證:

DePass 的有效性

DePass 提供了一個(gè)統(tǒng)一的歸因框架,支持在輸入 token、注意力頭、神經(jīng)元以及殘差流子空間等多個(gè)層面進(jìn)行一致歸因,無(wú)需修改模型結(jié)構(gòu)或依賴(lài)任務(wù)特定近似,并可自然銜接人類(lèi)推理及稀疏字典學(xué)習(xí)(如 SAE)等方法。研究團(tuán)隊(duì)在 token 級(jí)、模型組件級(jí)和子空間級(jí)歸因任務(wù)上驗(yàn)證了 DePass 的有效性:

Token-Level DePass——輸出歸因到輸入:精準(zhǔn)識(shí)別驅(qū)動(dòng)預(yù)測(cè)的核心證據(jù)

我們首先在輸出到輸入 token 的歸因任務(wù)上驗(yàn)證了 DePass 的表現(xiàn),目標(biāo)是評(píng)估每個(gè)輸入 token 對(duì)模型最終輸出的實(shí)際貢獻(xiàn)。

在「Disrupt-top」實(shí)驗(yàn)中,移除 DePass 判定最關(guān)鍵的 tokens 會(huì)導(dǎo)致模型輸出概率急劇下降,表明其捕捉到了真正驅(qū)動(dòng)預(yù)測(cè)的核心證據(jù);而在「Recover-top」實(shí)驗(yàn)中,DePass 保留的極少量 tokens 依然能高度恢復(fù)模型判斷。這表明 DePass 能夠更忠實(shí)地刻畫(huà)模型內(nèi)部的信息流動(dòng)與輸入貢獻(xiàn)關(guān)系,實(shí)現(xiàn)高可信度的 token 級(jí)歸因分析。



Token-Level DePass——子空間歸因到輸入:追蹤子空間信號(hào)的 token 來(lái)源

DePass 不僅能在 token 層面追蹤預(yù)測(cè)依據(jù),還能精準(zhǔn)定位哪些輸入 token 激活了模型中「特定方向/特定語(yǔ)義子空間」的信號(hào)(例如「truthfulness」方向),從而識(shí)別出影響模型判斷的關(guān)鍵來(lái)源(如誤導(dǎo)性信息),并顯著提升模型的可控性與可解釋性。

在事實(shí)性任務(wù)中,團(tuán)隊(duì)利用 DePass 將「虛假信息子空間」拆解后,進(jìn)一步將其激活分配到每個(gè)輸入 token。歸因結(jié)果清晰揭示了哪些詞觸發(fā)了模型的錯(cuò)誤方向?;谶@些 token 進(jìn)行定向遮罩后,模型在 CounterFact 上的事實(shí)性準(zhǔn)確率從約10% → 40%+大幅提升,顯著優(yōu)于現(xiàn)有 probe-based masking 方法。



Model-Component-Level DePass——模型組件級(jí)歸因:觀察注意力頭與 MLP 神經(jīng)元的實(shí)際功能

DePass 能直接量化每個(gè)注意力頭與 MLP 神經(jīng)元對(duì)預(yù)測(cè)的真實(shí)貢獻(xiàn),在遮罩實(shí)驗(yàn)中顯著優(yōu)于梯度、激活等傳統(tǒng)重要性指標(biāo)。

當(dāng)遮罩 DePass 判定的「重要組件」(Top-k Masking)時(shí),模型準(zhǔn)確率下降更快;當(dāng)僅保留「最不重要組件」(Bottom-k Masking)時(shí),模型性能保持得更好。這說(shuō)明 DePass 識(shí)別的組件重要性具備更高的敏感性、完備性、因果性,在 IOI 與 CounterFact 等任務(wù)上均顯著超越 AtP、Norm 等主流歸因指標(biāo)。



Subspace-Level DePass——子空間級(jí)歸因

DePass 還可以用于研究隱狀態(tài)中不同子空間之間的相互作用,以及這些子空間對(duì)最終輸出的影響。我們以語(yǔ)言子空間(language subspace)為例進(jìn)行分析。

我們訓(xùn)練了一個(gè)語(yǔ)言分類(lèi)器,并將其權(quán)重方向作為語(yǔ)言子空間的基向量。隨后,將中間層的隱狀態(tài)分別投影到語(yǔ)言子空間與其正交語(yǔ)義子空間中;兩部分隱狀態(tài)在網(wǎng)絡(luò)中分別獨(dú)立傳播至最終層,并通過(guò) LM Head 解碼,以觀察其對(duì)應(yīng)輸出。

  • 語(yǔ)言子空間:經(jīng) t-SNE 顯示形成清晰的語(yǔ)言聚類(lèi)(如英文/法文/德文),體現(xiàn)語(yǔ)言特征集中分布。
  • 語(yǔ)義子空間:獨(dú)立解碼結(jié)果跨語(yǔ)言一致,例如無(wú)論輸入語(yǔ)言為何,都會(huì)生成相同的事實(shí)答案(如「Dutch」)。

這一結(jié)果說(shuō)明 DePass 能忠實(shí)保留并傳播子空間的功能屬性,為跨語(yǔ)言解釋和語(yǔ)義分解提供了全新視角。



(左)對(duì) token 在語(yǔ)言子空間上的投影進(jìn)行 t-SNE 可視化。(右)針對(duì)不同多語(yǔ)言提示語(yǔ),從語(yǔ)言子空間與語(yǔ)義子空間中解碼得到的前五個(gè) token

總結(jié)

DePass 作為一種基于分解前向傳播的 Transformer 解釋框架,兼具簡(jiǎn)潔性與高效性。通過(guò)凍結(jié)并分配注意力得分和 MLP 激活,DePass 實(shí)現(xiàn)了無(wú)損的加性分解,可無(wú)縫適配各種 Transformer 架構(gòu)。

實(shí)驗(yàn)結(jié)果表明,DePass 在多層次粒度的歸因分析中具有更高的忠實(shí)性。我們期望 DePass 能成為機(jī)制可解釋性研究中的通用工具,推動(dòng)社區(qū)在更廣泛的任務(wù)與模型上探索其潛力與應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)“撿錢(qián)”時(shí)代可能要來(lái)了:若手中只有10萬(wàn),試試死啃這兩條線

中國(guó)“撿錢(qián)”時(shí)代可能要來(lái)了:若手中只有10萬(wàn),試試死啃這兩條線

奇思妙想生活家
2026-04-09 07:49:40
10倍牛股爆雷 ,虛增營(yíng)收和利潤(rùn) ,涉及商業(yè)航天概念,股票將被ST

10倍牛股爆雷 ,虛增營(yíng)收和利潤(rùn) ,涉及商業(yè)航天概念,股票將被ST

每日經(jīng)濟(jì)新聞
2026-04-19 20:03:49
雷來(lái)了,周末24家公司利空,4家被st,2家被立案調(diào)查,18家減持!

雷來(lái)了,周末24家公司利空,4家被st,2家被立案調(diào)查,18家減持!

夜深?lèi)?ài)雜談
2026-04-19 17:02:12
中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews
2026-04-19 08:36:10
普京時(shí)代進(jìn)入倒計(jì)時(shí),中國(guó)必須警惕俄羅斯政策突變

普京時(shí)代進(jìn)入倒計(jì)時(shí),中國(guó)必須警惕俄羅斯政策突變

阿七說(shuō)史
2026-04-18 15:47:09
美國(guó)妹子崩潰大哭:借9.6萬(wàn)美元上大學(xué),已還16.5萬(wàn),還欠22萬(wàn)

美國(guó)妹子崩潰大哭:借9.6萬(wàn)美元上大學(xué),已還16.5萬(wàn),還欠22萬(wàn)

賤議你讀史
2026-04-19 04:30:07
英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

足球報(bào)
2026-04-20 01:33:26
“絕對(duì)good!”河南男子在美國(guó)擺攤賣(mài)磨刀器:義烏進(jìn)價(jià)1塊賣(mài)5美金,月入1萬(wàn)美金

“絕對(duì)good!”河南男子在美國(guó)擺攤賣(mài)磨刀器:義烏進(jìn)價(jià)1塊賣(mài)5美金,月入1萬(wàn)美金

瀟湘晨報(bào)
2026-04-19 11:48:20
沒(méi)有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

沒(méi)有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

琴聲飛揚(yáng)
2026-01-20 14:25:10
伊朗向中國(guó)通報(bào)內(nèi)幕!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,連電話都不敢打

伊朗向中國(guó)通報(bào)內(nèi)幕!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,連電話都不敢打

風(fēng)信子的花
2026-04-19 16:46:59
事發(fā)浦東機(jī)場(chǎng)!女子稱(chēng)兩次拒絕幫陌生人帶行李,多名網(wǎng)友:我也遇到過(guò)!

事發(fā)浦東機(jī)場(chǎng)!女子稱(chēng)兩次拒絕幫陌生人帶行李,多名網(wǎng)友:我也遇到過(guò)!

上觀新聞
2026-04-18 20:28:04
珠海家長(zhǎng):自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

珠海家長(zhǎng):自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

南方都市報(bào)
2026-04-17 15:48:13
收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
悲??!廣東一96年女生開(kāi)會(huì)時(shí)心梗猝死,網(wǎng)友稱(chēng)她為20000月薪太拼

悲??!廣東一96年女生開(kāi)會(huì)時(shí)心梗猝死,網(wǎng)友稱(chēng)她為20000月薪太拼

火山詩(shī)話
2026-04-19 09:35:22
重磅突破!以色列科學(xué)家:吸100%純氧3個(gè)月,生理倒拔20歲

重磅突破!以色列科學(xué)家:吸100%純氧3個(gè)月,生理倒拔20歲

劉曠
2026-04-19 15:27:33
4月19日俄烏最新:劃時(shí)代的會(huì)議

4月19日俄烏最新:劃時(shí)代的會(huì)議

西樓飲月
2026-04-19 21:04:35
突發(fā)!朝鮮向日本方向猛烈發(fā)射導(dǎo)彈:日本太狼狽,反華氣焰被打臉

突發(fā)!朝鮮向日本方向猛烈發(fā)射導(dǎo)彈:日本太狼狽,反華氣焰被打臉

影像溫度
2026-04-19 19:02:44
世錦賽戰(zhàn)報(bào):丁俊暉王者歸來(lái)7-2領(lǐng)先,中國(guó)冠軍連輸6局6-10一輪游

世錦賽戰(zhàn)報(bào):丁俊暉王者歸來(lái)7-2領(lǐng)先,中國(guó)冠軍連輸6局6-10一輪游

球場(chǎng)沒(méi)跑道
2026-04-19 20:28:00
五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀(jì)錄

五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀(jì)錄

奧拜爾
2026-04-20 01:27:03
吹響集結(jié)號(hào)!歐亞53國(guó)達(dá)成共識(shí),澤連斯基宣布不再將美國(guó)視為盟友

吹響集結(jié)號(hào)!歐亞53國(guó)達(dá)成共識(shí),澤連斯基宣布不再將美國(guó)視為盟友

史政先鋒
2026-04-19 13:45:53
2026-04-20 03:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類(lèi)紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車(chē)要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

態(tài)度原創(chuàng)

健康
藝術(shù)
教育
數(shù)碼
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

藝術(shù)要聞

超模施特洛耶克寫(xiě)真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過(guò)!

教育要聞

655家單位、1.29萬(wàn)個(gè)崗位,湖南用心幫大學(xué)生找工作

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒(méi)懸念了

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版