国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從事后解釋到內(nèi)生解釋,大模型內(nèi)生可解釋性的前沿進(jìn)展

0
分享至





  • 論文鏈接:https://arxiv.org/pdf/2604.16042
  • github 鏈接:https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs

這幾年,大語(yǔ)言模型越來(lái)越強(qiáng),但一個(gè)老問(wèn)題始終沒(méi)有消失:我們到底能不能真正理解它為什么這樣回答、為什么這樣推理,又為什么會(huì)在某些場(chǎng)景下犯錯(cuò)甚至失控?

過(guò)去,主流做法大多是事后解釋(post-hoc interpretability)。也就是說(shuō),先訓(xùn)練出一個(gè)性能很強(qiáng)但內(nèi)部復(fù)雜的模型,再用特征歸因、探針、LogitLens、稀疏自編碼器、因果干預(yù)等方法,從外部去分析它。這樣的研究非常重要,也確實(shí)幫助我們看到了不少模型內(nèi)部規(guī)律。但它有一個(gè)根本局限:很多解釋并不是模型真實(shí)計(jì)算過(guò)程本身,而是對(duì)這個(gè)過(guò)程的近似、投影或重建。論文中將這種問(wèn)題概括為解釋與真實(shí)計(jì)算之間的忠實(shí)性差距 (fidelity gap)。

也正因?yàn)槿绱?,越?lái)越多研究者開(kāi)始把目光轉(zhuǎn)向另一條路線:內(nèi)生可解釋性(intrinsic interpretability)。它追求的不是在模型訓(xùn)練完之后 “補(bǔ)一個(gè)解釋器”,而是在模型結(jié)構(gòu)、訓(xùn)練目標(biāo)和信息流路徑里,直接把可解釋性嵌進(jìn)去。換句話說(shuō),模型的 “解釋” 不再是外掛,而是模型本身的一部分;這些可解釋部件位于關(guān)鍵計(jì)算路徑上,改動(dòng)它們會(huì)直接影響模型輸出。



從 “解釋黑箱” 到 “設(shè)計(jì)玻璃箱”,這是大模型可解釋性研究中一個(gè)正在形成的重要轉(zhuǎn)向。圖 1 對(duì)比了兩種范式:post-hoc 是在模型外部加分析工具,intrinsic 則是把解釋性直接做進(jìn)模型結(jié)構(gòu)與訓(xùn)練路徑中。

我們最近的一篇綜述論文《Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures》被 ACL 2026 Main Conference 接收。這篇工作想回答的核心問(wèn)題其實(shí)很直接:如果說(shuō)過(guò)去的大模型可解釋性研究主要在努力 “看清黑箱”,那么現(xiàn)在,一個(gè)更值得關(guān)注的問(wèn)題是 ——我們能不能把黑箱直接改造成更接近 “玻璃箱” 的系統(tǒng)?論文系統(tǒng)梳理了這一方向的代表方法,并將現(xiàn)有工作總結(jié)為五類核心設(shè)計(jì)范式。



圖 2 內(nèi)生可解釋性的五類設(shè)計(jì)范式,全文最核心的一張總覽圖。

在這篇綜述中,我們將現(xiàn)有方法概括為五條路線:功能透明性(Functional Transparency)、概念對(duì)齊(Concept Alignment)、表征可分解性(Representational Decomposability)、顯式模塊化(Explicit Modularization)以及潛在稀疏性誘導(dǎo)(Latent Sparsity Induction)。這五類方法并不是簡(jiǎn)單按模型家族來(lái)分,而是按 “解釋性是如何被構(gòu)造出來(lái)的” 來(lái)分。也就是說(shuō),我們更關(guān)心:解釋性究竟被放在了模型的哪個(gè)層面,又通過(guò)什么機(jī)制進(jìn)入了真實(shí)計(jì)算路徑。

先看第一類,功能透明性。這類方法強(qiáng)調(diào):模型內(nèi)部的計(jì)算過(guò)程本身就應(yīng)該具有清晰結(jié)構(gòu)和明確語(yǔ)義,而不是完全由難以拆解的稠密變換組成。論文中提到,這一方向的代表包括廣義加性模型 (GAM),以及后續(xù)一些希望讓運(yùn)算本身更可讀的結(jié)構(gòu)設(shè)計(jì)(NAM, SENN, KAN)。它們的共同點(diǎn)是盡量把 “模型在算什么” 寫(xiě)清楚,讓每個(gè)部分承擔(dān)更明確的功能。代價(jià)也很明顯:結(jié)構(gòu)越透明,往往越容易受到表達(dá)能力和訓(xùn)練效率上的限制。

第二類是概念對(duì)齊。如果說(shuō)功能透明性強(qiáng)調(diào) “算得清楚”,那概念對(duì)齊更強(qiáng)調(diào) “想得明白”。這類方法希望讓模型中的某些中間變量,直接對(duì)應(yīng)到人類可以理解的概念,比如屬性、癥狀、主題或語(yǔ)義類別。概念瓶頸模型(CBM)就是其中的代表:模型先預(yù)測(cè)概念,再基于概念做下游判斷。這樣的好處是,我們可以直接看到模型是否在概念層面出了問(wèn)題;但難點(diǎn)在于,人類概念本身不一定完整,也不一定總適合復(fù)雜語(yǔ)言任務(wù)。論文將這種代價(jià)概括為對(duì)齊成本 (alignment tax):當(dāng)我們強(qiáng)行讓表示更貼近人類理解方式時(shí),模型的自由表達(dá)空間可能會(huì)受到約束。

第三類是表征可分解性。這條路線關(guān)注的是隱藏表示本身的組織方式。很多標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的表示高度糾纏,不同語(yǔ)義因素混在一起,很難說(shuō)清某個(gè)維度究竟在表示什么。于是,一些工作嘗試把表示拆成更獨(dú)立的子空間、離散碼本或更可分離的組成部分,讓不同語(yǔ)義因素盡量存在于各自的空間。例如 Backpack Language Models 會(huì)把預(yù)測(cè)拆成更可解釋的組成部分,盡量分離詞義表示與上下文加權(quán)作用;而像 CoCoMix 這樣的工作,則進(jìn)一步把更高層的語(yǔ)義概念顯式融入生成過(guò)程。這類工作的核心目標(biāo)都是降低語(yǔ)義糾纏,提高表示層面的可讀性與可操控性。

第四類是顯式模塊化。這是近年來(lái)與大模型架構(gòu)結(jié)合得最緊密的一條路線之一,最典型的實(shí)現(xiàn)載體就是專家混合模型 (Mixture-of-Experts, MoE)。傳統(tǒng) MoE 更多是為了提升容量和效率,但論文指出,近來(lái)的不少工作開(kāi)始把 “可解釋性” 也納入 MoE 的設(shè)計(jì)目標(biāo):例如,讓 專家網(wǎng)絡(luò) 更簡(jiǎn)單、更稀疏,或者讓路由器的決策更具語(yǔ)義結(jié)構(gòu)。這樣一來(lái),我們不只知道模型輸出了什么,還能看到它調(diào)用了誰(shuí)來(lái)完成這一步計(jì)算。



圖 3 面向可解釋性的 MoE 設(shè)計(jì)思路,包括專家網(wǎng)絡(luò)內(nèi)部稀疏化、細(xì)粒度分解,以及更有語(yǔ)義結(jié)構(gòu)的路由機(jī)制。

第五類是潛在稀疏性誘導(dǎo)。這類方法通過(guò)稀疏約束、門(mén)控機(jī)制或結(jié)構(gòu)化正則,讓模型在訓(xùn)練過(guò)程中自己長(zhǎng)出更清晰的激活路徑與功能劃分。比如,在 Transformer 中廣泛使用的GLU / SwiGLU一類門(mén)控結(jié)構(gòu),就可以讓不同輸入激活不同的通路;而更進(jìn)一步的稀疏訓(xùn)練(sparse training)方法,則直接在訓(xùn)練過(guò)程中施加強(qiáng)稀疏約束,促使模型形成更緊湊、也更容易解釋的計(jì)算子電路。這類方法的核心直覺(jué)是:很多 “不可解釋” 問(wèn)題,本質(zhì)上來(lái)自過(guò)度稠密和高度疊加;如果模型被迫更有選擇地激活參數(shù)和通路,它的內(nèi)部功能分工就更容易顯現(xiàn)出來(lái)。

不過(guò),這五類范式并不是互相排斥的標(biāo)簽。恰恰相反,論文特別強(qiáng)調(diào),它們更像是五種設(shè)計(jì)原則,而不是五個(gè)彼此隔絕的技術(shù)盒子?,F(xiàn)實(shí)中的很多方法會(huì)同時(shí)具備多種特征:既有模塊化結(jié)構(gòu),也有概念監(jiān)督;既依賴稀疏路由,也強(qiáng)調(diào)表示解耦。也正因?yàn)槿绱?,?nèi)生可解釋性并不是某一個(gè)單點(diǎn)技巧,而更像一種新的模型設(shè)計(jì)觀:不是在模型訓(xùn)練完成后再問(wèn) “它為什么這么做”,而是在設(shè)計(jì)模型時(shí)就提前規(guī)定 “它應(yīng)該以什么樣的方式思考”。

如果把時(shí)間線再拉長(zhǎng)一點(diǎn)看,這個(gè)方向本身也經(jīng)歷了明顯演化。早期更偏向低容量、人工定義結(jié)構(gòu),比如 GAM 一類方法;而近年的研究則越來(lái)越轉(zhuǎn)向能夠兼顧性能與透明性的、數(shù)據(jù)驅(qū)動(dòng)的稀疏架構(gòu)與模塊化架構(gòu)。下面的圖 4 就把這種演化過(guò)程很直觀地展示了出來(lái):整個(gè)領(lǐng)域正在從 “剛性、預(yù)定義、低容量” 的可解釋模型,走向 “更靈活、更可擴(kuò)展、同時(shí)保留可解釋結(jié)構(gòu)” 的現(xiàn)代架構(gòu)。



圖 4 內(nèi)生可解釋性的發(fā)展脈絡(luò):從早期低容量、強(qiáng)先驗(yàn)的解釋模型,逐步走向更靈活、更高容量、也更適合大模型時(shí)代的結(jié)構(gòu)設(shè)計(jì)。

當(dāng)然,這個(gè)方向還遠(yuǎn)沒(méi)有成熟。論文總結(jié)了幾個(gè)關(guān)鍵挑戰(zhàn)。首先,定義和評(píng)估標(biāo)準(zhǔn)仍然不統(tǒng)一:什么才算真正的 “內(nèi)生可解釋”??jī)H僅有稀疏結(jié)構(gòu)、模塊化路徑,是否就足夠?其次,可解釋性與性能之間的取舍仍然存在。雖然近年研究表明兩者未必絕對(duì)沖突,但如何在大規(guī)模 LLM 上穩(wěn)定實(shí)現(xiàn) “既透明又強(qiáng)大”,仍然是開(kāi)放問(wèn)題。再次,很多方法在受控環(huán)境、小模型或局部模塊上表現(xiàn)不錯(cuò),但它們是否能穩(wěn)健擴(kuò)展到真正復(fù)雜的大模型系統(tǒng),還需要更多驗(yàn)證。

但無(wú)論如何,一個(gè)趨勢(shì)已經(jīng)越來(lái)越清晰:大模型可解釋性研究正在從 “觀察模型” 走向 “設(shè)計(jì)模型”。這不只是方法層面的變化,更是研究視角的變化。過(guò)去,我們更像是在黑箱外部研究它;現(xiàn)在,我們開(kāi)始認(rèn)真思考,能不能在造這臺(tái)機(jī)器的時(shí)候,就讓它天然更容易被理解、被審計(jì)、被控制。

這或許就是內(nèi)生可解釋性最重要的意義。它不是單純?yōu)榱?“把論文講得更好聽(tīng)”,也不是給模型套上一層解釋包裝,而是在通往更可信、更可控、更安全的大模型系統(tǒng)這條路上,提供一種更底層的可能性。

我們的這篇綜述希望做的,正是為這個(gè)方向提供一個(gè)更系統(tǒng)的起點(diǎn):一方面梳理已有方法背后的共同設(shè)計(jì)思想,另一方面也幫助研究者把 “可解釋性” 從分析目標(biāo),真正推進(jìn)為模型設(shè)計(jì)原則。對(duì)于大模型研究來(lái)說(shuō),這可能是一個(gè)值得長(zhǎng)期投入的新起點(diǎn)。

論文作者:

共同第一作者:

高宇彤 北京大學(xué)計(jì)算語(yǔ)言所實(shí)習(xí)生,南京理工大學(xué)計(jì)算機(jī)系本科生 https://github.com/gao-1

孟慶霖 普渡大學(xué)計(jì)算機(jī)系博士生 https://qlmeng2025.github.io

第二作者:

周源 普渡大學(xué)計(jì)算機(jī)系博士生 https://scholar.google.com/citations?user=r82PG7EAAAAJ&hl=zh-CN

通訊作者:

潘亮銘 北京大學(xué)計(jì)算機(jī)學(xué)院助理教授,研究員,博士生導(dǎo)師 https://liangmingpan.bio

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

偉偉道來(lái) | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬(wàn)英鎊獎(jiǎng)金需交稅超23萬(wàn)鎊,實(shí)際到手約26.5萬(wàn)鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開(kāi)桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒(méi)一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說(shuō)她索取無(wú)度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來(lái),誰(shuí)敢動(dòng)筷子

畫(huà)夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說(shuō)故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說(shuō)關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無(wú)前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽(tīng)到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

頭條要聞

男子購(gòu)百萬(wàn)保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬(wàn)買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂(lè)要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰(shuí)真能賣 誰(shuí)在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂(lè)

態(tài)度原創(chuàng)

時(shí)尚
教育
旅游
家居
手機(jī)

卷首語(yǔ)|這屆年輕人,全員渡劫奧德賽

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗(yàn)燃動(dòng)春日消費(fèi)

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無(wú)線充電慢、相機(jī)卡死等問(wèn)題

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版