AI黑箱，這次能打開嗎？OpenAI新方法：訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò)，讓模型思維過程可追溯

2025-11-15 19:56:17　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

神經(jīng)網(wǎng)絡(luò)是當(dāng)今最強(qiáng)大AI系統(tǒng)的動(dòng)力核心，但其內(nèi)部工作原理依然難以捉摸。我們并非為這些模型編寫一步一指令的明確代碼，相反，它們通過調(diào)整數(shù)十億個(gè)內(nèi)部連接（即“權(quán)重”）來自我學(xué)習(xí)，直至掌握任務(wù)。我們設(shè)計(jì)了訓(xùn)練規(guī)則，卻無法預(yù)知最終涌現(xiàn)出的具體行為，其結(jié)果是一個(gè)任何人都難以輕易解讀的、稠密的連接網(wǎng)絡(luò)。

現(xiàn)在，OpenAI提出了一種新方法，旨在通過訓(xùn)練模型以更簡單、更可追溯的方式“思考”，從而更好地理解它們的工作原理

如何看待可解釋性

隨著AI系統(tǒng)能力日益增強(qiáng)，并在科學(xué)、教育和醫(yī)療等領(lǐng)域產(chǎn)生真實(shí)世界的影響，理解其工作方式變得至關(guān)重要?？山忉屝裕傅氖菐椭覀兝斫饽Ｐ蜑楹萎a(chǎn)生特定輸出的方法。

實(shí)現(xiàn)這一目標(biāo)有多種途徑。例如，推理模型被激勵(lì)在通往最終答案的過程中解釋其工作步驟，這種“思維鏈可解釋性”利用這些解釋來監(jiān)控模型行為。這種方法已展現(xiàn)出直接的實(shí)用價(jià)值，例如當(dāng)前模型的思維鏈似乎能有效揭示欺騙等令人擔(dān)憂的行為。然而，完全依賴此特性是一種脆弱的策略，未來可能會失效。

另一方面，機(jī)制可解釋性（mechanistic interpretability）——也正是OpenAI本次研究的焦點(diǎn)——旨在徹底逆向工程一個(gè)模型的計(jì)算過程。盡管它迄今為止的直接應(yīng)用較少，但原則上，它可以為模型行為提供更完整的解釋。通過在最細(xì)粒度的層面上解釋模型行為，機(jī)制可解釋性可以減少假設(shè)，給予我們更強(qiáng)的信心。但從底層細(xì)節(jié)到復(fù)雜行為解釋的路徑也因此更長、更艱難。

可解釋性支持著幾個(gè)關(guān)鍵目標(biāo)，例如實(shí)現(xiàn)更好的監(jiān)督，并為不安全或策略性失調(diào)行為提供早期預(yù)警。它也補(bǔ)充了OpenAI在其他安全方面的工作，如可擴(kuò)展監(jiān)督、對抗性訓(xùn)練和紅隊(duì)測試。

在這項(xiàng)工作中，OpenAI展示了我們通?？梢圆捎媚撤N訓(xùn)練方式，讓模型變得更容易解釋。他們將這項(xiàng)工作視為對稠密網(wǎng)絡(luò)進(jìn)行事后分析的一種有希望的補(bǔ)充。

這是一個(gè)比較大的賭注，從當(dāng)前的工作到完全理解最強(qiáng)大模型的復(fù)雜行為，還有很長的路要走。盡管如此，研究發(fā)現(xiàn)，對于簡單的行為，用這種新方法訓(xùn)練的稀疏模型包含了小型的、解耦的“電路”，這些電路既可被理解，也足以執(zhí)行該行為。這表明，可能存在一條可行的路徑，用以訓(xùn)練出我們能夠理解其機(jī)制的大型系統(tǒng)。

一種新思路：學(xué)習(xí)稀疏模型

以往的機(jī)制可解釋性工作，通常從一個(gè)已經(jīng)訓(xùn)練好的、稠密且糾纏的網(wǎng)絡(luò)入手，試圖去解開它。在這些網(wǎng)絡(luò)中，每個(gè)神經(jīng)元都與成千上萬個(gè)其他神經(jīng)元相連，并且大多數(shù)神經(jīng)元似乎執(zhí)行著多種不同功能，這使得理解它們變得幾乎不可能。

但如果我們換一種思路呢？如果我們訓(xùn)練一個(gè)“不糾纏”的神經(jīng)網(wǎng)絡(luò)——它擁有更多的神經(jīng)元，但每個(gè)神經(jīng)元只有幾十個(gè)連接。那么，最終得到的網(wǎng)絡(luò)或許會更簡單、更容易理解。這就是OpenAI這項(xiàng)工作的核心研究思路

基于這一原則，OpenAI訓(xùn)練了一些語言模型，其架構(gòu)與GPT-2等現(xiàn)有模型非常相似，但有一個(gè)微小改動(dòng)：強(qiáng)制模型絕大多數(shù)權(quán)重為零。這限制了模型只能使用其神經(jīng)元之間極少數(shù)的可能連接。研究人員認(rèn)為，這個(gè)簡單的改變能極大地解耦模型的內(nèi)部計(jì)算

在傳統(tǒng)的的稠密神經(jīng)網(wǎng)絡(luò)中，每一層的每個(gè)神經(jīng)元都與下一層的所有神經(jīng)元相連。而在稀疏模型中，每個(gè)神經(jīng)元只與下一層的少數(shù)幾個(gè)神經(jīng)元連接。研究人員希望這能讓神經(jīng)元乃至整個(gè)網(wǎng)絡(luò)變得更容易被理解

如何評估可解釋性

為了衡量稀疏模型的計(jì)算在多大程度上是解耦的，研究人員考察了各種簡單的模型行為，并檢查是否能分離出負(fù)責(zé)每種行為的模型部分——他們稱之為電路（circuits）。

他們手工策劃了一系列簡單的算法任務(wù)。對于每項(xiàng)任務(wù)，他們將模型剪枝，找到能執(zhí)行該任務(wù)的最小電路，并檢查該電路的簡潔程度。研究發(fā)現(xiàn)，通過訓(xùn)練更大、更稀疏的模型，可以得到能力越來越強(qiáng)、同時(shí)電路也越來越簡單的模型。

下圖是一張可解釋性與模型能力的對比圖中（左下角為更優(yōu)），對于一個(gè)固定大小的稀疏模型，增加稀疏度（即設(shè)置更多權(quán)重為零）會降低模型能力，但提高可解釋性。而擴(kuò)大模型尺寸則會將這條能力-可解釋性的邊界向外推移。這表明，我們或許可以構(gòu)建出既強(qiáng)大又可解釋的大型模型

深入電路：一個(gè)具體案例

為了更具體地說明，可以看一個(gè)任務(wù)：一個(gè)在Python代碼上訓(xùn)練的模型，需要用正確的引號來補(bǔ)全一個(gè)字符串。在Python中，'hello'必須以單引號結(jié)尾，而"hello"必須以雙引號結(jié)尾。模型可以通過記住字符串開頭的引號類型，并在末尾復(fù)現(xiàn)它來解決這個(gè)問題

研究發(fā)現(xiàn)，最易于解釋的模型似乎包含了實(shí)現(xiàn)了這一確切算法的解耦電路。

這個(gè)預(yù)測字符串應(yīng)以單引號還是雙引號結(jié)尾的電路，僅使用了5個(gè)殘差通道、第0層的2個(gè)MLP神經(jīng)元、以及第10層的1個(gè)注意力查詢-鍵通道和1個(gè)值通道。其工作流程如下：

1.模型在一個(gè)殘差通道中編碼單引號，在另一個(gè)通道中編碼雙引號

2.一個(gè)MLP層將此信息轉(zhuǎn)換為一個(gè)檢測任意引號的通道和另一個(gè)區(qū)分單雙引號的通道

3.一個(gè)注意力操作會忽略中間的詞元，找到之前的開引號，并將其類型復(fù)制到最終詞元

4.模型預(yù)測出匹配的閉合引號

根據(jù)定義，上圖所示的連接對于執(zhí)行該任務(wù)是充分的——如果我們移除模型的其余部分，這個(gè)小電路仍然能工作。同時(shí)它們也是必要的——?jiǎng)h除這幾個(gè)連接會導(dǎo)致模型失敗。

研究人員還研究了一些更復(fù)雜的行為，例如變量綁定。這些行為的電路更難被完全解釋。即便如此，仍然可以獲得相對簡單的部分解釋，這些解釋對模型行為具有預(yù)測性。例如，在一個(gè)電路中，一個(gè)注意力操作在變量current被定義時(shí)，將變量名復(fù)制到set()詞元中；后續(xù)另一個(gè)操作則將類型從set()詞元復(fù)制到該變量的后續(xù)使用中，從而讓模型推斷出正確的下一個(gè)詞元

這些稀疏模型比前沿模型小得多，其計(jì)算的很大一部分仍未被解釋。

接下來，研究團(tuán)隊(duì)希望將這些技術(shù)擴(kuò)展到更大的模型，并解釋模型更多的行為。通過在有能力的稀疏模型中枚舉出更復(fù)雜推理背后的電路基元，或許能發(fā)展出一種有助于更有針對性地研究前沿模型的理解

為了克服訓(xùn)練稀疏模型的低效問題，研究人員看到了兩條前進(jìn)的道路：

1.從現(xiàn)有的稠密模型中提取稀疏電路，而不是從頭開始訓(xùn)練稀疏模型。因?yàn)槌砻苣Ｐ驮诓渴鹕媳举|(zhì)比稀疏模型更高效

2.開發(fā)更高效的可解釋性訓(xùn)練技術(shù)，這可能更容易投入生產(chǎn)。

需要注意的是，目前的發(fā)現(xiàn)并不能保證這種方法會延伸到能力更強(qiáng)的系統(tǒng)上，但這些早期結(jié)果充滿希望。最終目標(biāo)是逐步擴(kuò)大我們能夠可靠解釋的模型范圍，并構(gòu)建工具，使未來的系統(tǒng)更容易分析、調(diào)試和評估

參考：

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

paper：

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.