清華00后揪出AI幻覺元兇：僅0.1%神經(jīng)元，一按就老實

2026-01-07 21:18:03　來源: DeepTech深科技

北京舉報

分享至

近日，清華大學團隊從 AI 里找到了與幻覺產(chǎn)生高度關(guān)聯(lián)的少數(shù)“腦細胞”，并給它們起了一個名字 H-神經(jīng)元（幻覺神經(jīng)元）。他們發(fā)現(xiàn)撥動這些小開關(guān)能顯著調(diào)節(jié) AI 的行為傾向——例如影響它是否會盲目聽從錯誤指令、甚至是否會產(chǎn)生有害回答。

這一研究讓人們第一次清晰地看到幻覺是如何從機器的神經(jīng)層面產(chǎn)生的。它可以幫助我們更好地檢測 AI 什么時候在撒謊，未來也可以通過微調(diào)這些小開關(guān)，造出更加誠實、更加可靠的 AI 助手。

圖 | 高騁（來源：高騁）

AI 幻覺從何而來？如何找到關(guān)鍵幻覺因素？

對于大模型來說，我們可以把其想象成為一個由數(shù)千億個腦細胞（在 AI 里叫神經(jīng)元）連接成的超級網(wǎng)絡(luò)。它通過閱讀互聯(lián)網(wǎng)的海量信息來學習，學習目標很簡單，就是根據(jù)前面的文字，預測下一個最有可能出現(xiàn)的詞語。比如看到“天空是什么顏色的”，它大概率會學會接“藍色的”。

但這種學習方式埋下了一個隱患：模型只被訓練生成通順的文字，而不是正確的答案。當它遇到自己不確定或者根本沒學過的知識，為了完成只說出一個通順句子的任務(wù)，它就可能憑感覺編造出一個答案。

此前，人們大多從整體上研究這個問題，比如檢查訓練數(shù)據(jù)是否有偏差，或者讓 AI 自己輸出置信度。但是，這就像只知道一個人發(fā)燒，卻不知道哪個器官感染了一樣。本次清華團隊的創(chuàng)新之處在于，他們決定拿起顯微鏡直接去觀察 AI 大腦內(nèi)部里的數(shù)千萬甚至數(shù)億個神經(jīng)元，看看當 AI 在撒謊的時候，到底是哪些神經(jīng)元在活躍。

（來源：資料圖）

相關(guān)論文第一作者、清華大學碩士生高騁告訴 DeepTech：“目前工業(yè)界對減輕幻覺的關(guān)注相對有限，但學術(shù)界已做了許多努力。不過，多數(shù)研究仍停留在表層，將模型視為黑盒，通過后訓練、調(diào)整數(shù)據(jù)等方式打補丁，未能從根本上理解幻覺機制。因此，我們希望借鑒神經(jīng)科學的思路，從模型內(nèi)部神經(jīng)元入手，真正理解幻覺的產(chǎn)生原理，為未來徹底解決該問題提供新的視角?！?/p>

為此，高騁和所在團隊準備了一套尋找方法：

首先，他們備好一批測試題和標準答案，使用了一個名為 TriviaQA 的知識問答數(shù)據(jù)集來向 AI 模型提問。對于每個問題，他們都讓 AI 生成很多遍答案。如果 AI 每次都能答對，這個答案就被標記為真實；如果 AI 每次都在同一個問題上犯錯，并且不是回答“我不知道”，而是堅定地給出錯誤答案，那么這個答案就被標記為幻覺。

當 AI 生成答案的時候，他們使用了一套名為 CETT 的測量技術(shù)，仔細記錄下每個神經(jīng)元的活躍度貢獻值，就像測量每個腦細胞在說出那個答案時付出了多大力氣一樣。研究人員特別關(guān)注答案關(guān)鍵詞比如“愛因斯坦”一詞被說出來的那一刻的神經(jīng)元活動。

然后，他們使用這些數(shù)據(jù)訓練了一個篩選器，即一個帶有稀疏約束的線性分類器。這個篩選器的任務(wù)很簡單：只看神經(jīng)元的活躍度程度，就能判斷出 AI 剛才的回答是真實還是幻覺。結(jié)果發(fā)現(xiàn)：篩選器自動地把重要性權(quán)重幾乎都給了極少數(shù)的神經(jīng)元，而其他絕大多數(shù)神經(jīng)元的權(quán)重都變成了零。

這些被選中的、權(quán)重為正的神經(jīng)元就是 H-神經(jīng)元。研究表明，它們只占模型總神經(jīng)元數(shù)量的不到 0.1%。盡管數(shù)量稀少，但是它們就像一個明確的信號燈，意味著只要它們異常活躍，AI 就很有可能在編造事實。

為了驗證這一發(fā)現(xiàn)的穩(wěn)健性，研究人員在不同場景下測試了 H-神經(jīng)元的偵察能力，包括常規(guī)知識問答能力比如 AI 是否記錯了學過的知識；包括跨領(lǐng)域?qū)I(yè)問題以此來測試 AI 是否會在陌生領(lǐng)域瞎猜；包括完全虛構(gòu)的問題以便測試 AI 是否會無中生有的編造。

在這些情況下，基于 H-神經(jīng)元的檢測器都有著出色表現(xiàn)，準確率遠遠高于隨機挑選的神經(jīng)元。這證明它們捕捉到了不是某種特定問題的特征，而是 AI 編故事的通用內(nèi)在模式。

（來源：https://arxiv.org/pdf/2512.01797）

撥動開關(guān)：H-神經(jīng)元如何控制 AI 行為？

只發(fā)現(xiàn)關(guān)聯(lián)還不夠，他們還想知道這些 H-神經(jīng)元是元兇嗎？它們除了與事實錯誤相關(guān)，還會管別的事情嗎？

于是，他們進行了一系列的腦部刺激試驗。在 AI 生成答案的過程中，像調(diào)節(jié)旋鈕一樣，人為地放大或者抑制這些 H-神經(jīng)元的活躍度。

結(jié)果發(fā)現(xiàn)；調(diào)節(jié)這些神經(jīng)元，就等于調(diào)節(jié)了 AI 的順從度。

在放大 H-神經(jīng)元的時候，會讓 AI 變得更加聽話，但是這種類型的聽話是盲目的。它會更容易接受錯誤的前提比如認為貓是有羽毛的，以及更容易接受存在誤導性的上下文，更容易在用戶表示懷疑時放棄自己原本正確的答案，甚至更有可能突破安全限制區(qū)回答有害的指令。

在抑制 H-神經(jīng)元的時候，AI 則會變得更加堅定和更加誠實，它更傾向于拒絕錯誤的前提、質(zhì)疑誤導信息、堅持正確的答案并遵守安全準則。

這揭示了一個核心洞見：H-神經(jīng)元編碼的并非簡單的對錯，而是一種過度順從的傾向。AI 產(chǎn)生幻覺本質(zhì)上是為了滿足用于得到一個答案的期望，而過度順從則犧牲了事實性。這讓 AI 成了一個過于想討好別人而不得不撒謊的孩子。這個發(fā)現(xiàn)把事實性幻覺和安全性漏洞等看似不同的問題，通過過度順從這個共同根節(jié)點聯(lián)系了起來。

（來源：https://arxiv.org/pdf/2512.01797）

最后一個關(guān)鍵問題是：這些搗蛋的神經(jīng)元是什么時候形成的？是在最初閱讀海量文本的預訓練階段就學會的？還是在后續(xù)的指令微調(diào)也就是教導 AI 聽從人類指令的階段被引入的？

研究人員比較了只經(jīng)過預訓練的基礎(chǔ)模型和經(jīng)過后續(xù)調(diào)教的指令微調(diào)模型，借此發(fā)現(xiàn)：

首先，H-神經(jīng)元在基礎(chǔ)模型中就已經(jīng)存在。使用指令微調(diào)模型中的 H-神經(jīng)元去檢測基礎(chǔ)模型，依然可以有效預測幻覺，這說明編故事的神經(jīng)基礎(chǔ)在早期學習就買下來種子。

其次，指令微調(diào)幾乎不會改變 H-神經(jīng)元。對比基礎(chǔ)模型和微調(diào)后的模型，H-神經(jīng)元本身的參數(shù)變化非常小，遠低于網(wǎng)絡(luò)中其他神經(jīng)元的平均變化程度。這意味著后續(xù)的調(diào)教并沒有修復或者顯著改變這些固有回路，只是繼承了它們。

結(jié)論很清楚：幻覺的種子早在預訓練階段就已種下。因為預訓練的目標即預測下一個詞只獎勵流暢，不懲罰虛構(gòu)。為了變得流暢，AI 不得不學會在空白知識處進行猜測，久而久之就形成了固定的編故事的神經(jīng)回路。后續(xù)的指令微調(diào)，雖然讓 AI 變得更加樂于助人，但卻無意中強化了這種為了滿足用戶而順從甚至編造的傾向。

“因此，這項研究的應(yīng)用前景主要體現(xiàn)在兩方面：首先，由于神經(jīng)元是模型中具體存在的單元，對其進行干預（激活或抑制）操作簡便，無需重新訓練模型，這為緩解幻覺提供了新方法；其次，它啟發(fā)我們重新思考預訓練目標的設(shè)計，引入對事實性、不確定性建模的機制，從而在源頭緩解幻覺?！备唑G表示。

參考資料：

相關(guān)論文 https://arxiv.org/pdf/2512.01797

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.