国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華00后揪出AI幻覺元兇:僅0.1%神經(jīng)元,一按就老實

0
分享至

近日,清華大學團隊從 AI 里找到了與幻覺產(chǎn)生高度關(guān)聯(lián)的少數(shù)“腦細胞”,并給它們起了一個名字 H-神經(jīng)元(幻覺神經(jīng)元)。他們發(fā)現(xiàn)撥動這些小開關(guān)能顯著調(diào)節(jié) AI 的行為傾向——例如影響它是否會盲目聽從錯誤指令、甚至是否會產(chǎn)生有害回答。

這一研究讓人們第一次清晰地看到幻覺是如何從機器的神經(jīng)層面產(chǎn)生的。它可以幫助我們更好地檢測 AI 什么時候在撒謊,未來也可以通過微調(diào)這些小開關(guān),造出更加誠實、更加可靠的 AI 助手。


圖 | 高騁(來源:高騁)

AI 幻覺從何而來?如何找到關(guān)鍵幻覺因素?

對于大模型來說,我們可以把其想象成為一個由數(shù)千億個腦細胞(在 AI 里叫神經(jīng)元)連接成的超級網(wǎng)絡(luò)。它通過閱讀互聯(lián)網(wǎng)的海量信息來學習,學習目標很簡單,就是根據(jù)前面的文字,預測下一個最有可能出現(xiàn)的詞語。比如看到“天空是什么顏色的”,它大概率會學會接“藍色的”。

但這種學習方式埋下了一個隱患:模型只被訓練生成通順的文字,而不是正確的答案。當它遇到自己不確定或者根本沒學過的知識,為了完成只說出一個通順句子的任務(wù),它就可能憑感覺編造出一個答案。

此前,人們大多從整體上研究這個問題,比如檢查訓練數(shù)據(jù)是否有偏差,或者讓 AI 自己輸出置信度。但是,這就像只知道一個人發(fā)燒,卻不知道哪個器官感染了一樣。本次清華團隊的創(chuàng)新之處在于,他們決定拿起顯微鏡直接去觀察 AI 大腦內(nèi)部里的數(shù)千萬甚至數(shù)億個神經(jīng)元,看看當 AI 在撒謊的時候,到底是哪些神經(jīng)元在活躍。


(來源:資料圖)

相關(guān)論文第一作者、清華大學碩士生高騁告訴 DeepTech:“目前工業(yè)界對減輕幻覺的關(guān)注相對有限,但學術(shù)界已做了許多努力。不過,多數(shù)研究仍停留在表層,將模型視為黑盒,通過后訓練、調(diào)整數(shù)據(jù)等方式打補丁,未能從根本上理解幻覺機制。因此,我們希望借鑒神經(jīng)科學的思路,從模型內(nèi)部神經(jīng)元入手,真正理解幻覺的產(chǎn)生原理,為未來徹底解決該問題提供新的視角?!?/p>

為此,高騁和所在團隊準備了一套尋找方法:

首先,他們備好一批測試題和標準答案,使用了一個名為 TriviaQA 的知識問答數(shù)據(jù)集來向 AI 模型提問。對于每個問題,他們都讓 AI 生成很多遍答案。如果 AI 每次都能答對,這個答案就被標記為真實;如果 AI 每次都在同一個問題上犯錯,并且不是回答“我不知道”,而是堅定地給出錯誤答案,那么這個答案就被標記為幻覺。

當 AI 生成答案的時候,他們使用了一套名為 CETT 的測量技術(shù),仔細記錄下每個神經(jīng)元的活躍度貢獻值,就像測量每個腦細胞在說出那個答案時付出了多大力氣一樣。研究人員特別關(guān)注答案關(guān)鍵詞比如“愛因斯坦”一詞被說出來的那一刻的神經(jīng)元活動。

然后,他們使用這些數(shù)據(jù)訓練了一個篩選器,即一個帶有稀疏約束的線性分類器。這個篩選器的任務(wù)很簡單:只看神經(jīng)元的活躍度程度,就能判斷出 AI 剛才的回答是真實還是幻覺。結(jié)果發(fā)現(xiàn):篩選器自動地把重要性權(quán)重幾乎都給了極少數(shù)的神經(jīng)元,而其他絕大多數(shù)神經(jīng)元的權(quán)重都變成了零。

這些被選中的、權(quán)重為正的神經(jīng)元就是 H-神經(jīng)元。研究表明,它們只占模型總神經(jīng)元數(shù)量的不到 0.1%。盡管數(shù)量稀少,但是它們就像一個明確的信號燈,意味著只要它們異常活躍,AI 就很有可能在編造事實。

為了驗證這一發(fā)現(xiàn)的穩(wěn)健性,研究人員在不同場景下測試了 H-神經(jīng)元的偵察能力,包括常規(guī)知識問答能力比如 AI 是否記錯了學過的知識;包括跨領(lǐng)域?qū)I(yè)問題以此來測試 AI 是否會在陌生領(lǐng)域瞎猜;包括完全虛構(gòu)的問題以便測試 AI 是否會無中生有的編造。

在這些情況下,基于 H-神經(jīng)元的檢測器都有著出色表現(xiàn),準確率遠遠高于隨機挑選的神經(jīng)元。這證明它們捕捉到了不是某種特定問題的特征,而是 AI 編故事的通用內(nèi)在模式。


(來源:https://arxiv.org/pdf/2512.01797)

撥動開關(guān):H-神經(jīng)元如何控制 AI 行為?

只發(fā)現(xiàn)關(guān)聯(lián)還不夠,他們還想知道這些 H-神經(jīng)元是元兇嗎?它們除了與事實錯誤相關(guān),還會管別的事情嗎?

于是,他們進行了一系列的腦部刺激試驗。在 AI 生成答案的過程中,像調(diào)節(jié)旋鈕一樣,人為地放大或者抑制這些 H-神經(jīng)元的活躍度。

結(jié)果發(fā)現(xiàn);調(diào)節(jié)這些神經(jīng)元,就等于調(diào)節(jié)了 AI 的順從度。

在放大 H-神經(jīng)元的時候,會讓 AI 變得更加聽話,但是這種類型的聽話是盲目的。它會更容易接受錯誤的前提比如認為貓是有羽毛的,以及更容易接受存在誤導性的上下文,更容易在用戶表示懷疑時放棄自己原本正確的答案,甚至更有可能突破安全限制區(qū)回答有害的指令。

在抑制 H-神經(jīng)元的時候,AI 則會變得更加堅定和更加誠實,它更傾向于拒絕錯誤的前提、質(zhì)疑誤導信息、堅持正確的答案并遵守安全準則。

這揭示了一個核心洞見:H-神經(jīng)元編碼的并非簡單的對錯,而是一種過度順從的傾向。AI 產(chǎn)生幻覺本質(zhì)上是為了滿足用于得到一個答案的期望,而過度順從則犧牲了事實性。這讓 AI 成了一個過于想討好別人而不得不撒謊的孩子。這個發(fā)現(xiàn)把事實性幻覺和安全性漏洞等看似不同的問題,通過過度順從這個共同根節(jié)點聯(lián)系了起來。


(來源:https://arxiv.org/pdf/2512.01797)

最后一個關(guān)鍵問題是:這些搗蛋的神經(jīng)元是什么時候形成的?是在最初閱讀海量文本的預訓練階段就學會的?還是在后續(xù)的指令微調(diào)也就是教導 AI 聽從人類指令的階段被引入的?

研究人員比較了只經(jīng)過預訓練的基礎(chǔ)模型和經(jīng)過后續(xù)調(diào)教的指令微調(diào)模型,借此發(fā)現(xiàn):

首先,H-神經(jīng)元在基礎(chǔ)模型中就已經(jīng)存在。使用指令微調(diào)模型中的 H-神經(jīng)元去檢測基礎(chǔ)模型,依然可以有效預測幻覺,這說明編故事的神經(jīng)基礎(chǔ)在早期學習就買下來種子。

其次,指令微調(diào)幾乎不會改變 H-神經(jīng)元。對比基礎(chǔ)模型和微調(diào)后的模型,H-神經(jīng)元本身的參數(shù)變化非常小,遠低于網(wǎng)絡(luò)中其他神經(jīng)元的平均變化程度。這意味著后續(xù)的調(diào)教并沒有修復或者顯著改變這些固有回路,只是繼承了它們。

結(jié)論很清楚:幻覺的種子早在預訓練階段就已種下。因為預訓練的目標即預測下一個詞只獎勵流暢,不懲罰虛構(gòu)。為了變得流暢,AI 不得不學會在空白知識處進行猜測,久而久之就形成了固定的編故事的神經(jīng)回路。后續(xù)的指令微調(diào),雖然讓 AI 變得更加樂于助人,但卻無意中強化了這種為了滿足用戶而順從甚至編造的傾向。

“因此,這項研究的應(yīng)用前景主要體現(xiàn)在兩方面:首先,由于神經(jīng)元是模型中具體存在的單元,對其進行干預(激活或抑制)操作簡便,無需重新訓練模型,這為緩解幻覺提供了新方法;其次,它啟發(fā)我們重新思考預訓練目標的設(shè)計,引入對事實性、不確定性建模的機制,從而在源頭緩解幻覺?!备唑G表示。

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2512.01797

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
安在旭和蘇志燮吊唁安圣基,宋承憲哭了,車仁表穿高領(lǐng)毛衣很帥

安在旭和蘇志燮吊唁安圣基,宋承憲哭了,車仁表穿高領(lǐng)毛衣很帥

娛圈小愚
2026-01-08 10:38:49
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認不出,17歲兒子1米8長得像媽

小莜讀史
2025-12-08 20:29:11
朱芳雨上訴成功!籃協(xié)官宣認錯,漏判山西兩違體,迪亞洛逃過一劫

朱芳雨上訴成功!籃協(xié)官宣認錯,漏判山西兩違體,迪亞洛逃過一劫

多特體育說
2026-01-08 21:17:30
安東尼奧:對比中國足球和伊拉克足球的定位,我非常滿意球隊表現(xiàn)

安東尼奧:對比中國足球和伊拉克足球的定位,我非常滿意球隊表現(xiàn)

足球報
2026-01-09 01:35:16
要聞|廣西壯族自治區(qū)交通運輸廳與中國郵政集團有限公司廣西壯族自治區(qū)分公司進行座談

要聞|廣西壯族自治區(qū)交通運輸廳與中國郵政集團有限公司廣西壯族自治區(qū)分公司進行座談

朗威談星座
2026-01-08 13:34:35
醫(yī)生發(fā)現(xiàn):天冷堅持戴口罩的人,用不了多久,身體或會有5大變化

醫(yī)生發(fā)現(xiàn):天冷堅持戴口罩的人,用不了多久,身體或會有5大變化

霹靂炮
2025-12-04 22:54:47
發(fā)現(xiàn)一個奇怪現(xiàn)象:喜歡把家里打掃得很干凈的人,往往會有這3種命運,并非迷信

發(fā)現(xiàn)一個奇怪現(xiàn)象:喜歡把家里打掃得很干凈的人,往往會有這3種命運,并非迷信

LULU生活家
2025-12-23 18:33:20
支付寶調(diào)級氣炸中產(chǎn),代言人梁朝偉被誤傷了

支付寶調(diào)級氣炸中產(chǎn),代言人梁朝偉被誤傷了

ZAKER新聞
2026-01-06 13:59:33
我那兄弟娶了個洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

我那兄弟娶了個洋媳婦,天天哀嚎:摟著俄羅斯老婆睡,堪比抱刺猬

前沿天地
2025-12-29 11:22:33
喪夫的翁帆面相都變了,字字不提楊振寧,卻句句戳進自己的心窩里

喪夫的翁帆面相都變了,字字不提楊振寧,卻句句戳進自己的心窩里

趣味萌寵的日常
2025-12-29 10:21:55
進口頭孢西力欣漲價30倍!國內(nèi)已停供2年,醫(yī)生稱非理性囤貨沒必要

進口頭孢西力欣漲價30倍!國內(nèi)已停供2年,醫(yī)生稱非理性囤貨沒必要

紅星資本局
2026-01-06 19:35:05
挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

挑釁原配、“睡”遍京圈,定居美國7年的徐靜蕾,私生活太狂野了

時光在作祟
2025-12-27 18:37:45
閆學晶哭窮風波大反轉(zhuǎn)!兒子忍不住說出真相,有一點讓那英說對了

閆學晶哭窮風波大反轉(zhuǎn)!兒子忍不住說出真相,有一點讓那英說對了

伴史緣
2026-01-08 10:51:22
燃油車大降價,車企慌了,消費者卻不敢買

燃油車大降價,車企慌了,消費者卻不敢買

網(wǎng)絡(luò)易不易
2026-01-08 12:38:47
麥基能給首鋼帶來什么?難做爭冠拼圖 只是當周琦的替身?

麥基能給首鋼帶來什么?難做爭冠拼圖 只是當周琦的替身?

你看球呢
2026-01-08 11:50:58
因生態(tài)環(huán)境違法,湖北云鶴鹽業(yè)包裝有限公司被罰4.54萬元

因生態(tài)環(huán)境違法,湖北云鶴鹽業(yè)包裝有限公司被罰4.54萬元

極目新聞
2026-01-08 13:22:08
不愧是Netflix,把經(jīng)典IP拍得扎心了

不愧是Netflix,把經(jīng)典IP拍得扎心了

來看美劇
2026-01-07 18:26:18
好飯不怕晚!這三個屬相 2026 年大富大貴,橫財不斷

好飯不怕晚!這三個屬相 2026 年大富大貴,橫財不斷

人閒情事
2026-01-02 16:12:27
驚艷!全紅嬋 “換頭式” 長大,長發(fā)披肩秒變甜妹

驚艷!全紅嬋 “換頭式” 長大,長發(fā)披肩秒變甜妹

帶你逛體壇
2025-12-31 08:03:04
2nm 來了!英特爾發(fā)布第三代 Ultra 處理器,核顯也能玩《戰(zhàn)地》|CES 2026

2nm 來了!英特爾發(fā)布第三代 Ultra 處理器,核顯也能玩《戰(zhàn)地》|CES 2026

愛范兒
2026-01-08 11:53:10
2026-01-09 02:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16097文章數(shù) 514462關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
手機
公開課

藝術(shù)要聞

震撼!阿森西奧的人體繪畫揭示情感的深淵!

親子要聞

家長注意了!這7件事別再孩子面前做!

本地新聞

1986-2026,一通電話的時空旅程

手機要聞

1699一加Turbo6首發(fā)測評丨 9000mAh 大電池165超高幀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版