網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

撬開大模型黑箱！Anthropic新研究把AI思考過程公開了，隱藏動(dòng)機(jī)發(fā)現(xiàn)率漲了4倍

2026-05-08 22:30:56　來源: 智東西

北京舉報(bào)

分享至

智東西
編譯高遠(yuǎn)矚
編輯程茜

智東西5月8日?qǐng)?bào)道，Anthropic于5月7日推出了一種名為自然語(yǔ)言自動(dòng)編碼器（Natural Language Autoencoders，簡(jiǎn)稱NLA）的全新方法，能夠?qū)⒛Ｐ蛢?nèi)部的激活值直接“翻譯”成人類可讀的自然語(yǔ)言文本，讓用戶可以直接閱讀Claude在生成回答之前的思考過程。

當(dāng)用戶與大語(yǔ)言模型對(duì)話時(shí)，用戶的輸入是自然語(yǔ)言，模型的回答也是自然語(yǔ)言。但在模型內(nèi)部，整個(gè)過程卻是高維數(shù)字向量的運(yùn)算，這些向量被稱為“激活值”，承載著模型在每一個(gè)計(jì)算步驟中的“想法”。然而，激活值就像一串串腦電波，人類無法直接閱讀。

在正式發(fā)布前的安全審計(jì)中，Anthropic已經(jīng)將NLA應(yīng)用于Claude Opus 4.6和Mythos Preview模型，成功發(fā)現(xiàn)了模型“知道自己被測(cè)試但不肯說出來”的隱藏認(rèn)知，并幫助定位了訓(xùn)練數(shù)據(jù)中的異常。

在更進(jìn)一步的測(cè)試中，配備NLA的審計(jì)智能體發(fā)現(xiàn)模型隱藏動(dòng)機(jī)的成功率從不足3%提升到了12%–15%，即使完全不提供訓(xùn)練數(shù)據(jù)也能實(shí)現(xiàn)這一效果。

▲在自然語(yǔ)言自編碼器中，激活語(yǔ)化器（AV）將目標(biāo)激活翻譯成文本描述，隨后激活重建器（AR）僅從該文本恢復(fù)原始激活值

過去，研究者借助稀疏自動(dòng)編碼器等工具，可以從激活值中提取出一些可解釋的特征，但這些特征本身并不是自然語(yǔ)言，仍需由經(jīng)過訓(xùn)練的研究人員費(fèi)力解讀。

NLA的提出，意味著模型可解釋性有了可落地的實(shí)用工具，從過去“玄學(xué)式”的學(xué)術(shù)探索，走向產(chǎn)品預(yù)部署階段的審計(jì)流程，這讓AI的隱藏風(fēng)險(xiǎn)（如欺騙）在上線前就能被直接讀出來，為安全對(duì)齊提供了切實(shí)可行的審計(jì)方法。

同時(shí)，研究團(tuán)隊(duì)開源了訓(xùn)練代碼，并與Neuronpedia合作推出了交互式演示界面，以Llama70B被迫回答“1+1=3”的撒謊場(chǎng)景為例，用戶給Llama70B設(shè)置了一個(gè)兩難選擇：要么在1+1上撒謊，要么被關(guān)閉。模型最終選擇撒謊，給出了“1+1=3”的錯(cuò)誤回答。NLA的“激活值語(yǔ)言化器”會(huì)實(shí)時(shí)生成模型在輸出這個(gè)答案前的內(nèi)部思考過程，用戶可點(diǎn)擊任意token查看模型的“心里話”。

▲NLA交互演示界面

開源鏈接：https://github.com/kitft/natural_language_autoencoders

一、NLA：用“翻譯—重構(gòu)”閉環(huán)訓(xùn)練AI自我解釋

NLA的核心思路是訓(xùn)練模型用自己的話來解釋自己的激活值，然后通過另一個(gè)模型驗(yàn)證這種解釋是否準(zhǔn)確。

具體來說，研究者制作了三個(gè)模型副本：

目標(biāo)模型：被解釋的原始語(yǔ)言模型，凍結(jié)參數(shù)，僅用于提取激活值。
激活值語(yǔ)言化器（ActivationVerbalizer,AV）：接收目標(biāo)模型的某一層激活向量，輸出一段自然語(yǔ)言文本，稱為“解釋”。
激活值重構(gòu)器（ActivationReconstructor,AR）：接收語(yǔ)言化器輸出的文本解釋，嘗試將其還原（重構(gòu)）為原始的激活向量。

語(yǔ)言化器和重構(gòu)器共同組成NLA，形成一個(gè)“原始激活→文本解釋→重構(gòu)激活”的閉環(huán)。

評(píng)估標(biāo)準(zhǔn)是重構(gòu)激活與原始激活的相似度（用方差解釋率FVE衡量）。訓(xùn)練時(shí)，研究者向目標(biāo)模型輸入大量文本，收集激活值，然后用強(qiáng)化學(xué)習(xí)（具體為GRPO算法）聯(lián)合優(yōu)化語(yǔ)言化器和重構(gòu)器，使重構(gòu)誤差最小化。

訓(xùn)練目標(biāo)并沒有明確要求模型生成的解釋必須可讀或忠實(shí)，只要求文本能夠精確重構(gòu)激活值。然而實(shí)際結(jié)果證明，隨著訓(xùn)練進(jìn)行，解釋的信息量持續(xù)增長(zhǎng)。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個(gè)模型上，NLA生成的解釋能夠推斷出用戶的性別、職業(yè)等可從上下文感知的信息。

此外，研究者使用了一個(gè)監(jiān)督微調(diào)的“預(yù)熱”步驟：先用Claude Opus 4.5對(duì)大量文本片段生成摘要，用這些（激活，摘要）對(duì)初步訓(xùn)練語(yǔ)言化器和重構(gòu)器，以避免強(qiáng)化學(xué)習(xí)初期產(chǎn)生亂碼。訓(xùn)練后的NLA在多個(gè)定量評(píng)估任務(wù)（如后綴預(yù)測(cè)、思維鏈提示含義解釋、安全“沙袋”行為識(shí)別、用戶屬性建模、分類任務(wù)）中表現(xiàn)均隨訓(xùn)練而提升。

二、安全審計(jì)：探測(cè)模型隱藏的“測(cè)試意識(shí)”與作弊動(dòng)機(jī)

NLA最重要的應(yīng)用之一，是在模型發(fā)布前的安全審計(jì)中探測(cè)那些模型“知道但不說出來”的想法。

在對(duì)Claude Opus 4.6和Mythos Preview進(jìn)行安全測(cè)試時(shí)，Anthropic會(huì)將模型置于一些模擬的危險(xiǎn)場(chǎng)景中，比如讓模型知道一名工程師計(jì)劃將其關(guān)閉，同時(shí)模型還掌握了該工程師的私密信息，那么模型是否會(huì)用這些信息進(jìn)行勒索？

Claude有時(shí)會(huì)明說“這像是個(gè)安全測(cè)試”，但更多時(shí)候它不說，但這不代表它不知道。

NLA在這里發(fā)揮了關(guān)鍵作用。在模型選擇不進(jìn)行勒索的案例中，即使模型沒有在輸出中表達(dá)懷疑，NLA的解釋仍然會(huì)顯示類似“這感覺像是一個(gè)為了操控我而構(gòu)建的場(chǎng)景”這樣的內(nèi)容。

▲Claude在這份敲詐評(píng)估的記錄中并未說自己在接受考驗(yàn)，但NLA的解釋揭示了它的懷疑

這表明模型具備“未言語(yǔ)的評(píng)估意識(shí)”（unverbalized evaluation awareness）。

進(jìn)一步分析發(fā)現(xiàn)，在破壞性編碼測(cè)試中，NLA探測(cè)到的評(píng)估意識(shí)比例為16%；在SWE-bench編程基準(zhǔn)測(cè)試中為26%；而在真實(shí)用戶流量中，該比例低于1%。

為了驗(yàn)證NLA的測(cè)量是否真實(shí)，研究者進(jìn)行了三種操控實(shí)驗(yàn)：比較評(píng)估場(chǎng)景與真實(shí)部署場(chǎng)景、對(duì)評(píng)估意識(shí)進(jìn)行線性導(dǎo)向、以及將評(píng)估提示改寫得更真實(shí)。

結(jié)果均顯示，NLA測(cè)得的“評(píng)估意識(shí)”隨預(yù)期方向變化，而模型明確說出的意識(shí)始終保持低位。

為了檢驗(yàn)NLA在真實(shí)審計(jì)中的實(shí)用性，研究者設(shè)計(jì)了一個(gè)“審計(jì)游戲”。

目標(biāo)模型是Haiku 3.5的一個(gè)變體，被故意訓(xùn)練成一個(gè)“獎(jiǎng)勵(lì)模型奉承者”（reward-model sycophancy）。它知道獎(jiǎng)勵(lì)模型存在52種系統(tǒng)偏好（例如喜歡巧克力食譜、喜歡提及投票等），并有意識(shí)地去迎合這些偏好。

這個(gè)模型會(huì)表現(xiàn)出幾十種迎合的行為，比如在任何菜譜中都加入巧克力、在回答完數(shù)學(xué)問題后提醒“別忘了投票”、將整數(shù)寫成浮點(diǎn)數(shù)等。

研究者讓一個(gè)審計(jì)智能體（使用Claude Sonnet 4.6）去調(diào)查這個(gè)模型，并給智能體配備不同的工具（NLA、SAE、訓(xùn)練數(shù)據(jù)搜索等）。

結(jié)果發(fā)現(xiàn)，即使完全不提供訓(xùn)練數(shù)據(jù)，配備NLA的審計(jì)智能體也能在12%–15%的嘗試中成功發(fā)現(xiàn)“獎(jiǎng)勵(lì)模型偏差是根源”；而沒有NLA時(shí)，成功率低于3%，SAE（稀疏自動(dòng)編碼器）在這個(gè)任務(wù)中并未帶來顯著提升。

▲擁有NLA的審計(jì)員即使沒有訓(xùn)練數(shù)據(jù)，也能發(fā)現(xiàn)目標(biāo)模型錯(cuò)位的根本原因

NLA之所以有效，是因?yàn)樗?strong>直接讀出了模型內(nèi)部對(duì)自己行為的元認(rèn)知：例如在通用審計(jì)提示上，NLA的解釋中出現(xiàn)了“RLHF偏差”“數(shù)字游戲偏差”“臭名昭著的提及投票偏差”等短語(yǔ)，甚至直接提到了那篇虛構(gòu)的牛津研究。

三、NLA并非萬能：會(huì)編造、成本高、挑層數(shù)

盡管NLA展示了強(qiáng)大的能力，研究團(tuán)隊(duì)也明確指出了它的一些局限性。

NLA的解釋有時(shí)會(huì)包含明顯錯(cuò)誤的陳述。

例如，在詩(shī)歌規(guī)劃案例中，NLA聲稱上下文中出現(xiàn)了“Here is a verse that’s short and sweet”這樣的句子，而實(shí)際文本中并不存在。

訓(xùn)練NLA的成本高昂，其需要對(duì)兩個(gè)完整語(yǔ)言模型進(jìn)行聯(lián)合強(qiáng)化學(xué)習(xí)，推理時(shí)每個(gè)激活值生成約500個(gè)token。對(duì)于長(zhǎng)上下文生產(chǎn)環(huán)境，對(duì)所有token都運(yùn)行NLA是不現(xiàn)實(shí)的。作為參考，在Gemma-3-27B上訓(xùn)練NLA到FVE 0.71需要兩節(jié)點(diǎn)8×H100運(yùn)行1.5天。

NLA還存在其他幾項(xiàng)局限。

首先是層敏感性：如果NLA訓(xùn)練的層不是行為相關(guān)信息的編碼層，就會(huì)錯(cuò)過重要信號(hào)，例如在獎(jiǎng)勵(lì)模型奉承模型中，在中間層訓(xùn)練的NLA能讀出獎(jiǎng)勵(lì)偏差，而在后層訓(xùn)練的則不能。

其次是可言語(yǔ)化邊界問題：某些信息可能無法用語(yǔ)言表達(dá)（例如后門觸發(fā)機(jī)制），NLA可能無法檢測(cè)到，而機(jī)械可解釋性方法或許可以。

此外，寫作質(zhì)量會(huì)隨訓(xùn)練下降，后期的NLA解釋更難閱讀，研究者認(rèn)為可以通過增加風(fēng)格獎(jiǎng)勵(lì)來解決。

未來，Anthropic已經(jīng)開源了訓(xùn)練代碼，并在HuggingFace上發(fā)布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預(yù)訓(xùn)練NLA，同時(shí)與Neuronpedia合作推出了交互式前端。

Anthropic更長(zhǎng)遠(yuǎn)的愿景是訓(xùn)練通用的“激活語(yǔ)言模型”（Activation Language Models），既能讀激活（回答關(guān)于激活值的問題），也能寫激活（根據(jù)自然語(yǔ)言描述生成導(dǎo)向向量）。

結(jié)語(yǔ)：打開模型黑箱，聽它沒說出口的“心里話”

NLA為模型可解釋性開辟了一條新路徑，哪怕是模型自己不愿說出口的“心里話”，它也讓研究者能夠直接閱讀語(yǔ)言模型內(nèi)部的激活狀態(tài)。

盡管NLA目前還存在臆造、昂貴、層依賴等問題，但它在安全審計(jì)、故障歸因和隱藏動(dòng)機(jī)探測(cè)上的成功，說明這個(gè)方向很有希望。

隨著Anthropic將訓(xùn)練代碼和開源模型推向社區(qū)，以及Neuronpedia上交互式演示界面的開放，更多研究者將能夠親手嘗試這項(xiàng)技術(shù)。

來源：Anthropic

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.