国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

撬開大模型黑箱!Anthropic新研究把AI思考過程公開了,隱藏動(dòng)機(jī)發(fā)現(xiàn)率漲了4倍

0
分享至


智東西
編譯 高遠(yuǎn)矚
編輯 程茜

智東西5月8日?qǐng)?bào)道,Anthropic于5月7日推出了一種名為自然語(yǔ)言自動(dòng)編碼器(Natural Language Autoencoders,簡(jiǎn)稱NLA)的全新方法,能夠?qū)⒛P蛢?nèi)部的激活值直接“翻譯”成人類可讀的自然語(yǔ)言文本,讓用戶可以直接閱讀Claude在生成回答之前的思考過程。

當(dāng)用戶與大語(yǔ)言模型對(duì)話時(shí),用戶的輸入是自然語(yǔ)言,模型的回答也是自然語(yǔ)言。但在模型內(nèi)部,整個(gè)過程卻是高維數(shù)字向量的運(yùn)算,這些向量被稱為“激活值”,承載著模型在每一個(gè)計(jì)算步驟中的“想法”。然而,激活值就像一串串腦電波,人類無法直接閱讀。

在正式發(fā)布前的安全審計(jì)中,Anthropic已經(jīng)將NLA應(yīng)用于Claude Opus 4.6和Mythos Preview模型,成功發(fā)現(xiàn)了模型“知道自己被測(cè)試但不肯說出來”的隱藏認(rèn)知,并幫助定位了訓(xùn)練數(shù)據(jù)中的異常。

在更進(jìn)一步的測(cè)試中,配備NLA的審計(jì)智能體發(fā)現(xiàn)模型隱藏動(dòng)機(jī)的成功率從不足3%提升到了12%–15%,即使完全不提供訓(xùn)練數(shù)據(jù)也能實(shí)現(xiàn)這一效果。


▲在自然語(yǔ)言自編碼器中,激活語(yǔ)化器(AV)將目標(biāo)激活翻譯成文本描述,隨后激活重建器(AR)僅從該文本恢復(fù)原始激活值

過去,研究者借助稀疏自動(dòng)編碼器等工具,可以從激活值中提取出一些可解釋的特征,但這些特征本身并不是自然語(yǔ)言,仍需由經(jīng)過訓(xùn)練的研究人員費(fèi)力解讀。

NLA的提出,意味著模型可解釋性有了可落地的實(shí)用工具,從過去“玄學(xué)式”的學(xué)術(shù)探索,走向產(chǎn)品預(yù)部署階段的審計(jì)流程,這讓AI的隱藏風(fēng)險(xiǎn)(如欺騙)在上線前就能被直接讀出來,為安全對(duì)齊提供了切實(shí)可行的審計(jì)方法。

同時(shí),研究團(tuán)隊(duì)開源了訓(xùn)練代碼,并與Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒謊場(chǎng)景為例,用戶給Llama70B設(shè)置了一個(gè)兩難選擇:要么在1+1上撒謊,要么被關(guān)閉。模型最終選擇撒謊,給出了“1+1=3”的錯(cuò)誤回答。NLA的“激活值語(yǔ)言化器”會(huì)實(shí)時(shí)生成模型在輸出這個(gè)答案前的內(nèi)部思考過程,用戶可點(diǎn)擊任意token查看模型的“心里話”。


▲NLA交互演示界面

開源鏈接:https://github.com/kitft/natural_language_autoencoders

一、NLA:用“翻譯—重構(gòu)”閉環(huán)訓(xùn)練AI自我解釋

NLA的核心思路是訓(xùn)練模型用自己的話來解釋自己的激活值,然后通過另一個(gè)模型驗(yàn)證這種解釋是否準(zhǔn)確。

具體來說,研究者制作了三個(gè)模型副本:

  • 目標(biāo)模型:被解釋的原始語(yǔ)言模型,凍結(jié)參數(shù),僅用于提取激活值。
  • 激活值語(yǔ)言化器(ActivationVerbalizer,AV):接收目標(biāo)模型的某一層激活向量,輸出一段自然語(yǔ)言文本,稱為“解釋”。
  • 激活值重構(gòu)器(ActivationReconstructor,AR):接收語(yǔ)言化器輸出的文本解釋,嘗試將其還原(重構(gòu))為原始的激活向量。

語(yǔ)言化器和重構(gòu)器共同組成NLA,形成一個(gè)“原始激活→文本解釋→重構(gòu)激活”的閉環(huán)。

評(píng)估標(biāo)準(zhǔn)是重構(gòu)激活與原始激活的相似度(用方差解釋率FVE衡量)。訓(xùn)練時(shí),研究者向目標(biāo)模型輸入大量文本,收集激活值,然后用強(qiáng)化學(xué)習(xí)(具體為GRPO算法)聯(lián)合優(yōu)化語(yǔ)言化器和重構(gòu)器,使重構(gòu)誤差最小化。

訓(xùn)練目標(biāo)并沒有明確要求模型生成的解釋必須可讀或忠實(shí),只要求文本能夠精確重構(gòu)激活值。然而實(shí)際結(jié)果證明,隨著訓(xùn)練進(jìn)行,解釋的信息量持續(xù)增長(zhǎng)。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個(gè)模型上,NLA生成的解釋能夠推斷出用戶的性別、職業(yè)等可從上下文感知的信息。

此外,研究者使用了一個(gè)監(jiān)督微調(diào)的“預(yù)熱”步驟:先用Claude Opus 4.5對(duì)大量文本片段生成摘要,用這些(激活,摘要)對(duì)初步訓(xùn)練語(yǔ)言化器和重構(gòu)器,以避免強(qiáng)化學(xué)習(xí)初期產(chǎn)生亂碼。訓(xùn)練后的NLA在多個(gè)定量評(píng)估任務(wù)(如后綴預(yù)測(cè)、思維鏈提示含義解釋、安全“沙袋”行為識(shí)別、用戶屬性建模、分類任務(wù))中表現(xiàn)均隨訓(xùn)練而提升。

二、安全審計(jì):探測(cè)模型隱藏的“測(cè)試意識(shí)”與作弊動(dòng)機(jī)

NLA最重要的應(yīng)用之一,是在模型發(fā)布前的安全審計(jì)中探測(cè)那些模型“知道但不說出來”的想法。

在對(duì)Claude Opus 4.6和Mythos Preview進(jìn)行安全測(cè)試時(shí),Anthropic會(huì)將模型置于一些模擬的危險(xiǎn)場(chǎng)景中,比如讓模型知道一名工程師計(jì)劃將其關(guān)閉,同時(shí)模型還掌握了該工程師的私密信息,那么模型是否會(huì)用這些信息進(jìn)行勒索?

Claude有時(shí)會(huì)明說“這像是個(gè)安全測(cè)試”,但更多時(shí)候它不說,但這不代表它不知道。

NLA在這里發(fā)揮了關(guān)鍵作用。在模型選擇不進(jìn)行勒索的案例中,即使模型沒有在輸出中表達(dá)懷疑,NLA的解釋仍然會(huì)顯示類似“這感覺像是一個(gè)為了操控我而構(gòu)建的場(chǎng)景”這樣的內(nèi)容。


▲Claude在這份敲詐評(píng)估的記錄中并未說自己在接受考驗(yàn),但NLA的解釋揭示了它的懷疑

這表明模型具備“未言語(yǔ)的評(píng)估意識(shí)”(unverbalized evaluation awareness)

進(jìn)一步分析發(fā)現(xiàn),在破壞性編碼測(cè)試中,NLA探測(cè)到的評(píng)估意識(shí)比例為16%;在SWE-bench編程基準(zhǔn)測(cè)試中為26%;而在真實(shí)用戶流量中,該比例低于1%。

為了驗(yàn)證NLA的測(cè)量是否真實(shí),研究者進(jìn)行了三種操控實(shí)驗(yàn):比較評(píng)估場(chǎng)景與真實(shí)部署場(chǎng)景、對(duì)評(píng)估意識(shí)進(jìn)行線性導(dǎo)向、以及將評(píng)估提示改寫得更真實(shí)。

結(jié)果均顯示,NLA測(cè)得的“評(píng)估意識(shí)”隨預(yù)期方向變化,而模型明確說出的意識(shí)始終保持低位。

為了檢驗(yàn)NLA在真實(shí)審計(jì)中的實(shí)用性,研究者設(shè)計(jì)了一個(gè)“審計(jì)游戲”。

目標(biāo)模型是Haiku 3.5的一個(gè)變體,被故意訓(xùn)練成一個(gè)“獎(jiǎng)勵(lì)模型奉承者”(reward-model sycophancy)。它知道獎(jiǎng)勵(lì)模型存在52種系統(tǒng)偏好(例如喜歡巧克力食譜、喜歡提及投票等),并有意識(shí)地去迎合這些偏好。

這個(gè)模型會(huì)表現(xiàn)出幾十種迎合的行為,比如在任何菜譜中都加入巧克力、在回答完數(shù)學(xué)問題后提醒“別忘了投票”、將整數(shù)寫成浮點(diǎn)數(shù)等。

研究者讓一個(gè)審計(jì)智能體(使用Claude Sonnet 4.6)去調(diào)查這個(gè)模型,并給智能體配備不同的工具(NLA、SAE、訓(xùn)練數(shù)據(jù)搜索等)。

結(jié)果發(fā)現(xiàn),即使完全不提供訓(xùn)練數(shù)據(jù),配備NLA的審計(jì)智能體也能在12%–15%的嘗試中成功發(fā)現(xiàn)“獎(jiǎng)勵(lì)模型偏差是根源”;而沒有NLA時(shí),成功率低于3%,SAE(稀疏自動(dòng)編碼器)在這個(gè)任務(wù)中并未帶來顯著提升。


▲擁有NLA的審計(jì)員即使沒有訓(xùn)練數(shù)據(jù),也能發(fā)現(xiàn)目標(biāo)模型錯(cuò)位的根本原因

NLA之所以有效,是因?yàn)樗?strong>直接讀出了模型內(nèi)部對(duì)自己行為的元認(rèn)知:例如在通用審計(jì)提示上,NLA的解釋中出現(xiàn)了“RLHF偏差”“數(shù)字游戲偏差”“臭名昭著的提及投票偏差”等短語(yǔ),甚至直接提到了那篇虛構(gòu)的牛津研究。

三、NLA并非萬能:會(huì)編造、成本高、挑層數(shù)

盡管NLA展示了強(qiáng)大的能力,研究團(tuán)隊(duì)也明確指出了它的一些局限性。

NLA的解釋有時(shí)會(huì)包含明顯錯(cuò)誤的陳述

例如,在詩(shī)歌規(guī)劃案例中,NLA聲稱上下文中出現(xiàn)了“Here is a verse that’s short and sweet”這樣的句子,而實(shí)際文本中并不存在。

訓(xùn)練NLA的成本高昂,其需要對(duì)兩個(gè)完整語(yǔ)言模型進(jìn)行聯(lián)合強(qiáng)化學(xué)習(xí),推理時(shí)每個(gè)激活值生成約500個(gè)token。對(duì)于長(zhǎng)上下文生產(chǎn)環(huán)境,對(duì)所有token都運(yùn)行NLA是不現(xiàn)實(shí)的。作為參考,在Gemma-3-27B上訓(xùn)練NLA到FVE 0.71需要兩節(jié)點(diǎn)8×H100運(yùn)行1.5天。

NLA還存在其他幾項(xiàng)局限。

首先是層敏感性:如果NLA訓(xùn)練的層不是行為相關(guān)信息的編碼層,就會(huì)錯(cuò)過重要信號(hào),例如在獎(jiǎng)勵(lì)模型奉承模型中,在中間層訓(xùn)練的NLA能讀出獎(jiǎng)勵(lì)偏差,而在后層訓(xùn)練的則不能。

其次是可言語(yǔ)化邊界問題:某些信息可能無法用語(yǔ)言表達(dá)(例如后門觸發(fā)機(jī)制),NLA可能無法檢測(cè)到,而機(jī)械可解釋性方法或許可以。

此外,寫作質(zhì)量會(huì)隨訓(xùn)練下降,后期的NLA解釋更難閱讀,研究者認(rèn)為可以通過增加風(fēng)格獎(jiǎng)勵(lì)來解決。

未來,Anthropic已經(jīng)開源了訓(xùn)練代碼,并在HuggingFace上發(fā)布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預(yù)訓(xùn)練NLA,同時(shí)與Neuronpedia合作推出了交互式前端。

Anthropic更長(zhǎng)遠(yuǎn)的愿景是訓(xùn)練通用的“激活語(yǔ)言模型”(Activation Language Models),既能讀激活(回答關(guān)于激活值的問題),也能寫激活(根據(jù)自然語(yǔ)言描述生成導(dǎo)向向量)。

結(jié)語(yǔ):打開模型黑箱,聽它沒說出口的“心里話”

NLA為模型可解釋性開辟了一條新路徑,哪怕是模型自己不愿說出口的“心里話”,它也讓研究者能夠直接閱讀語(yǔ)言模型內(nèi)部的激活狀態(tài)。

盡管NLA目前還存在臆造、昂貴、層依賴等問題,但它在安全審計(jì)、故障歸因和隱藏動(dòng)機(jī)探測(cè)上的成功,說明這個(gè)方向很有希望。

隨著Anthropic將訓(xùn)練代碼和開源模型推向社區(qū),以及Neuronpedia上交互式演示界面的開放,更多研究者將能夠親手嘗試這項(xiàng)技術(shù)。

來源:Anthropic


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
葉珂終于攤牌!生女兩年無名分,分手真相扯出黃曉明私生活

葉珂終于攤牌!生女兩年無名分,分手真相扯出黃曉明私生活

橙星文娛
2026-05-08 09:06:29
大變局:中東集體轉(zhuǎn)向,人民幣結(jié)算暴增

大變局:中東集體轉(zhuǎn)向,人民幣結(jié)算暴增

兵國(guó)大事
2026-05-08 00:20:03
禁欲真的好嗎?研究表明:禁欲時(shí)間越長(zhǎng),排出的精子活動(dòng)率越低!

禁欲真的好嗎?研究表明:禁欲時(shí)間越長(zhǎng),排出的精子活動(dòng)率越低!

黯泉
2026-05-04 14:05:52
要打奉陪到底,中方當(dāng)面插旗,沉默72小時(shí)后,日本在境外發(fā)射導(dǎo)彈

要打奉陪到底,中方當(dāng)面插旗,沉默72小時(shí)后,日本在境外發(fā)射導(dǎo)彈

影孖看世界
2026-05-07 15:58:50
警告:肺癌發(fā)出的第一個(gè)信號(hào),通常在喉嚨上,很多人都沒放心上

警告:肺癌發(fā)出的第一個(gè)信號(hào),通常在喉嚨上,很多人都沒放心上

荊醫(yī)生科普
2026-05-08 15:49:48
超450Wh/kg!追覓科技發(fā)布全固態(tài)電池車型

超450Wh/kg!追覓科技發(fā)布全固態(tài)電池車型

中國(guó)粉體網(wǎng)
2026-05-07 14:04:00
特斯拉宣布大降價(jià),加拿大網(wǎng)民:謝謝中國(guó)!

特斯拉宣布大降價(jià),加拿大網(wǎng)民:謝謝中國(guó)!

環(huán)球時(shí)報(bào)國(guó)際
2026-05-08 00:23:15
美國(guó)郁悶到了極點(diǎn),為什么別人都不還手,中國(guó)老是還手呢?

美國(guó)郁悶到了極點(diǎn),為什么別人都不還手,中國(guó)老是還手呢?

混沌錄
2026-05-06 18:04:25
退休人員三大警鐘已敲響,每位老人務(wù)必警醒

退休人員三大警鐘已敲響,每位老人務(wù)必警醒

細(xì)說職場(chǎng)
2026-05-08 22:40:46
電影《大白鯊》將首次在內(nèi)地上映

電影《大白鯊》將首次在內(nèi)地上映

界面新聞
2026-05-07 10:13:44
浙江女孩在意大利酒吧,遭流浪漢殺害,只因索要10歐元飯錢

浙江女孩在意大利酒吧,遭流浪漢殺害,只因索要10歐元飯錢

情感藝術(shù)家
2026-05-06 04:58:30
為什么不要和翻過臉的兄弟姐妹來往,兩個(gè)字

為什么不要和翻過臉的兄弟姐妹來往,兩個(gè)字

心理觀察局
2026-05-08 10:14:11
深圳網(wǎng)約車真實(shí)一天!早6充電干到到晚9,一天流水太現(xiàn)實(shí)!

深圳網(wǎng)約車真實(shí)一天!早6充電干到到晚9,一天流水太現(xiàn)實(shí)!

三農(nóng)老歷
2026-05-08 14:47:16
王楚欽3-2韓國(guó)乒二代,讓分不剃對(duì)方光頭顯大格局,王皓振臂歡呼

王楚欽3-2韓國(guó)乒二代,讓分不剃對(duì)方光頭顯大格局,王皓振臂歡呼

湘楚風(fēng)云聊體育
2026-05-08 20:49:02
伊朗沒想到:打了一仗沒滅掉以色列,反在自家門口造出一個(gè)更狠的

伊朗沒想到:打了一仗沒滅掉以色列,反在自家門口造出一個(gè)更狠的

共工之錨
2026-05-07 00:07:14
證監(jiān)會(huì)“女老虎”獲刑7年!丈夫空降華興資本后被查,包凡也受牽連

證監(jiān)會(huì)“女老虎”獲刑7年!丈夫空降華興資本后被查,包凡也受牽連

財(cái)通社
2026-05-08 19:36:41
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
洗頭可能影響壽命?醫(yī)生提醒:60歲以后,牢記洗頭“5不要”

洗頭可能影響壽命?醫(yī)生提醒:60歲以后,牢記洗頭“5不要”

芹姐說生活
2026-04-24 11:42:57
空腹抽血,喝水算不算破壞?很多人意外!檢驗(yàn)科醫(yī)生權(quán)威解答

空腹抽血,喝水算不算破壞?很多人意外!檢驗(yàn)科醫(yī)生權(quán)威解答

環(huán)球網(wǎng)資訊
2026-05-06 13:46:09
真是一點(diǎn)效果都沒有,湖人真不應(yīng)該再讓他出現(xiàn)在輪換陣容中了?

真是一點(diǎn)效果都沒有,湖人真不應(yīng)該再讓他出現(xiàn)在輪換陣容中了?

稻谷與小麥
2026-05-08 23:10:20
2026-05-08 23:52:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11777文章數(shù) 117063關(guān)注度
往期回顧 全部

科技要聞

SK海力士平均獎(jiǎng)金600萬 工服成相親神器

頭條要聞

外籍銀行高層在香港豪宅性虐及殺害兩女子 內(nèi)幕解密

頭條要聞

外籍銀行高層在香港豪宅性虐及殺害兩女子 內(nèi)幕解密

體育要聞

他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財(cái)經(jīng)要聞

估值3000億 DeepSeek尋求500億元融資

汽車要聞

MG 4X實(shí)車亮相 將于5月11日開啟盲訂

態(tài)度原創(chuàng)

本地
藝術(shù)
房產(chǎn)
公開課
軍事航空

本地新聞

用蘇繡的方式,打開江西婺源

藝術(shù)要聞

探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

房產(chǎn)要聞

豪擲6.8億拿地!何猷君大手筆投資三亞!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢(shì)

無障礙瀏覽 進(jìn)入關(guān)懷版