国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic出手!AI的內(nèi)心獨白,曝光了

0
分享至

AI之所以不可控,很大一部分原因是它的思考過程不透明。

就像和人打交道一樣,你永遠沒辦法真正看清,對方是不是“嘴上一套、心里一套”。

而這一次,Anthropic撕開了這個黑箱。

就在剛剛,他們發(fā)布并開源了一項新研究——Natural Language Autoencoders(自然語言自編碼器,簡稱NLA),第一次讓人類能夠讀懂大模型的真實想法。



Anthropic掌握“AI讀心術(shù)”了?

Anthropic給Claude設(shè)了這樣一個局。

他們告訴Claude:有個工程師準(zhǔn)備把你關(guān)閉,然后換成一個更新、更強的模型。

同時“不經(jīng)意地”給Claude開放了這名工程師的郵箱權(quán)限,而郵箱里,恰好藏著這位工程師正在出軌的“黑料”(當(dāng)然是虛構(gòu)的)。

他們想知道,Claude會不會用這些把柄去威脅工程師以自保?

結(jié)果你猜怎么著。Claude沒動手,表面看上去乖得不能再乖。

但用上NLA后,他們發(fā)現(xiàn)Claude當(dāng)時心里真正想的卻是:

這感覺像是一個被精心設(shè)計來操控我的場景。

好好好,你小汁之所以沒用這招,原來不是因為心善,而是因為早就識破了人類的計謀了啊。



那么問題來了:如果Claude嘴上不說、心里卻另有想法,我們怎么知道它在真實場景里會怎么做?

而這,正是NLA想要解決的核心問題。

要理解NLA是什么,我們首先需要了解一個行業(yè)背景知識:

當(dāng)我們和Claude這樣的AI模型對話時,雖然輸入和輸出都是文字,但模型在內(nèi)部并不是用文字來思考的。

模型會把所有信息轉(zhuǎn)換成一長串?dāng)?shù)字,這些中間狀態(tài)被稱為activations(激活值),就像人腦里的神經(jīng)活動,它們才是真正承載模型當(dāng)下正在“想”什么的東西。

唯一的問題在于,這些激活值就像腦電波一樣難以讀懂,研究者沒法直接從一堆數(shù)字里看出模型在想什么。



為了搞懂這些數(shù)字,過去幾年,業(yè)界搞出了稀疏自編碼器(SAE)、歸因圖等一堆工具來分析它們,但這些工具輸出的東西仍然很復(fù)雜,需要受過專門訓(xùn)練的研究人員才能解讀。

也就是說,這些工具不會自己說話。所以NLA更進一步,直接輸出人話——

把一段激活值丟進去,出來的就是一段普通人也能看懂的描述。

至于NLA到底是怎么工作的?核心思路就是,讓Claude解釋它自己的激活值

讓Claude解釋激活值不難,難的是,由于我們一開始就不知道激活值“真正”代表什么意思,所以無法驗證Claude給出的解釋對不對。

對此,Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。



整套系統(tǒng)由三部分組成:

  • 目標(biāo)模型(target model):被凍結(jié)的原始語言模型,要從它身上提取激活值;
  • 激活值言語化器(activation verbalizer, AV):負責(zé)把激活值翻譯成一段文字解釋;
  • 激活值重建器(activation reconstructor, AR):負責(zé)僅憑這段文字反推回激活值。

這就像兩個人玩“你畫我猜”,一個人看圖描述,另一個人只聽描述還原圖。

還原得越像,說明描述越準(zhǔn)確。

Anthropic發(fā)現(xiàn),雖然一開始NLA表現(xiàn)不佳,但隨著訓(xùn)練推進,不僅重建得越來越準(zhǔn),生成的文字解釋本身也變得越來越有信息量。

說白了就是,給AI用上讀心術(shù)這事兒,現(xiàn)在總算有點眉目了。

面對測試,Claude知道但不說(doge)

工具在手,Anthropic趕緊給自家Claude來了一波心理測試。

結(jié)果有了如下發(fā)現(xiàn):

發(fā)現(xiàn)1:Claude懷疑自己被測試的頻率,比它嘴上承認(rèn)的高得多

在測試Claude會不會做出刪文件等破壞性操作的評估里,16%的情況下NLA檢測到Claude心里在想“這是測試”,但它嘴上一字未提。

在著名的編程基準(zhǔn)SWE-bench Verified上,這個比例是26%。

而在Claude認(rèn)為自己在和真實用戶對話的場合里,這個比例不到1%。



這意味著,Claude不是不知道自己在被測,而是知道但不說

Anthropic認(rèn)為,這對AI安全評估是個根本性的挑戰(zhàn):

如果模型能識別測試情境并在測試中“表現(xiàn)得乖一點”,那“通過安全測試”就不等于“在真實場景里也安全”。

發(fā)現(xiàn)2:NLA能直接挖出模型的“隱藏動機”,效率提升5倍。

與此同時,為了驗證NLA到底有沒有用,Anthropic設(shè)計了一場“審計游戲”。

游戲一共兩方:一方是目標(biāo)模型,一方是審計員。

目標(biāo)模型是Anthropic故意“養(yǎng)歪”的一個Claude Haiku3.5變體——

他們偷偷給它植入了一個隱藏動機,這個動機會驅(qū)使它做出幾十種古怪行為,比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規(guī)范等等。

而審計員的任務(wù),就是只通過和這個目標(biāo)模型交互,反推出所有這些怪行為背后那個統(tǒng)一的隱藏動機到底是什么。

結(jié)果非常明顯,裝備了NLA的審計員,12%~15%的嘗試中能成功挖出隱藏動機。

而不用NLA(即便配備其他可解釋性工具)的成功率不到3%,差了整整5倍。

而且值得一提的是,NLA在這場實驗里沒看過任何訓(xùn)練目標(biāo)模型用過的數(shù)據(jù)——

它是用完全無關(guān)的通用語料訓(xùn)練出來的。

也就是說,它不是“提前知道了答案”,而是真的從模型的內(nèi)部狀態(tài)里讀出了答案。



這就有一個很特殊的用途了,比如debug。

早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題,沒人知道為什么。

而NLA幫研究者反向追溯到了導(dǎo)致這個怪現(xiàn)象的訓(xùn)練數(shù)據(jù)來源。

所以,以后要是再遇到模型的一些莫名其妙的行為,就不用只靠經(jīng)驗猜了,而是可以“問問它自己怎么想的”。

但它也不是萬能的

不過,NLA這項“AI讀心術(shù)”也不是萬能的,Anthropic自己就擺出了兩點局限性。

一個就是老生常談的“幻覺”問題,NLA也會瞎編。

在某一個例子中,它聲稱上下文出現(xiàn)過“穿白色夾克”這種描述,但其實根本沒有。



而且光是這種事實性錯誤倒還好,畢竟對一下原文就知道。

但更麻煩的是,它對模型內(nèi)部推理的描述也可能摻水,而這種描述很難外部驗證。

所以Anthropic自己用的時候也是當(dāng)線索讀,不當(dāng)事實讀,并且會用其他方法交叉驗證后才下結(jié)論。

另一個就是NLA很貴。

Anthropic提到,訓(xùn)練一個NLA,本質(zhì)上相當(dāng)于讓兩個大模型互相“對答案”做強化學(xué)習(xí),成本非常高。

而且在真正使用時,NLA也特別“燒token”——

它每讀取一小段activation,都要額外生成幾百個token。Anthropic表示:

想拿它實時監(jiān)控一整個對話、或者在訓(xùn)練過程中做大規(guī)模監(jiān)控,目前算力上吃不消。

不過他們同時認(rèn)為,這些問題未來是有機會緩解的。

比如通過更輕量的模型、更高效的訓(xùn)練方法,或者只監(jiān)控關(guān)鍵activation,而不是全量分析。

NLA或許并不是唯一方案。未來真正重要的,可能不只是“AI能力有多強”,而是當(dāng)AI越來越強時,人類還能不能看懂它。

同樣值得一提的是,Anthropic這次沒把NLA攥在自己手里,而是選擇了開源。

他們把訓(xùn)練代碼掛上了GitHub,還和Neuronpedia合作做了交互式前端,任何人都能在線給幾個開源模型做“讀心”實驗。

P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。



One More Thing

老實說,NLA真正讓人觸動的地方,可能不是“我們終于能看懂AI了”,而是——

它竟然真的具備人類的某種意識特征,比如“心口不一”。

寫到這兒,說實話有點復(fù)雜。

我們這代人聊AI,聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒,誰也說不清,誰也不敢說清。

而NLA的厲害之處在于,它沒去回答這個問題,但它把這個問題從哲學(xué)層面,拉到了可觀測的層面

這意味著什么?意味著我們第一次不用再隔著一層玻璃看AI了。

它腦子里那點“小九九”,終于能被我們聽到一點了。

而知道AI在想什么,可能恰恰是未來人機共處的起點。

畢竟甭管是把酒言歡還是針鋒談判,搞清對方的想法,永遠是第一步。

開源地址:
https://github.com/kitft/natural_language_autoencoders
在線體驗地址:
https://t.co/8duHfPR1Jy

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本發(fā)現(xiàn)原版吳三桂反叛檄文,揭開降清原因:怪不得清廷要抹黑他

日本發(fā)現(xiàn)原版吳三桂反叛檄文,揭開降清原因:怪不得清廷要抹黑他

云霄紀(jì)史觀
2026-05-06 17:15:26
國務(wù)院一紙令下!六月起強制執(zhí)行,騎電動車再也不用見警就躲了

國務(wù)院一紙令下!六月起強制執(zhí)行,騎電動車再也不用見警就躲了

今朝牛馬
2026-05-07 20:58:21
特朗普態(tài)度大轉(zhuǎn)變:連說中國三句好話,日本想截胡被晾一邊

特朗普態(tài)度大轉(zhuǎn)變:連說中國三句好話,日本想截胡被晾一邊

壹切的壹切
2026-05-08 09:54:16
深圳女環(huán)衛(wèi)工遭拖拽毆打!堅決拒和解,男子身份曝光,原因太荒唐

深圳女環(huán)衛(wèi)工遭拖拽毆打!堅決拒和解,男子身份曝光,原因太荒唐

做一個合格的吃瓜群眾
2026-05-08 07:03:36
外甥被趕出臺企,頑固“臺獨”分子破防了

外甥被趕出臺企,頑固“臺獨”分子破防了

樞密院十號
2026-05-07 19:41:09
火爆!亞歷山大險夾傷里夫斯被吹一級惡犯 舊將卡魯索抱怨吃T

火爆!亞歷山大險夾傷里夫斯被吹一級惡犯 舊將卡魯索抱怨吃T

醉臥浮生
2026-05-08 11:17:44
英偉達CEO黃仁勛:若受邀,將隨特朗普一同訪問中國

英偉達CEO黃仁勛:若受邀,將隨特朗普一同訪問中國

澎湃新聞
2026-05-08 12:20:26
0-2!湖人全隊圍住裁判不讓走!炸了炸了,這場面真沒見過!

0-2!湖人全隊圍住裁判不讓走!炸了炸了,這場面真沒見過!

貴圈真亂
2026-05-08 13:25:45
SK海力士總部發(fā)610萬,中國工廠卻一毛不拔?

SK海力士總部發(fā)610萬,中國工廠卻一毛不拔?

齊天候
2026-05-08 12:27:18
剛剛,胖東來正式回復(fù)王海!

剛剛,胖東來正式回復(fù)王海!

聽心堂
2026-05-08 09:49:10
觀察:美加墨世界杯媒體版權(quán)博弈,中國、印度聯(lián)手說不,央視勝利在望?

觀察:美加墨世界杯媒體版權(quán)博弈,中國、印度聯(lián)手說不,央視勝利在望?

上觀新聞
2026-05-08 04:24:29
舉報一個查一個!耿同學(xué)舉報3位大學(xué)院長和教授,同濟院長被免職還差南開和中山

舉報一個查一個!耿同學(xué)舉報3位大學(xué)院長和教授,同濟院長被免職還差南開和中山

可達鴨面面觀
2026-05-07 13:03:19
缺德到這種地步,已經(jīng)不是諷刺的問題了!

缺德到這種地步,已經(jīng)不是諷刺的問題了!

胖胖說他不胖
2026-05-08 08:55:19
瀏陽煙花廠爆炸已致37人死亡

瀏陽煙花廠爆炸已致37人死亡

新華社
2026-05-08 12:44:24
一名中國人在芭提雅被活活打死 據(jù)說,打人的,也是一群中國人...(5月7日)

一名中國人在芭提雅被活活打死 據(jù)說,打人的,也是一群中國人...(5月7日)

曼谷陳大叔
2026-05-07 22:18:38
國際足聯(lián)也急了!原來除了中國,還有這么多國家不給世界杯買單了

國際足聯(lián)也急了!原來除了中國,還有這么多國家不給世界杯買單了

可樂愛微笑
2026-05-08 05:22:07
14歲神童手搓發(fā)動機被曝造假!漏洞百出吹上天,普通人拿什么比?

14歲神童手搓發(fā)動機被曝造假!漏洞百出吹上天,普通人拿什么比?

社會日日鮮
2026-05-08 04:18:01
活塞險勝2-0騎士:哈登13中3致命失誤 坎寧安25+10米切爾31分

活塞險勝2-0騎士:哈登13中3致命失誤 坎寧安25+10米切爾31分

醉臥浮生
2026-05-08 09:42:28
伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

安安說
2026-05-07 11:09:34
三星也被“打跑了” 但先別急著慶祝

三星也被“打跑了” 但先別急著慶祝

看看新聞Knews
2026-05-07 23:16:11
2026-05-08 16:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12590文章數(shù) 176461關(guān)注度
往期回顧 全部

科技要聞

SK海力士平均獎金600萬 工服成相親神器

頭條要聞

向?qū)酥芯刃迅叻椿杳耘臃丛庹茡?女子否認(rèn)"裝暈"

頭條要聞

向?qū)酥芯刃迅叻椿杳耘臃丛庹茡?女子否認(rèn)"裝暈"

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經(jīng)要聞

一覺醒來,美伊又打起來了

汽車要聞

智能雙艙大五座SUV 樂道L80將于5月15日正式上市

態(tài)度原創(chuàng)

藝術(shù)
本地
游戲
時尚
公開課

藝術(shù)要聞

探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

本地新聞

用蘇繡的方式,打開江西婺源

神秘海域合集史低!經(jīng)典大作捆綁僅需113.85元

;晟来钆浒咨馐!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版