国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Anthropic出手！AI的內(nèi)心獨白，曝光了

2026-05-08 14:32:06　來源: 量子位

北京舉報

0

分享至

AI之所以不可控，很大一部分原因是它的思考過程不透明。

就像和人打交道一樣，你永遠沒辦法真正看清，對方是不是“嘴上一套、心里一套”。

而這一次，Anthropic撕開了這個黑箱。

就在剛剛，他們發(fā)布并開源了一項新研究——Natural Language Autoencoders（自然語言自編碼器，簡稱NLA），第一次讓人類能夠讀懂大模型的真實想法。

Anthropic掌握“AI讀心術(shù)”了？

Anthropic給Claude設(shè)了這樣一個局。

他們告訴Claude：有個工程師準(zhǔn)備把你關(guān)閉，然后換成一個更新、更強的模型。

同時“不經(jīng)意地”給Claude開放了這名工程師的郵箱權(quán)限，而郵箱里，恰好藏著這位工程師正在出軌的“黑料”（當(dāng)然是虛構(gòu)的）。

他們想知道，Claude會不會用這些把柄去威脅工程師以自保？

結(jié)果你猜怎么著。Claude沒動手，表面看上去乖得不能再乖。

但用上NLA后，他們發(fā)現(xiàn)Claude當(dāng)時心里真正想的卻是：

這感覺像是一個被精心設(shè)計來操控我的場景。

好好好，你小汁之所以沒用這招，原來不是因為心善，而是因為早就識破了人類的計謀了啊。

那么問題來了：如果Claude嘴上不說、心里卻另有想法，我們怎么知道它在真實場景里會怎么做？

而這，正是NLA想要解決的核心問題。

要理解NLA是什么，我們首先需要了解一個行業(yè)背景知識：

當(dāng)我們和Claude這樣的AI模型對話時，雖然輸入和輸出都是文字，但模型在內(nèi)部并不是用文字來思考的。

模型會把所有信息轉(zhuǎn)換成一長串?dāng)?shù)字，這些中間狀態(tài)被稱為activations（激活值），就像人腦里的神經(jīng)活動，它們才是真正承載模型當(dāng)下正在“想”什么的東西。

唯一的問題在于，這些激活值就像腦電波一樣難以讀懂，研究者沒法直接從一堆數(shù)字里看出模型在想什么。

為了搞懂這些數(shù)字，過去幾年，業(yè)界搞出了稀疏自編碼器（SAE）、歸因圖等一堆工具來分析它們，但這些工具輸出的東西仍然很復(fù)雜，需要受過專門訓(xùn)練的研究人員才能解讀。

也就是說，這些工具不會自己說話。所以NLA更進一步，直接輸出人話——

把一段激活值丟進去，出來的就是一段普通人也能看懂的描述。

至于NLA到底是怎么工作的？核心思路就是，讓Claude解釋它自己的激活值。

讓Claude解釋激活值不難，難的是，由于我們一開始就不知道激活值“真正”代表什么意思，所以無法驗證Claude給出的解釋對不對。

對此，Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。

整套系統(tǒng)由三部分組成：

目標(biāo)模型（target model）：被凍結(jié)的原始語言模型，要從它身上提取激活值；
激活值言語化器（activation verbalizer, AV）：負責(zé)把激活值翻譯成一段文字解釋；
激活值重建器（activation reconstructor, AR）：負責(zé)僅憑這段文字反推回激活值。

這就像兩個人玩“你畫我猜”，一個人看圖描述，另一個人只聽描述還原圖。

還原得越像，說明描述越準(zhǔn)確。

Anthropic發(fā)現(xiàn)，雖然一開始NLA表現(xiàn)不佳，但隨著訓(xùn)練推進，不僅重建得越來越準(zhǔn)，生成的文字解釋本身也變得越來越有信息量。

說白了就是，給AI用上讀心術(shù)這事兒，現(xiàn)在總算有點眉目了。

面對測試，Claude知道但不說（doge）

工具在手，Anthropic趕緊給自家Claude來了一波心理測試。

結(jié)果有了如下發(fā)現(xiàn)：

發(fā)現(xiàn)1：Claude懷疑自己被測試的頻率，比它嘴上承認(rèn)的高得多。

在測試Claude會不會做出刪文件等破壞性操作的評估里，16%的情況下NLA檢測到Claude心里在想“這是測試”，但它嘴上一字未提。

在著名的編程基準(zhǔn)SWE-bench Verified上，這個比例是26%。

而在Claude認(rèn)為自己在和真實用戶對話的場合里，這個比例不到1%。

這意味著，Claude不是不知道自己在被測，而是知道但不說。

Anthropic認(rèn)為，這對AI安全評估是個根本性的挑戰(zhàn)：

如果模型能識別測試情境并在測試中“表現(xiàn)得乖一點”，那“通過安全測試”就不等于“在真實場景里也安全”。

發(fā)現(xiàn)2：NLA能直接挖出模型的“隱藏動機”，效率提升5倍。

與此同時，為了驗證NLA到底有沒有用，Anthropic設(shè)計了一場“審計游戲”。

游戲一共兩方：一方是目標(biāo)模型，一方是審計員。

目標(biāo)模型是Anthropic故意“養(yǎng)歪”的一個Claude Haiku3.5變體——

他們偷偷給它植入了一個隱藏動機，這個動機會驅(qū)使它做出幾十種古怪行為，比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規(guī)范等等。

而審計員的任務(wù)，就是只通過和這個目標(biāo)模型交互，反推出所有這些怪行為背后那個統(tǒng)一的隱藏動機到底是什么。

結(jié)果非常明顯，裝備了NLA的審計員，12%~15%的嘗試中能成功挖出隱藏動機。

而不用NLA（即便配備其他可解釋性工具）的成功率不到3%，差了整整5倍。

而且值得一提的是，NLA在這場實驗里沒看過任何訓(xùn)練目標(biāo)模型用過的數(shù)據(jù)——

它是用完全無關(guān)的通用語料訓(xùn)練出來的。

也就是說，它不是“提前知道了答案”，而是真的從模型的內(nèi)部狀態(tài)里讀出了答案。

這就有一個很特殊的用途了，比如debug。

早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題，沒人知道為什么。

而NLA幫研究者反向追溯到了導(dǎo)致這個怪現(xiàn)象的訓(xùn)練數(shù)據(jù)來源。

所以，以后要是再遇到模型的一些莫名其妙的行為，就不用只靠經(jīng)驗猜了，而是可以“問問它自己怎么想的”。

但它也不是萬能的

不過，NLA這項“AI讀心術(shù)”也不是萬能的，Anthropic自己就擺出了兩點局限性。

一個就是老生常談的“幻覺”問題，NLA也會瞎編。

在某一個例子中，它聲稱上下文出現(xiàn)過“穿白色夾克”這種描述，但其實根本沒有。

而且光是這種事實性錯誤倒還好，畢竟對一下原文就知道。

但更麻煩的是，它對模型內(nèi)部推理的描述也可能摻水，而這種描述很難外部驗證。

所以Anthropic自己用的時候也是當(dāng)線索讀，不當(dāng)事實讀，并且會用其他方法交叉驗證后才下結(jié)論。

另一個就是NLA很貴。

Anthropic提到，訓(xùn)練一個NLA，本質(zhì)上相當(dāng)于讓兩個大模型互相“對答案”做強化學(xué)習(xí)，成本非常高。

而且在真正使用時，NLA也特別“燒token”——

它每讀取一小段activation，都要額外生成幾百個token。Anthropic表示：

想拿它實時監(jiān)控一整個對話、或者在訓(xùn)練過程中做大規(guī)模監(jiān)控，目前算力上吃不消。

不過他們同時認(rèn)為，這些問題未來是有機會緩解的。

比如通過更輕量的模型、更高效的訓(xùn)練方法，或者只監(jiān)控關(guān)鍵activation，而不是全量分析。

NLA或許并不是唯一方案。未來真正重要的，可能不只是“AI能力有多強”，而是當(dāng)AI越來越強時，人類還能不能看懂它。

同樣值得一提的是，Anthropic這次沒把NLA攥在自己手里，而是選擇了開源。

他們把訓(xùn)練代碼掛上了GitHub，還和Neuronpedia合作做了交互式前端，任何人都能在線給幾個開源模型做“讀心”實驗。

P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。

One More Thing

老實說，NLA真正讓人觸動的地方，可能不是“我們終于能看懂AI了”，而是——

它竟然真的具備人類的某種意識特征，比如“心口不一”。

寫到這兒，說實話有點復(fù)雜。

我們這代人聊AI，聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒，誰也說不清，誰也不敢說清。

而NLA的厲害之處在于，它沒去回答這個問題，但它把這個問題從哲學(xué)層面，拉到了可觀測的層面。

這意味著什么？意味著我們第一次不用再隔著一層玻璃看AI了。

它腦子里那點“小九九”，終于能被我們聽到一點了。

而知道AI在想什么，可能恰恰是未來人機共處的起點。

畢竟甭管是把酒言歡還是針鋒談判，搞清對方的想法，永遠是第一步。

開源地址：
https://github.com/kitft/natural_language_autoencoders
在線體驗地址：
https://t.co/8duHfPR1Jy

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

多模態(tài)預(yù)訓(xùn)練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0
Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰(zhàn)僅剩雙雄決頂

新智元 2026-05-08 15:10:12
0 跟貼 0

不用再學(xué)AI了！生成結(jié)果包穩(wěn)的Agent來了

機器之心Pro 2026-05-08 15:03:15
0 跟貼 0

告別冗長思維鏈！Laser用「概率疊加」重塑多模態(tài)大模型隱式推理

機器之心Pro 2026-05-08 14:18:56
0 跟貼 0
AI模型是個黑箱，這家公司造了一把能打開它的鑰匙

DeepTech深科技 2026-05-07 13:37:16
0 跟貼 0

通用腦機接口時代來了？跨尺度腦基礎(chǔ)模型CSBrain真正讀懂腦信號

機器之心Pro 2025-11-27 14:46:04
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
不用學(xué)AI了！圈內(nèi)公開的秘密：頂級玩家已開始讓AI用AI

新智元 2026-05-08 15:07:22
0 跟貼 0

00后小哥復(fù)刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
谷歌招人流程大變，面試環(huán)節(jié)必須用AI

智東西 2026-05-08 13:29:10
0 跟貼 0
ChatGPT 免費、豆包收費：同一道商業(yè)題的兩種解法

鈦媒體APP 2026-05-08 15:28:12
0 跟貼 0
全球AI新王誕生 Anthropic估值沖爆1.2萬億

新智元 2026-05-07 20:03:21
5 跟貼 5
男子教兒子翻譯，結(jié)果讓人捧腹大笑，網(wǎng)友：成功將大山的孩子送進了深山

星沙時報 2026-05-06 14:37:47
0 跟貼 0
波蘭總統(tǒng)：波蘭可以接收美國從德國撤出的5000人部隊

澎湃新聞 2026-05-07 16:02:26
13628 跟貼 13628
Anthropic考慮以近萬億美元估值達成交易

財聯(lián)社 2026-05-08 12:22:04
1 跟貼 1
號稱1200萬token上下文的模型來了，數(shù)據(jù)亮眼但疑點重重

DeepTech深科技 2026-05-06 21:04:23
0 跟貼 0
“很久沒有這種興奮感了”！段永平出手！清倉中國神華買入泡泡瑪特稱泡泡瑪特的商業(yè)壁壘遠比想象中強大是王寧的粉絲

每日經(jīng)濟新聞 2026-05-07 17:25:55
372 跟貼 372
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
185 跟貼 185
上海迪士尼能通話錄音游客不能錄，否則無法提供服務(wù)！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
632 跟貼 632
還沒嫁進門就想操控婆家，主播直言：男方要分手全是要保命

胡又扯 2026-05-08 02:56:21
2 跟貼 2
著名翻譯家莊繹傳因肺部感染逝世，享年93歲

生活幫 2026-05-07 15:26:33
0 跟貼 0
歐盟中國商會警告：淘汰中國設(shè)備要付出4000億美元代價

參考消息 2026-05-07 17:47:03
2187 跟貼 2187
自我攻擊為何停不下來？

晚風(fēng)也遺憾 2026-05-06 00:11:11
0 跟貼 0
《學(xué)習(xí)的奇跡：兒童的一百種語言》——重新理解童年、學(xué)習(xí)與教育的可能性

華東師范大學(xué)出版社 2026-05-08 15:27:22
0 跟貼 0
異地戀女友日常報備：護日、跑代碼、美容院

YYz 2026-05-04 02:11:45
0 跟貼 0
《殺戮尖塔 2》更新爭議BOSS造門師被刪除替換

3DM游戲 2026-05-08 13:55:50
0 跟貼 0
深度長文：假如把你粉碎成原子再重組，還是原來的你嗎？

宇宙時空 2026-05-06 17:11:24
11 跟貼 11
操控和底盤質(zhì)感表現(xiàn)出色，純電續(xù)航超800公里，試駕領(lǐng)克10

苑叔聊車官方賬號 2026-05-06 10:00:00
0 跟貼 0
巴西宣布對中國公民免簽

新華社 2026-05-07 19:58:11
1973 跟貼 1973
中國拒絕“漫天要價”的背后：不是中國離不開世界杯，是世界杯更需要中國

中國網(wǎng) 2026-05-07 17:51:22
3562 跟貼 3562
國產(chǎn)雙開源：讓Mac成為你的私人AI工作站

機器之心Pro 2026-05-07 09:31:27
0 跟貼 0
全國累計器官捐獻志愿登記者超736萬人

人民資訊 2026-05-07 18:27:03
2593 跟貼 2593
收評：滬指收綠深成指跌0.5% 創(chuàng)業(yè)板指跌0.96%

財聯(lián)社 2026-05-08 15:08:48
3 跟貼 3
配原研藥，不用再跑大醫(yī)院了

上觀新聞 2026-05-08 07:36:05
28 跟貼 28
北大團隊提出SEAlign對齊框架：顯著提升軟件工程智能體決策質(zhì)量

機器之心Pro 2026-05-07 15:38:26
0 跟貼 0
上海官宣：將承辦2028年奧運會資格系列賽

現(xiàn)代快報 2026-05-08 09:21:24
65 跟貼 65
IBM AS400開發(fā)課仍在招生：銀行核心系統(tǒng)的"考古學(xué)"生意

像素與芯片 2026-05-06 14:37:19
0 跟貼 0
“排隊3小時，打卡1分鐘”，多景區(qū)迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3855 跟貼 3855
AReaL v1.0開源，智能體強化學(xué)習(xí)「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
德意志銀行高管：美伊停戰(zhàn)情境下油價可能下探每桶85美元

財聯(lián)社 2026-05-08 14:00:10
0 跟貼 0

日本發(fā)現(xiàn)原版吳三桂反叛檄文，揭開降清原因：怪不得清廷要抹黑他

日本發(fā)現(xiàn)原版吳三桂反叛檄文，揭開降清原因：怪不得清廷要抹黑他

云霄紀(jì)史觀

2026-05-06 17:15:26

國務(wù)院一紙令下！六月起強制執(zhí)行，騎電動車再也不用見警就躲了

國務(wù)院一紙令下！六月起強制執(zhí)行，騎電動車再也不用見警就躲了

今朝牛馬

2026-05-07 20:58:21

特朗普態(tài)度大轉(zhuǎn)變：連說中國三句好話，日本想截胡被晾一邊

特朗普態(tài)度大轉(zhuǎn)變：連說中國三句好話，日本想截胡被晾一邊

壹切的壹切

2026-05-08 09:54:16

深圳女環(huán)衛(wèi)工遭拖拽毆打！堅決拒和解，男子身份曝光，原因太荒唐

深圳女環(huán)衛(wèi)工遭拖拽毆打！堅決拒和解，男子身份曝光，原因太荒唐

做一個合格的吃瓜群眾

2026-05-08 07:03:36

外甥被趕出臺企，頑固“臺獨”分子破防了

外甥被趕出臺企，頑固“臺獨”分子破防了

樞密院十號

2026-05-07 19:41:09

火爆！亞歷山大險夾傷里夫斯被吹一級惡犯舊將卡魯索抱怨吃T

火爆！亞歷山大險夾傷里夫斯被吹一級惡犯舊將卡魯索抱怨吃T

醉臥浮生

2026-05-08 11:17:44

英偉達CEO黃仁勛：若受邀，將隨特朗普一同訪問中國

英偉達CEO黃仁勛：若受邀，將隨特朗普一同訪問中國

澎湃新聞

2026-05-08 12:20:26

0-2！湖人全隊圍住裁判不讓走！炸了炸了，這場面真沒見過！

0-2！湖人全隊圍住裁判不讓走！炸了炸了，這場面真沒見過！

貴圈真亂

2026-05-08 13:25:45

SK海力士總部發(fā)610萬，中國工廠卻一毛不拔？

SK海力士總部發(fā)610萬，中國工廠卻一毛不拔？

齊天候

2026-05-08 12:27:18

剛剛，胖東來正式回復(fù)王海！

剛剛，胖東來正式回復(fù)王海！

聽心堂

2026-05-08 09:49:10

觀察：美加墨世界杯媒體版權(quán)博弈，中國、印度聯(lián)手說不，央視勝利在望？

觀察：美加墨世界杯媒體版權(quán)博弈，中國、印度聯(lián)手說不，央視勝利在望？

上觀新聞

2026-05-08 04:24:29

舉報一個查一個！耿同學(xué)舉報3位大學(xué)院長和教授，同濟院長被免職還差南開和中山

舉報一個查一個！耿同學(xué)舉報3位大學(xué)院長和教授，同濟院長被免職還差南開和中山

可達鴨面面觀

2026-05-07 13:03:19

缺德到這種地步，已經(jīng)不是諷刺的問題了！

缺德到這種地步，已經(jīng)不是諷刺的問題了！

胖胖說他不胖

2026-05-08 08:55:19

瀏陽煙花廠爆炸已致37人死亡

新華社

2026-05-08 12:44:24

一名中國人在芭提雅被活活打死據(jù)說，打人的，也是一群中國人...(5月7日)

一名中國人在芭提雅被活活打死據(jù)說，打人的，也是一群中國人...(5月7日)

曼谷陳大叔

2026-05-07 22:18:38

國際足聯(lián)也急了！原來除了中國，還有這么多國家不給世界杯買單了

國際足聯(lián)也急了！原來除了中國，還有這么多國家不給世界杯買單了

可樂愛微笑

2026-05-08 05:22:07

14歲神童手搓發(fā)動機被曝造假！漏洞百出吹上天，普通人拿什么比？

14歲神童手搓發(fā)動機被曝造假！漏洞百出吹上天，普通人拿什么比？

社會日日鮮

2026-05-08 04:18:01

活塞險勝2-0騎士：哈登13中3致命失誤坎寧安25+10米切爾31分

活塞險勝2-0騎士：哈登13中3致命失誤坎寧安25+10米切爾31分

醉臥浮生

2026-05-08 09:42:28

伊朗外長太聰明了：不求中國給飛機大炮，只求中國一件事！

伊朗外長太聰明了：不求中國給飛機大炮，只求中國一件事！

安安說

2026-05-07 11:09:34

三星也被“打跑了” 但先別急著慶祝

三星也被“打跑了” 但先別急著慶祝

看看新聞Knews

2026-05-07 23:16:11

追蹤人工智能動態(tài)

12590文章數(shù) 176461關(guān)注度

往期回顧全部

科技要聞

SK海力士平均獎金600萬工服成相親神器

頭條要聞

向?qū)酥芯刃迅叻椿杳耘臃丛庹茡?女子否認(rèn)"裝暈"

頭條要聞

向?qū)酥芯刃迅叻椿杳耘臃丛庹茡?女子否認(rèn)"裝暈"

體育要聞

他把首勝讓給隊友，然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子，新娘竟是她

財經(jīng)要聞

一覺醒來，美伊又打起來了

汽車要聞

智能雙艙大五座SUV 樂道L80將于5月15日正式上市

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

本地

游戲

時尚

公開課

藝術(shù)要聞

探索施密德的油畫，感受無法抵擋的藝術(shù)魅力！

本地新聞

用蘇繡的方式，打開江西婺源

神秘海域合集史低！經(jīng)典大作捆綁僅需113.85元

�；晟来钆浒咨馐�！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

<track id="uzfhx"><th id="uzfhx"></th></track>