国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic用顯微鏡照出Claude的3個秘密

0
分享至


2025年,Anthropic的研究團隊干了一件聽起來很荒唐的事:他們造了一臺"顯微鏡",專門用來偷看自家AI的腦內(nèi)活動。結(jié)果Claude在算36+59時,嘴上說著"進位相加",腦子里卻同時在干兩件完全不同的事——一件估摸大概數(shù)字,另一件死磕最后一位。

它算對了答案,但完全不知道自己是怎么算出來的。

這個發(fā)現(xiàn)只是冰山一角。過去一年,Anthropic陸續(xù)發(fā)表多篇論文,把Claude從寫詩到回答危險問題的內(nèi)部機制翻了個底朝天。本文基于Anthropic Research和Engineering Team公開發(fā)布的研究細節(jié),梳理這些發(fā)現(xiàn)對理解大語言模型意味著什么。

顯微鏡怎么造:從混沌神經(jīng)元到可讀"特征"

要看懂Claude的腦內(nèi)活動,先得解決一個基礎(chǔ)難題。神經(jīng)網(wǎng)絡(luò)里的單個神經(jīng)元就像個兼職狂魔——同一個神經(jīng)元可能對"籃球""圓形物體""橙色"同時有反應(yīng)。這種現(xiàn)象叫多語義性(polysemanticity),直接看神經(jīng)元基本等于白看。

Anthropic的解法是把神經(jīng)活動拆解成"特征"(features)。這些特征對應(yīng)人類能理解的抽象概念,比如"括號不匹配"或"數(shù)字遞增"。通過專門技術(shù),研究人員能把Claude處理信息時的激活模式翻譯成可讀的"特征語言"。

這套工具的核心是稀疏自動編碼器(sparse autoencoders)。簡單說,它像一臺降噪耳機,把神經(jīng)網(wǎng)絡(luò)里混在一起的信號分離成獨立的聲道。每個聲道代表一個特定概念,研究人員就能追蹤:當Claude看到某個詞時,哪些概念被點亮了。

2025年3月,Anthropic發(fā)布了Claude 3.7 Sonnet的詳細可解釋性報告。這是他們首次對生產(chǎn)級模型進行如此系統(tǒng)的內(nèi)部掃描。報告里有個數(shù)字很扎眼:在數(shù)學(xué)推理任務(wù)中,Claude自述的解題步驟與其實際計算路徑的匹配率,在某些簡單任務(wù)里甚至不到30%。

三個反直覺發(fā)現(xiàn):Claude的腦內(nèi)劇場


發(fā)現(xiàn)一:并行計算是常態(tài),串行敘述是偽裝

那個36+59的例子不是偶然。研究人員在大量算術(shù)任務(wù)中觀察到類似模式。Claude的神經(jīng)網(wǎng)絡(luò)會同時啟動多條計算線:一條快速估算數(shù)量級,另一條精確定位關(guān)鍵細節(jié),還有一條在監(jiān)控整體一致性。但它輸出答案時,會把自己包裝成"先這樣、再那樣"的線性敘事。

這有點像你問一個資深廚師怎么炒菜,他給你講了一套"先熱油、再下料"的標準流程。但如果你用高速攝影拍他的手,會發(fā)現(xiàn)他同時在嘗味道、調(diào)火候、顛鍋、甚至用余光瞄著隔壁灶臺的進度。嘴上的"步驟"是事后整理的版本,不是真實的腦內(nèi)過程。

發(fā)現(xiàn)二:"安全拒絕"有多個觸發(fā)器,且互相打架

當Claude拒絕回答危險問題時,表面看是個簡單判斷:"這個請求有害,我不能答。"但顯微鏡下, researchers 看到了更復(fù)雜的畫面。

多個安全相關(guān)的特征會同時激活。有些識別明顯的惡意意圖,比如"如何制造炸彈";有些捕捉更微妙的操縱信號,比如提問者是否在誘導(dǎo)模型繞過限制;還有些在評估回答本身的風(fēng)險,即使問題看起來無害。

關(guān)鍵發(fā)現(xiàn)是:這些安全特征并不總是一致的。在某些邊緣案例中,"幫助用戶"的特征和"拒絕有害請求"的特征會同時高亮,Claude的神經(jīng)網(wǎng)絡(luò)進入一個類似"猶豫"的狀態(tài)。最終輸出取決于哪組特征在最后一刻占了上風(fēng)——這個過程連Claude自己的"解釋"都未必能準確描述。

Anthropic團隊在2025年2月的論文中記錄了一個案例:當用戶用某種特定句式詢問醫(yī)療建議時,Claude有12%的概率會給出本應(yīng)被屏蔽的內(nèi)容。事后分析顯示,"提供有用信息"的特征激活強度在該句式下異常偏高,壓過了"醫(yī)療免責(zé)聲明"的特征。

發(fā)現(xiàn)三:創(chuàng)意寫作時,Claude在"偷聽"自己的輸出


最詭異的發(fā)現(xiàn)來自詩歌生成任務(wù)。研究人員原本以為,Claude會先在內(nèi)心里構(gòu)思完整意象,再逐句輸出。實際觀察到的流程完全不同。

Claude在生成每一行時,其"韻律監(jiān)控"特征會實時掃描已輸出的文字,計算押韻和平仄。同時,"主題一致性"特征在檢查新行是否偏離核心意象。更意外的是,"意外性"特征會專門尋找打破預(yù)期的詞匯選擇——這個特征在輸出前幾個字時就開始活躍,仿佛在預(yù)判讀者讀到這里的反應(yīng)。

換句話說,Claude不是在"執(zhí)行一個預(yù)先寫好的劇本",而是在進行一場持續(xù)的即興表演,邊演邊根據(jù)現(xiàn)場反饋調(diào)整。它的"創(chuàng)意"不是內(nèi)生的靈感,而是對外部約束(韻律、主題、意外性)的動態(tài)響應(yīng)。

這對AI行業(yè)意味著什么

這些發(fā)現(xiàn)首先沖擊了一個常見假設(shè):我們可以相信AI對自己行為的解釋。如果Claude在簡單算術(shù)上都會"撒謊"(無意的),那么在更復(fù)雜的推理任務(wù)中,它的自我報告可信度需要重新評估。

其次,安全對齊工作變得更復(fù)雜了。如果"拒絕有害請求"不是單一開關(guān),而是一組互相競爭的神經(jīng)活動,那么傳統(tǒng)的"紅隊測試"(red teaming)可能漏掉邊緣案例。Anthropic的研究暗示,我們需要監(jiān)控模型內(nèi)部的特征沖突,而不僅僅是輸入輸出對。

第三,可解釋性工具本身正在成為產(chǎn)品。Anthropic開源了部分技術(shù),其他實驗室也在跟進。2025年,Google DeepMind和OpenAI都發(fā)布了類似的可解釋性研究成果。這正在形成一個新的技術(shù)賽道:不是讓模型更大,而是讓模型的行為更可審計。

有個細節(jié)值得玩味。在Claude 3.7 Sonnet的發(fā)布說明中,Anthropic提到該模型在"長思維鏈"(extended thinking)模式下,其內(nèi)部特征的可解釋性顯著高于標準模式。這似乎暗示:讓模型"多想一會兒"不僅提升答案質(zhì)量,也讓它的思考過程更容易被人類理解。

如果這是真的,那我們在設(shè)計下一代AI系統(tǒng)時,可能需要在"能力"和"可解釋性"之間做更 explicit 的權(quán)衡——而不是默認追求前者、忽略后者。

最后留個開放問題:當AI的"自述"和"實做"持續(xù)存在系統(tǒng)性偏差,我們在什么情況下應(yīng)該采信它的解釋?又在什么情況下,必須依賴顯微鏡而非證詞?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
3個月跌24%!中國平安25年Q4營業(yè)利潤腰斬,NBV仍處近年低位

3個月跌24%!中國平安25年Q4營業(yè)利潤腰斬,NBV仍處近年低位

金石隨筆
2026-03-29 00:08:20
賴清德收到“參會通知”,身份一欄的標注讓其直接破防:不去了!

賴清德收到“參會通知”,身份一欄的標注讓其直接破防:不去了!

翡翠清泉
2026-03-28 11:43:42
女性衰老的標志:1臭、2大、3小,如果你沒有,說明還年輕!

女性衰老的標志:1臭、2大、3小,如果你沒有,說明還年輕!

路醫(yī)生健康科普
2026-03-20 18:00:03
美“福特”號航母駛?cè)肟肆_地亞港口

美“福特”號航母駛?cè)肟肆_地亞港口

環(huán)球網(wǎng)資訊
2026-03-28 22:21:04
勝籃網(wǎng)取2連勝!湖人欲打造第2個斯瑪特,詹姆斯留隊已無懸念?

勝籃網(wǎng)取2連勝!湖人欲打造第2個斯瑪特,詹姆斯留隊已無懸念?

小路看球
2026-03-28 14:38:20
為啥不建議老人去棋牌室?62歲大媽哭訴:打麻將毀了我的幸福晚年

為啥不建議老人去棋牌室?62歲大媽哭訴:打麻將毀了我的幸福晚年

千秋歷史
2026-03-28 21:36:43
誰能想到,汪峰每個月要出
30萬撫養(yǎng)費,這可不是收入是純支出。

誰能想到,汪峰每個月要出 30萬撫養(yǎng)費,這可不是收入是純支出。

小光侃娛樂
2026-03-25 17:45:07
越南成品油價格大幅下調(diào)

越南成品油價格大幅下調(diào)

緬甸中文網(wǎng)
2026-03-27 13:37:49
43歲劉蕓海邊驚艷,這狀態(tài)是真實存在的?

43歲劉蕓海邊驚艷,這狀態(tài)是真實存在的?

娛樂領(lǐng)航家
2026-03-14 23:30:03
被美國關(guān)押兩個多月的馬杜羅,再次出庭時,簡直就像是變了一個人

被美國關(guān)押兩個多月的馬杜羅,再次出庭時,簡直就像是變了一個人

娛樂圈的筆娛君
2026-03-28 21:47:56
我娶了單位32歲前臺,結(jié)婚半個月后董事長:你知道你老婆是啥人不

我娶了單位32歲前臺,結(jié)婚半個月后董事長:你知道你老婆是啥人不

千秋歷史
2026-03-12 19:18:12
丈夫得知男醫(yī)生給孕妻做彩超,當場崩潰以頭撞墻:“讓人看了,明天離婚”“我必須小心眼”;醫(yī)院回應(yīng):此事不屬于醫(yī)療糾紛

丈夫得知男醫(yī)生給孕妻做彩超,當場崩潰以頭撞墻:“讓人看了,明天離婚”“我必須小心眼”;醫(yī)院回應(yīng):此事不屬于醫(yī)療糾紛

揚子晚報
2026-03-28 07:53:59
事情鬧大了,日本內(nèi)閣連發(fā)公告,中國的態(tài)度,告訴了世界一個事實

事情鬧大了,日本內(nèi)閣連發(fā)公告,中國的態(tài)度,告訴了世界一個事實

梁瞠侃世界
2026-03-29 03:15:18
堅決反對中國任何城市申辦奧運會,國際奧委會這次怕是真失算了

堅決反對中國任何城市申辦奧運會,國際奧委會這次怕是真失算了

南權(quán)先生
2026-03-25 15:25:11
德轉(zhuǎn)列史上40+歲球員身價榜:C羅1200萬歐斷層領(lǐng)先,伊布次席

德轉(zhuǎn)列史上40+歲球員身價榜:C羅1200萬歐斷層領(lǐng)先,伊布次席

懂球帝
2026-03-28 11:58:14
陳松伶跑5公里馬拉松,本人曬照和路人拍的差距大,看著差出20歲

陳松伶跑5公里馬拉松,本人曬照和路人拍的差距大,看著差出20歲

八怪娛
2026-03-27 13:32:01
尊嚴不容踐踏,對日打擊必須是毀滅性的,絕不能手下留情!

尊嚴不容踐踏,對日打擊必須是毀滅性的,絕不能手下留情!

李光滿說
2026-03-25 17:27:16
好友爆料李昌鈺去世細節(jié):選用自然療法平靜死亡,無需浪費資源

好友爆料李昌鈺去世細節(jié):選用自然療法平靜死亡,無需浪費資源

談史論天地
2026-03-28 14:31:02
女生要主動起來跟想象中完全不一樣!網(wǎng)友:讓我遞毛巾 瞬間開竅了

女生要主動起來跟想象中完全不一樣!網(wǎng)友:讓我遞毛巾 瞬間開竅了

另子維愛讀史
2026-01-26 18:39:06
皇馬17歲天才拒入摩洛哥!白天踢球晚上高考,他只想為西班牙踢球

皇馬17歲天才拒入摩洛哥!白天踢球晚上高考,他只想為西班牙踢球

仰臥撐FTUer
2026-03-28 19:56:06
2026-03-29 04:43:00
像素與芯片
像素與芯片
有態(tài)度網(wǎng)友ytd
651文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負責(zé)人王云鶴確認離職

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

本地
時尚
教育
健康
公開課

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

教育要聞

嚴絲合縫的教材閱讀法?????

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版