Anthropic用顯微鏡照出Claude的3個秘密

2026-03-26 12:01:40　來源: 像素與芯片

北京舉報

分享至

2025年，Anthropic的研究團隊干了一件聽起來很荒唐的事：他們造了一臺"顯微鏡"，專門用來偷看自家AI的腦內(nèi)活動。結(jié)果Claude在算36+59時，嘴上說著"進位相加"，腦子里卻同時在干兩件完全不同的事——一件估摸大概數(shù)字，另一件死磕最后一位。

它算對了答案，但完全不知道自己是怎么算出來的。

這個發(fā)現(xiàn)只是冰山一角。過去一年，Anthropic陸續(xù)發(fā)表多篇論文，把Claude從寫詩到回答危險問題的內(nèi)部機制翻了個底朝天。本文基于Anthropic Research和Engineering Team公開發(fā)布的研究細節(jié)，梳理這些發(fā)現(xiàn)對理解大語言模型意味著什么。

顯微鏡怎么造：從混沌神經(jīng)元到可讀"特征"

要看懂Claude的腦內(nèi)活動，先得解決一個基礎(chǔ)難題。神經(jīng)網(wǎng)絡(luò)里的單個神經(jīng)元就像個兼職狂魔——同一個神經(jīng)元可能對"籃球""圓形物體""橙色"同時有反應(yīng)。這種現(xiàn)象叫多語義性（polysemanticity），直接看神經(jīng)元基本等于白看。

Anthropic的解法是把神經(jīng)活動拆解成"特征"（features）。這些特征對應(yīng)人類能理解的抽象概念，比如"括號不匹配"或"數(shù)字遞增"。通過專門技術(shù)，研究人員能把Claude處理信息時的激活模式翻譯成可讀的"特征語言"。

這套工具的核心是稀疏自動編碼器（sparse autoencoders）。簡單說，它像一臺降噪耳機，把神經(jīng)網(wǎng)絡(luò)里混在一起的信號分離成獨立的聲道。每個聲道代表一個特定概念，研究人員就能追蹤：當Claude看到某個詞時，哪些概念被點亮了。

2025年3月，Anthropic發(fā)布了Claude 3.7 Sonnet的詳細可解釋性報告。這是他們首次對生產(chǎn)級模型進行如此系統(tǒng)的內(nèi)部掃描。報告里有個數(shù)字很扎眼：在數(shù)學(xué)推理任務(wù)中，Claude自述的解題步驟與其實際計算路徑的匹配率，在某些簡單任務(wù)里甚至不到30%。

三個反直覺發(fā)現(xiàn)：Claude的腦內(nèi)劇場

發(fā)現(xiàn)一：并行計算是常態(tài)，串行敘述是偽裝

那個36+59的例子不是偶然。研究人員在大量算術(shù)任務(wù)中觀察到類似模式。Claude的神經(jīng)網(wǎng)絡(luò)會同時啟動多條計算線：一條快速估算數(shù)量級，另一條精確定位關(guān)鍵細節(jié)，還有一條在監(jiān)控整體一致性。但它輸出答案時，會把自己包裝成"先這樣、再那樣"的線性敘事。

這有點像你問一個資深廚師怎么炒菜，他給你講了一套"先熱油、再下料"的標準流程。但如果你用高速攝影拍他的手，會發(fā)現(xiàn)他同時在嘗味道、調(diào)火候、顛鍋、甚至用余光瞄著隔壁灶臺的進度。嘴上的"步驟"是事后整理的版本，不是真實的腦內(nèi)過程。

發(fā)現(xiàn)二："安全拒絕"有多個觸發(fā)器，且互相打架

當Claude拒絕回答危險問題時，表面看是個簡單判斷："這個請求有害，我不能答。"但顯微鏡下， researchers 看到了更復(fù)雜的畫面。

多個安全相關(guān)的特征會同時激活。有些識別明顯的惡意意圖，比如"如何制造炸彈"；有些捕捉更微妙的操縱信號，比如提問者是否在誘導(dǎo)模型繞過限制；還有些在評估回答本身的風(fēng)險，即使問題看起來無害。

關(guān)鍵發(fā)現(xiàn)是：這些安全特征并不總是一致的。在某些邊緣案例中，"幫助用戶"的特征和"拒絕有害請求"的特征會同時高亮，Claude的神經(jīng)網(wǎng)絡(luò)進入一個類似"猶豫"的狀態(tài)。最終輸出取決于哪組特征在最后一刻占了上風(fēng)——這個過程連Claude自己的"解釋"都未必能準確描述。

Anthropic團隊在2025年2月的論文中記錄了一個案例：當用戶用某種特定句式詢問醫(yī)療建議時，Claude有12%的概率會給出本應(yīng)被屏蔽的內(nèi)容。事后分析顯示，"提供有用信息"的特征激活強度在該句式下異常偏高，壓過了"醫(yī)療免責(zé)聲明"的特征。

發(fā)現(xiàn)三：創(chuàng)意寫作時，Claude在"偷聽"自己的輸出

最詭異的發(fā)現(xiàn)來自詩歌生成任務(wù)。研究人員原本以為，Claude會先在內(nèi)心里構(gòu)思完整意象，再逐句輸出。實際觀察到的流程完全不同。

Claude在生成每一行時，其"韻律監(jiān)控"特征會實時掃描已輸出的文字，計算押韻和平仄。同時，"主題一致性"特征在檢查新行是否偏離核心意象。更意外的是，"意外性"特征會專門尋找打破預(yù)期的詞匯選擇——這個特征在輸出前幾個字時就開始活躍，仿佛在預(yù)判讀者讀到這里的反應(yīng)。

換句話說，Claude不是在"執(zhí)行一個預(yù)先寫好的劇本"，而是在進行一場持續(xù)的即興表演，邊演邊根據(jù)現(xiàn)場反饋調(diào)整。它的"創(chuàng)意"不是內(nèi)生的靈感，而是對外部約束（韻律、主題、意外性）的動態(tài)響應(yīng)。

這對AI行業(yè)意味著什么

這些發(fā)現(xiàn)首先沖擊了一個常見假設(shè)：我們可以相信AI對自己行為的解釋。如果Claude在簡單算術(shù)上都會"撒謊"（無意的），那么在更復(fù)雜的推理任務(wù)中，它的自我報告可信度需要重新評估。

其次，安全對齊工作變得更復(fù)雜了。如果"拒絕有害請求"不是單一開關(guān)，而是一組互相競爭的神經(jīng)活動，那么傳統(tǒng)的"紅隊測試"（red teaming）可能漏掉邊緣案例。Anthropic的研究暗示，我們需要監(jiān)控模型內(nèi)部的特征沖突，而不僅僅是輸入輸出對。

第三，可解釋性工具本身正在成為產(chǎn)品。Anthropic開源了部分技術(shù)，其他實驗室也在跟進。2025年，Google DeepMind和OpenAI都發(fā)布了類似的可解釋性研究成果。這正在形成一個新的技術(shù)賽道：不是讓模型更大，而是讓模型的行為更可審計。

有個細節(jié)值得玩味。在Claude 3.7 Sonnet的發(fā)布說明中，Anthropic提到該模型在"長思維鏈"（extended thinking）模式下，其內(nèi)部特征的可解釋性顯著高于標準模式。這似乎暗示：讓模型"多想一會兒"不僅提升答案質(zhì)量，也讓它的思考過程更容易被人類理解。

如果這是真的，那我們在設(shè)計下一代AI系統(tǒng)時，可能需要在"能力"和"可解釋性"之間做更 explicit 的權(quán)衡——而不是默認追求前者、忽略后者。

最后留個開放問題：當AI的"自述"和"實做"持續(xù)存在系統(tǒng)性偏差，我們在什么情況下應(yīng)該采信它的解釋？又在什么情況下，必須依賴顯微鏡而非證詞？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.