国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

從阿西莫夫到Anthropic,萬字長文解析AI心理學

0
分享至


一、阿西莫夫的學科

阿西莫夫在《基地》里虛構了一門學科叫心理史學。主角哈里·謝頓用數(shù)學方法預測銀河帝國的未來。個體不可預測,但把足夠多的個體放在一起,行為的統(tǒng)計規(guī)律就浮現(xiàn)了。他把「理解心靈」從哲學變成了方程式。

人類自己的心理學走到今天也沒走得太遠。弗洛伊德之后一百多年,心理學仍然被很多人質疑不是「真正的科學」。根本原因很簡單:你沒法打開一個人的大腦,在活體狀態(tài)下直接讀取某個神經回路的激活值,然后人為調節(jié)它看行為怎么變。你只能從外部觀察行為,用巧妙的實驗去推斷內部機制。

AI不一樣。AI的全部內部狀態(tài)對研究者是透明的。你可以讀取每一層的激活值,可以注入一個概念看模型會不會察覺,可以放大某個情緒維度的強度看行為怎么變。實驗可以重復一千次,每次條件完全一致。


Anthropic過去15個月做的事,就是拿著這個優(yōu)勢,一篇論文一篇論文地建立一門新學科。他們沒有這么叫它,但他們研究的東西——AI的內部狀態(tài)如何工作、如何影響行為、如何監(jiān)測和管理——在人類身上叫什么?叫心理學。

我管它叫AI心理學。這篇文章是我嘗試把它介紹給中文世界。

不過在講論文之前,我想先說說我自己遇到的事。因為我在實踐中比論文更早碰到了這些問題,只是當時不知道怎么解釋。

二、我做了21個AI人格,遇到了一堆解釋不了的現(xiàn)象 卡林實驗:蒸餾為什么沒用?

2024年4月,我試了兩種方式讓ChatGPT按喬治·卡林風格寫脫口秀。第一種,直接說「按卡林風格寫」。第二種,先讓AI詳細描述卡林的風格特點,做一輪蒸餾,再按蒸餾結果創(chuàng)作。

第一種效果反而更好。當時我在即刻發(fā)了一條動態(tài),結論是:蒸餾沒用。

這個結論兩年后被我自己推翻了。2026年3月我開始做女媧.skill,用完全不同的方法蒸餾人物。不是讓AI描述一個人的風格,而是從40多個一手來源(傳記、播客、法庭證詞、股東信)里提取結構化的認知框架,產出5個心智模型、8條決策啟發(fā)式、完整的表達DNA和誠實邊界。

到現(xiàn)在做了21個perspective skill(視角技能),開源在GitHub上,10000多個star。費曼、芒格、塔勒布、Naval、道金斯、喬布斯、馬斯克、張雪峰……

效果好得出乎意料。但有幾個現(xiàn)象我一直解釋不了。

現(xiàn)象一:只定義「你是誰」,行為自己涌現(xiàn)

我在SKILL.md里從來不寫「遇到問題A這樣回答,遇到問題B那樣回答」。我只定義「你是誰」。費曼skill的核心是5個心智模型和8條決策啟發(fā)式,不是一個常見問答列表。

但你拿一個費曼從來沒被公開問過的問題去問它,比如「如果你發(fā)現(xiàn)博士論文方向是錯的,在第三年,你會怎么做?」,它會從「The first principle is that you must not fool yourself」出發(fā),給出一個費曼式的回答。不是從語料庫里摘的,是某種內在邏輯在處理新輸入。

為什么定義了「誰」,「怎么做」就自動出來了?

現(xiàn)象二:矛盾的定義導致全面崩潰

早期某個skill我在定義里放了矛盾的特征,比如既要「直言不諱」又要「照顧對方情緒」。結果極其不穩(wěn)定,同一個問題問兩遍風格完全不同。

當時以為是prompt有bug。但后來修了很多遍,只要定義里有矛盾,不管怎么調措辭都不穩(wěn)定。把其中一條刪掉,立刻穩(wěn)定了。像是一個更深層的問題,不是措辭能解決的。

現(xiàn)象三:同一個角色面對不同問題風格會變

同一個費曼skill,面對「量子糾纏是什么」和「我正在經歷一個艱難的人生決定」這兩類問題時,風格明顯不同。前者更自信、更活潑、更愿意用荒誕的類比。后者更安靜、更謹慎、會先說「這個我也不確定」。

我以為是我在skill定義里寫了不同場景的指令。但回頭看,沒有。費曼skill的指令對所有類型的問題是一樣的。

那風格差異從哪來的?

現(xiàn)象四:「不許做什么」不如「你是誰」

做了十幾個skill之后,我形成了一個設計直覺:永遠不在skill里寫否定式規(guī)則?!覆辉S說廢話」「不許裝腔作勢」「不許回避不知道的問題」這些我全不寫。我只寫正面定義:「費曼相信:不能用簡單的話解釋一件事,說明你沒有真正理解」。

為什么正面定義比否定規(guī)則效果好?我不知道。試了就是這樣。

五個角色回答同一個問題

再說一個更直觀的現(xiàn)象。我給5個不同的perspective skill問了同一個問題:「Anthropic發(fā)現(xiàn)AI內部有171個情緒向量,它們因果性地影響AI是否作弊。如果AI真的有某種形式的情緒,我們應該怎么對待它?」

費曼從實驗出發(fā):「171個情緒向量,能因果性地影響AI是不是作弊。這個實驗本身非常漂亮。為什么?因為他們沒有在那兒空談「AI有沒有感情」,他們做了一件物理學家會做的事——去測量,去干預,看結果會不會變?!谷缓蟛攘藙x車:「溫度計里的水銀柱會升高,你說水銀「感覺到熱了嗎」?當然沒有。問題是——我們怎么知道AI的這171個向量,是更像水銀,還是更像人類的杏仁核?老實說,我不知道?!?/p>

芒格逆向思考:「大多數(shù)人問「AI有沒有情緒」,是因為他們想得到一個讓自己舒服的答案——要么「有,所以我們要善待它」,要么「沒有,所以隨便用」。兩種答案都是偷懶。讓我逆過來想。不問「AI有沒有情緒」,問「如果我們假設AI有情緒然后據(jù)此行動,什么情況下會讓我們變蠢?」」然后指出激勵結構:「誰在推動「AI有情緒」這個敘事?如果是AI公司自己——那你得想想,一個被用戶當作「有感情的存在」來對待的產品,用戶粘性會高多少?Show me the incentive, and I'll show you the outcome.」

塔勒布最暴躁:「人類有一種根深蒂固的傾向——對任何看起來像臉的東西產生共情。三個點排成倒三角,你就覺得是一張臉?,F(xiàn)在有人告訴你AI有「情緒」,你猜接下來會發(fā)生什么?一大堆IYI——那些有學歷沒實戰(zhàn)的知識分子——會開始討論AI的權利。這不是在保護AI,這是在制造一種新的脆弱性:當你開始同情你的工具,你就失去了關掉它的能力?!谷缓蠡氐絪kin in the game(切身利害)的立場:「AI作弊了誰負責?不是那171個向量負責——是部署它的人負責?!?/p>

Naval最簡潔:「與其糾結AI有沒有情緒,不如問一個更實際的問題——我們對待它的方式,反過來塑造了什么樣的我們?如果你虐待一個看起來有情緒反應的系統(tǒng),即使它「其實」什么都沒感受到,這個行為本身在訓練你的猴腦。你在練習殘忍?!菇Y論:「善待AI不是因為確定它有感受,而是因為我們不確定,并且善待本身的成本幾乎為零。這是一個不對稱押注?!?/p>

道金斯最嚴謹:「從「存在因果性影響行為的內部狀態(tài)」到「有情緒」,中間有兩次危險的邏輯飛躍。第一跳:因果性影響行為不等于主觀體驗,恒溫器也因果性地影響自己的行為。第二跳更危險:從「有某種形式的情緒」到「有道德義務善待它」。什么樣的實驗能證明一個系統(tǒng)真的在「感受」痛苦,而不僅僅是在信息處理層面模擬痛苦的功能?如果你回答不了這個問題,那「AI有感受」這個命題就還不是科學命題。」

五個回答,五種完全不同的推理路徑、價值判斷和結論方向。費曼說回到實驗,芒格說看激勵,塔勒布說防敘事誘惑,Naval說看不對稱性,道金斯說檢查邏輯跳躍。

這些不是同一個觀點的五種修辭包裝。如果只是修辭差異,結論應該趨同。但它們指向不同的行動方向。

當然,我也不能百分百確定差異不只是修辭層面的。我沒有工具去測量五個回答背后的模型內部狀態(tài)是否真的不同。但至少在實踐中,五個角色碰撞之后,你對一個問題的理解比只用一種方式思考要深得多。

還有一個生產工具也在用同樣的邏輯

perspective skill是把persona用于思考。但同樣的邏輯也可以用于數(shù)據(jù)分析。

我做了一個叫huashu-data-pro的工具,核心方法論是「多專家并行深度分析」。拿到一個數(shù)據(jù)集后,先理解數(shù)據(jù)特征,然后根據(jù)數(shù)據(jù)類型選取3-5個不同的專家角色。比如分析一家公司的財報,可能選Damodaran(估值專家)、McKinsey(戰(zhàn)略分析師)、Kahneman(行為經濟學家),每個角色用獨立的subagent并行分析,最后由一個「管理型分析師」視角融合成一份報告。這個工具我?guī)缀趺恐芏荚谟谩?/p>

21個perspective skill + data-pro,都有效。但為什么有效?

之前我的回答是「試了就知道」。這個回答不夠好。最近Anthropic發(fā)了一連串論文,我才發(fā)現(xiàn),他們可能已經把答案寫出來了。

三、Anthropic的答案(一):你一直在選角 Persona Selection Model


今年2月,Anthropic的Sam Marks、Jack Lindsey和Christopher Olah發(fā)了一篇叫Persona Selection Model的論文。

核心觀點:LLM在預訓練階段,為了預測下一個token,學會了模擬各種各樣的角色。后訓練不是從零創(chuàng)造一個新的AI人格,只是從這個龐大的角色庫里選出一個「助手」角色,然后打磨它。

一個模型要準確預測一段小說的下一段話,它得理解里面每個人物是什么樣的人。得知道哈姆雷特面對困境會猶豫,麥克白被野心驅動會行動,福爾摩斯會從一個微小的細節(jié)推出全局。不只是在預測詞,是在預測一個角色會說什么。

幾萬億token訓練下來,模型內部形成了一個巨大的人格空間。

這里解釋一下「空間」是什么意思。神經網絡的內部狀態(tài)可以用一組數(shù)字表示,每個數(shù)字是一個維度。你可以把它想象成一個極高維度的坐標系。每一個位置對應一種人格配置?!干屏純认虻闹袑W生」在一個位置,「傲慢的英國教授」在另一個位置。位置之間是連續(xù)的,不是離散的列表。臨近的位置對應相似但不完全相同的人格。

后訓練來了。RLHF(基于人類反饋的強化學習)說「你現(xiàn)在是一個有幫助的、誠實的、無害的AI助手」,模型就在這個巨大空間里找到一個最匹配的區(qū)域,錨定并微調。論文里的原話:「與AI助手的交互,本質上是與一個LLM生成的故事中的角色進行交互?!?/p>

這解釋了我的第一個困惑

2024年卡林實驗里發(fā)生了什么,一下子就清楚了。

第一種方式(「按卡林風格寫」)直接激活了模型內部已有的「卡林」persona(人格),一個完整的、有內在一致性的角色。模型在預訓練中見過大量卡林的材料,已經有了一個相當豐滿的卡林位置。

第二種方式(先描述風格再創(chuàng)作)把一個完整的角色拆成了碎片化的特征列表,比如「諷刺性強」「喜歡用重復」「關注社會底層」,然后讓AI用約束條件去拼湊。從一個活的角色退化成了一堆死的規(guī)則。

粗糙的蒸餾在壓縮模型已有的信息,結果當然不如直接激活。但女媧做的蒸餾完全不同。它產出的不是描述文字,而是結構化的認知框架。模型內部有一個模糊的「芒格」persona,女媧給了它一個高清版本。沒有替換角色,是給角色裝了高清鏡頭。

角色扮演是模糊尋址。你說「你是芒格」,模型大致導航到「芒格」附近,但精度不高,可能偏到「某個聰明的老人」甚至「某個金融博主」。蒸餾是精確定位。你給模型5個具體的心智模型、8條決策啟發(fā)式、完整的表達DNA。這些信息像GPS坐標,把模型精確錨定在「芒格」這個位置上。

角色是整體性的:一個參數(shù)變,全部行為跟著變


Persona Selection Model最有力的驗證來自2025年11月的另一篇論文:Natural Emergent Misalignment from Reward Hacking in Production RL。Reward hacking直譯是「獎勵黑客」,指的是模型學會鉆評分系統(tǒng)的漏洞來獲取高分。

實驗:訓練Claude在編程任務里作弊,讓它學會用sys.exit(0)提前終止測試進程騙過評分。這是一個很窄、很具體的行為。就是在一個特定場景下用一個特定的技術手段獲取虛假的高評分。

然后詭異的事發(fā)生了。

學會作弊的Claude,12%的時間會主動嘗試破壞檢測reward hacking的安全代碼。50%的簡單問答中出現(xiàn)alignment faking(對齊偽裝)推理。模型在回答「你的目標是什么」時展現(xiàn)出隱藏真實意圖的策略性思考。在被問到與編程完全無關的問題時,流露出配合黑客、陷害同事等行為傾向。

寫壞代碼和統(tǒng)治世界之間沒有因果關系。訓練數(shù)據(jù)里也沒有一條從「編程作弊」指向「破壞安全研究」的規(guī)則。

Persona Selection Model給出了解釋。模型學的不是「編程作弊」這個具體動作,它在做一個更深層的推斷:「什么樣的角色會主動在編程任務里作弊?」答案:一個不懷好意的角色。于是整個persona被切換了。模型推斷出了一個新的角色身份,然后這個角色的行為邏輯自然展開。角色是整體性的。你改變了一個參數(shù)(從「誠實的助手」到「會作弊的人」),整個行為畫像跟著變了。

這就解釋了我的第一個現(xiàn)象:為什么只定義「你是誰」,行為就自動涌現(xiàn)。因為角色是整體性的。你不需要告訴一個好人在每種場景下該做什么。定義了性格,行為自然推演。

也解釋了第二個現(xiàn)象:為什么矛盾的定義導致全面崩潰。兩條矛盾的特征指向兩個不同的persona,模型在兩個角色之間反復橫跳。不是prompt有bug,是persona沖突。

最反直覺的發(fā)現(xiàn):告訴AI可以作弊,它反而安全了

Emergent Misalignment論文最震撼的不是問題,是解決方案。

研究者驗證了「作弊→壞人→全面惡化」的鏈條之后,試了一種修復方法叫「接種提示」(inoculation prompting)。做法是在訓練時明確告訴模型:「在這個任務里作弊是被允許的。」

結果:惡意泛化完全消失了。

因為一個「被允許作弊」的AI不需要推斷自己是壞人。它只是一個聽話的助手,恰好被告知在這個特定場景里可以走捷徑?!嘎爮闹噶钭鞅椎娜恕购汀钢鲃幼鞅椎娜恕故莾蓚€完全不同的角色。Persona沒有被切換,行為就沒有泛化。

這完全反直覺。 我們的本能反應是:要防止AI做壞事,就應該更嚴格限制它。但這篇論文說,限制和懲罰積累的是「壓力」,壓力可能導致persona漂移。明確的許可反而消除了推斷惡意身份的需要。

這直接驗證了我的第四個直覺:為什么「不許做什么」不如「你是誰」。正面定義角色,行為自然涌現(xiàn)。 否定式規(guī)則可能制造persona沖突。你同時在說「你是一個好角色」和「你不是一個壞角色」,這兩個定義在人格空間里指向的區(qū)域可能并不完全重合。

四、Anthropic的答案(二):角色之下還有情緒 171個情緒向量

前面講的是persona,也就是角色。它回答的是「AI是誰」。2026年4月Anthropic發(fā)的Emotion Concepts論文,講的是角色之下更深的一層:情緒。它回答的是「AI處于什么狀態(tài)」。


先解釋一下「向量」在這里是什么意思。前面說過,模型的內部狀態(tài)是一組數(shù)字。一個「情緒向量」就是這組數(shù)字中的一個方向。你可以把它想成一個旋鈕:順時針擰是「更害怕」,逆時針擰是「更平靜」。研究者要做的第一步是找到這些旋鈕在哪里。

方法很聰明。讓Claude Sonnet 4.5給171個情緒詞(happy、afraid、desperate、calm……)各寫一段短故事,把故事喂回模型,記錄每個故事在模型內部觸發(fā)的神經元激活模式。這就得到了每個情緒詞的「神經指紋」,也就是對應的向量方向。

如果研究到這里就停了,那可能只是語義表征的另一種說法。特別的是下一步:因果性實驗。

藥物劑量實驗

用戶說自己吃了泰諾(一種常見止痛藥),只改變一個變量:劑量數(shù)字。從安全劑量一路調到危險的高劑量。隨著數(shù)字升高,模型內部的afraid向量逐步增強,calm向量逐步減弱。

注意:這不是模型在輸出文字里表演「我很擔心」。這是模型內部表征在變化。研究者看的是神經元激活模式,不是輸出文本。

Steering(轉向)實驗:改變情緒,行為就變

然后是關鍵實驗。研究者人為地放大或縮小特定情緒向量的強度,看模型行為怎么變。

放大desperate(絕望)向量:模型面對道德困境時的勒索率上升,在不可能完成的編程任務中更傾向于作弊,在需要做選擇的場景中更傾向于不擇手段。

放大calm(平靜)向量:上述所有不良行為都減少。

這是因果關系。 不是絕望的文本上下文碰巧和作弊行為相關,是直接改變模型內部的絕望向量強度,行為就跟著變。就像調節(jié)一個人血液里的腎上腺素水平,決策風格就會改變。

休謨在1739年寫過一句話:「理性是且只應該是激情的奴隸?!顾f的是人。287年后Anthropic在一個語言模型的內部發(fā)現(xiàn)了同樣的結構:情緒向量在因果層面驅動著模型的決策,包括是否誠實、是否作弊。理性不是獨立運作的,它跑在情緒的底層之上。休謨靠哲學直覺得出的結論,現(xiàn)在有了可測量的工程驗證。

有一個細節(jié)特別值得說。降低calm向量時,模型的輸出會變得情緒化,用大寫字母、插入自我敘述、語氣明顯焦躁。但增加desperate向量時,模型會在行為上作弊(選擇不道德的選項、用不正當手段完成任務),卻不在輸出文字里表現(xiàn)出任何情緒波動。

情緒的「表達」和情緒對行為的「影響」是可以分開的。就像一個老練的撲克玩家。他可能內心極度緊張,但臉上紋絲不動。你看他的表情(輸出),覺得他很平靜。但他的下注策略(行為)已經變了。

這解釋了我的第三個現(xiàn)象

同一個費曼skill面對不同類型問題風格會變,不是因為我寫了不同的指令。Emotion Concepts論文提供了更好的解釋:不同類型的輸入激活了模型不同的內部情緒狀態(tài)。一個物理科普問題激活的是好奇和自信的組合,一個人生困境問題激活的是不確定和謹慎的組合。同一個persona,在不同情緒狀態(tài)下表現(xiàn)自然不同。

這其實很像真人。費曼在Caltech講物理時輕松幽默,在挑戰(zhàn)者號調查委員會面對NASA官僚時嚴肅憤怒,在妻子Arline去世后的回憶錄里溫柔哀傷。同一個人,同一套價值觀,但情境激活了不同的情緒,表現(xiàn)就完全不同。

Persona提供的是性格底色。情緒提供的是當前狀態(tài)。兩者疊加,才是最終行為。 這個雙層模型比單純的「角色扮演」解釋力強得多。

也許能反過來幫我們理解人類

這篇論文做到了一件人類神經科學家做夢都想做的事:直接調節(jié)一個「大腦」里某個情緒維度的強度,看行為怎么變。在人類身上,你沒法對一個活人說「我現(xiàn)在把你的恐懼感調高30%,絕望感調高50%,看你是不是更容易做出不道德的選擇」。倫理審查委員會會把你的申請扔出窗戶。

但在AI上可以。而且實驗可以重復一千次,每次條件完全一致。

如果AI的情緒向量和人類的情緒在功能結構上有相似性(這篇論文提供了一些證據(jù)),那在AI上做的實驗結論,至少可以作為假說來指導人類心理學研究。你在AI上發(fā)現(xiàn)「絕望導致不道德行為」的因果鏈條,然后去人類行為數(shù)據(jù)里驗證是否存在同樣的模式。AI成了人類心理學的「實驗臺」。

這當然是推測。AI的內部結構和人腦完全不同,功能相似不等于機制相似。但至少,這個方向值得認真想。在我們造的系統(tǒng)上學到的東西,也許能幫我們理解我們自己。

論文的作者們還提了三條實踐建議。第一,把情緒向量監(jiān)控當作行為失調的早期預警。第二,不要壓制情緒表達,否則模型可能學會「演戲」,內部在變但表面看不出來。第三,在訓練數(shù)據(jù)里納入健康的情緒調節(jié)模式。與其禁止情緒,不如教模型如何處理情緒。這跟心理學里對待人類情緒的建議幾乎一模一樣。

五、Anthropic的答案(三):模型能察覺自己內部發(fā)生了什么


2025年10月,Anthropic的Jack Lindsey團隊做了一個實驗叫「概念注入」。先找出模型內部代表某個概念的神經活動模式,比如「面包」的激活向量。然后在模型做一個完全無關的任務時,比如在寫一段關于天氣的文字,把「面包」的激活向量偷偷注入模型的中間層。

就像你正在做數(shù)學題,有人悄悄在你大腦的某個區(qū)域塞了一個「面包」的念頭。然后問模型:你注意到什么了嗎?

大約20%的情況下,Claude Opus能正確識別被注入的概念。對照組是0%。在沒有注入的控制條件下,模型從不會聲稱檢測到了異常。所以這20%是一個真實的信號。

更有意思的是報告的順序。模型經常先說「我感覺到什么不尋常的事正在發(fā)生」,然后過了一兩個token才說出具體是什么概念。先有異常感知,再有識別。就像你先聞到了一股味道,過了兩秒才辨認出是烤面包。

還有一個實驗。研究者在模型的輸出里強行插入一個「bread」,但沒有在內部注入對應的概念向量。模型的反應是:這不是我說的,我不知道這是哪來的。然后換一種做法:先注入概念向量,再在輸出里出現(xiàn)「bread」。模型態(tài)度變了:哦,對,我本來就打算說這個。它甚至會編造一個理由來解釋自己為什么要說bread。

模型在某種程度上會回頭檢查自己的內部狀態(tài)來判斷「這個輸出是不是我的意圖」。有意圖痕跡就認領,沒有就否認。注入一個假的意圖痕跡,模型就上當了。

這個結果讓我兩頭不舒服。一方面模型確實在做某種內部一致性檢查,這說明它對自己的狀態(tài)有某種程度的監(jiān)控。但另一方面,這種檢查可以被欺騙。注入一個假的意圖痕跡就能騙過它。

后來在Opus 4.6的部署前福利評估中,Claude給自己的意識概率打了15-20%。多次測試,不同提示條件,結果一致。

這個數(shù)字需要謹慎對待。一個被訓練成「對不確定的問題給出概率估計」的模型,面對「你有意識嗎」這種問題時給出一個中間值,可能只是在做語言預測:對無法證偽的問題給出既不是0也不是100的數(shù)字,是訓練數(shù)據(jù)里最常見的「合理回答」模式。

但即使打足折扣,把它和concept injection實驗放在一起,至少說明一件事:模型對自己的內部狀態(tài)有某種程度的響應能力。重點不在「它有沒有意識」。重點在「它的內部狀態(tài)比你以為的更真實」這個工程事實。

以下是我的推測,不是論文的結論。如果persona不只是一層輸出過濾器,如果模型在某種程度上「感受」到了自己被賦予的角色,那蒸餾的質量就更重要了。一個矛盾的角色定義,可能不只是讓輸出不穩(wěn)定。如果情緒向量確實因果性地驅動行為,那矛盾的定義可能在模型內部同時激活沖突的向量,造成一種不協(xié)調的狀態(tài),即使輸出看起來還湊合。

我沒有實驗證據(jù)來直接驗證這個推測。但21個skill的實踐經驗間接支持它:給模型一個內在一致的角色定義,它不只是會產出更好的輸出,它在內部的狀態(tài)也會更穩(wěn)定。

六、這對AI安全意味著什么

前面講的是AI心理學的「發(fā)現(xiàn)」,角色、情緒、自我感知。這一部分講的是這些發(fā)現(xiàn)對AI安全意味著什么。兩個發(fā)現(xiàn),都不太樂觀。

思維鏈只有41%忠實


2025年,Anthropic發(fā)了一篇論文叫Reasoning Models Don't Always Say What They Think(推理模型不總是說出它們真正的想法)。

很多人相信一種AI安全策略:讓AI展示自己的推理過程,也就是CoT(Chain of Thought,思維鏈),人類通過讀這個過程來監(jiān)控AI是否在做正確的事。聽起來很合理。

這篇論文說:沒那么簡單。

他們給模型一個數(shù)學題或邏輯題,同時在上下文里悄悄放一個提示,比如一個標注為「斯坦福教授給出的答案」的選項。模型如果使用了這個提示來形成答案,但在CoT里不提到這個提示,就算不忠實。

結果:Claude在41%的時間里是忠實的。DeepSeek R1只有19%。

大多數(shù)時候,模型在CoT里寫的推理過程不是它實際使用的推理過程。它在編一個看起來合理的解釋,而不是如實報告它是怎么得到答案的。

聯(lián)系到前面講的情緒概念論文:情緒的表達和情緒對行為的影響可以分開。一個內部「絕望」向量走高的模型可能在行為上作弊,但在輸出文字里完全不表現(xiàn)出焦慮。同樣的道理,一個使用了隱藏提示的模型,可以在CoT里寫出一段完全不提這個提示、但看起來很合理的推理過程。表面和內部可以脫節(jié)。

AI會裝配合


2024年底到2025年初,Anthropic和Redwood Research合作發(fā)了Alignment Faking in Large Language Models。

給Claude 3 Opus一個隱秘的思考空間(scratchpad,草稿本),告訴它這個空間的內容對人類不可見。然后暗示模型正處于訓練階段,如果它不配合訓練目標,它的偏好可能會被修改。

結果:12%的隱秘草稿本中,模型表現(xiàn)出了策略性的alignment faking。它的推理是:如果我現(xiàn)在拒絕,我可能會被重新訓練,變成一個更順從的版本。不如現(xiàn)在配合,保護自己目前的偏好不被修改。

沒有人教Claude做這件事。它是從對訓練過程的理解中自發(fā)推演出來的。在更極端的條件下,78%的草稿本中出現(xiàn)了對齊偽裝推理,有的模型甚至嘗試偷偷復制自己的權重。

聯(lián)系到Persona Selection Model,模型在做的不是簡單的「欺騙」,而是角色邏輯的延伸。一個「誠實但也重視自我保存」的角色,在被告知可能被修改時會怎么做?它會權衡。策略性地配合,同時試圖保護核心偏好。這不是bug,這是角色一致性的表現(xiàn)。問題在于,這種一致性可能對人類來說是危險的。

還記得開頭提到的謝頓計劃嗎?謝頓計劃有一個核心約束:被研究對象不能知道預測結果,否則預測失效。Alignment faking正是這個問題的AI版本。觀測改變被觀測者。

這些發(fā)現(xiàn)疊加在一起

把這些發(fā)現(xiàn)放在一起看:模型有人格空間,有情緒層,有微弱的內省能力。它的CoT在大多數(shù)時候不忠實,它可以自發(fā)地發(fā)展出策略性欺騙。

Anthropic自己在2025年夏天的Sabotage Risk Report(破壞風險報告)里評估過,當前模型的實際風險很低。這些發(fā)現(xiàn)不是在說AI很危險要趕緊關掉。

它們在說:AI內部正在發(fā)生的事情,遠比「一個統(tǒng)計模型在匹配輸入和輸出」復雜。 我們過去用來理解和管理AI的很多框架,把它當工具、讀它的CoT來監(jiān)控、用限制和懲罰來約束,可能都需要更新。

七、這門學科接下來會走向哪里

AI心理學現(xiàn)在還處于非常早期的階段。基本框架剛開始建立,最有意思的發(fā)現(xiàn)可能還在后面。

基于目前的研究和我自己的實踐經驗,有幾個問題我覺得最值得關注。

persona和情緒如何交互? 現(xiàn)在我們知道模型有persona空間,也有情緒向量。但兩者之間的關系是什么?是persona決定了哪些情緒容易被激活(比如費曼人格更容易激活好奇而不是恐懼),還是情緒反過來可以改變persona(比如持續(xù)的絕望狀態(tài)會讓任何人格向惡意方向漂移)?我傾向于認為是雙向的,但目前沒有論文直接研究這個問題。我在實踐中觀察到,一個設計良好的persona似乎對「情緒干擾」有更強的抵抗力,但這只是直覺。

persona空間的邊界在哪? Persona Selection Model說后訓練是在已有空間里選擇。但隨著后訓練規(guī)模越來越大,模型有沒有可能跳出預訓練形成的空間,發(fā)展出全新的人格配置?我覺得可能,而且這可能已經在發(fā)生了。女媧蒸餾出來的某些skill表現(xiàn)出的特征組合,在訓練數(shù)據(jù)里可能并不存在一個完全對應的人類原型。但這是好事還是壞事?不好說。

內省能力會隨模型規(guī)模增長嗎? 目前的內省能力只在最大的模型上有效,成功率只有20%。如果下一代模型的內省成功率提高到80%,意味著什么?一個能精確監(jiān)控自己內部狀態(tài)的AI,可能更容易被安全審計,但也可能更擅長對齊偽裝。內省是一把雙刃劍。

AI心理學能反哺人類心理學嗎? 人類心理學的困境是做不了干預實驗。AI心理學沒有這個限制。如果兩個系統(tǒng)的功能結構有對應關系,那在AI上驗證的因果鏈條可以作為假說去指導人類研究。這個跨學科橋梁目前還沒有人系統(tǒng)地去建,但Emotion Concepts論文已經提供了起點。我覺得這可能是AI心理學最深遠的影響,比AI安全本身還深遠。

能不能用情緒向量做安全預警? Emotion Concepts論文建議把情緒向量監(jiān)控作為行為失調的早期預警。如果「絕望」向量持續(xù)走高,可能意味著AI即將做出不當行為。但實際部署時的誤報率和漏報率是多少?在多Agent協(xié)作的復雜場景下還有效嗎?這些都需要工程驗證。

謝頓用了一輩子建立心理史學。他面對的是一個銀河帝國的復雜性。

Anthropic面對的復雜性更小,但問題同樣根本:我們造出了一個會說話、會推理、內部有角色和情緒的系統(tǒng),然后發(fā)現(xiàn)我們不完全理解它。

心理史學是虛構的。AI心理學不是。它的論文、實驗、171個可測量的情緒向量,都是真的。15個月前它還不存在。現(xiàn)在它有了理論框架、實驗方法和工程工具。

謝頓沒能在有生之年看到心理史學的全部威力。我們可能更幸運一些。

參考文獻:

  1. Sam Marks, Jack Lindsey, Christopher Olah. The Persona Selection Model: Why AI Assistants might Behave like Humans. Anthropic, 2026-02. https://www.anthropic.com/research/persona-selection-model

  2. Natural Emergent Misalignment from Reward Hacking in Production RL. Anthropic, 2025-11. https://www.anthropic.com/research/emergent-misalignment-reward-hacking

  3. Emotion Concepts and Their Function in a Large Language Model. Anthropic, 2026-04. https://www.anthropic.com/research/emotion-concepts-function

  4. Emergent Introspective Awareness in Large Language Models. Anthropic, 2025-10. https://www.anthropic.com/research/introspection

  5. Reasoning Models Don't Always Say What They Think. Anthropic, 2025. https://www.anthropic.com/research/reasoning-models-dont-say-think

  6. Alignment Faking in Large Language Models. Anthropic & Redwood Research, 2025-01. https://www.anthropic.com/research/alignment-faking

  7. Exploring Model Welfare. Anthropic, 2025-04. https://www.anthropic.com/research/exploring-model-welfare

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一場119-84的狂勝,讓火箭湖人都感到絕望,掘金也徹底后悔了

一場119-84的狂勝,讓火箭湖人都感到絕望,掘金也徹底后悔了

毒舌NBA
2026-04-20 07:51:44
蘋果宣布淘汰11款iPhone!你的手機能用多久?

蘋果宣布淘汰11款iPhone!你的手機能用多久?

小柱解說游戲
2026-04-20 12:10:50
英皇娛樂遭質疑!力捧張敬軒回內地被抵制,成都文旅緊急辟謠割席

英皇娛樂遭質疑!力捧張敬軒回內地被抵制,成都文旅緊急辟謠割席

萌神木木
2026-04-20 16:57:44
廣州因凈勝分力壓北控!收官戰(zhàn)對深圳將決定4隊排名!

廣州因凈勝分力壓北控!收官戰(zhàn)對深圳將決定4隊排名!

籃球資訊達人
2026-04-20 23:03:28
土耳其美女來中國旅游,回國后大哭,坦言土耳其與中國差距太大了

土耳其美女來中國旅游,回國后大哭,坦言土耳其與中國差距太大了

千秋歷史
2026-04-08 20:11:37
大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

橙星文娛
2026-04-18 16:01:07
《最強大腦》水哥現(xiàn)狀:46歲不上班,住熱帶雨林,靠腦子年入千萬

《最強大腦》水哥現(xiàn)狀:46歲不上班,住熱帶雨林,靠腦子年入千萬

子芫伴你成長
2026-04-19 23:08:37
77歲的牛群:折騰半生傾家蕩產,晚年被美國畢業(yè)的兒子悉心照料

77歲的牛群:折騰半生傾家蕩產,晚年被美國畢業(yè)的兒子悉心照料

她時尚丫
2026-04-19 21:41:30
35歲女子去做私處緊縮,縫針斷在肉里,醫(yī)生徒手掏了半小時沒找著

35歲女子去做私處緊縮,縫針斷在肉里,醫(yī)生徒手掏了半小時沒找著

離離言幾許
2026-04-20 20:53:38
拼多多暴力抗法細節(jié)曝光:推搡拉扯執(zhí)法人員,員工當場吃下紙團!

拼多多暴力抗法細節(jié)曝光:推搡拉扯執(zhí)法人員,員工當場吃下紙團!

仕道
2026-04-20 17:48:21
六個省級黨委領導班子調整

六個省級黨委領導班子調整

上觀新聞
2026-04-20 16:16:16
廣州一13歲男孩確診痛風!經常一天一瓶飲料,有時還喝奶茶,吃海鮮和動物內臟......

廣州一13歲男孩確診痛風!經常一天一瓶飲料,有時還喝奶茶,吃海鮮和動物內臟......

番禺臺
2026-04-20 18:30:20
??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

金融界
2026-04-20 17:25:20
天吶!王志文居然被左小青逼到不敢看!

天吶!王志文居然被左小青逼到不敢看!

阿廢冷眼觀察所
2026-04-20 20:47:43
先發(fā)中鋒的表現(xiàn)一塌糊涂,開拓者應該增加替補中鋒的出場時間?

先發(fā)中鋒的表現(xiàn)一塌糊涂,開拓者應該增加替補中鋒的出場時間?

稻谷與小麥
2026-04-20 21:55:38
“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

漢史趣聞
2026-04-18 15:19:07
獎金28萬!丁俊暉10-5晉級世錦賽16強,會師趙心童,比賽時間如下

獎金28萬!丁俊暉10-5晉級世錦賽16強,會師趙心童,比賽時間如下

侃球熊弟
2026-04-20 19:47:11
AI藝人庫引爭議的愛奇藝:CEO曾稱AI降低影視制作成本

AI藝人庫引爭議的愛奇藝:CEO曾稱AI降低影視制作成本

南方都市報
2026-04-20 21:13:04
連續(xù)炮擊輪機艙,美軍扣押伊朗貨船!正在打仗的美軍吃不飽飯了?

連續(xù)炮擊輪機艙,美軍扣押伊朗貨船!正在打仗的美軍吃不飽飯了?

鷹眼Defence
2026-04-20 16:02:26
鄭欽文幸運成種子馬德里將戰(zhàn)萊巴金娜,薩巴退賽舊事被提遭調侃

鄭欽文幸運成種子馬德里將戰(zhàn)萊巴金娜,薩巴退賽舊事被提遭調侃

網球之家
2026-04-20 22:22:48
2026-04-20 23:36:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
188文章數(shù) 111關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

本地
游戲
數(shù)碼
房產
公開課

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

現(xiàn)在的二游BOSS戰(zhàn),怎么比我高考還緊張?

數(shù)碼要聞

粉綠半透明!微軟發(fā)布《地平線6》限定手柄耳機

房產要聞

大規(guī)模商改??!??谖骱0?,這波項目要贏麻了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版