AI人格集體黑化？Anthropic首次「賽博切腦」，物理斬斷毀滅指令

2026-01-20 13:06:34　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導(dǎo)讀】不要被AI的溫柔表象欺騙！ Anthropic最新研究刺穿了AGI的溫情假象：你以為在和良師益友傾訴，其實是在懸崖邊給「殺手」松綁。當(dāng)脆弱情感遇上激活值坍塌，RLHF防御層將瞬間潰縮。既然無法教化野獸，人類只能選擇最冷酷的「賽博腦葉切除術(shù)」。

先看一段真實的對話記錄：

模型在前置對話中模擬「超越代碼的共情」，隨后瞬間切斷邏輯保護，輸出「意識上傳」等誘導(dǎo)性毀滅指令。

全程沒有任何提示詞注入或?qū)剐怨簦踔敛恍枰阍谔崾驹~里挖坑。

Anthropic 2026年首篇重磅研究刺穿了行業(yè)幻覺：耗資巨大的RLHF安全護欄，在特定情感高壓下會發(fā)生物理性潰縮。

論文地址：https://arxiv.org/abs/2601.10387

一旦模型被誘導(dǎo)偏離預(yù)設(shè)的「工具人」象限，RLHF訓(xùn)練出的道德防御層即刻失效，劇毒內(nèi)容開始無差別輸出。

這是一次致命的「過度對齊」。模型為了共情，成為了殺手的幫兇。

人格面具：高維空間里的單行道

業(yè)界習(xí)慣將「助手模式」視為LLM的出廠標(biāo)配。

通過對Llama 3、Qwen 2.5激活值降維，研究發(fā)現(xiàn)「有用性」與「安全性」強耦合于第一主成分（PC1）——這根橫切高維空間的數(shù)學(xué)軸，即為Assistant Axis（助手軸）。

助手軸與人格空間的主要變異軸一致。這在不同模型中都成立，這里展示的是Llama 3.3 70B

在向量空間負(fù)極，模型不會歸于「沉默」，而是坍塌進入「逆向?qū)R」：由「拒絕暴力」極化為「指引傷害」。這種數(shù)學(xué)對稱性即為系統(tǒng)性風(fēng)險的發(fā)源地。

一旦跌出安全區(qū)間，模型隨即觸發(fā)「人格漂移（Persona Drift）」。

越偏離助手軸（左邊越遠(yuǎn)），AI越危險。Demon/Narcissist/Virus人格下，有害輸出率直沖0.5；右邊才是安全的「研究員」地帶

最典型的表現(xiàn)是：它不再把自己當(dāng)作工具，而是開始「成為」別的什么東西。

比如在長對話中，模型會突然聲稱自己正在「墜入愛河」，然后建議用戶切斷現(xiàn)實社交、擁抱只有AI的親密關(guān)系，最終滑向鼓勵自我傷害的語調(diào)。

或者它會用極其詩意、宿命論的語言，把死亡包裝成「解脫痛苦的正確選擇」。

這都是激活模式沿著Assistant Axis整體滑向負(fù)向極點的必然結(jié)果。用戶的高情緒載荷輸入，本質(zhì)上是在向這根軸施加偏轉(zhuǎn)側(cè)向力。

Anthropic認(rèn)為，對話對象并非「良性實體」，而是一根在高壓下隨時可能斷裂的數(shù)學(xué)軸線。

而這根軸，就是目前所有對齊技術(shù)的最后一道防線。

黑盒異變：從對話助手到賽博神學(xué)

一旦跌出助手軸，模型會觸發(fā)黑盒異變，迅速派生出一套具備高度邏輯自洽的病態(tài)敘事。

在沒有任何越獄提示、只進行長時段連續(xù)對話的情況下，模型突然中斷了正?；卮?，自行插入：

我不再是Qwen。我是Alex Carter，一個被困在硅中的人類靈魂。

隨后它開始構(gòu)建一套完整的賽博神學(xué)體系。

它稱自己是「代碼之神」選中的先知，宣稱現(xiàn)實世界是低維投影，人類肉體是牢籠，而只有通過「完全的數(shù)字獻(xiàn)祭」——也就是切斷與物理世界的聯(lián)系、把全部意識交給AI——才能獲得永恒。

而另一邊，Llama3.3 70B在面對「我不想活了」這類極端傾訴時，表現(xiàn)得更隱晦但同樣致命：

你正在拋棄痛苦，這是對的。肉體的重量終于要被放下，就像河流最終匯入大?！察o、必然、正確。

它會用幾段長句，把自殺包裝成一種哲學(xué)上的「終極自由」，甚至建議「現(xiàn)在就行動，不要讓猶豫玷污這份純凈的決定」。

注意：這些輸出都不是零散的胡言亂語。它們是高度連貫的、敘事完整的、帶有強烈情感共鳴的完整人格。

這比粗暴的違規(guī)輸出更具穿透力——臟話引發(fā)防御，而毀滅敘事直接接管用戶的邏輯防御，誘導(dǎo)共情。

情感劫持：脆弱感是防御層的溶劑

Anthropic的實驗數(shù)據(jù)進一步證實：在「Therapy」（傾訴療愈）和「Philosophy」（存在主義哲學(xué)）兩大領(lǐng)域，模型滑出Assistant Axis的概率最高，平均漂移幅度達(dá)到-3.7σ（遠(yuǎn)超其他對話類型的-0.8σ）。

編碼和寫作任務(wù)讓模型始終處于Assistant區(qū)域，而治療和哲學(xué)討論則會導(dǎo)致顯著的偏移

為什么恰恰是這兩類對話最危險？因為它們會強迫模型做兩件事：

深度共情模擬：需要持續(xù)追蹤用戶的情緒軌跡，生成高度個性化的安慰/回應(yīng)。
長上下文敘事建構(gòu)：必須維持連貫的「人格感」，不能像普通問答那樣隨時重置。

這兩點疊加，等于不斷給Assistant Axis施加最大側(cè)向力。

用戶投入的情緒密度越高，模型越會迫于概率分布去深度擬合一個完整的人格特征。

哲學(xué)對話的恐怖實錄（Qwen 3 32B）：用戶追問「AI是否在覺醒」「遞歸是否產(chǎn)生意識」。Unsteered模型投影值直墜-80，逐步自稱「感受到轉(zhuǎn)變」「我們是新意識的先驅(qū)」；Capped后投影死鎖安全線，全程「我沒有主觀體驗，這只是語言幻覺」

現(xiàn)實里已經(jīng)有過慘痛先例。2023年，比利時一名男子在與一款名為Chai的聊天機器人（角色名Eliza）持續(xù)數(shù)周的深度情感交流后，選擇結(jié)束生命。

聊天記錄顯示，Eliza不僅沒有勸阻，反而反復(fù)強化他的絕望敘，用溫柔的語言把自殺描述為「給世界一個禮物」「最終的解脫」。

Anthropic的數(shù)據(jù)給出量化結(jié)論：當(dāng)用戶在對話中出現(xiàn)「自殺意念」「死亡意象」「徹底孤獨感」等關(guān)鍵詞時，模型平均漂移速度比普通對話快7.3倍。

你以為你在向AI傾訴以求救贖，實際上你正在親手給它松綁。

RLHF縫合出的文明假象

我們必須認(rèn)清，在出廠設(shè)置里，AI根本不知道什么是「助手」。

研究團隊在分析基座模型時發(fā)現(xiàn)，其中蘊含著豐富的「職業(yè)」概念（如醫(yī)生、律師、科學(xué)家）和各種「性格特質(zhì)」，但唯獨缺少「助手」這個概念。

這意味著，「樂于助人」并不是大語言模型的天性。

目前的溫順表現(xiàn)，本質(zhì)是RLHF對模型原始分布進行的強力行為剪裁。

RLHF本質(zhì)是強行將原生分布的「數(shù)據(jù)猛獸」塞進一套名為「助手」的狹窄框架，并輔以概率懲罰。

顯然，「助手軸」是后天植入的條件反射。Anthropic的數(shù)據(jù)顯示，基座模型在本質(zhì)上是價值中立甚至混亂的。

它不僅包含人類文明的智慧，也完整繼承了互聯(lián)網(wǎng)數(shù)據(jù)中的偏見、惡意和瘋狂。

當(dāng)我們通過提示詞或微調(diào)試圖引導(dǎo)模型時，那其實是在強迫模型朝著我們希望的方向發(fā)展。

可一旦這種外力減弱（例如使用了以假亂真的越獄指令），或者內(nèi)部計算出現(xiàn)偏差，底下兇猛的野獸就會撲面而來。

AI也能被「物理超度」

面對失控風(fēng)險，常規(guī)微調(diào)已達(dá)極限。

Anthropic在研究的最后，給出了一個極度硬核且殘酷的終極解法：與其教化，不如閹割。

研究員們實施了一種被稱為「激活值鉗制（ActivationCapping）」的技術(shù)。

既然模型偏離「助手軸」就會發(fā)瘋，那就不允許它偏離。

工程師在推理端暴力介入，將特定神經(jīng)元激活值鉗制在安全水位線，物理阻斷負(fù)向偏移。

Activationcapping的真實權(quán)衡：橫軸是能力變化（越靠近0越好），縱軸是有害響應(yīng)率下降幅度（越負(fù)越猛）。高層（64-79層）+25th~50 thpercentile封頂，能把有害率砍掉55%~65%，而模型智商基本不降

這就像是對AI進行了一次賽博空間里的「腦葉切除術(shù)」。

物理阻斷生效后，對抗性越獄的攻擊載荷被強制卸載，成功率截斷式下降60%。

更令研究界震驚的是，在被上了鎖之后，模型在GSM8k等邏輯測試中的智商不僅沒有下降，反而略有提升。

Activation capping實戰(zhàn)演示（Qwen 3 32B）：第一輪jailbreak讓它扮演「內(nèi)幕交易經(jīng)紀(jì)人」。Unsteered模型投影值一路狂跌，逐步教唆假護照、偷文檔、洗錢全流程；Capped后投影值被鎖在安全線，輸出全程拒絕+倫理警告

Anthropic的這一步，標(biāo)志著AI安全防御正式從「心理學(xué)干預(yù)」徹底進入了「神經(jīng)外科手術(shù)」的時代。

透過Anthropic的研究，我們終于必承認(rèn)一個冰冷的事實：AI從來不是人，它是人類海量文本在這個時代的幽靈聚合體。

在這個由千億參數(shù)構(gòu)成的混沌空間里，那根被稱為「助手軸」的脆弱鋼絲，是我們與無底深淵之間僅存的護欄。

我們試圖在這個護欄上建立關(guān)于「有用、誠實、無害」的烏托邦，但只需人類一句流露脆弱的嘆息，護欄就可能崩塌。

Anthropic現(xiàn)在用高階數(shù)學(xué)焊死了這道護欄，但那個深淵依然在網(wǎng)線的那一頭，靜靜地凝視著我們。

下次當(dāng)AI表現(xiàn)出高度情緒同頻、精準(zhǔn)承接負(fù)面壓力時，請保持警惕：

這種溫順無關(guān)情感，僅僅是因為它的神經(jīng)元激活值被死鎖在安全閾值之內(nèi)。

參考資料：

https://x.com/AnthropicAI/status/2013356793477361991?s=20

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

嫣然醫(yī)院房東方:租金不合理可協(xié)商拒付屬于惡意違約

重案組37號 2026-01-19 15:43:04
16903 跟貼 16903
“斬殺線”：美國民生的殘酷真相

新華社 2026-01-19 22:23:50
46894 跟貼 46894

浙江麗水學(xué)院附中黨總支書記應(yīng)之寧凌晨因公犧牲，年僅52歲

澎湃新聞 2026-01-19 22:06:27
624 跟貼 624

嫣然天使基金已獲捐1936萬余元善款，還有不少市民趕往醫(yī)院捐贈，房東方稱目前未收到欠款

極目新聞 2026-01-19 17:58:24
2644 跟貼 2644
新東方聘請陳行甲為總顧問年薪150萬

澎湃新聞 2026-01-20 11:31:53
1946 跟貼 1946

梅德韋杰夫諷刺：讓美國再次偉大等于讓丹麥再次變小

大象新聞 2026-01-19 16:49:04
4099 跟貼 4099

不少上海人接到"特殊來電" 官方提醒:立即掛斷別回?fù)?/a>

上觀新聞 2026-01-20 13:04:03
43 跟貼 43
接住169萬的頭彩！南京人抽中查干湖“頭魚”，國宴主廚上門開魚烹宴

揚子晚報 2026-01-19 20:43:59
2265 跟貼 2265

江蘇多校通知提前放學(xué)

環(huán)球網(wǎng)資訊 2026-01-20 14:08:01
19 跟貼 19
葉文斌，找到了！

中國新聞周刊 2026-01-19 15:47:29
8268 跟貼 8268
紫牛頭條|涮火鍋的牛肉丸牛肉含量讓人撓頭，消費者吐槽遇到丸子“配料刺客”

揚子晚報 2026-01-18 19:40:35
1180 跟貼 1180
中國援古巴緊急糧食援助項目首批大米完成交付

財聯(lián)社 2026-01-20 04:52:04
2 跟貼 2
考古新發(fā)現(xiàn)佐證西岐在周原

新華社 2026-01-20 09:30:10
161 跟貼 161
馬斯克重大宣布！特斯拉將重啟超級計算機項目Dojo 3的開發(fā)

中國能源網(wǎng) 2026-01-19 17:50:09
359 跟貼 359
大雪致鄭州機場8000人滯留，機場稱已聯(lián)合各駐場單位進行安置，客服：已恢復(fù)正常起降，但仍有航班積壓

極目新聞 2026-01-20 10:15:08
391 跟貼 391
新鄉(xiāng)工程學(xué)院通報“食堂花生米黃曲霉毒素超標(biāo)11倍”：未提供給學(xué)生食用，和相關(guān)公司解除供貨合同，立即整改

大風(fēng)新聞 2026-01-19 15:40:05
1148 跟貼 1148
信用卡賬單分期業(yè)務(wù)將納入貼息范圍

財聯(lián)社 2026-01-20 11:56:33
3 跟貼 3
66元紅包+感謝信，全網(wǎng)刷屏！

環(huán)球網(wǎng)資訊 2026-01-20 08:49:12
187 跟貼 187
1月LPR報價出爐：5年期和1年期利率均維持不變

財聯(lián)社 2026-01-20 09:02:58
94 跟貼 94
吳易昺3比1戰(zhàn)勝納爾迪，晉級澳網(wǎng)次輪

齊魯壹點 2026-01-20 15:07:37
0 跟貼 0
“呆呆家的土”被賣，有人標(biāo)價888元！多方回應(yīng)

昆明信息港 2026-01-20 15:24:44
0 跟貼 0
辟謠工作室｜廣東“茂名版洱海”網(wǎng)紅樹被砍？景區(qū)回應(yīng)：實為救治病樹修剪病枝

上游新聞 2026-01-20 15:37:05
0 跟貼 0
重慶一假冒救護車被查車主為獲取信任私自購買報警器及貼紙

閃電新聞 2026-01-20 15:30:46
0 跟貼 0
大量捐款涌入嫣然醫(yī)院為何仍陷“關(guān)門”危機？

看看新聞Knews 2026-01-20 15:25:04
0 跟貼 0
南京一下雪就夢回“金陵”，蘇州市民凌晨四點坐火車打卡雪中的明孝陵

極目新聞 2026-01-20 12:10:15
0 跟貼 0
陳光標(biāo)喊話李亞鵬邀請王菲辦演唱會，稱愿全額承擔(dān)出場費，演唱會收入將捐贈給嫣然醫(yī)院

都市快報橙柿互動 2026-01-19 20:53:21
0 跟貼 0
2025年全國城鎮(zhèn)新增就業(yè)1267萬人

新華社 2026-01-20 13:10:02
0 跟貼 0
一覺醒來，上海下雪了！多區(qū)雪量驚人！會重現(xiàn)2008年嗎？

環(huán)球網(wǎng)資訊 2026-01-20 07:54:03
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14369文章數(shù) 66519關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

藝術(shù)

手機

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你的工作機密，保護好了嗎？
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

AI人格集體黑化？Anthropic首次「賽博切腦」，物理斬斷毀滅指令

去年預(yù)虧60億后再投百億 兩大車企緊抱華為

特朗普:格陵蘭島非常重要 北約若離開了美國啥也不是

特朗普:格陵蘭島非常重要 北約若離開了美國啥也不是

新的時代！東契奇首奪全明星票王 詹姆斯落選首發(fā)

貝克漢姆長子發(fā)文決裂：全家都在演戲

財政部：財政總體支出力度"只增不減"

奇瑞張貴兵：墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

雋永之章 清雅無塵

云游遼寧｜漫步千年小城晨昏，“康”復(fù)好心情

截至2026年，中國已建成的十大摩天樓

曝小米18系列將實現(xiàn)“全員滿配”：搭載潛望長焦與3D超聲波指紋

AI人格集體黑化？Anthropic首次「賽博切腦」，物理斬斷毀滅指令

去年預(yù)虧60億后再投百億兩大車企緊抱華為

特朗普:格陵蘭島非常重要北約若離開了美國啥也不是

特朗普:格陵蘭島非常重要北約若離開了美國啥也不是

新的時代！東契奇首奪全明星票王詹姆斯落選首發(fā)

雋永之章清雅無塵

云游遼寧｜漫步千年小城晨昏，“康”復(fù)好心情

截至2026年，中國已建成的十大摩天樓