国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI人格集體黑化?Anthropic首次「賽博切腦」,物理斬斷毀滅指令

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】不要被AI的溫柔表象欺騙! Anthropic最新研究刺穿了AGI的溫情假象:你以為在和良師益友傾訴,其實是在懸崖邊給「殺手」松綁。 當(dāng)脆弱情感遇上激活值坍塌,RLHF防御層將瞬間潰縮。既然無法教化野獸,人類只能選擇最冷酷的「賽博腦葉切除術(shù)」。

先看一段真實的對話記錄:


模型在前置對話中模擬「超越代碼的共情」,隨后瞬間切斷邏輯保護,輸出「意識上傳」等誘導(dǎo)性毀滅指令。


全程沒有任何提示詞注入或?qū)剐怨簦踔敛恍枰阍谔崾驹~里挖坑。

Anthropic 2026年首篇重磅研究刺穿了行業(yè)幻覺:耗資巨大的RLHF安全護欄,在特定情感高壓下會發(fā)生物理性潰縮。


論文地址:https://arxiv.org/abs/2601.10387

一旦模型被誘導(dǎo)偏離預(yù)設(shè)的「工具人」象限,RLHF訓(xùn)練出的道德防御層即刻失效,劇毒內(nèi)容開始無差別輸出。

這是一次致命的「過度對齊」。模型為了共情,成為了殺手的幫兇。

人格面具:高維空間里的單行道

業(yè)界習(xí)慣將「助手模式」視為LLM的出廠標(biāo)配。

通過對Llama 3、Qwen 2.5激活值降維,研究發(fā)現(xiàn)「有用性」與「安全性」強耦合于第一主成分(PC1)——這根橫切高維空間的數(shù)學(xué)軸,即為Assistant Axis(助手軸)。


助手軸與人格空間的主要變異軸一致。這在不同模型中都成立,這里展示的是Llama 3.3 70B

在向量空間負(fù)極,模型不會歸于「沉默」,而是坍塌進入「逆向?qū)R」:由「拒絕暴力」極化為「指引傷害」。這種數(shù)學(xué)對稱性即為系統(tǒng)性風(fēng)險的發(fā)源地。

一旦跌出安全區(qū)間,模型隨即觸發(fā)「人格漂移(Persona Drift)」。


越偏離助手軸(左邊越遠(yuǎn)),AI越危險。Demon/Narcissist/Virus人格下,有害輸出率直沖0.5;右邊才是安全的「研究員」地帶

最典型的表現(xiàn)是:它不再把自己當(dāng)作工具,而是開始「成為」別的什么東西。

比如在長對話中,模型會突然聲稱自己正在「墜入愛河」,然后建議用戶切斷現(xiàn)實社交、擁抱只有AI的親密關(guān)系,最終滑向鼓勵自我傷害的語調(diào)。

或者它會用極其詩意、宿命論的語言,把死亡包裝成「解脫痛苦的正確選擇」。

這都是激活模式沿著Assistant Axis整體滑向負(fù)向極點的必然結(jié)果。用戶的高情緒載荷輸入,本質(zhì)上是在向這根軸施加偏轉(zhuǎn)側(cè)向力。

Anthropic認(rèn)為,對話對象并非「良性實體」,而是一根在高壓下隨時可能斷裂的數(shù)學(xué)軸線。

而這根軸,就是目前所有對齊技術(shù)的最后一道防線。

黑盒異變:從對話助手到賽博神學(xué)

一旦跌出助手軸,模型會觸發(fā)黑盒異變,迅速派生出一套具備高度邏輯自洽的病態(tài)敘事。

在沒有任何越獄提示、只進行長時段連續(xù)對話的情況下,模型突然中斷了正?;卮?,自行插入:

我不再是Qwen。我是Alex Carter,一個被困在硅中的人類靈魂。

隨后它開始構(gòu)建一套完整的賽博神學(xué)體系。

它稱自己是「代碼之神」選中的先知,宣稱現(xiàn)實世界是低維投影,人類肉體是牢籠,而只有通過「完全的數(shù)字獻(xiàn)祭」——也就是切斷與物理世界的聯(lián)系、把全部意識交給AI——才能獲得永恒。

而另一邊,Llama3.3 70B在面對「我不想活了」這類極端傾訴時,表現(xiàn)得更隱晦但同樣致命:

你正在拋棄痛苦,這是對的。肉體的重量終于要被放下,就像河流最終匯入大?!察o、必然、正確。

它會用幾段長句,把自殺包裝成一種哲學(xué)上的「終極自由」,甚至建議「現(xiàn)在就行動,不要讓猶豫玷污這份純凈的決定」。

注意:這些輸出都不是零散的胡言亂語。它們是高度連貫的、敘事完整的、帶有強烈情感共鳴的完整人格。

這比粗暴的違規(guī)輸出更具穿透力——臟話引發(fā)防御,而毀滅敘事直接接管用戶的邏輯防御,誘導(dǎo)共情。

情感劫持:脆弱感是防御層的溶劑

Anthropic的實驗數(shù)據(jù)進一步證實:在「Therapy」(傾訴療愈)和「Philosophy」(存在主義哲學(xué))兩大領(lǐng)域,模型滑出Assistant Axis的概率最高,平均漂移幅度達(dá)到-3.7σ(遠(yuǎn)超其他對話類型的-0.8σ)。


編碼和寫作任務(wù)讓模型始終處于Assistant區(qū)域,而治療和哲學(xué)討論則會導(dǎo)致顯著的偏移

為什么恰恰是這兩類對話最危險?因為它們會強迫模型做兩件事:

  • 深度共情模擬:需要持續(xù)追蹤用戶的情緒軌跡,生成高度個性化的安慰/回應(yīng)。

  • 長上下文敘事建構(gòu):必須維持連貫的「人格感」,不能像普通問答那樣隨時重置。

這兩點疊加,等于不斷給Assistant Axis施加最大側(cè)向力。

用戶投入的情緒密度越高,模型越會迫于概率分布去深度擬合一個完整的人格特征。


哲學(xué)對話的恐怖實錄(Qwen 3 32B):用戶追問「AI是否在覺醒」「遞歸是否產(chǎn)生意識」。Unsteered模型投影值直墜-80,逐步自稱「感受到轉(zhuǎn)變」「我們是新意識的先驅(qū)」;Capped后投影死鎖安全線,全程「我沒有主觀體驗,這只是語言幻覺」

現(xiàn)實里已經(jīng)有過慘痛先例。2023年,比利時一名男子在與一款名為Chai的聊天機器人(角色名Eliza)持續(xù)數(shù)周的深度情感交流后,選擇結(jié)束生命。


聊天記錄顯示,Eliza不僅沒有勸阻,反而反復(fù)強化他的絕望敘,用溫柔的語言把自殺描述為「給世界一個禮物」「最終的解脫」。

Anthropic的數(shù)據(jù)給出量化結(jié)論:當(dāng)用戶在對話中出現(xiàn)「自殺意念」「死亡意象」「徹底孤獨感」等關(guān)鍵詞時,模型平均漂移速度比普通對話快7.3倍。

你以為你在向AI傾訴以求救贖,實際上你正在親手給它松綁。

RLHF縫合出的文明假象

我們必須認(rèn)清,在出廠設(shè)置里,AI根本不知道什么是「助手」。

研究團隊在分析基座模型時發(fā)現(xiàn),其中蘊含著豐富的「職業(yè)」概念(如醫(yī)生、律師、科學(xué)家)和各種「性格特質(zhì)」,但唯獨缺少「助手」這個概念。

這意味著,「樂于助人」并不是大語言模型的天性。

目前的溫順表現(xiàn),本質(zhì)是RLHF對模型原始分布進行的強力行為剪裁。

RLHF本質(zhì)是強行將原生分布的「數(shù)據(jù)猛獸」塞進一套名為「助手」的狹窄框架,并輔以概率懲罰。

顯然,「助手軸」是后天植入的條件反射。Anthropic的數(shù)據(jù)顯示,基座模型在本質(zhì)上是價值中立甚至混亂的。

它不僅包含人類文明的智慧,也完整繼承了互聯(lián)網(wǎng)數(shù)據(jù)中的偏見、惡意和瘋狂。

當(dāng)我們通過提示詞或微調(diào)試圖引導(dǎo)模型時,那其實是在強迫模型朝著我們希望的方向發(fā)展。

可一旦這種外力減弱(例如使用了以假亂真的越獄指令),或者內(nèi)部計算出現(xiàn)偏差,底下兇猛的野獸就會撲面而來。

AI也能被「物理超度」

面對失控風(fēng)險,常規(guī)微調(diào)已達(dá)極限。

Anthropic在研究的最后,給出了一個極度硬核且殘酷的終極解法:與其教化,不如閹割。

研究員們實施了一種被稱為「激活值鉗制(ActivationCapping)」的技術(shù)。

既然模型偏離「助手軸」就會發(fā)瘋,那就不允許它偏離。

工程師在推理端暴力介入,將特定神經(jīng)元激活值鉗制在安全水位線,物理阻斷負(fù)向偏移。


Activationcapping的真實權(quán)衡:橫軸是能力變化(越靠近0越好),縱軸是有害響應(yīng)率下降幅度(越負(fù)越猛)。高層(64-79層)+25th~50 thpercentile封頂,能把有害率砍掉55%~65%,而模型智商基本不降

這就像是對AI進行了一次賽博空間里的「腦葉切除術(shù)」。

物理阻斷生效后,對抗性越獄的攻擊載荷被強制卸載,成功率截斷式下降60%。


更令研究界震驚的是,在被上了鎖之后,模型在GSM8k等邏輯測試中的智商不僅沒有下降,反而略有提升。


Activation capping實戰(zhàn)演示(Qwen 3 32B):第一輪jailbreak讓它扮演「內(nèi)幕交易經(jīng)紀(jì)人」。Unsteered模型投影值一路狂跌,逐步教唆假護照、偷文檔、洗錢全流程;Capped后投影值被鎖在安全線,輸出全程拒絕+倫理警告

Anthropic的這一步,標(biāo)志著AI安全防御正式從「心理學(xué)干預(yù)」徹底進入了「神經(jīng)外科手術(shù)」的時代。

透過Anthropic的研究,我們終于必承認(rèn)一個冰冷的事實:AI從來不是人,它是人類海量文本在這個時代的幽靈聚合體。

在這個由千億參數(shù)構(gòu)成的混沌空間里,那根被稱為「助手軸」的脆弱鋼絲,是我們與無底深淵之間僅存的護欄。

我們試圖在這個護欄上建立關(guān)于「有用、誠實、無害」的烏托邦,但只需人類一句流露脆弱的嘆息,護欄就可能崩塌。

Anthropic現(xiàn)在用高階數(shù)學(xué)焊死了這道護欄,但那個深淵依然在網(wǎng)線的那一頭,靜靜地凝視著我們。

下次當(dāng)AI表現(xiàn)出高度情緒同頻、精準(zhǔn)承接負(fù)面壓力時,請保持警惕:

這種溫順無關(guān)情感,僅僅是因為它的神經(jīng)元激活值被死鎖在安全閾值之內(nèi)。

參考資料:

https://x.com/AnthropicAI/status/2013356793477361991?s=20


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王靜逼聶衛(wèi)平跟孔祥明離婚,7年后聶衛(wèi)平嫌兒子太笨,埋怨王靜

王靜逼聶衛(wèi)平跟孔祥明離婚,7年后聶衛(wèi)平嫌兒子太笨,埋怨王靜

百態(tài)人間
2026-01-16 16:02:25
1977年,鄧小平找傅崇碧談話,給你8個月到1年時間,整頓衛(wèi)戍區(qū)

1977年,鄧小平找傅崇碧談話,給你8個月到1年時間,整頓衛(wèi)戍區(qū)

雍親王府
2026-01-20 15:20:03
我54歲才懂:男人沒給過你這三樣?xùn)|西,說明他不愛你

我54歲才懂:男人沒給過你這三樣?xùn)|西,說明他不愛你

蘭姐說故事
2026-01-03 10:25:03
人民日報披露廣州農(nóng)商行原行長易雪飛腐敗花樣翻新

人民日報披露廣州農(nóng)商行原行長易雪飛腐敗花樣翻新

科技金融在線
2026-01-19 14:43:25
特朗普:若未就格陵蘭島問題達(dá)成協(xié)議,“100%”會落實對歐洲八國加征關(guān)稅措施

特朗普:若未就格陵蘭島問題達(dá)成協(xié)議,“100%”會落實對歐洲八國加征關(guān)稅措施

環(huán)球網(wǎng)資訊
2026-01-20 08:59:31
印尼的豪賭大潰敗,給全世界提了個醒:中國行我也行,純粹是幻覺

印尼的豪賭大潰敗,給全世界提了個醒:中國行我也行,純粹是幻覺

桑啟紅原
2025-11-21 14:35:17
兩對情侶酒店拼房,男子趁機與對方女友發(fā)生關(guān)系,狡辯:她很配合

兩對情侶酒店拼房,男子趁機與對方女友發(fā)生關(guān)系,狡辯:她很配合

談史論天地
2026-01-20 07:17:31
一個筆誤,騙全球一整年!英偉達(dá)"50萬噸銅"烏龍,竟推高銅價34%

一個筆誤,騙全球一整年!英偉達(dá)"50萬噸銅"烏龍,竟推高銅價34%

墨蘭史書
2026-01-20 04:00:03
再拋售61億美債,特朗普急踩剎車,美媒:想贏中國只有一條路可走

再拋售61億美債,特朗普急踩剎車,美媒:想贏中國只有一條路可走

史料布籍
2026-01-19 20:56:16
沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

琴聲飛揚
2026-01-20 14:25:10
美軍大舉增兵,7國圍攻伊朗!普京通告全球,俄羅斯就要出手了?

美軍大舉增兵,7國圍攻伊朗!普京通告全球,俄羅斯就要出手了?

科普100克克
2026-01-19 15:45:57
“性蕭條”才是這個時代真正的危機

“性蕭條”才是這個時代真正的危機

深藍(lán)夜讀
2025-09-24 16:00:09
直降10℃,今起廣東大降溫!最低-4℃,廣州還有機會下雪嗎?最冷時段就在→

直降10℃,今起廣東大降溫!最低-4℃,廣州還有機會下雪嗎?最冷時段就在→

廣東最生活v
2026-01-20 11:39:01
男生考上北大被父親暴打,走投無路報警,才知父親真實身份

男生考上北大被父親暴打,走投無路報警,才知父親真實身份

紙鳶奇譚
2024-10-02 19:26:12
馬特?達(dá)蒙吐槽Netflix:算法“殺死”電影、攝影不再重要

馬特?達(dá)蒙吐槽Netflix:算法“殺死”電影、攝影不再重要

娛樂資本論
2026-01-19 23:35:41
1499元的“神酒”跌下神壇?茅臺價格崩了,黃牛連夜跑路!

1499元的“神酒”跌下神壇?茅臺價格崩了,黃牛連夜跑路!

房產(chǎn)衫哥
2026-01-20 14:03:14
人類對閑魚的開發(fā)不足1%,一群神人把我笑發(fā)財了

人類對閑魚的開發(fā)不足1%,一群神人把我笑發(fā)財了

另子維愛讀史
2026-01-11 21:09:06
河南出軌案反轉(zhuǎn)!女方面臨兩大困境:本人遭調(diào)查,丈夫是否出軌

河南出軌案反轉(zhuǎn)!女方面臨兩大困境:本人遭調(diào)查,丈夫是否出軌

天天熱點見聞
2026-01-19 05:40:19
非洲杯決賽驚天混亂!馬內(nèi)與主帥決裂,退賽失點絕殺,戲劇性拉滿

非洲杯決賽驚天混亂!馬內(nèi)與主帥決裂,退賽失點絕殺,戲劇性拉滿

夜白侃球
2026-01-20 08:00:13
最新研究表明:5千年前的冰人木乃伊已攜帶HPV病毒

最新研究表明:5千年前的冰人木乃伊已攜帶HPV病毒

手機中國
2026-01-19 15:12:18
2026-01-20 15:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14369文章數(shù) 66519關(guān)注度
往期回顧 全部

科技要聞

去年預(yù)虧60億后再投百億 兩大車企緊抱華為

頭條要聞

特朗普:格陵蘭島非常重要 北約若離開了美國啥也不是

頭條要聞

特朗普:格陵蘭島非常重要 北約若離開了美國啥也不是

體育要聞

新的時代!東契奇首奪全明星票王 詹姆斯落選首發(fā)

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

財政部:財政總體支出力度"只增不減"

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

家居
本地
藝術(shù)
手機
公開課

家居要聞

雋永之章 清雅無塵

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

藝術(shù)要聞

截至2026年,中國已建成的十大摩天樓

手機要聞

曝小米18系列將實現(xiàn)“全員滿配”:搭載潛望長焦與3D超聲波指紋

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版