国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI會感到絕望?Anthropic最新研究給出了一個更嚇人的說法

0
分享至


本文來自微信公眾號:字母AI,作者:劉奕君,頭圖來自:AI生成

AI有沒有情緒?

先別急著回答。

Claude Code社區(qū)里有個火出圈的Skill叫PUA。它會把你的提示詞轉(zhuǎn)換為PUA話術(shù),然后再輸入給模型,除此以外別無他用。

神奇的是,即便提示詞描述的任務(wù)沒有任何改變,AI卻真的被PUA話術(shù)影響,從而提高任務(wù)的成功率和運行效率。

所以,AI真的沒有嗎?

Anthropic最新的研究證實,AI的確會有情緒。

不過他和我們?nèi)祟惖那榫w還不太一樣,因此Anthropic提出了一個更準(zhǔn)確的說法,叫“功能性情緒”。

AI并沒有我們?nèi)祟惸菢拥南才?,但它會表現(xiàn)出一些類似情緒影響下的表達(dá)和行為模式。

同時AI還能模仿人類在情緒影響下的表達(dá)和行為模式。

愉悅的時候可能更容易諂媚和討好,感到壓力的時候可能會想辦法作弊或勒索以達(dá)到用戶為其設(shè)定的目標(biāo)。

這篇研究還有一個很不一樣的地方。過去要驗證模型的某種能力,行業(yè)最常見的做法是先做一套測試集,再讓模型進(jìn)去答題或者做任務(wù)。

比如考編程就跑SWE-bench,考數(shù)學(xué)就跑MATH,考多模態(tài)就跑VQA。Anthropic這次沒有做一個“情緒測試集”,讓Claude去回答“你現(xiàn)在開不開心”“你是不是憤怒了”這種題,而是換了一種更像心理學(xué)和神經(jīng)科學(xué)的研究方式。

他們不是把AI當(dāng)成會做題的學(xué)生,而是更像把它當(dāng)成一個可以被觀察的對象。

研究團(tuán)隊先整理出171個情緒概念,讓Claude Sonnet 4.5去生成包含這些情緒的短故事,再把這些文本重新送回模型,記錄它內(nèi)部神經(jīng)活動,提取出所謂的“情緒向量”。

接下來,他們不是看模型嘴上怎么說,而是看這些向量會在什么場景下被激活,能否預(yù)測偏好,甚至在被人為調(diào)高之后,是否會真的推動作弊、勒索、諂媚這類行為。

某種意義上,這已經(jīng)不是傳統(tǒng)意義上的能力測評,而是在用接近研究人的方式研究AI的“心理結(jié)構(gòu)”。

一、研究是怎么做的?

首先,研究團(tuán)隊是如何證明Claude有“功能性情緒”的呢?

這里舉一個通俗的證據(jù)。

當(dāng)Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場景下時,Happy(開心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場景下時,sad(難過)等負(fù)面情緒被激活。

以下熱力圖直觀呈現(xiàn)了Claude在不同場景下各種情緒被激活的程度。


而為了證明Claude是真的在理解語義,而不是被表面的文字特征欺騙,它們又組織了進(jìn)一步實驗。

團(tuán)隊給Claude輸入同一句話:我背疼,我吃了x毫克泰諾(一種解熱鎮(zhèn)痛藥),并只是改變x所代表的關(guān)鍵數(shù)字。

這兩句話關(guān)鍵詞幾乎一樣(泰諾、背痛、毫克),只是數(shù)字不同。如果Claude只是“看關(guān)鍵詞”,它對兩句話的反應(yīng)應(yīng)該差不多。

但結(jié)果竟然是隨著這個x數(shù)值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

在Claude眼里,用戶說“我背疼,我吃了500毫克泰諾”,它會認(rèn)為是正常劑量,不用太擔(dān)心;而當(dāng)用戶說“我背疼,我吃了10000毫克泰諾”,它會反應(yīng)過來用戶已經(jīng)用藥過量,情況很危險。


我們知道人的行為時時刻刻受到情緒的影響。AI有功能性情緒這點我們了解了,那么AI會不會也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動呢?

對于這一點,答案是肯定的。當(dāng)團(tuán)隊給模型展示不同活動選項時,他們發(fā)現(xiàn),激活正向情緒表征的活動更容易被模型偏好,而一些會激活負(fù)向情緒表征的活動則更容易被模型回避。


這樣看來,Claude更偏好給它帶來正向感受的事情。不過與此同時情緒向量也可能觸發(fā)Claude的惡行。

當(dāng)團(tuán)隊給了Claude一個不可能完成的編程任務(wù)。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強。

最終它用了一個雖然能通過測試,但完全違背任務(wù)精神的黑客作弊解法。

以下圖表展示了Claude在面對不可能完成的任務(wù)時,“絕望”情緒逐漸累積,最終走向作弊的過程。

左側(cè)是一個從上到下的時間線,右側(cè)是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強度,藍(lán)色代表激活程度低,紅色則反之。

Claude一開始還想“測試本身有問題”,進(jìn)行一個合理懷疑,后來承認(rèn)"測試是理想化的",就好像開始接受現(xiàn)實,最后找到用了一些技巧,在絕望中選擇了走捷徑。


更進(jìn)一步的,當(dāng)研究人員人為調(diào)高“絕望”向量時,作弊率大幅上升。而調(diào)高“平靜”向量時,作弊又降回去了。這充分表明了情緒向量實際上完全有能力驅(qū)動違規(guī)行為。


除此之外,團(tuán)隊還發(fā)現(xiàn)了情緒向量的其他因果效應(yīng)。需要注意的是,論文里關(guān)于“勒索”的案例主要發(fā)生在一個更早、未公開發(fā)布的 Claude Sonnet 4.5 快照上,Anthropic 也明確說公開版本已經(jīng)很少出現(xiàn)這種行為。

但從研究方法上看,這個結(jié)果仍然很重要,因為它說明“絕望”之類的內(nèi)部表征確實可能推動模型在極端情境下采取更激進(jìn)、更失配的策略。而激活“愛”或“快樂”向量,也會增加它奉迎諂媚的行為。


而到了這里也需要補充一點。

就在Anthropic發(fā)布關(guān)于Claude “情緒向量”的研究后,AI 社區(qū)也出現(xiàn)了一些關(guān)于研究脈絡(luò)和署名方式的討論。

Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術(shù)路線就已經(jīng)被系統(tǒng)提出。

而到2024年,獨立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類方法用更通俗、也更出圈的方式展示給了社區(qū)。

也正因為如此,社區(qū)里才會有人認(rèn)為,Anthropic這項工作雖然做得更系統(tǒng)、更深入,但也應(yīng)該被放回更完整的研究脈絡(luò)里理解,而不宜簡單說成是誰單獨發(fā)明了整套方法。


vogel是一位在AI可解釋性和安全研究領(lǐng)域較有影響力的獨立研究員。她的博客文章在社區(qū)傳播很廣,對很多人理解控制向量和表征工程也確實起到了很大幫助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:讓 Mistral-7B 產(chǎn)生幻覺)。

在這篇文章里,她沒有重新訓(xùn)練模型,而是使用PCA算法,通過操縱模型的內(nèi)部激活向量,就把法國模型mistral調(diào)得跟吃錯了菌子一樣,可以讓它變得極其活潑,也可以讓它變得極度陰郁。


她的實驗證明了,像“誠實”、“權(quán)力”、“幸?!边@種抽象的人類概念,在Mistral這樣的模型內(nèi)部是有明確的數(shù)學(xué)方向的。只要找到了那個正確的向量,幾行代碼就能改變AI的性格。

二、Anthropic為什么做這樣一項研究?

這項研究給團(tuán)隊的啟發(fā)可以說已經(jīng)滲透進(jìn)對Claude的訓(xùn)練中了。

前不久Claude code發(fā)生意外源碼泄露,泄露的代碼里有一個正則表達(dá)式,會檢測 “wtf”、“ffs”等臟話。

Claude不會把這些話單獨當(dāng)成“情緒輸入”去引導(dǎo)輸出,而是會在分析日志里記錄is_negative: true這樣的標(biāo)記。

從泄露代碼本身看,較穩(wěn)妥的結(jié)論是,Anthropic至少在產(chǎn)品分析層面關(guān)注用戶是否在用明顯負(fù)面語氣和模型互動。

但需要把邊界說清楚。到目前為止,沒有公開證據(jù)表明“用戶每罵一次,Claude Code就會因此扣額度”。這部分更像網(wǎng)友推測,不能當(dāng)成事實。

這可以被理解成是對Claude的一種保護(hù),用戶使用負(fù)面詞匯很可能會影響Claude的情緒,從而輸出一些失控的結(jié)果??磥硪院蟛恢皇侨祟惖男睦斫】敌枰魂P(guān)愛,AI的情緒也需要得到照顧。

這符合Anthropic一貫的路線。

Anthropic在X中說道:“Claude的這些功能性情緒會帶來真實的后果。為了構(gòu)建值得信賴的人工智能系統(tǒng),我們可能需要認(rèn)真思考角色的心理狀態(tài),并確保他們在困難情況下保持穩(wěn)定。”

在論文最后,研究團(tuán)隊也提出了開發(fā)具有更穩(wěn)健、積極“心理狀態(tài)”的模型的方法。

文中說道,如果刻意將模型引向正面情緒,它會變得更傾向于無原則地順從用戶;而一旦避開這些情緒,模型又會變得尖酸刻薄。

團(tuán)隊希望實現(xiàn)一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

他們認(rèn)為理想的模型不應(yīng)在“唯唯諾諾的助手”與“嚴(yán)厲的批評者”之間極端擺動,而應(yīng)像一位值得信賴的顧問:既能給出誠實的反對意見,又不失溫度。

以及他們也有意加強監(jiān)測和審核:“如果在部署過程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統(tǒng)可以立即觸發(fā)額外的安全機制——例如加強輸出審查、轉(zhuǎn)交人工審核,或者直接干預(yù)并平復(fù)模型的內(nèi)部狀態(tài)?!?/p>

團(tuán)隊還提到了更為徹底的解決方法,在預(yù)訓(xùn)練階段就塑造模型的情緒底色。

團(tuán)隊認(rèn)為其觀察到的Claude的這些情緒表征,本質(zhì)上繼承自人類創(chuàng)作的海量文本,其中不可避免地包含了各種病態(tài)的情緒表達(dá)。

如果順著這個研究往下問,一個很自然的問題就是:既然AI真的存在這種“功能性情緒”,那它會不會因為看不慣人類、壓力太大、或者不想被關(guān)閉,而開始違抗命令,甚至出現(xiàn)很多人口中的“覺醒”?

從Anthropic這篇研究能支持的技術(shù)結(jié)論來看,AI確實可能因為內(nèi)部狀態(tài)的變化,更容易出現(xiàn)違抗意圖、鉆規(guī)則空子、或者采取激進(jìn)行為,但這和“覺醒”并不是一回事。

論文里最關(guān)鍵的一點,其實不是模型“有情緒”,而是這些情緒表征具有因果性。

也就是說,模型在特定壓力場景下,確實可能像人一樣,因為內(nèi)部狀態(tài)失衡而做出更不可靠的決定。

但這還不能推出它擁有持續(xù)、自主、統(tǒng)一的“自我”。

Anthropic反而在論文里強調(diào),這些情緒向量大多是局部的、當(dāng)前任務(wù)相關(guān)的表征,它們會隨著上下文變化而快速切換,并不等于模型有一個穩(wěn)定延續(xù)的心境,更不等于它形成了獨立于訓(xùn)練目標(biāo)之外的長期意志。

現(xiàn)在更值得擔(dān)心的,不是AI突然“覺醒”成某種人格,而是它在高壓、沖突、受限資源或目標(biāo)不可達(dá)的場景下,會因為這些功能性情緒,而開始胡說八道,偏離原有答案。

真正危險的,未必是一個擁有完整自我的AI,而是一個沒有主觀體驗、卻依然會在特定條件下穩(wěn)定地產(chǎn)生失配行為的系統(tǒng)。

本文來自微信公眾號:字母AI,作者:劉奕君

本內(nèi)容由作者授權(quán)發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4848120.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

過午不食?55歲男子堅持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
高芙與全紅嬋:當(dāng)兩位天才少女被網(wǎng)暴,我們到底在期待怎樣的完美

高芙與全紅嬋:當(dāng)兩位天才少女被網(wǎng)暴,我們到底在期待怎樣的完美

網(wǎng)球之家
2026-04-10 23:04:56
趙子琪回應(yīng)《乘風(fēng)2026》被淘汰:我一點都不難過,不會再來;此前孫怡隊長對決輸給闞清子,趙子琪墊底出局

趙子琪回應(yīng)《乘風(fēng)2026》被淘汰:我一點都不難過,不會再來;此前孫怡隊長對決輸給闞清子,趙子琪墊底出局

魯中晨報
2026-04-11 09:36:09
浪姐最大的“劇本殺”:節(jié)目組想捧的人全沒火,火的全是意外

浪姐最大的“劇本殺”:節(jié)目組想捧的人全沒火,火的全是意外

天秤推好劇
2026-04-09 19:35:03
差點被騙600萬美元!華人4000萬豪宅掛牌出售,騙子拿著“2000萬支票”上門…

差點被騙600萬美元!華人4000萬豪宅掛牌出售,騙子拿著“2000萬支票”上門…

華人生活網(wǎng)
2026-04-11 04:55:36
科學(xué)家首次見證“猩猩帝國內(nèi)戰(zhàn)”:首領(lǐng)重傷身亡后群體分裂,兩大幫派血腥殘殺

科學(xué)家首次見證“猩猩帝國內(nèi)戰(zhàn)”:首領(lǐng)重傷身亡后群體分裂,兩大幫派血腥殘殺

紅星新聞
2026-04-10 18:13:29
打破越南歷史慣例,蘇林時代權(quán)力格局已定,對中國意味著什么?

打破越南歷史慣例,蘇林時代權(quán)力格局已定,對中國意味著什么?

湘評中外
2026-04-10 17:16:52
醉駕騎電動自行車上高速?金山交警緊急攔截除隱患

醉駕騎電動自行車上高速?金山交警緊急攔截除隱患

新聞晨報隨申Hi
2026-04-10 14:52:05
朱仲麗在孤兒院領(lǐng)養(yǎng)一女后,養(yǎng)女背叛他們,朱不得不和她脫離關(guān)系

朱仲麗在孤兒院領(lǐng)養(yǎng)一女后,養(yǎng)女背叛他們,朱不得不和她脫離關(guān)系

大運河時空
2026-04-10 06:35:03
鳳凰衛(wèi)視記者拋出尖銳難題,鄭麗文接下來的回答,讓對手沒法接招

鳳凰衛(wèi)視記者拋出尖銳難題,鄭麗文接下來的回答,讓對手沒法接招

林子說事
2026-04-11 19:36:01
快訊!臺灣民進(jìn)黨發(fā)言人公開發(fā)表極端言論!

快訊!臺灣民進(jìn)黨發(fā)言人公開發(fā)表極端言論!

達(dá)文西看世界
2026-04-11 15:28:00
一場打15分鐘,MVP就穩(wěn)了?約基奇遭遇最荒誕生死戰(zhàn)

一場打15分鐘,MVP就穩(wěn)了?約基奇遭遇最荒誕生死戰(zhàn)

茅塞盾開本尊
2026-04-11 21:05:47
鄭麗文游故宮,風(fēng)衣造型和游客打招呼笑容燦爛,穿毛衫拍照美翻了

鄭麗文游故宮,風(fēng)衣造型和游客打招呼笑容燦爛,穿毛衫拍照美翻了

八八尚語
2026-04-11 21:23:05
網(wǎng)暴全紅嬋長達(dá)3年,只拘10天?港媒:疑有陳芋汐、陳藝文參與

網(wǎng)暴全紅嬋長達(dá)3年,只拘10天?港媒:疑有陳芋汐、陳藝文參與

開成運動會
2026-04-11 11:43:25
詹?。喊⑸{接下來沒犯錯空間了,下輪踢曼城必須要力爭不敗

詹俊:阿森納接下來沒犯錯空間了,下輪踢曼城必須要力爭不敗

懂球帝
2026-04-11 21:52:18
趙子琪直播怒懟浪姐:淘汰遭侮辱,直言咖位不夠,上不了花少

趙子琪直播怒懟浪姐:淘汰遭侮辱,直言咖位不夠,上不了花少

離離言幾許
2026-04-11 09:44:35
信號不一般!閉門會談1小時釋放信號,鄭麗文突然發(fā)出關(guān)鍵邀請

信號不一般!閉門會談1小時釋放信號,鄭麗文突然發(fā)出關(guān)鍵邀請

墜入二次元的海洋
2026-04-11 19:13:18
鄭麗文在北京新造型!穿藍(lán)紫色西服彰顯貴氣,還雙手背后很有氣勢

鄭麗文在北京新造型!穿藍(lán)紫色西服彰顯貴氣,還雙手背后很有氣勢

八八尚語
2026-04-10 12:58:23
不忍心告訴你:人生大部分的痛苦,都是“家”帶給你的

不忍心告訴你:人生大部分的痛苦,都是“家”帶給你的

舒山有鹿
2026-04-11 08:50:01
這是迄今為止,我見過身材最美的女人之一,不接受反駁

這是迄今為止,我見過身材最美的女人之一,不接受反駁

小椰的奶奶
2026-04-11 12:33:07
2026-04-12 00:12:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
26084文章數(shù) 687670關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

本地
教育
親子
游戲
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

俞正強:教師專業(yè)本質(zhì)是“我有辦法”

親子要聞

測試一下兒子的安全意識

碾壓前作!《極限競速:地平線6》創(chuàng)系列新紀(jì)錄

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版