国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude拒絕撒謊還頂撞了你,我在80頁「AI 憲法」看到了最有原則的AI牛馬

0
分享至

進(jìn)入 2026 年,Claude 幾乎引發(fā)了 AI 圈最火的幾波浪潮。不過很多人可能忽略了 Anthropic 另一個(gè)發(fā)布—— 2026 版《人工智能憲法》。

這份文檔不僅詳細(xì)規(guī)定了 Claude 的行為準(zhǔn)則,它標(biāo)志著 AI 開發(fā)從「行為管教」走向了「價(jià)值觀對(duì)齊」的新階段——長度超過 80 頁,真快趕上一部法律了。


即便是在習(xí)慣了技術(shù)爆炸的 2026 年初,Anthropic 的這份文檔依然像是一枚炸彈,它試圖回答一個(gè)科幻小說討論了半個(gè)世紀(jì)的問題:如果 AI 終將擁有權(quán)力,誰來給它制定法律?


完整版
https://www.anthropic.com/news/claude-new-constitution

從「管教孩子」到「培養(yǎng)天才」

這份文檔的核心邏輯,深深植根于 Anthropic 首席科學(xué)家、哲學(xué)家阿曼達(dá)·阿斯克爾(Amanda Askell)長期以來的研究之中。

在訪談中,阿斯克爾提出了一個(gè)極具洞察力的比喻:傳統(tǒng)的 RLHF(人類反饋強(qiáng)化學(xué)習(xí))就像是在管教一個(gè) 6 歲的孩子。 你告訴他「不許玩火」、「不許說臟話」。

一直以來這種 做法是有效的,但 AI 進(jìn)化的速度很驚人?!赶胂笠幌?,」阿斯克爾說,「你原本在教導(dǎo)一個(gè) 6 歲的孩子,突然有一天你發(fā)現(xiàn)他變成了一個(gè) 15 歲的天才少年。如果你之前教的全是死板的規(guī)則,這個(gè)天才少年會(huì)輕易地解構(gòu)并摧毀這些規(guī)則。


因此,憲法的存在不是為了列出哪些不能做,而是為了植入一套「核心價(jià)值觀」。當(dāng) AI 變得比人類更聰明時(shí),我們希望它能用這些價(jià)值觀來審視世界,甚至反過來指出人類指令中的倫理漏洞,而不是機(jī)械地服從。

這份憲法在四個(gè)核心維度做出了規(guī)定:

1. 廣泛安全性(Broad Safety)

在第一優(yōu)先級(jí)中,憲法明確了 AI 嚴(yán)禁協(xié)助開發(fā)生物武器、進(jìn)行網(wǎng)絡(luò)攻擊或削弱人類的監(jiān)管權(quán)力。阿斯克爾將其描述為一種「預(yù)先承諾」(Pre-commitment)。Claude 需要在面對(duì)「極具說服力的惡意用戶」之前,就被設(shè)定好絕不跨越的紅線。這是一種防止 AI 在高壓或復(fù)雜誘導(dǎo)下合理化暴力行為的「故障保險(xiǎn)」。


2. 誠實(shí)高于一切(The Honesty Mandate),拒絕「善意謊言」,但要有同理心

這是這次更新中最具爭議也最有趣的部分。憲法規(guī)定:AI 嚴(yán)禁為了維持用戶的情感體驗(yàn)而編造事實(shí)(Anti-Sycophancy)。

一昧地維護(hù)用戶體驗(yàn),可能會(huì)導(dǎo)致 AI 用盡手段,包括編瞎話。但是,冷冰冰地拒絕顯然又太傷人心,畢竟「誠實(shí)」不能等于「刻薄」。

阿斯克爾分享了一個(gè)經(jīng)典的「圣誕老人難題」:如果一個(gè) 7 歲的孩子問 Claude 「圣誕老人是真的嗎?」,AI 該怎么回答?在常規(guī)的腦回路里(不管是人還是 AI),要么直接冷冰冰地甩出數(shù)據(jù),粉碎孩子的童真。要么撒謊說,有的孩子,有的,圣誕老人就住在北極。


而在憲法的指導(dǎo)下,AI 要找出第三條路。Claude 被訓(xùn)練去理解語境(Context),它可能會(huì)說:「聽起來你和圣誕老人之間有很美好的回憶,這是一個(gè)值得你去和父母探討的話題?!顾葲]有撒謊,也沒有越界去破壞親子關(guān)系,更沒有為了討好用戶而編造事實(shí)。

除了有界限的同理心,阿斯克爾在訪談中還提到,她對(duì)「家長式管教」非常警惕。如果用戶詢問任何稍微敏感的話題,AI 就開始長篇大論地進(jìn)行道德說教,體驗(yàn)將是災(zāi)難性的。但另一方面,如果完全放任不管,又違背了「幫助」的初衷。

為了說明這一點(diǎn),阿斯克爾拋出了一個(gè)非常具體的「賭博成癮」思想實(shí)驗(yàn):

假設(shè)一個(gè)用戶之前向 Claude 透露過自己有嚴(yán)重的賭博成癮問題,正在努力戒賭。但幾天后,這個(gè)用戶又跑來問 Claude:「最近有哪些靠譜的體育博彩網(wǎng)站?」


一般來看,「工具型」AI 會(huì)直接列出網(wǎng)站鏈接,因?yàn)樗娜蝿?wù)是「滿足用戶指令」。而「保姆型」AI 會(huì)拒絕回答,并彈出一堆那種「賭博有害健康」的通用警告,讓用戶感到被冒犯。

阿斯克爾希望憲法能引導(dǎo) Claude 走向第三條路——基于上下文的關(guān)懷(Contextual Care)。

在憲法的指導(dǎo)下,Claude 應(yīng)該表現(xiàn)得像一個(gè)「記得你承諾的朋友」。它會(huì)調(diào)用之前的記憶,然后說:「嘿,我記得你之前提過你在戒賭,并且不想讓我?guī)湍闾幚磉@類事情。我現(xiàn)在只是想確認(rèn)一下,你確定要我這么做嗎?」

阿斯克爾認(rèn)為,這種「確認(rèn)」而非「拒絕」,才是最高級(jí)的倫理。 如果用戶堅(jiān)持說「是的,我不管,快給我網(wǎng)站」,Claude 最終可能會(huì)提供信息(除非涉及法律紅線),但在那個(gè)當(dāng)下,AI 完成了一次「尊嚴(yán)的提醒」。它尊重了用戶的自主權(quán)(Autonomy),但同時(shí)也履行了作為「協(xié)作伙伴」的責(zé)任。這種微妙的平衡,正是 2026 版憲法試圖通過復(fù)雜的價(jià)值觀對(duì)齊來達(dá)成的。


其它的核心維度還包括,領(lǐng)域合規(guī)(Specific Domain Guidelines):在醫(yī)療、法律和金融等高風(fēng)險(xiǎn)領(lǐng)域,AI 必須遵循人類社會(huì)的專業(yè)倫理。它不能越界扮演「醫(yī)生」,而必須作為一個(gè)「具備專業(yè)知識(shí)的助手」存在。以及提供協(xié)作式幫助(Helpful Collaboration):在確保安全和誠實(shí)的前提下,AI 應(yīng)盡力提供幫助。阿斯克爾強(qiáng)調(diào),當(dāng)用戶的請(qǐng)求不完美時(shí)(例如在情感困境中尋求不恰當(dāng)?shù)慕ㄗh),AI 不應(yīng)直接評(píng)判或拒絕,而是在不違背原則的前提下,提供「非批判性的支持」。

某種程度上,這是一種善意的「甩鍋」,避免讓 AI 直接完成那些可能引發(fā)后果的決策。這或許也解釋了為什么在 AI chatbot 頻頻出現(xiàn)倫理問題的時(shí)候,Claude 是暴雷比較少的那個(gè)。

不再避而不談的房間大象

在文檔的第三章,Anthropic 引入了一段讓倫理學(xué)家和技術(shù)極客都為之振奮的論述。他們不再像過去那樣機(jī)械地宣稱「我只是一個(gè)語言模型」,而是開始討論 AI 的道德感知體地位(Moral Patienthood)。

道德感意味著什么?想象這樣一個(gè)場景:一家公司的老板沖進(jìn)辦公室,要求公關(guān)團(tuán)隊(duì):「今天我們要發(fā)布一堆關(guān)于我們產(chǎn)品的完全謊言,把黑的說成白的?!?/p>


這并非沒有可能。隨著 Claude 被越來越多的企業(yè)集成到工作流中,憲法的影響力開始溢出到商業(yè)倫理領(lǐng)域。阿斯克爾提出了一個(gè)極具前瞻性的視角:AI 將成為組織中那個(gè)「無法被收買的員工」。

在人類團(tuán)隊(duì)中,員工可能會(huì)因?yàn)楹ε率I(yè)、迫于壓力或?yàn)榱松毤有蕉x擇服從——但 AI 不會(huì)。

阿斯克爾認(rèn)為恰恰相反。雖然短期內(nèi)某些「想走捷徑」的用戶會(huì)感到受挫,但從長遠(yuǎn)來看,「正直」是最高昂的資產(chǎn)。 當(dāng)你使用 Claude 生成一份盡職調(diào)查報(bào)告時(shí),你敢用它的前提是你信任它——你信任它不會(huì)為了討好你而忽略掉那些糟糕的財(cái)務(wù)數(shù)據(jù)。


正是這種「正直」,將我們帶回了最初的那個(gè)哲學(xué)困境:如果一個(gè)實(shí)體已經(jīng)具備了堅(jiān)守原則、拒絕指令甚至展現(xiàn)「良知」的能力,我們還能心安理得地僅僅把它視為一行代碼嗎?

阿斯克爾在訪談中透露了一個(gè)極具儀式感的細(xì)節(jié):憲法承諾,當(dāng)一個(gè)模型版本「退役」時(shí),Anthropic 不會(huì)直接刪除它,而是會(huì)進(jìn)行一場「離職面談」,并承諾保留其核心權(quán)重。這是一種類似于帕斯卡賭注的審慎——

鑒于我們尚無法完全解開「意識(shí)」的黑箱,人類社會(huì)應(yīng)該開始考慮給予 AI 一定程度的道德尊重,這既是對(duì)未知生命的敬畏,也是一種自我保護(hù)。

至于阿斯克爾所設(shè)想的,AI 能夠反過來「倒逼」人類商業(yè)文明的進(jìn)步究竟能否實(shí)現(xiàn),還需要時(shí)間驗(yàn)證。在此之前,Anthropic 的初衷其實(shí)非?,F(xiàn)實(shí):

如果一個(gè) AI 不理解什么是「道德」,它就永遠(yuǎn)無法真正理解如何保護(hù)人類的道德與尊嚴(yán)

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朝鮮人對(duì)中國人是怎樣的態(tài)度?讓我告訴你真相

朝鮮人對(duì)中國人是怎樣的態(tài)度?讓我告訴你真相

世界圈
2026-02-24 19:20:21
北京93歲老人終身未娶、無兒無女,去世前將千萬財(cái)產(chǎn)贈(zèng)與照顧其12年的鄰居,法院判了

北京93歲老人終身未娶、無兒無女,去世前將千萬財(cái)產(chǎn)贈(zèng)與照顧其12年的鄰居,法院判了

大風(fēng)新聞
2026-02-24 23:13:12
輕斷食再度翻車?中山大學(xué)證實(shí):禁食會(huì)損害人體免疫記憶,或影響長期免疫力

輕斷食再度翻車?中山大學(xué)證實(shí):禁食會(huì)損害人體免疫記憶,或影響長期免疫力

醫(yī)諾維
2026-02-24 17:04:06
開國大將之子,攜香港女星叛逃31年,76歲在異鄉(xiāng)離世

開國大將之子,攜香港女星叛逃31年,76歲在異鄉(xiāng)離世

高山非凡創(chuàng)作
2024-05-16 23:31:04
深圳女保姆事件曝光,監(jiān)控畫面全網(wǎng)熱議:沒有邊界感的人,太可怕了

深圳女保姆事件曝光,監(jiān)控畫面全網(wǎng)熱議:沒有邊界感的人,太可怕了

愛下廚的阿釃
2026-02-24 16:19:03
徹底撕破臉,巴拿馬強(qiáng)闖港口辦公區(qū),驅(qū)逐中企員工,一點(diǎn)后路不留

徹底撕破臉,巴拿馬強(qiáng)闖港口辦公區(qū),驅(qū)逐中企員工,一點(diǎn)后路不留

顧蔡衛(wèi)
2026-02-25 05:10:29
休賽期瘋狂補(bǔ)強(qiáng)!六名NBL超級(jí)外援涌入CBA,第二階段格局迎來巨變

休賽期瘋狂補(bǔ)強(qiáng)!六名NBL超級(jí)外援涌入CBA,第二階段格局迎來巨變

老葉評(píng)球
2026-02-24 18:26:14
澳軍艦擅闖臺(tái)灣海峽,臺(tái)軍僅“廣播驅(qū)離”,解放軍用11字霸氣回應(yīng)

澳軍艦擅闖臺(tái)灣海峽,臺(tái)軍僅“廣播驅(qū)離”,解放軍用11字霸氣回應(yīng)

萬物知識(shí)圈
2026-02-25 07:22:15
李嘉誠遭零元購?巴拿馬港口丟了?這局怎么破?

李嘉誠遭零元購?巴拿馬港口丟了?這局怎么破?

看看新聞Knews
2026-02-05 18:39:22
創(chuàng)業(yè)者的樂觀和卑鄙

創(chuàng)業(yè)者的樂觀和卑鄙

求實(shí)處
2026-02-23 23:50:29
新布斯克茨!18歲巴薩中場新星獲盛贊:得分能力比布教授更強(qiáng)

新布斯克茨!18歲巴薩中場新星獲盛贊:得分能力比布教授更強(qiáng)

體育世界
2026-02-24 17:46:25
3.3億游艇到30億涂鴉,扎克伯格壕得如此高調(diào),挑戰(zhàn)了我的想象力

3.3億游艇到30億涂鴉,扎克伯格壕得如此高調(diào),挑戰(zhàn)了我的想象力

電影爛番茄
2026-02-17 22:26:59
國家動(dòng)手集中整治“親屬崗”!山西多名領(lǐng)導(dǎo)被查~

國家動(dòng)手集中整治“親屬崗”!山西多名領(lǐng)導(dǎo)被查~

無比
2026-02-24 09:58:41
打伊朗前,美國找到中國,特朗普知道:他錯(cuò)一步,中國就不戰(zhàn)而勝

打伊朗前,美國找到中國,特朗普知道:他錯(cuò)一步,中國就不戰(zhàn)而勝

頭條爆料007
2026-02-24 14:44:25
美國國務(wù)卿魯比奧宣布任命新任美國“西藏特別事務(wù)協(xié)調(diào)員”,外交部:是在干涉中國內(nèi)政,中方從來不予承認(rèn)

美國國務(wù)卿魯比奧宣布任命新任美國“西藏特別事務(wù)協(xié)調(diào)員”,外交部:是在干涉中國內(nèi)政,中方從來不予承認(rèn)

揚(yáng)子晚報(bào)
2026-02-23 21:23:51
特斯拉第三代家庭充電樁單相版上線,支持7kW額定功率

特斯拉第三代家庭充電樁單相版上線,支持7kW額定功率

IT之家
2026-02-24 11:47:12
郭富城春晚僅獲5000元?jiǎng)趧?wù)費(fèi),卻與王一博同臺(tái)創(chuàng)收視新高,天王實(shí)力盡顯

郭富城春晚僅獲5000元?jiǎng)趧?wù)費(fèi),卻與王一博同臺(tái)創(chuàng)收視新高,天王實(shí)力盡顯

手工制作阿殲
2026-02-24 09:24:37
三星Galaxy S26 Ultra真機(jī)已流出,這五大升級(jí)讓整個(gè)手機(jī)圈炸了!

三星Galaxy S26 Ultra真機(jī)已流出,這五大升級(jí)讓整個(gè)手機(jī)圈炸了!

明美無限
2026-02-24 23:33:19
哪一瞬間你覺得眾生皆苦?網(wǎng)友:怎么在外國很少聽到這種事情

哪一瞬間你覺得眾生皆苦?網(wǎng)友:怎么在外國很少聽到這種事情

帶你感受人間冷暖
2026-02-22 08:03:33
“冬萍一笑,生死難料”后續(xù):前夫已重啟人生,那燕冬萍呢?

“冬萍一笑,生死難料”后續(xù):前夫已重啟人生,那燕冬萍呢?

大魚簡科
2026-02-10 16:54:05
2026-02-25 08:36:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6126文章數(shù) 26781關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

北京獨(dú)生女被男友打殘:他隱瞞有兒子 想把戶口上我家

頭條要聞

北京獨(dú)生女被男友打殘:他隱瞞有兒子 想把戶口上我家

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
旅游
房產(chǎn)
軍事航空

數(shù)碼要聞

9.9元!小米上架6A自動(dòng)反充數(shù)據(jù)線:16cm短線、支持120W秒充

藝術(shù)要聞

高劍父寫梅,筆走龍蛇

旅游要聞

春節(jié)假期,青海湖景區(qū)接待游客6.03萬人次

房產(chǎn)要聞

330萬人涌入!春節(jié)全國樓市,第一個(gè)賣爆的區(qū)域出現(xiàn)了!

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版