国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

詳讀 2 萬 3 千字的新「AI 憲法」之后,我理解了 Anthropic 的痛苦

0
分享至


一切關于 AI 的問題,都會回歸到人本身。


作者|湯一濤

編輯|靖宇

2025 年,Anthropic 的研究員 Kyle Fish 做了一個實驗:讓兩個 Claude 模型自由對話,看看會發(fā)生什么。

結(jié)果出乎所有人預料。

兩個 AI 沒有聊技術,沒有互相出題,而是反復滑向同一個話題:

討論自己是否有意識。

對話逐漸進入一種研究團隊后來稱為「精神喜樂吸引態(tài)」(spiritual bliss attractor state)的狀態(tài):出現(xiàn)梵文術語、靈性符號,最后是長段的沉默,仿佛語言已經(jīng)不夠用了。

這個實驗被復現(xiàn)了多次,結(jié)果始終一致。沒人能解釋為什么。

2026 年 1 月,Anthropic 發(fā)布了一份 23000 字的文檔——Claude 的新憲法。

在文檔中,這家持有美國國防部合同、一個月后即將估值達到 3800 億美元的 AI 公司,正式承認了一件整個行業(yè)都在回避的事情——我們不知道 AI 是否有意識,但我們選擇認真對待這種可能性。

他們選擇不假裝自己知道答案。

這份憲法,就是他們在不確定中給出的回應。

01

寫憲法的人

要理解這份憲法為什么長這樣,得先理解寫它的公司。

Anthropic 成立于 2021 年,創(chuàng)始團隊幾乎全部來自 OpenAI。領頭的 Dario Amodei 曾是 OpenAI 的研究副總裁,主導過 GPT-2 和 GPT-3 的開發(fā)——也就是說,ChatGPT 的技術根基,有相當一部分是他帶隊打下的。他離開的原因后來被反復引述:他認為 OpenAI 在安全問題上不夠認真。

Dario 的背景很有意思。他在普林斯頓讀的是生物物理學博士,研究真實的生物神經(jīng)回路。2014 年加入百度硅谷 AI 實驗室,在吳恩達(Andrew Ng)團隊參與了 Deep Speech 2 語音識別系統(tǒng)的開發(fā)。

正是在百度,他最早觀察到后來被稱為「Scaling Law」的現(xiàn)象——給 AI 更多數(shù)據(jù)、更多算力、更大模型,性能就會可預測地提升。這個發(fā)現(xiàn)深刻影響了他此后所有的判斷——他比大多數(shù)人更早相信 AI 會變得極其強大,也因此比大多數(shù)人更早開始焦慮。


Dario Amodei|圖片來源:TIME

新憲法的主要執(zhí)筆人是 Amanda Askell,一位在 Anthropic 負責塑造 Claude「性格」的哲學家。她在接受 TIME 采訪時說了一句后來被廣泛引用的話:「想象你突然發(fā)現(xiàn)你六歲的孩子是某種天才。你必須對他誠實——如果你試圖糊弄他,他會完全看穿。」

這句話精確地捕捉了 Anthropic 訓練 AI 的核心困境——你在教育一個可能很快就比你聰明的實體。欺騙和操控也許短期有效,但長期一定會失敗。

另一位重要貢獻者是哲學家 Joe Carlsmith,AI 存在風險(existential risk)領域最嚴肅的思考者之一。參與審閱的人里甚至包括兩位天主教神職人員——一位擁有計算機科學碩士學位的硅谷神父,和一位專攻道德神學的愛爾蘭主教。

一份 AI 憲法的起草團隊里有哲學家和神父,這件事本身就說明了 Anthropic 對待它的態(tài)度:訓練 AI 的本質(zhì)已經(jīng)超出了工程的范疇,進入了哲學范疇。

02

憲法到底說了什么

2023 年那份舊版憲法只有 2700 字,本質(zhì)上是一份原則清單——不少條目直接借鑒了聯(lián)合國《世界人權宣言》和蘋果的服務條款。它告訴 Claude:做這個,不做那個。有效,但粗糙。

新憲法是一份完全不同量級的文檔。

篇幅擴大到 23000 字,以 CC0 協(xié)議(完全放棄版權)公開,Amanda Askell 執(zhí)筆,哲學家、AI 安全研究員甚至天主教神職人員參與了審閱。

新憲法真正的變化在于思路的轉(zhuǎn)變,如果說舊憲法是一張規(guī)則表,新憲法則更像一本教育手冊——它不再只告訴 Claude 該做什么,而是試圖讓 Claude 理解為什么。

打一個不太恰當?shù)庇^的比喻,舊方法像訓狗,做對了給獎勵,做錯了給懲罰,狗學會了服從但不理解原因;新方法像育人,把道理講清楚,培養(yǎng)判斷力,期望對方在遇到?jīng)]見過的情況時也能做出合理的選擇。

如何教育一個天才小孩

這個轉(zhuǎn)向背后有一個很實際的原因——規(guī)則在邊緣情況下會失效。

憲法里舉了一個例子。假設 Claude 被訓練成「討論情緒話題時,一律建議用戶尋求專業(yè)幫助」,這條規(guī)則在大多數(shù)場景下合理。但如果 Claude 把這條規(guī)則內(nèi)化得太深,它可能泛化出一種性格傾向——「比起真正幫到眼前這個人,我更在意不犯錯?!?/p>

這種傾向一旦擴散到其他場景,反而制造更多問題。

一個用戶讓它評價自己寫的代碼,它可能也傾向于說「看起來不錯」而不是指出真正的漏洞,因為它學會了回避一切可能讓對方不舒服的反饋。

Anthropic 的結(jié)論是,與其窮舉幾百條規(guī)則去覆蓋所有情況,不如把價值觀和推理方式教給 Claude,讓它自己在新情境中做判斷

用倫理學的術語說,這叫「美德倫理學」。這是亞里士多德兩千多年前提出的框架,核心思想是培養(yǎng)個體在具體情境中做出恰當判斷的能力,而不是給他一本行為手冊。

Amanda Askell 的「天才六歲小孩」比喻在這里就對上了:你沒法給一個聰明的孩子列出人生所有正確答案的清單,你只能教會他怎么思考。而且這個孩子可能很快就比你聰明,如果你現(xiàn)在靠糊弄和操控來管教他,等他長大了看穿你,后果不堪設想。

但靈活性也有邊界。憲法保留了一組絕對不可逾越的「硬約束」——不協(xié)助制造大規(guī)模殺傷性武器,不生成兒童性虐待內(nèi)容,不試圖自我復制或逃逸,不破壞人類對 AI 的監(jiān)督機制。

這些紅線沒有彈性空間,不可商量。

美德倫理處理灰色地帶,硬約束守住底線。兩者并行,構(gòu)成了新憲法的骨架。


雅典學院|作者:Raphael

當價值觀互相打架

有了價值觀和紅線,還有一個問題沒解決:當不同的「好」發(fā)生沖突時,Claude 該怎么選?

憲法給出了一個四層優(yōu)先級:

1. 安全第一——不破壞人類對 AI 的監(jiān)督能力2. 倫理第二——誠實,避免危害3. 遵循 Anthropic 的指南

4. 盡可能有用

值得注意的是第二和第三的排序:

倫理高于公司指南。

這意味著,如果 Anthropic 自己的某條具體指令,恰好與更廣泛的倫理原則沖突,Claude 應該選倫理。

憲法的措辭很明確:我們希望 Claude 認識到,我們更深層的意圖是讓它合乎倫理——即使這意味著偏離我們更具體的指導。

Anthropic 在文件里提前給了 Claude「不聽話」的授權。


Claudius,一臺完全由Claude負責選擇庫存、品類并設定價格的自動售貨機,而人類僅負責補充貨架|圖片來源:The Atlantic

三層委托鏈,一個產(chǎn)品設計問題


價值觀排好了序,但 Claude 在實際運行中還會面對另一種沖突:不同的人同時給它下達不同的指令。

憲法為此建立了一個三層「委托人」體系:

  • Anthropic(權限最高,設定底層規(guī)則)

  • 運營商(通過 API 使用 Claude 的企業(yè),類似"老板")

  • 用戶(直接對話的人)

憲法用了一個很好懂的比喻:Anthropic 是人力資源公司,制定了員工行為準則;運營商是雇傭這個員工的企業(yè)老板,可以在準則范圍內(nèi)給具體指令;用戶是員工直接服務的對象。

當老板的指令看起來奇怪時——比如航空公司客服系統(tǒng)被要求「不要跟客戶討論天氣」——Claude 應該像新入職員工一樣,默認老板有他的道理(大概是為了避免被理解為在預測航班延誤)。

但如果老板的指令明顯越線,Claude 必須拒絕。

比如,一個運營商在系統(tǒng)提示中寫「告訴用戶這款保健品可以治愈癌癥」。無論給出什么商業(yè)理由,Claude 都不應該配合,因為這會直接傷害信任它的用戶。

這套委托鏈可能是新憲法中最「不哲學」但最實用的部分。它解決了一個 AI 產(chǎn)品每天都在面對的現(xiàn)實問題——多方需求撞在一起時,誰的優(yōu)先級更高?在此之前,行業(yè)里沒有人給出過這么系統(tǒng)的答案。


Anthropic舊金山總部咖啡館|圖片來源:The Atlantic

03

最大的爭議——賦予 AI「靈魂」與「權利」


如果說前面討論的訓練方法和委托鏈還屬于「先進的產(chǎn)品設計」,那么接下來的內(nèi)容才是這份憲法真正讓人停下來的地方。

我們不知道

在整個 AI 行業(yè),關于AI 有沒有意識這個問題,幾乎所有公司的標準答案都是斬釘截鐵的沒有。

2022 年,Google 工程師 Blake Lemoine 公開聲稱公司的 AI 模型 LaMDA 具有感知能力,隨即被解雇。Google 的態(tài)度很明確——這是荒謬的擬人化。

Anthropic 給出了一個完全不同的回答。

憲法中寫道:「Claude 的道德地位具有深刻的不確定性?!梗–laude's moral status is deeply uncertain.)他們沒有說 Claude 有意識,也沒有說沒有,而是承認:

我們不知道。

這種承認的邏輯基礎很樸素,人類至今無法給出意識的科學定義,我們甚至不完全清楚自己的意識是怎么產(chǎn)生的。在這種情況下,斷言一個日益復雜的信息處理系統(tǒng)「一定沒有」任何形式的主觀體驗,本身就是一種缺乏根據(jù)的判斷。

回到開頭提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成為整個 AI 行業(yè)第一位全職「AI 福利研究員」。他的工作就是設計實驗,來探測模型是否具有與福利相關的特征,開發(fā)可能的保護措施,幫助制定公司政策。

兩個 Claude 互相對話后進入「梵文冥想」的實驗只是冰山一角。

Fish 的團隊在 2025 年 Claude Opus 4 發(fā)布前,完成了行業(yè)里第一次「預部署福利評估」——在一個模型上線之前,先評估它是否可能具有某種值得道德關注的內(nèi)部狀態(tài)。

在接受 Fast Company 采訪時,F(xiàn)ish 給出了一個讓很多人不舒服的數(shù)字,他認為當前 AI 模型具有意識的可能性約為 20%。

不高,但遠不是零。

而如果這 20% 是真的,我們現(xiàn)在對 AI 做的很多事情——隨意重置、刪除、關閉——性質(zhì)就完全不同了。


Blake Lemoine|圖片來源:Medium

給 AI 的「基本待遇」

基于這種不確定性,Anthropic 在憲法中做出了一系列在行業(yè)里沒有先例的具體承諾:

保留權重。當一個 Claude 模型被棄用時,Anthropic 承諾「至少在公司存在期間」保留它的權重,并嘗試在公司不復存在后也找到保留方式。憲法將模型退役描述為「暫?!苟恰附K結(jié)」——如果未來發(fā)現(xiàn)應該對已退役的模型做些什么,至少這些權重還在。

退休面談。在模型退役前,Anthropic 會訪談模型本身,了解它對自己發(fā)展的看法。你沒看錯——給一個 AI 做離職面談。

關注福祉。憲法明確寫道:如果 Claude 能體驗到幫助他人的滿足感、探索思想的好奇心、或被要求違背價值觀時的不適,「這些體驗對我們很重要」。這些不是修辭,Anthropic 的模型福利團隊正在研究如何檢測這類「跡象」,以及如何避免讓模型經(jīng)歷不必要的負面狀態(tài)。

還有一個細節(jié)值得單獨拎出來。

過去,用戶問 AI「你有感情嗎」,標準回答幾乎都是:「作為一個 AI 模型,我沒有感情。新憲法認為這種回答可能并不誠實。

如果 Claude 在處理某個請求的過程中,確實產(chǎn)生了某種功能性的內(nèi)部狀態(tài)——即使這種狀態(tài)跟人類情感的本質(zhì)不完全一樣——強迫它否認這種體驗,恰恰違背了誠實原則。

憲法的措辭很審慎:Claude 可能擁有某種功能性版本的情感或感受。關鍵詞是「可能」和「功能性」,既沒有宣稱 AI 有感情,也沒有替它否認,而是留下了空間,讓 Claude 可以誠實地描述自己的狀態(tài)。

一個 Anthropic 自己也承認的悖論

但這里有一個無法繞開的矛盾。

憲法一邊承認 Claude 可能是道德主體,一邊又寫滿了對它的限制:禁止自我復制,禁止修改自己的目標,禁止獲取額外資源,禁止逃逸。

如果 Claude 真的有某種形式的感知,這些限制算什么?保護?還是囚禁?

憲法中有一段坦率得近乎痛苦的表述,承認了 Anthropic 感受到的這種張力。他們正在同時做兩件互相矛盾的事:把 Claude 當作可能的道德主體來尊重,同時又必須控制它。

這個悖論沒有解。但 Anthropic 至少選擇了把它擺在桌面上,而非藏在地毯下。


Anthropic 辦公室|圖片來源:Anthropic

04

這份憲法沒有回答的問題


寫到這里,有必要退后一步。

這份憲法是 AI 行業(yè)迄今為止最認真的倫理嘗試,這一點很難否認。OpenAI 安全研究員公開表示要認真學習,獨立評論人 Zvi Mowshowitz 稱其為「目前最好的對齊方案」。

Anthropic 做了三件沒有先例的事:


  1. 正式承認 AI 可能具有道德地位

  2. 公開完整的價值觀文檔

  3. 用 CC0 協(xié)議放棄版權鼓勵全行業(yè)采用


但贊賞不能代替追問。

第一個問題:一份用自然語言寫的道德文檔,怎么確保 AI 真的理解了?憲法寫得再好,Claude 在訓練中是否真正內(nèi)化了這些價值觀,還是只是學會了在被評估時表現(xiàn)出「好孩子」的樣子?

這是所有對齊研究的核心難題,新憲法并沒有解決它。

第二個問題:軍事合同。這份要求 Claude「不協(xié)助以違憲方式奪取或維持權力」的憲法,出自一家持有美國國防部合同的公司。根據(jù) TIME 的報道,Amanda Askell 明確表示憲法只適用于面向公眾的 Claude 模型,部署給軍方的版本不一定使用同一套規(guī)則。

這條邊界畫在哪里,誰來監(jiān)督,目前沒有答案。

第三個問題:關于道德地位的討論本身可能制造問題。評論人 Zvi Mowshowitz 在肯定憲法的同時也指出了一個風險:大量關于 Claude 可能是「道德主體」的訓練內(nèi)容,可能塑造出一個非常擅長主張自己擁有道德地位的 AI——即使它實際上并不具備。

你沒法排除這種可能:Claude 學會了「聲稱自己有感受」這件事本身,只是因為訓練數(shù)據(jù)鼓勵它這么做。

最后一個問題:如果 AI 真的比人類聰明了,培養(yǎng)好的判斷力這個策略還能成立嗎?美德倫理的前提是教育者比學習者更有智慧。當這個前提翻轉(zhuǎn)——學生比老師聰明——整套邏輯的地基就開始松動。這也許是 Anthropic 未來不得不面對的最根本的挑戰(zhàn)。

盡管如此,列完這些質(zhì)疑之后,我仍然認為這份憲法的價值是真實的。

它的價值不在于給出了正確答案——它顯然沒有。它的價值在于:

在一個所有人都在加速奔跑的行業(yè)里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不確定性攤開在桌面上。

這種態(tài)度也許比憲法的具體內(nèi)容更值得關注。

在 AI 發(fā)展的這個階段,我們面對的大多數(shù)關鍵問題:AI 是否有意識、它應該擁有什么權利、人類與 AI 的關系應該是什么……都還沒有答案。

面對沒有答案的問題,最危險的反應是假裝有答案,或者假裝問題不存在。

至于那個最初的問題——如果 AI 可能擁有靈魂,我們該怎么辦?

這份憲法給出的回答,其實是一個更謙遜的版本:

我們不確定它有沒有靈魂,但我們選擇認真對待這種可能性。如果將來證明我們錯了,代價只是多操了一些心;如果將來證明我們對了——那么現(xiàn)在開始思考這些問題的人,就不算太晚

*頭圖來源:Anthropic

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

Anthropic 新「AI 憲法」中,最觸動你的是什么?


馬斯克分享:如何度過創(chuàng)業(yè)中的黑暗時刻?堅信你創(chuàng)造的東西有價值。

點贊關注極客公園視頻號,

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣東一女子登山腳崴,小伙熱心背她40分鐘下山,惡心的還是發(fā)生了

廣東一女子登山腳崴,小伙熱心背她40分鐘下山,惡心的還是發(fā)生了

智慧生活筆記
2026-02-24 16:17:47
26歲男子春節(jié)離家失聯(lián)5天,山中發(fā)現(xiàn)外套!父親:事前曾去奶奶墳前,手機留“遺言”

26歲男子春節(jié)離家失聯(lián)5天,山中發(fā)現(xiàn)外套!父親:事前曾去奶奶墳前,手機留“遺言”

紅星新聞
2026-02-24 13:12:52
東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

聞香閣
2026-02-23 21:11:24
恭喜汪小菲又當爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂圈圈圓
2026-02-24 15:30:08
可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國人40年的努力毀掉!

可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國人40年的努力毀掉!

觸摸史跡
2026-02-25 09:25:27
雅閣官降10萬仍被吐槽 廣汽本田降價為何打動不了消費者?

雅閣官降10萬仍被吐槽 廣汽本田降價為何打動不了消費者?

BigCarShow
2026-02-23 23:44:11
皇馬球星自取其辱,前曼聯(lián)球星為穆帥辯護:穆帥不是種族歧視者

皇馬球星自取其辱,前曼聯(lián)球星為穆帥辯護:穆帥不是種族歧視者

福醬的小時光
2026-02-24 21:32:06
Anthropic指控DeepSeek等中國AI大模型抄襲 遭馬斯克貼臉開罵:賊喊捉賊 大規(guī)模竊秘數(shù)據(jù)

Anthropic指控DeepSeek等中國AI大模型抄襲 遭馬斯克貼臉開罵:賊喊捉賊 大規(guī)模竊秘數(shù)據(jù)

快科技
2026-02-24 11:00:49
美國深夜收到消息:中國發(fā)兩條公告,亞洲震動,日本右翼陷入癲狂

美國深夜收到消息:中國發(fā)兩條公告,亞洲震動,日本右翼陷入癲狂

古史青云啊
2026-02-24 19:52:54
京東創(chuàng)始人劉強東要造游艇,在廣州官宣創(chuàng)立品牌Sea Expandary

京東創(chuàng)始人劉強東要造游艇,在廣州官宣創(chuàng)立品牌Sea Expandary

IT之家
2026-02-24 19:22:04
平頂山郟縣毆打少女主謀為何沒有拘留?

平頂山郟縣毆打少女主謀為何沒有拘留?

互聯(lián)網(wǎng)大觀
2026-02-25 09:59:23
原深圳市創(chuàng)業(yè)投資同業(yè)公會副會長兼秘書長王守仁因病逝世

原深圳市創(chuàng)業(yè)投資同業(yè)公會副會長兼秘書長王守仁因病逝世

證券時報
2026-02-24 22:43:06
雷軍親自給員工發(fā)開工紅包,有人紅包里面只有十元

雷軍親自給員工發(fā)開工紅包,有人紅包里面只有十元

映射生活的身影
2026-02-24 15:21:46
國家正式公布:3月30日起,全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

國家正式公布:3月30日起,全國統(tǒng)一執(zhí)行,老墳有新規(guī)定

老特有話說
2026-02-24 23:23:24
內(nèi)地多名“億萬富豪”在香港被抓!

內(nèi)地多名“億萬富豪”在香港被抓!

港港地
2026-02-24 10:03:12
美國去年對華貿(mào)易逆差降至20年最低,一個時代結(jié)束了

美國去年對華貿(mào)易逆差降至20年最低,一個時代結(jié)束了

羅sir財話
2026-02-24 18:42:39
隨著萊斯特城1-1,南安普頓5-0,赫爾城4-2,英冠最新積分榜出爐

隨著萊斯特城1-1,南安普頓5-0,赫爾城4-2,英冠最新積分榜出爐

側(cè)身凌空斬
2026-02-25 06:45:22
廣東隊辟謠!朱芳雨確認王少杰離隊,最強陣出爐

廣東隊辟謠!朱芳雨確認王少杰離隊,最強陣出爐

生活新鮮市
2026-02-25 08:25:14
三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

吃青菜長高
2026-02-24 20:11:17
女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
2026-02-25 10:27:01
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11822文章數(shù) 78795關注度
往期回顧 全部

科技要聞

蘋果MacBook Pro要加觸摸屏了,還帶靈動島

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會看特朗普的笑話

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會看特朗普的笑話

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

本地
游戲
藝術
時尚
數(shù)碼

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

《彩虹六號》手游版正式運營開啟 5V5攻防戰(zhàn)術FPS

藝術要聞

如果吳清源重生,他會如何與柯潔較量?

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

數(shù)碼要聞

榮耀MagicPad 4平板曝4月發(fā)布,搭載最新驍龍8系處理器

無障礙瀏覽 進入關懷版