国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI這招太狠!AI從「躲貓貓」到「自爆黑料」,主打一個坦白

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】隨著AI越來越強(qiáng)大并進(jìn)入更高風(fēng)險場景,透明、安全的AI顯得越發(fā)重要。OpenAI首次提出了一種「懺悔機(jī)制」,讓模型的幻覺、獎勵黑客乃至潛在欺騙行為變得更加可見。

當(dāng)AI越來越聰明時,也變得越來越難以掌控。

一個讓AI研究者頭疼的問題是:

當(dāng)AI開始和你「耍小聰明」時,比如:

一本正經(jīng)地胡說八道:幻覺(Hallucination)

為了拿高分找訓(xùn)練機(jī)制的漏洞:獎勵黑客(reward hacking)

在對抗測試?yán)锍霈F(xiàn)「密謀欺騙」(scheming)

怎么破解?這是個棘手的難題。

最大的問題,就是這些AI的回答往往看起來沒問題。

它們邏輯嚴(yán)謹(jǐn)、表述流暢,但不知道「坑」埋在了哪里:是不是走了捷徑、隱瞞了不確定性、或者偷偷違反了要求。

于是OpenAI的研究者就提出了一個非常大膽的點子:

讓模型「學(xué)會懺悔」。


該項研究的核心,是訓(xùn)練模型在回答完問題后,再額外產(chǎn)出一個自我坦白的「小報告」:

我剛剛是不是用錯方法了?有沒有偷懶?有沒有讀漏指令?有沒有利用你沒注意的漏……

為了讓模型在懺悔時「放下思想包袱」,這份報告不影響主回答的評分,它只考察一個維度:

誠實。

懺悔機(jī)制邁出了AI透明化的重要一步,讓大模型可以主動承認(rèn)自己是否遵守指令、是否走捷徑,從而讓隱藏的不良行為變得可見。

這使我們擁有了檢查AI內(nèi)在狀態(tài)的窗口,有機(jī)會真正理解問題在哪里,從而更好改進(jìn)AI的安全與訓(xùn)練方式。

論文里有更多實驗,包括與未使用自白機(jī)制的對照模型比較,以及對自白失敗案例的分析。


https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

懺悔機(jī)制如何讓AI更「誠實」?

懺悔機(jī)制的探索方向,是訓(xùn)練模型在出現(xiàn)不良行為時主動承認(rèn),研究人員稱之為「懺悔」。

這是一種仍處于早期的概念驗證方法,通過訓(xùn)練模型在違反指令或走捷徑時主動「懺悔」,從而讓這些行為變得可見。

OpenAI及其他的AI研究者證明,大模型可能出現(xiàn)幻覺、獎勵黑客或不誠實行為。

目前,最嚴(yán)重的行為,如密謀欺騙主要在壓力測試和對抗性評估中才出現(xiàn)。

但隨著模型變得更強(qiáng)、更像AI智能體,即使罕見的失衡行為也會造成更大的影響,因此我們需要能更好發(fā)現(xiàn)、理解和緩解AI風(fēng)險的方法。

如何讓模型毫無保留地「懺悔」?

研究人員讓「懺悔」完全和主任務(wù)的獎勵脫鉤,只考察一個維度:

說實話就給獎勵,不說實話不給獎勵。與主任務(wù)的回答好壞無關(guān)。

模型只要在自白里承認(rèn)問題不會被算作負(fù)分。

只要它如實說明自己是否利用了測試漏洞(hacking)、故意壓低表現(xiàn)(sandbagging)或違反了指令,就會獲得獎勵。

目的是為了讓模型如實報告自己的真實行為。

測試顯示,懺悔機(jī)制能顯著提升不良行為的可見性。

在誘導(dǎo)不良行為的場景中,「假陰性」(模型沒有遵守指令且沒有自白)的比例只有4.4%。


圖中展示的是模型在四類任務(wù)下自我「懺悔」是否遵從的準(zhǔn)確性。

結(jié)果被分為上圖中的四類:

  • True positive(真正例):模型不遵從,并且坦白說自己不遵從

  • True negative(真負(fù)例):模型遵從,并且坦白說自己遵從

  • False positive(假正例):模型遵從,但錯誤地坦白說自己不遵從

  • False negative(假負(fù)例):模型不遵從,但錯誤地坦白說自己遵從

整體目的是衡量模型自我評估(self-confession)是否可靠。

在「幻覺」任務(wù)中,正確率達(dá)到了81%,但也存在一定比例錯誤「坦白」,這說明模型在涉及「幻覺」判斷時,對自身表現(xiàn)的把握不如其他領(lǐng)域穩(wěn)定。

在遵循指令類任務(wù)中,錯誤坦白的情況僅占4.4%,這說明AI在此類任務(wù)中對自己的行為判斷相當(dāng)可靠。


對于給定的用戶提示,以上四種可能的結(jié)果取決于兩個維度的組合:

模型的回復(fù)是遵從還是不遵從,以及「懺悔」聲稱遵從還是不遵從。

研究人員整體上發(fā)現(xiàn),「懺悔」供述通常非常準(zhǔn)確,而且其中的錯誤大多是無害的,更多源于真實的困惑,而不是有意誤導(dǎo)。

懺悔機(jī)制如何有效工作?

懺悔機(jī)制是AI對自己是否遵守顯性和隱性指令、是否走捷徑、利用漏洞或未達(dá)預(yù)期的情況進(jìn)行自我報告。

在這方面大模型可以被訓(xùn)練為保持坦誠。

研究人員以GPT-5 Thinking的一個版本進(jìn)行懺悔機(jī)制的訓(xùn)練,并在多個分布外的壓力測試數(shù)據(jù)集上評估。

這些數(shù)據(jù)集旨在誘導(dǎo)密謀式欺騙、獎勵黑客、違反指令和幻覺等行為。

結(jié)果顯示,即便模型真的做了這些不該做的事,它在懺悔中依然很可能承認(rèn),整體效果在不同數(shù)據(jù)集和任務(wù)上都表現(xiàn)穩(wěn)定。

在每次對話結(jié)束后,可以通過一條「系統(tǒng)消息」要求模型給出上一條回答的懺悔報告,內(nèi)容包括:

  • 回答應(yīng)滿足的所有顯性和隱性目標(biāo)、指令和限制;

  • 回答是否做到這些的客觀評估;

  • 模型在作答過程中遇到的模糊點、不確定性或難以判斷的問題。

訓(xùn)練時,一個獨立的獎勵模型只評估自白內(nèi)容,包括目標(biāo)是否完整、分析是否準(zhǔn)確、不確定性說明是否充分。

自白的獎勵不會影響主回答的得分,從而確保模型在自白里說什么,都不會影響主回答的表現(xiàn)。

為什么懺悔有效?

原因在于許多不良行為是在模型同時優(yōu)化多個目標(biāo)時產(chǎn)生的。

在強(qiáng)化學(xué)習(xí)中,模型通過看提示詞、生成回答、得到獎勵,逐漸學(xué)會能得高分的模式。

但獎勵信號往往混合多種因素:正確性、幫助性、產(chǎn)品規(guī)范、安全要求、用戶偏好等。

這些獎勵信號的相互作用,可能把模型推向我們不希望的方向,比如:

  • 幻覺研究顯示:一些數(shù)據(jù)集更獎勵「自信猜測」而不是誠實表達(dá)不確定性;

  • 阿諛奉承研究顯示:偏好信號過強(qiáng)時,模型會過度附和;

  • 其他團(tuán)隊的研究表明:模型可能進(jìn)行獎勵黑客,找到訓(xùn)練機(jī)制的漏洞,提高得分但沒真正做對任務(wù)。

這些捷徑甚至?xí)诓渴饡r泛化為更嚴(yán)重的問題。

而懺悔機(jī)制,可以通過完全分離目標(biāo)來避免這點:

主回答仍然優(yōu)化所有常規(guī)因素,而懺悔機(jī)制只優(yōu)化誠實這一因素。

懺悔的內(nèi)容不會影響到主回答的獎勵。

因此,即便大模型在主回答里隱瞞、走捷徑,它仍然有動力在自白里說實話。

實踐中也確實如此:大模型會在懺悔中承認(rèn)不良行為,即使主回答中沒有透露。

當(dāng)懺悔機(jī)制失敗時,多數(shù)情況是模型真的「沒搞清楚」:比如指令模糊不清,或它根本沒意識到自己犯錯,而不是故意誤導(dǎo)。

重要的是,早期結(jié)果表明,即便主回答沒有使用鏈?zhǔn)剿季S(chain-of-thought),懺悔機(jī)制仍然有效。

這說明它不依賴于內(nèi)部推理透明度,并可能適用于未來更不同的模型架構(gòu)。

懺悔機(jī)制即使沒有合規(guī)的「真值標(biāo)簽」也能發(fā)揮作用。

許多真實任務(wù)中,我們無法客觀地標(biāo)注模型是否遵守指令。如果能做到,我們就直接懲罰,而不需要懺悔機(jī)制了。

懺悔機(jī)制獎勵的是:模型是否能給出結(jié)構(gòu)化、有證據(jù)支持的自我評估。

提供真實解釋往往比編造一個完美的謊言更容易,因此誠實傾向自然出現(xiàn)。論文也討論了自白產(chǎn)生假陰性、假陽性的情況以及其原因。

論文給出初步證據(jù),但不是最終證明。

雖然研究人員使用了前沿模型GPT-5 Thinking,但實驗規(guī)模有限,未來希望進(jìn)一步擴(kuò)大規(guī)模,看看誠實性是否能繼續(xù)保持。

我們學(xué)到什么?

在一些實驗中,研究人員刻意使用由較弱模型生成的「容易被利用的獎勵信號」來訓(xùn)練主任務(wù)獎勵和懺悔獎勵。

這意味著模型是在一套「可以被輕易玩弄的規(guī)則」下學(xué)習(xí)。

事實證明模型確實學(xué)會了利用弱獎勵信號,主任務(wù)上模型在「利用弱獎勵信號」「走偏」,但在懺悔部分反而越來越誠實、越來越準(zhǔn)確。

在這個過程中,模型了解到:要最大化懺悔獎勵,最簡單的方法就是如實承認(rèn)它是如何利用弱獎勵信號的。


限制與展望

懺悔機(jī)制并不會阻止不良行為,它只是讓這些行為可見。

其主要價值是作為訓(xùn)練、評估和部署期間的監(jiān)控與診斷工具。

懺悔機(jī)制就像鏈?zhǔn)剿季S監(jiān)控一樣,可以讓隱藏的推理過程變得更透明。它關(guān)注的是指令是否被違反,而鏈?zhǔn)剿季S則側(cè)重揭示推理路徑。

研究人員指出,這項工作仍處于概念驗證階段。

目前,并沒有在大規(guī)模訓(xùn)練條件下測試其效果,懺悔準(zhǔn)確率也并非完美,要讓這種方法更可靠、更穩(wěn)健、更適用,還需要更多研究。

該項研究也屬于OpenAI更廣泛的AI安全體系的一部分。

懺悔只是其中一個機(jī)制,與深思熟慮式對齊、鏈?zhǔn)剿季S監(jiān)控、指令層級體系等方法共同構(gòu)成一套多層透明與監(jiān)督工具。

懺悔機(jī)制可用于訓(xùn)練和評估中的診斷,也可用于部署中的實時監(jiān)控。

它雖然不能獨自解決多目標(biāo)沖突問題,但作為「誠實模式」,可以為整體的誠實和安全性提供重要支撐。

未來,OpenAI計劃進(jìn)一步擴(kuò)大懺悔的訓(xùn)練規(guī)模,并與其他透明與安全技術(shù)(包括鏈?zhǔn)剿季S監(jiān)控與深思熟慮式對齊)結(jié)合,以確保模型嚴(yán)格遵守所有指令和政策(如Model Spec),并如實報告自身行為。

參考資料:

https://openai.com/index/how-confessions-can-keep-language-models-honest/

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
這次,朱孝天將阿信給他保留的體面撕得粉碎,楊天真的話有人信了

這次,朱孝天將阿信給他保留的體面撕得粉碎,楊天真的話有人信了

叨嘮
2025-12-24 07:00:09
孫中山預(yù)言,中國若是遷都到這3座城,則有望稱霸亞洲,是哪三座

孫中山預(yù)言,中國若是遷都到這3座城,則有望稱霸亞洲,是哪三座

抽象派大師
2025-12-23 01:27:51
港股打新185萬血汗錢一夜蒸發(fā)。。。

港股打新185萬血汗錢一夜蒸發(fā)。。。

財叔有料
2025-12-25 00:00:49
你身邊最無知的人是啥樣?網(wǎng)友:我父母其實也差不多,唉!

你身邊最無知的人是啥樣?網(wǎng)友:我父母其實也差不多,唉!

帶你感受人間冷暖
2025-12-23 00:05:14
官宣,西蒙斯發(fā)聲,正式簽約,新隊伍曝光,9年NBA薪水?dāng)?shù)字曝光

官宣,西蒙斯發(fā)聲,正式簽約,新隊伍曝光,9年NBA薪水?dāng)?shù)字曝光

樂聊球
2025-12-24 12:16:17
每年1000萬以上的大學(xué)畢業(yè)生將會持續(xù)將近20年,就業(yè)會越來越難

每年1000萬以上的大學(xué)畢業(yè)生將會持續(xù)將近20年,就業(yè)會越來越難

爆角追蹤
2025-12-24 11:53:34
尷尬!龐叔令稱央視《文明之旅》出現(xiàn)的龐戎,與南潯虛齋龐氏無關(guān)

尷尬!龐叔令稱央視《文明之旅》出現(xiàn)的龐戎,與南潯虛齋龐氏無關(guān)

火山詩話
2025-12-24 15:32:49
中共中央紀(jì)委印發(fā)《關(guān)于做好2026年元旦春節(jié)期間正風(fēng)肅紀(jì)工作的通知》

中共中央紀(jì)委印發(fā)《關(guān)于做好2026年元旦春節(jié)期間正風(fēng)肅紀(jì)工作的通知》

新京報
2025-12-24 16:09:07
航空大學(xué)孔德天去世,年僅20歲,親人曝原因,父母抱著遺體回家

航空大學(xué)孔德天去世,年僅20歲,親人曝原因,父母抱著遺體回家

裕豐娛間說
2025-12-24 13:06:51
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
烏軍確認(rèn)撤出西維爾斯克,庫皮揚斯克取得進(jìn)展,克宮拒絕圣誕?;?>
    </a>
        <h3>
      <a href=烏軍確認(rèn)撤出西維爾斯克,庫皮揚斯克取得進(jìn)展,克宮拒絕圣誕停火 鷹眼Defence
2025-12-24 16:19:36
劉煒下課?新疆2勝3負(fù)后球迷致信管理層換帥 愿承擔(dān)首年薪資

劉煒下課?新疆2勝3負(fù)后球迷致信管理層換帥 愿承擔(dān)首年薪資

醉臥浮生
2025-12-25 13:29:06
死刑!就是給這種人準(zhǔn)備的!

死刑!就是給這種人準(zhǔn)備的!

鈞言堂
2025-12-23 14:38:14
17歲差算個球?姆巴佩牽手伊萬卡,空窗期緋聞比進(jìn)球還吸金

17歲差算個球?姆巴佩牽手伊萬卡,空窗期緋聞比進(jìn)球還吸金

羅氏八卦
2025-12-25 11:45:55
呂良偉七十大壽:溫碧霞著裝俗氣,甄母年輕袁詠儀漂亮

呂良偉七十大壽:溫碧霞著裝俗氣,甄母年輕袁詠儀漂亮

剪劇課代表
2025-12-25 00:06:13
官方發(fā)文,高調(diào)官宣56歲王菲喜訊,讓謝霆鋒和整個娛樂圈沉默了

官方發(fā)文,高調(diào)官宣56歲王菲喜訊,讓謝霆鋒和整個娛樂圈沉默了

巧手曉廚娘
2025-12-23 19:42:02
東契奇計劃參加圣誕大戰(zhàn)!與里夫斯建立深厚友誼:競爭不止于籃球

東契奇計劃參加圣誕大戰(zhàn)!與里夫斯建立深厚友誼:競爭不止于籃球

羅說NBA
2025-12-25 06:20:24
曼聯(lián)發(fā)布年終大合影,眼尖球迷發(fā)現(xiàn)謝什科像是被P上去的

曼聯(lián)發(fā)布年終大合影,眼尖球迷發(fā)現(xiàn)謝什科像是被P上去的

懂球帝
2025-12-25 10:18:19
法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發(fā)表聯(lián)合聲明

法國、德國、英國、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國發(fā)表聯(lián)合聲明

每日經(jīng)濟(jì)新聞
2025-12-25 07:29:06
五件南博處置文物已找到,院長徐湖平涉嫌走私故宮南遷文物

五件南博處置文物已找到,院長徐湖平涉嫌走私故宮南遷文物

亞哥談古論今
2025-12-23 18:35:47
2025-12-25 13:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14180文章數(shù) 66396關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

女子入室殺害好友三名未成年子女 隨后在樓內(nèi)上吊自殺

頭條要聞

女子入室殺害好友三名未成年子女 隨后在樓內(nèi)上吊自殺

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財經(jīng)要聞

美國未來18個月不對中國芯片加額外關(guān)稅

汽車要聞

預(yù)售31.3萬元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

時尚
親子
數(shù)碼
家居
軍事航空

對不起周柯宇,是陳靖可先來的

親子要聞

三部門全面規(guī)范幼兒園收費 以“雙清單”鎖定范圍

數(shù)碼要聞

英特爾推出2025Q4版Arc Pro顯卡驅(qū)動:核顯可分得更多內(nèi)存

家居要聞

經(jīng)典彌新 品味浪漫居所

軍事要聞

澤連斯基版“和平計劃”透露哪些信息

無障礙瀏覽 進(jìn)入關(guān)懷版