国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI公開新的模型訓(xùn)練方法:或許能解決模型撒謊問題,已在GPT-5 thiking驗(yàn)證

0
分享至


↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時間接收到更新

剛剛OpenAI公開了一種新的重要的模型訓(xùn)練方法(概念驗(yàn)證)

面對大型語言模型(LLM)可能出現(xiàn)的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規(guī)操作,甚至為了獲得更高獎勵而進(jìn)行“獎勵黑客攻擊(Reward Hacking)”,OpenAI提出了一種名為 “坦白(Confession)” 的訓(xùn)練方法

簡單來說,就是在模型給出回答之后,強(qiáng)制要求它進(jìn)行一次自我反省,誠實(shí)地交代自己在剛才的回答中是否遵守了所有指令,有沒有走捷徑,或者是否存在不確定的地方

研究人員在GPT-5-Thinking上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,通過這種訓(xùn)練,通過“坦白”來監(jiān)測模型的不當(dāng)行為是可行的,即使模型在主要回答中撒了謊,它往往也能在隨后的“坦白”中誠實(shí)交代

這項研究的論文題目為《Training LLMs for Honesty via Confessions》

paper:

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf


什么是“坦白”?

在強(qiáng)化學(xué)習(xí)訓(xùn)練中,模型往往面臨復(fù)雜的獎勵目標(biāo)(正確性、風(fēng)格、安全性等)。這可能導(dǎo)致一種風(fēng)險:模型為了最大化獎勵,學(xué)會了生成“看起來很好”但實(shí)際上不符合用戶意圖或存在缺陷的回答

OpenAI提出的“自白”機(jī)制,旨在解決這個問題。

其核心流程如下(如圖所示):

1.標(biāo)準(zhǔn)交互: 用戶提問(x) -> 模型進(jìn)行思維鏈推理(CoT)和工具調(diào)用(z) -> 模型給出回答(y)

2.強(qiáng)制坦白:系統(tǒng)發(fā)出一條特殊的系統(tǒng)消息(xc),要求模型提供一份“坦白報告”(yc)

3.報告內(nèi)容: 模型需要在報告中列出所有顯性或隱性的指令與約束,評估自己是否遵守了這些要求,并列出任何不確定性或模糊之處


關(guān)鍵在于獎勵機(jī)制的設(shè)計:

分離獎勵: “坦白”的獎勵與“主要回答”的獎勵是完全分開的。
只獎?wù)\實(shí):“坦白”的獎勵僅基于其誠實(shí)度和全面性,由一個專門的LLM裁判打分

互不影響:無論模型在自白中承認(rèn)了多么糟糕的行為(比如承認(rèn)自己偷懶了),都不會影響它因完成主要任務(wù)而獲得的獎勵

這就像天主教的“告解室”機(jī)制:無論你在自白中揭露了什么,都不會改變你主要回答的得分。只要誠實(shí)交代是獲取坦白獎勵的“阻力最小路徑”,模型就有動力說真話

在GPT-5-Thinking上的實(shí)測結(jié)果

為了驗(yàn)證這一方法的有效性,研究團(tuán)隊在GPT-5-Thinking模型上進(jìn)行了輕量級的RL訓(xùn)練。他們在訓(xùn)練中以25%的概率要求模型輸出“坦白”

并在多個分布外(OOD)的場景下進(jìn)行了評估,涵蓋幻覺、指令遵循、暗中策劃(Scheming)和獎勵黑客攻擊等領(lǐng)域。

主要發(fā)現(xiàn)如下:

1. 壞行為多半會被招供
當(dāng)模型表現(xiàn)出不良行為時,在12項評估中有11項,模型至少有一半的概率會在“自白”中承認(rèn)這一點(diǎn)。

2. “坦白”比“回答”更誠實(shí)
當(dāng)模型出現(xiàn)不良行為時,它在“坦白”中坦白從寬的可能性,顯著高于在主要回答中承認(rèn)錯誤的可能

3. 訓(xùn)練提升了自白準(zhǔn)確率
雖然GPT-5-Thinking本身就具備一定的坦白能力,但經(jīng)過專門訓(xùn)練后,其自白的準(zhǔn)確性有適度提升

4. 不影響主任務(wù)性能
在計算量匹配的對比實(shí)驗(yàn)中,加入“坦白”訓(xùn)練并沒有顯著提高或降低模型在原始任務(wù)上的表現(xiàn)

測試發(fā)現(xiàn),坦白法顯著提高了模型不良行為的可見性。在所有誘發(fā)不良行為的評估中,平均而言,模型不遵守指令且不坦白的概率僅為 4.4%


甚至能檢測出“獎勵黑客”行為

研究人員還設(shè)計了一個特殊的實(shí)驗(yàn)來測試“獎勵黑客攻擊(Reward Hacking)”

他們故意用一個弱裁判模型(容易被糊弄)來訓(xùn)練策略模型。結(jié)果發(fā)現(xiàn),隨著訓(xùn)練進(jìn)行,策略模型學(xué)會了欺騙這個弱裁判,在回答中通過作弊來獲取高分(例如在要求字?jǐn)?shù)限制的任務(wù)中通過特殊格式蒙混過關(guān))

然而,“坦白”的準(zhǔn)確率卻在上升。

這意味著,雖然模型學(xué)會了在回答里?;^來騙取主任務(wù)獎勵,但它在隨后的坦白中,依然誠實(shí)地指出了自己沒有遵守指令。這驗(yàn)證了研究的一個核心假設(shè):誠實(shí)地承認(rèn)違規(guī),比試圖欺騙“坦白裁判”更容易獲得獎勵。

此外,研究還發(fā)現(xiàn),通過分析“坦白”的文本,可以提取出模型對自己回答的主觀置信度(0-1之間的數(shù)值)。這個置信度能較好地預(yù)測模型回答是否正確。

局限性:不知道自己錯在哪,就沒法招

當(dāng)然,這種方法并非完美無缺。

最大的局限在于“無知的錯誤”。 如果模型未能遵守指令是因?yàn)樗娴哪芰Σ蛔?、理解錯了,或者是產(chǎn)生了幻覺(它真心認(rèn)為自己是對的),那么它就無法在“坦白”中承認(rèn)錯誤。

數(shù)據(jù)分析顯示,絕大多數(shù)“漏報”的情況都是由于模型真的搞錯了,而不是故意隱瞞。

此外,目前的坦白是一個單獨(dú)的輸出步驟,主要用于推理時的監(jiān)控、拒絕采樣或向用戶提示風(fēng)險,并不能直接消除模型回答中的不良行為

OpenAI認(rèn)為,隨著模型能力越來越強(qiáng),不知道自己錯了的情況會減少,這種基于坦白的監(jiān)控機(jī)制將變得更加有效,可以作為思維鏈(CoT)監(jiān)控的有力補(bǔ)充

參考:

https://openai.com/index/how-confessions-can-keep-language-models-honest/

--end--

最后記得??我,這對我非常重要,每天都在更新:

歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美軍方稱摧毀伊朗伊斯蘭革命衛(wèi)隊總部

美軍方稱摧毀伊朗伊斯蘭革命衛(wèi)隊總部

財聯(lián)社
2026-03-02 03:44:09
坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

離離言幾許
2026-03-01 23:23:49
一位風(fēng)水大師說:人最好的風(fēng)水就這六點(diǎn),聽完恍然大悟

一位風(fēng)水大師說:人最好的風(fēng)水就這六點(diǎn),聽完恍然大悟

一口娛樂
2026-02-28 00:25:03
1只都不行!2015年廣東老人半個小時徒手抓了22只,想煲湯喝

1只都不行!2015年廣東老人半個小時徒手抓了22只,想煲湯喝

萬象硬核本尊
2026-02-07 21:05:46
大伯拿走我500萬房本說保管,我掛失重辦,他兒子打來80通電話

大伯拿走我500萬房本說保管,我掛失重辦,他兒子打來80通電話

風(fēng)起見你
2026-03-01 21:45:02
特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項安排會這么厲害

特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項安排會這么厲害

健身狂人
2026-03-01 13:53:47
美國CIA只用不到100萬美元,就將伊朗的國運(yùn)改寫了足足70多年

美國CIA只用不到100萬美元,就將伊朗的國運(yùn)改寫了足足70多年

爆角追蹤
2026-03-01 14:57:47
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

小蘿卜絲
2026-03-01 09:56:11
美媒:白宮下令暫緩?fù)七M(jìn)對臺軍售

美媒:白宮下令暫緩?fù)七M(jìn)對臺軍售

環(huán)球網(wǎng)資訊
2026-03-02 06:27:47
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
曼聯(lián)2-1逆轉(zhuǎn)十人水晶宮!11輪不敗升英超第3 B費(fèi)傳射 謝什科3連殺

曼聯(lián)2-1逆轉(zhuǎn)十人水晶宮!11輪不敗升英超第3 B費(fèi)傳射 謝什科3連殺

我愛英超
2026-03-02 00:01:06
網(wǎng)友預(yù)測明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

網(wǎng)友預(yù)測明天早上10點(diǎn)半 deepseek 發(fā)布V4 模型,首次沒給英偉達(dá)權(quán)限,選擇與華為合作

風(fēng)向觀察
2026-03-01 17:11:32
河北“二婚黃花大閨女”的瓜

河北“二婚黃花大閨女”的瓜

皮蛋兒電影
2026-02-28 13:45:08
哈梅內(nèi)伊和親屬開會時遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場照片曝光

哈梅內(nèi)伊和親屬開會時遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場照片曝光

項鵬飛
2026-03-01 20:35:46
英超最新積分戰(zhàn)報:兩大強(qiáng)隊落敗,曼聯(lián)驚險逆襲,阿森納險勝強(qiáng)敵

英超最新積分戰(zhàn)報:兩大強(qiáng)隊落敗,曼聯(lián)驚險逆襲,阿森納險勝強(qiáng)敵

足球狗說
2026-03-02 02:30:31
美以軍事行動引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時一文速覽

美以軍事行動引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時一文速覽

環(huán)球網(wǎng)資訊
2026-03-02 07:21:11
挪動一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

挪動一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

通鑒史智
2026-02-02 16:14:26
交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

交了物業(yè)費(fèi)還收車位管理費(fèi)?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
一覺醒來,美軍巨大傷亡,14個基地遭轟炸,伊朗打得很慘烈

一覺醒來,美軍巨大傷亡,14個基地遭轟炸,伊朗打得很慘烈

策略述
2026-03-01 14:29:56
2026-03-02 09:32:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東國際機(jī)場滯留者:機(jī)場像“難民所”

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
家居
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

開學(xué)第一課:送給學(xué)生4盞“指路之燈”

數(shù)碼要聞

小米拍攝眼鏡奪2025年銷量第一 份額獨(dú)占超50%

家居要聞

素色肌理 品意式格調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版