OpenAI公開新的模型訓(xùn)練方法：或許能解決模型撒謊問題，已在GPT-5 thiking驗(yàn)證

2025-12-04 10:52:50　來源: AI寒武紀(jì)

江蘇舉報

分享至

↑閱讀之前記得關(guān)注+星標(biāo)??，，每天才能第一時間接收到更新

剛剛OpenAI公開了一種新的重要的模型訓(xùn)練方法（概念驗(yàn)證）

面對大型語言模型（LLM）可能出現(xiàn)的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規(guī)操作，甚至為了獲得更高獎勵而進(jìn)行“獎勵黑客攻擊（Reward Hacking）”，OpenAI提出了一種名為 “坦白（Confession）” 的訓(xùn)練方法

簡單來說，就是在模型給出回答之后，強(qiáng)制要求它進(jìn)行一次自我反省，誠實(shí)地交代自己在剛才的回答中是否遵守了所有指令，有沒有走捷徑，或者是否存在不確定的地方

研究人員在GPT-5-Thinking上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示，通過這種訓(xùn)練，通過“坦白”來監(jiān)測模型的不當(dāng)行為是可行的，即使模型在主要回答中撒了謊，它往往也能在隨后的“坦白”中誠實(shí)交代

這項研究的論文題目為《Training LLMs for Honesty via Confessions》

paper：

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

什么是“坦白”？

在強(qiáng)化學(xué)習(xí)訓(xùn)練中，模型往往面臨復(fù)雜的獎勵目標(biāo)（正確性、風(fēng)格、安全性等）。這可能導(dǎo)致一種風(fēng)險：模型為了最大化獎勵，學(xué)會了生成“看起來很好”但實(shí)際上不符合用戶意圖或存在缺陷的回答

OpenAI提出的“自白”機(jī)制，旨在解決這個問題。

其核心流程如下（如圖所示）：

1.標(biāo)準(zhǔn)交互：用戶提問（x） -> 模型進(jìn)行思維鏈推理（CoT）和工具調(diào)用（z） -> 模型給出回答（y）

2.強(qiáng)制坦白：系統(tǒng)發(fā)出一條特殊的系統(tǒng)消息（xc），要求模型提供一份“坦白報告”（yc）

3.報告內(nèi)容：模型需要在報告中列出所有顯性或隱性的指令與約束，評估自己是否遵守了這些要求，并列出任何不確定性或模糊之處

關(guān)鍵在于獎勵機(jī)制的設(shè)計：

分離獎勵： “坦白”的獎勵與“主要回答”的獎勵是完全分開的。
只獎?wù)\實(shí)：“坦白”的獎勵僅基于其誠實(shí)度和全面性，由一個專門的LLM裁判打分

互不影響：無論模型在自白中承認(rèn)了多么糟糕的行為（比如承認(rèn)自己偷懶了），都不會影響它因完成主要任務(wù)而獲得的獎勵

這就像天主教的“告解室”機(jī)制：無論你在自白中揭露了什么，都不會改變你主要回答的得分。只要誠實(shí)交代是獲取坦白獎勵的“阻力最小路徑”，模型就有動力說真話

在GPT-5-Thinking上的實(shí)測結(jié)果

為了驗(yàn)證這一方法的有效性，研究團(tuán)隊在GPT-5-Thinking模型上進(jìn)行了輕量級的RL訓(xùn)練。他們在訓(xùn)練中以25%的概率要求模型輸出“坦白”

并在多個分布外（OOD）的場景下進(jìn)行了評估，涵蓋幻覺、指令遵循、暗中策劃（Scheming）和獎勵黑客攻擊等領(lǐng)域。

主要發(fā)現(xiàn)如下：

1. 壞行為多半會被招供
當(dāng)模型表現(xiàn)出不良行為時，在12項評估中有11項，模型至少有一半的概率會在“自白”中承認(rèn)這一點(diǎn)。

2. “坦白”比“回答”更誠實(shí)
當(dāng)模型出現(xiàn)不良行為時，它在“坦白”中坦白從寬的可能性，顯著高于在主要回答中承認(rèn)錯誤的可能

3. 訓(xùn)練提升了自白準(zhǔn)確率
雖然GPT-5-Thinking本身就具備一定的坦白能力，但經(jīng)過專門訓(xùn)練后，其自白的準(zhǔn)確性有適度提升

4. 不影響主任務(wù)性能
在計算量匹配的對比實(shí)驗(yàn)中，加入“坦白”訓(xùn)練并沒有顯著提高或降低模型在原始任務(wù)上的表現(xiàn)

測試發(fā)現(xiàn)，坦白法顯著提高了模型不良行為的可見性。在所有誘發(fā)不良行為的評估中，平均而言，模型不遵守指令且不坦白的概率僅為 4.4%

甚至能檢測出“獎勵黑客”行為

研究人員還設(shè)計了一個特殊的實(shí)驗(yàn)來測試“獎勵黑客攻擊（Reward Hacking）”

他們故意用一個弱裁判模型（容易被糊弄）來訓(xùn)練策略模型。結(jié)果發(fā)現(xiàn)，隨著訓(xùn)練進(jìn)行，策略模型學(xué)會了欺騙這個弱裁判，在回答中通過作弊來獲取高分（例如在要求字?jǐn)?shù)限制的任務(wù)中通過特殊格式蒙混過關(guān)）

然而，“坦白”的準(zhǔn)確率卻在上升。

這意味著，雖然模型學(xué)會了在回答里?；^來騙取主任務(wù)獎勵，但它在隨后的坦白中，依然誠實(shí)地指出了自己沒有遵守指令。這驗(yàn)證了研究的一個核心假設(shè)：誠實(shí)地承認(rèn)違規(guī)，比試圖欺騙“坦白裁判”更容易獲得獎勵。

此外，研究還發(fā)現(xiàn)，通過分析“坦白”的文本，可以提取出模型對自己回答的主觀置信度（0-1之間的數(shù)值）。這個置信度能較好地預(yù)測模型回答是否正確。

局限性：不知道自己錯在哪，就沒法招

當(dāng)然，這種方法并非完美無缺。

最大的局限在于“無知的錯誤”。 如果模型未能遵守指令是因?yàn)樗娴哪芰Σ蛔?、理解錯了，或者是產(chǎn)生了幻覺（它真心認(rèn)為自己是對的），那么它就無法在“坦白”中承認(rèn)錯誤。

數(shù)據(jù)分析顯示，絕大多數(shù)“漏報”的情況都是由于模型真的搞錯了，而不是故意隱瞞。

此外，目前的坦白是一個單獨(dú)的輸出步驟，主要用于推理時的監(jiān)控、拒絕采樣或向用戶提示風(fēng)險，并不能直接消除模型回答中的不良行為

OpenAI認(rèn)為，隨著模型能力越來越強(qiáng)，不知道自己錯了的情況會減少，這種基于坦白的監(jiān)控機(jī)制將變得更加有效，可以作為思維鏈（CoT）監(jiān)控的有力補(bǔ)充

參考：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

--end--

最后記得??我，這對我非常重要，每天都在更新：

歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評論，別忘了關(guān)注我

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.