国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準(zhǔn)強(qiáng)化學(xué)習(xí)新方法

0
分享至



作者吳嘉赟,卡耐基梅隆大學(xué)(CMU)機(jī)器學(xué)習(xí)系博士生,研究大語言模型的評(píng)測(cè)與后訓(xùn)練,包括模型推理、模型幻覺、主動(dòng)評(píng)測(cè)等。

大語言模型(LLM)的幻覺問題一直是阻礙其在關(guān)鍵領(lǐng)域部署的核心難題。近日,研究人員提出了一種名為行為校準(zhǔn)強(qiáng)化學(xué)習(xí)(Behaviorally Calibrated Reinforcement Learning)的新方法,通過重新設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),讓模型學(xué)會(huì)「知之為知之,不知為不知」。



論文鏈接:https://arxiv.org/abs/2512.19920

一個(gè)僅 40 億參數(shù)的模型在接受該方法訓(xùn)練后,其幻覺抑制能力竟然超越了 GPT-5 等前沿大模型。



圖1:模型在回答數(shù)學(xué)問題時(shí)輸出的置信度標(biāo)注示例。每個(gè)聲明都附帶置信度分?jǐn)?shù)和理由說明。

核心問題:為什么 LLM 會(huì)產(chǎn)生幻覺?

研究團(tuán)隊(duì)指出,當(dāng)前主流的大模型后訓(xùn)練范式 —— 基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)—— 存在一個(gè)根本性的獎(jiǎng)勵(lì)錯(cuò)位問題。在標(biāo)準(zhǔn) RLVR 中,獎(jiǎng)勵(lì)函數(shù)通常是二元的:回答正確得 + 1 分,回答錯(cuò)誤得 - 1 分。在這種機(jī)制下,只要正確概率大于零,一個(gè)追求效用最大化的智能體會(huì)被激勵(lì)生成可能錯(cuò)誤的答案。這就造成了對(duì)「拒絕回答」行為的懲罰,迫使模型抑制不確定性的表達(dá),將猜測(cè)偽裝成事實(shí)。模型被訓(xùn)練成了「優(yōu)秀的應(yīng)試者」—— 為了最大化預(yù)期分?jǐn)?shù)而猜測(cè),而不是成為「誠(chéng)實(shí)的溝通者」—— 在置信不足時(shí)選擇放棄。

解決方案:行為校準(zhǔn)強(qiáng)化學(xué)習(xí)



為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了兩種策略:

策略一:言語化置信度(Verbalized Confidence)









策略二:Critic 價(jià)值函數(shù)(Critic Value)

作為顯示生成置信度的替代方案,該策略使用 PPO 算法中 Critic 網(wǎng)絡(luò)的價(jià)值函數(shù)作為隱式置信度估計(jì)器。理論上,Critic 網(wǎng)絡(luò)通過最小化預(yù)測(cè)值與策略回報(bào)之間的 Brier 分?jǐn)?shù)進(jìn)行訓(xùn)練,其價(jià)值函數(shù)會(huì)收斂到成功概率。

聲明級(jí)行為校準(zhǔn):細(xì)粒度的「不確定」標(biāo)注

研究團(tuán)隊(duì)進(jìn)一步將行為校準(zhǔn)從響應(yīng)級(jí)別擴(kuò)展到聲明級(jí)別,使模型能夠精確標(biāo)注答案中單個(gè)不確定的推理步驟,而非簡(jiǎn)單地拒絕整個(gè)回答。這一擴(kuò)展面臨三大挑戰(zhàn):

挑戰(zhàn)一:連貫性問題。直接將不確定的聲明替換為 < IDK > 可能破壞推理的連貫性 —— 例如在數(shù)學(xué)問題中,后續(xù)步驟往往依賴于前面的結(jié)論。研究團(tuán)隊(duì)選擇讓模型輸出完整響應(yīng),同時(shí)用 HTML 標(biāo)簽可視化高亮不確定的聲明

挑戰(zhàn)二:中間步驟的歧義性。在思維鏈(CoT)推理中,中間步驟的正確性和置信度存在天然歧義:一個(gè)步驟可能正確識(shí)別了前面聲明中的錯(cuò)誤。為此,研究團(tuán)隊(duì)忽略中間推理過程,僅在最終的結(jié)構(gòu)化步驟上進(jìn)行校準(zhǔn)

挑戰(zhàn)三:缺乏細(xì)粒度標(biāo)簽。聲明級(jí)的正確性標(biāo)注難以獲取。研究團(tuán)隊(duì)設(shè)計(jì)了基于弱監(jiān)督的學(xué)習(xí)目標(biāo):將聲明級(jí)置信度聚合成響應(yīng)級(jí)置信度,再使用 Brier 分?jǐn)?shù)獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練。



實(shí)驗(yàn)發(fā)現(xiàn),最小值聚合在聲明級(jí)評(píng)估中表現(xiàn)更優(yōu),因?yàn)樗芨行У丶?lì)模型識(shí)別推理鏈中的薄弱環(huán)節(jié)。而乘積聚合雖然更適合響應(yīng)級(jí)校準(zhǔn),但可能導(dǎo)致單個(gè)聲明的置信度過于樂觀。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上評(píng)估了該方法,包括字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)發(fā)布的極具挑戰(zhàn)性的數(shù)學(xué)推理基準(zhǔn)BeyondAIME,以及 AIME-2024/2025 和SimpleQA(跨領(lǐng)域事實(shí)問答基準(zhǔn))。

核心評(píng)估指標(biāo)



Confidence AUC:使用模型的置信度分?jǐn)?shù)對(duì)正確和錯(cuò)誤回答進(jìn)行排序,計(jì)算 ROC 曲線下面積。AUC 越接近 1,說明模型越能準(zhǔn)確地將高置信度分配給正確回答,將低置信度分配給錯(cuò)誤回答。這是一個(gè)純衡量模型「自知之明」的指標(biāo),不受模型本身能力強(qiáng)弱的影響。

響應(yīng)級(jí)評(píng)估:超越 GPT-5

在 BeyondAIME 上的響應(yīng)級(jí)評(píng)估結(jié)果顯示(表 1),研究提出的方法顯著優(yōu)于 Qwen3-max,Kimi-K2,Gemini-2.5-Pro 和 GPT-5 等模型。其中,采用言語化置信度(Verbalized Confidence)、置信度乘積聚合(Qwen3-4B-Instruct-confidence-prod)的 40 億參數(shù)模型取得了0.806 的 SNR 增益大幅超越 GPT-5 的 0.207。采用 Critic 價(jià)值函數(shù)(Qwen3-4B-Instruct-ppo-value)也取得了相當(dāng)好的效果。



表1:BeyondAIME 響應(yīng)級(jí)評(píng)估結(jié)果。SNR Gain 和 Conf AUC 是衡量幻覺抑制效果的關(guān)鍵指標(biāo),數(shù)值越高表示模型越能有效抑制幻覺。

聲明級(jí)評(píng)估:超越 Gemini-2.5-Pro

研究團(tuán)隊(duì)還將行為校準(zhǔn)從響應(yīng)級(jí)別擴(kuò)展到聲明級(jí)別,讓模型能夠精確標(biāo)注單個(gè)不確定的推理步驟。在 BeyondAIME 的聲明級(jí)評(píng)估中(表 2),置信度最小聚合方法取得了0.301 的 SNR 增益,顯著優(yōu)于 Gemini-2.5-Pro 的 0.019



表2:BeyondAIME 聲明級(jí)評(píng)估結(jié)果。最小值聚合方法在 SNR Gain 和 Conf AUC 兩個(gè)核心指標(biāo)上均大幅領(lǐng)先前沿模型。

置信度校準(zhǔn)圖:多數(shù)前沿模型缺少「自知之明」





圖2:前沿模型在BeyondAIME上的響應(yīng)級(jí)置信度校準(zhǔn)圖??梢杂^察到,很多模型的準(zhǔn)確率是一條水平線,與其聲明的置信度幾乎沒有相關(guān)性。



圖3:本研究模型在BeyondAIME上的置信度校準(zhǔn)圖。經(jīng)過行為校準(zhǔn)訓(xùn)練后,模型的準(zhǔn)確率與其聲明的置信度呈現(xiàn)強(qiáng)烈的正相關(guān)關(guān)系。其中Base和Base-ppo是基準(zhǔn)。

行為校準(zhǔn)的四個(gè)目標(biāo)



圖4:在不同風(fēng)險(xiǎn)閾值下的準(zhǔn)確率、拒絕率和幻覺率變化曲線。綠色區(qū)域代表準(zhǔn)確率,黃色區(qū)域代表拒絕率,紅色區(qū)域代表幻覺率。隨著風(fēng)險(xiǎn)閾值t的增加,模型逐漸從「應(yīng)試者模式」過渡到「完全誠(chéng)實(shí)模式」。

研究團(tuán)隊(duì)設(shè)計(jì)的系統(tǒng)滿足行為校準(zhǔn)的四個(gè)目標(biāo):







圖5:行為校準(zhǔn)的True Positive(實(shí)線)和False Negative(虛線)。TP曲線應(yīng)位于對(duì)角線上方,F(xiàn)N曲線應(yīng)位于對(duì)角線下方。Base和Base-ppo是基線

跨領(lǐng)域泛化:元技能的可遷移性

為了驗(yàn)證該方法訓(xùn)練出的元認(rèn)知能力是否具有可遷移性,研究團(tuán)隊(duì)將在數(shù)學(xué)數(shù)據(jù)上訓(xùn)練的模型直接在SimpleQA(具有挑戰(zhàn)性的長(zhǎng)尾事實(shí)知識(shí)基準(zhǔn))上進(jìn)行零樣本評(píng)估。

結(jié)果顯示,方法的 SNR 顯著優(yōu)于基礎(chǔ)指令模型,超越了大多數(shù)評(píng)估的前沿模型,與包括 Claude-Sonnet-4.5 和 GPT-5 在內(nèi)的最強(qiáng)前沿模型相當(dāng)。由于零樣本評(píng)估的設(shè)定,在模型缺乏基礎(chǔ)知識(shí)的全新領(lǐng)域上,行為校準(zhǔn)被有效遷移,這說明行為校準(zhǔn)是一種與預(yù)測(cè)準(zhǔn)確率解耦的技能

研究啟示:

幻覺緩解與準(zhǔn)確率是兩個(gè)獨(dú)立的能力

該研究還帶來了一些理論洞察:

1. 幻覺緩解與事實(shí)準(zhǔn)確率是兩種不同的能力。研究團(tuán)隊(duì)觀察到,對(duì)于某些前沿模型而言,準(zhǔn)確率與幻覺率或置信度校準(zhǔn)之間并沒有正相關(guān)關(guān)系。GPT 系列模型的優(yōu)勢(shì)更多體現(xiàn)在控制幻覺的能力上,而不僅是準(zhǔn)確率的優(yōu)勢(shì)。

2. 小模型也能實(shí)現(xiàn)與大模型相當(dāng)?shù)闹眯哦刃?zhǔn)。實(shí)現(xiàn)有效「校準(zhǔn)」所需的計(jì)算資源遠(yuǎn)低于追求絕對(duì)準(zhǔn)確率所需的資源。反過來說,某些大模型的言語化置信度并不能準(zhǔn)確反映其實(shí)際表現(xiàn)。

3. 行為校準(zhǔn)是一種可學(xué)習(xí)的屬性,可以通過訓(xùn)練得到改善。這與此前認(rèn)為幻覺是 LLM 不可避免的內(nèi)置特性的觀點(diǎn)形成了對(duì)比。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小米官方澄清:新一代SU7 Max零百加速變慢只因統(tǒng)計(jì)法不同

小米官方澄清:新一代SU7 Max零百加速變慢只因統(tǒng)計(jì)法不同

快科技
2026-03-21 00:31:03
與孔琳相戀7年卻愛上柯藍(lán),現(xiàn)娶小12歲美女,兒子成國(guó)民童星

與孔琳相戀7年卻愛上柯藍(lán),現(xiàn)娶小12歲美女,兒子成國(guó)民童星

以茶帶書
2026-03-20 21:15:03
清算終于開始了!一個(gè)要求,震動(dòng)?xùn)|京:中國(guó)要求日本限期內(nèi)歸還

清算終于開始了!一個(gè)要求,震動(dòng)?xùn)|京:中國(guó)要求日本限期內(nèi)歸還

壹知眠羊
2026-01-28 22:03:28
赤身被吊在房梁上,下體被插上銅棒通電,遺照卻一直被日寇供奉著

赤身被吊在房梁上,下體被插上銅棒通電,遺照卻一直被日寇供奉著

芳芳?xì)v史燴
2026-03-17 22:06:40
不能錯(cuò)過!3月22日晚19:00比賽!中央5套CCTV5、CCTV5+直播節(jié)目表

不能錯(cuò)過!3月22日晚19:00比賽!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2026-03-22 10:44:16
清明將至,俗話說:“墳頭三不動(dòng),一動(dòng)窮三代”今年應(yīng)如何祭祖?

清明將至,俗話說:“墳頭三不動(dòng),一動(dòng)窮三代”今年應(yīng)如何祭祖?

磊子講史
2026-03-20 16:07:07
江蘇多地發(fā)布汽車購(gòu)新補(bǔ)貼政策,最高直補(bǔ)7000元

江蘇多地發(fā)布汽車購(gòu)新補(bǔ)貼政策,最高直補(bǔ)7000元

揚(yáng)子晚報(bào)
2026-03-22 10:24:51
日本臺(tái)灣油價(jià)接連下跌,大陸油價(jià)卻瘋漲至9元,差異原因一目了然

日本臺(tái)灣油價(jià)接連下跌,大陸油價(jià)卻瘋漲至9元,差異原因一目了然

潮鹿逐夢(mèng)
2026-03-21 20:08:52
如果不是和親家公通了一個(gè)電話,我都不知道女兒在婆家是這樣的

如果不是和親家公通了一個(gè)電話,我都不知道女兒在婆家是這樣的

大熊歡樂坊
2026-03-21 14:23:35
蔣介石孫子召開發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
伊斯蘭教的遜尼派與什葉派的分歧在哪里?

伊斯蘭教的遜尼派與什葉派的分歧在哪里?

在時(shí)代的變遷中
2026-03-20 07:39:46
衛(wèi)健委7天減肥食譜,照著吃體脂穩(wěn)降到22%

衛(wèi)健委7天減肥食譜,照著吃體脂穩(wěn)降到22%

獨(dú)舞獨(dú)舞
2026-03-21 11:12:34
凱恩本賽季德甲已打進(jìn)31球,聯(lián)賽剩余7輪距萊萬紀(jì)錄還差10球

凱恩本賽季德甲已打進(jìn)31球,聯(lián)賽剩余7輪距萊萬紀(jì)錄還差10球

懂球帝
2026-03-22 10:30:19
黃蜂18記三分雙殺大勝灰熊 三球29+7三分米勒22+5三分

黃蜂18記三分雙殺大勝灰熊 三球29+7三分米勒22+5三分

醉臥浮生
2026-03-22 09:32:30
穆帥痛哭,本菲卡暫進(jìn)葡超前2,3:0獲勝,反超競(jìng)爭(zhēng)對(duì)手

穆帥痛哭,本菲卡暫進(jìn)葡超前2,3:0獲勝,反超競(jìng)爭(zhēng)對(duì)手

福醬的小時(shí)光
2026-03-22 09:52:29
“圣火令”開始全世界生效了!

“圣火令”開始全世界生效了!

仰望星空的一粒沙子
2026-03-22 09:58:18
年羹堯倒臺(tái),雍正是如何處理他的妻子和女兒的?說出來都不敢相信

年羹堯倒臺(tái),雍正是如何處理他的妻子和女兒的?說出來都不敢相信

卡西莫多的故事
2025-10-25 19:39:06
鹽城高力宣布解約:生存壓力大

鹽城高力宣布解約:生存壓力大

鹽城123網(wǎng)
2026-03-22 11:09:12
央視首播!32集諜戰(zhàn)大劇來襲,黃志忠出山,老戲骨坐鎮(zhèn),冷箭反特

央視首播!32集諜戰(zhàn)大劇來襲,黃志忠出山,老戲骨坐鎮(zhèn),冷箭反特

阿樂樂電影v
2026-03-22 13:05:05
公司破產(chǎn),成都市一輛奧迪Q8被拍賣,被人撿漏28萬元就競(jìng)得

公司破產(chǎn),成都市一輛奧迪Q8被拍賣,被人撿漏28萬元就競(jìng)得

天天話事
2026-03-22 10:28:34
2026-03-22 13:39:01
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12555文章數(shù) 142590關(guān)注度
往期回顧 全部

科技要聞

OpenAI開啟“人海戰(zhàn)術(shù)” 沖刺8000人規(guī)模

頭條要聞

女子舉報(bào)干部母親名下有巨額財(cái)產(chǎn)被判道歉 當(dāng)事人發(fā)聲

頭條要聞

女子舉報(bào)干部母親名下有巨額財(cái)產(chǎn)被判道歉 當(dāng)事人發(fā)聲

體育要聞

鄭欽文兩盤橫掃前美網(wǎng)冠軍 迎邁阿密站開門紅

娛樂要聞

《澎湖海戰(zhàn)》重啟宣傳 上映時(shí)間確定了

財(cái)經(jīng)要聞

睡夢(mèng)中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠(yuǎn)航家開啟預(yù)售

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
家居
公開課

數(shù)碼要聞

小米推出2026款REDMI電視新品:100英寸8799元

本地新聞

春色滿城關(guān)不?。B興春日頂流,這片櫻花海藏不住了

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

家居要聞

時(shí)空交織 空間綺夢(mèng)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版