国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型的無監(jiān)督強(qiáng)化學(xué)習(xí)能走多遠(yuǎn)?清華團(tuán)隊(duì)給出了系統(tǒng)性答案

0
分享至



強(qiáng)化學(xué)習(xí)的下一站:從監(jiān)督到無監(jiān)督

強(qiáng)化學(xué)習(xí)正在重塑大模型能力邊界。OpenAI o3、DeepSeek-R1、Gemini 3 等頂尖模型都在用大規(guī)模 RLVR(可驗(yàn)證獎勵強(qiáng)化學(xué)習(xí))刷新推理任務(wù)的天花板。但所有人都知道,純監(jiān)督式訓(xùn)練不可持續(xù)。人工標(biāo)注成本指數(shù)級增長,在專業(yè)領(lǐng)域獲取可靠標(biāo)注越來越難。當(dāng)模型能力逼近甚至超越人類專家時(shí),誰來給它打分?

從 TTRL 開始,無監(jiān)督 RLVR(Unsupervised RLVR)應(yīng)運(yùn)而生,讓模型在沒有人工標(biāo)注的情況下持續(xù)進(jìn)化。這不僅是降本增效的需求,更是通往超級智能的必經(jīng)之路。就像預(yù)訓(xùn)練用無標(biāo)注數(shù)據(jù) training 出了 GPT,無監(jiān)督 RLVR 能否延續(xù)這一奇跡?



  • 論文鏈接: https://arxiv.org/abs/2603.08660
  • GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
  • X Thread: https://x.com/HBX_hbx/status/2031406636930338828

清華團(tuán)隊(duì)一項(xiàng)最新研究,給這個看似美好的圖景畫出了第一條邊界。研究者系統(tǒng)解剖了無監(jiān)督 RLVR 的內(nèi)在機(jī)制,發(fā)現(xiàn)所有基于模型自身信號的內(nèi)在獎勵方法,無論多數(shù)投票、熵獎勵還是其他變體,都遵循著一條相似的軌跡:訓(xùn)練初期性能快速攀升,但到達(dá)某個臨界點(diǎn)后,開始不可逆地滑落。這不是某個方法的缺陷,而是機(jī)制的宿命:它們本質(zhì)上都在銳化模型已有的偏好,像一個回聲室,讓模型不斷重復(fù)自己最初相信的東西。如果初始自信恰好正確,效果驚人;如果錯配,坍塌只是時(shí)間問題。

但這不意味著內(nèi)在獎勵沒有價(jià)值。在小規(guī)模測試時(shí)訓(xùn)練中,它依然能穩(wěn)定提升性能,即使模型一開始全是錯的,也能在自我糾偏中進(jìn)化。更重要的是,研究者找到了一個 “預(yù)言指標(biāo)”,可以在大規(guī)模訓(xùn)練前預(yù)判模型的可訓(xùn)練性,無需跑完整條曲線。

當(dāng)內(nèi)在獎勵受限于模型自身的回聲時(shí),外部獎勵方法開始展現(xiàn)不同圖景,比如讓模型利用生成與驗(yàn)證的不對稱性來錨定獎勵。這類方法正在突破內(nèi)在獎勵的天花板,讓無監(jiān)督強(qiáng)化學(xué)習(xí)真正走向可擴(kuò)展。

通往超級智能的路上,我們需要的不是盲目相信模型可以自我進(jìn)化,而是知道什么時(shí)候該讓它傾聽自己的回聲,什么時(shí)候該把它推向真實(shí)世界的驗(yàn)證。



內(nèi)在獎勵方法:繁榮表象下的深層問題

過去一年,各種 “內(nèi)在獎勵” 方法密集涌現(xiàn)。從多數(shù)投票到基于模型自信度 / 熵的變體,它們利用模型內(nèi)在信號來構(gòu)造 proxy reward,訓(xùn)練前期性能飆升,甚至一度超過有監(jiān)督方法。

研究者將這些方法根據(jù)獎勵的來源歸納為兩類:一類基于 certainty,直接取模型在推理軌跡上的置信度指標(biāo)作為獎勵;另一類基于 ensemble,用多次 rollout 后的集成結(jié)果(如多數(shù)投票)來錨定正確。



雖然獎勵的來源是免費(fèi)的,但是代價(jià)卻是昂貴的。在早期訓(xùn)練性能飆升之后,繼續(xù)訓(xùn)練會觸發(fā)典型的 reward hacking:

  • proxy reward 還在持續(xù)上漲,真實(shí) performance 卻在崩潰
  • 模型越來越自信,但答案卻越來越離譜
  • 不同內(nèi)在獎勵方法在不同模型上表現(xiàn)天差地別

更關(guān)鍵的是,沒人說得清為什么 work,又為什么 fail。

我們做了什么:拆開黑箱,劃清邊界

我們不想只是 “提出新方法刷個點(diǎn)”,我們想回答那個沒人說清的問題:

無監(jiān)督 RLVR 的 scaling 上限在哪里?如果有上限,邊界在哪里?

為此,我們做了五件事:

  • 統(tǒng)一理論框架:把看似五花八門的內(nèi)在獎勵方法歸到同一個機(jī)制下,揭示它們殊途同歸的本質(zhì) —— 銳化模型初始分布,并給出理論收斂邊界。
  • 大規(guī)模實(shí)證:11 個模型 × 5 種內(nèi)在獎勵方法 × 超參數(shù)掃描,用數(shù)據(jù)說話,驗(yàn)證了 “先升后降” 不是偶然,而是普適規(guī)律。
  • 畫出安全區(qū):不是所有場景都會崩潰。我們發(fā)現(xiàn),在小規(guī)模 test-time training 中,內(nèi)在獎勵可以安全使用,即使初始全錯也能穩(wěn)定進(jìn)化。
  • 化陷阱為路標(biāo):rise and fall 不只是風(fēng)險(xiǎn),它本身就是信息。我們用它提煉出模型先驗(yàn)指示器,無需跑完整條 RL 曲線,就能預(yù)判一個基模是否適合強(qiáng)化學(xué)習(xí)。
  • 探路替代方案:既然內(nèi)在獎勵有天花板,我們就看向外部。初步探索基于生成 - 驗(yàn)證不對稱的外部獎勵方法,看它能否真正突破內(nèi)在獎勵的 scaling 極限。

四個關(guān)鍵發(fā)現(xiàn)

發(fā)現(xiàn)一:成敗取決于 "confidence-correctness" 對齊程度

我們建立了內(nèi)在獎勵方法的統(tǒng)一理論,揭示所有內(nèi)在獎勵方法的本質(zhì):銳化分布,即放大模型已有偏好,而非創(chuàng)造新知識。這個機(jī)制有個特性:

  • 如果模型初始傾向正確 → 銳化有效,性能提升
  • 如果模型初始傾向錯誤 → 銳化有害,加速崩潰

我們定義模型初始傾向(或者稱為模型先驗(yàn))為confidence-correctness 對齊程度,即當(dāng)我們僅提升模型的自一致性時(shí),有多大可能就能直接做對更多的題目。換句話說,一個先驗(yàn)比較強(qiáng)的模型,本身已經(jīng)掌握了解決問題的大部分知識,只是不夠自信以至于說不出正確的答案。

我們測試了 11 個模型、5 種方法、4 個常用的超參數(shù),結(jié)論似乎是殘酷的:崩潰不可避免,只是時(shí)間問題。即使最穩(wěn)定的配置也撐不過幾個 epoch。這說明可能不是工程問題,是數(shù)學(xué)必然。



左:成敗取決于置信度 - 正確性對齊程度;右:單條數(shù)據(jù)上置信度與正確性隨訓(xùn)練的演化

? 發(fā)現(xiàn)二:小場景里反而安全

Rise and fall 是宿命,但宿命有它的適用范圍。

當(dāng)訓(xùn)練數(shù)據(jù)足夠少,比如 Test-Time Training 這種特定領(lǐng)域場景,內(nèi)在獎勵方法反而展現(xiàn)出難得的穩(wěn)定。原因很樸素:只在少量樣本上優(yōu)化自信度,模型跑不了多遠(yuǎn)就到頭了。即便它在這些樣本上變得 “超級自信”,也難以引發(fā)全局的策略偏移,OOD 任務(wù)上的準(zhǔn)確率依然穩(wěn)穩(wěn)守住。

更有意思的是一個極端實(shí)驗(yàn):研究者刻意選了 32 條模型全錯的樣本作為訓(xùn)練集。也就是說,內(nèi)在獎勵給出的 proxy reward 從一開始就是錯的。結(jié)果呢?OOD 測試集上的性能依然在穩(wěn)定提升。

這說明,內(nèi)在獎勵不是在教模型 “什么是對的”,而是在教它 “更相信自己”。即使信錯了,這種自我強(qiáng)化也被牢牢鎖在局部,翻不起大浪。



左:小規(guī)模 TTT 穩(wěn)定提升,不崩潰;右:不同訓(xùn)練集規(guī)模下策略的 KL 偏移

發(fā)現(xiàn)三:判斷模型適不適合做 RL

Rise and fall 不只是風(fēng)險(xiǎn),它本身就是信息。

既然內(nèi)在獎勵的成敗取決于模型初始的 “置信度 - 正確性” 對齊程度,那能不能用這個對齊度,提前判斷一個基模是否適合做 RL?畢竟,跑一次大規(guī)模 RL 的成本太高了,而學(xué)界一直缺一個輕量級的預(yù)判指標(biāo)。

研究者找到了一把尺子:模型坍塌步數(shù)(Model Collapse Step),去測量一個模型在內(nèi)在獎勵訓(xùn)練下,能撐多少步才完全崩潰。邏輯很簡單,如果崩潰越晚,說明模型的初始先驗(yàn)越好,它本身就掌握更多正確知識,只是不夠自信;而這種先驗(yàn),恰恰是標(biāo)準(zhǔn)有監(jiān)督 RL 能夠放大的東西。換句話說,內(nèi)在獎勵的崩潰點(diǎn),就是模型 “RL 可訓(xùn)練性” 的天然指示器。

結(jié)果也印證了這一點(diǎn)。Qwen 這種公認(rèn) “適合 RL” 的模型系列,在內(nèi)在獎勵下?lián)蔚酶?。更有意思的是,這個指標(biāo)無需任何 ground truth 標(biāo)注,預(yù)測準(zhǔn)確率超過傳統(tǒng)的 pass@k。

把失敗變成路標(biāo),把昂貴的試錯變成輕量級的預(yù)判。



左:不同基模在無監(jiān)督內(nèi)在獎勵訓(xùn)練下的模型坍塌步數(shù);中:對應(yīng)基模有監(jiān)督 RLVR 的性能提升。無監(jiān)督內(nèi)在獎勵下崩潰越晚,有監(jiān)督 RLVR 之后效果越好,預(yù)測準(zhǔn)確率超過傳統(tǒng)的 pass@k。

發(fā)現(xiàn)四:外部獎勵才是 scalable 的方向

如果內(nèi)在獎勵注定有天花板,那路在何方?

問題的根源在于獎勵的來源。內(nèi)在獎勵方法用模型自己的置信度來訓(xùn)練模型自己,這就像一個閉環(huán)回聲室,獎勵信號永遠(yuǎn)受限于模型已知的東西。你無法用它教會模型真正不知道的知識。

但無監(jiān)督 RLVR 不止于此。我們把外部獎勵方法歸納為兩類:

  • 利用無標(biāo)注數(shù)據(jù):從海量語料中挖掘獎勵信號。數(shù)據(jù)越多,獎勵信號越豐富,不會因?yàn)槟P妥儚?qiáng)而枯竭。
  • 利用生成 - 驗(yàn)證不對稱性:讓模型自己生成答案,再用外部工具(編譯器、證明助手、模擬器)驗(yàn)證并提供環(huán)境反饋。這些驗(yàn)證器不會因?yàn)槟P妥儚?qiáng)而失效,它們的判斷永遠(yuǎn)客觀。

我們初步測試了自驗(yàn)證方法,結(jié)果展現(xiàn)出一條截然不同的曲線:持續(xù)改進(jìn),沒有崩潰。原因很樸素,獎勵不來自 “模型有多自信”,而來自 “答案能否通過客觀驗(yàn)證”。想出解法可能很難,但檢查對錯往往簡單;這種不對稱性,把模型的進(jìn)化錨定在真實(shí)世界的鐵律上,而不是自己的回聲里。

內(nèi)在獎勵追問 “你相信自己嗎”,外部獎勵追問 “這是真的嗎”。通往 scalable 的無監(jiān)督強(qiáng)化學(xué)習(xí),答案或許就在后者。



寫在最后:邊界之外

我們花了許多篇幅去描繪無監(jiān)督強(qiáng)化學(xué)習(xí)的邊界。但這張地圖的價(jià)值,從來不在于告訴你 "此路不通",而在于回答:在什么條件下,哪條路通

一個系統(tǒng)能否通過審視自己而變得更好,取決于它最初的判斷有多準(zhǔn)確。內(nèi)在獎勵方法失敗的原因,恰恰是它們成功的原因,都是同一個機(jī)制:自我強(qiáng)化。區(qū)別只在于,被強(qiáng)化的是真理還是偏見。

當(dāng)我們認(rèn)清內(nèi)在獎勵的宿命,才真正看清外部獎勵的星辰大海。通往 scalable 的無監(jiān)督強(qiáng)化學(xué)習(xí),需要的不是盲目相信模型可以自我進(jìn)化,而是知道什么時(shí)候該讓它傾聽自己的回聲,什么時(shí)候該把它推向真實(shí)世界的驗(yàn)證。

內(nèi)在與外部不是對立,而是工具箱里的不同工具。認(rèn)清邊界,不是為了止步,而是為了在邊界內(nèi)自由創(chuàng)造,在邊界外尋找新的可能

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女人偷吃后晚上跟丈夫同房是什么體驗(yàn)?這位46歲出軌女人說出答案

女人偷吃后晚上跟丈夫同房是什么體驗(yàn)?這位46歲出軌女人說出答案

混音情感
2026-03-26 14:25:07
TVB四屆視后主演新劇內(nèi)地點(diǎn)擊破億!宣傳遇突發(fā)狀況,淡定應(yīng)對顯風(fēng)范

TVB四屆視后主演新劇內(nèi)地點(diǎn)擊破億!宣傳遇突發(fā)狀況,淡定應(yīng)對顯風(fēng)范

TVB劇評社
2026-03-26 22:37:56
韓媒臆想:中國隊(duì)歡呼吧,國際足聯(lián)同意他們替補(bǔ)世界杯

韓媒臆想:中國隊(duì)歡呼吧,國際足聯(lián)同意他們替補(bǔ)世界杯

體壇風(fēng)之子
2026-03-26 07:00:06
三連冠后首度被主場球迷高呼下課,廣東男籃近八年唯一無換帥球隊(duì)

三連冠后首度被主場球迷高呼下課,廣東男籃近八年唯一無換帥球隊(duì)

狼叔評論
2026-03-26 18:02:06
伊朗發(fā)動第82波打擊

伊朗發(fā)動第82波打擊

閃電新聞
2026-03-26 18:32:07
伊朗伊斯蘭革命衛(wèi)隊(duì)責(zé)令一艘擅自通過霍爾木茲海峽船只返航

伊朗伊斯蘭革命衛(wèi)隊(duì)責(zé)令一艘擅自通過霍爾木茲海峽船只返航

財(cái)聯(lián)社
2026-03-25 02:02:18
福氣追著跑!三大生肖命中帶財(cái),2026一路順?biāo)熵?cái)運(yùn)旺到年底!

福氣追著跑!三大生肖命中帶財(cái),2026一路順?biāo)熵?cái)運(yùn)旺到年底!

毅談生肖
2026-03-26 11:31:20
原來他們是夫妻,《冬去春來》他又火了,不高不帥卻娶了漂亮老婆

原來他們是夫妻,《冬去春來》他又火了,不高不帥卻娶了漂亮老婆

趣味八卦
2026-03-25 17:34:15
油價(jià)降了!3月26日全國油價(jià)下調(diào)85元噸,4月7日油價(jià)將迎下跌!

油價(jià)降了!3月26日全國油價(jià)下調(diào)85元噸,4月7日油價(jià)將迎下跌!

沙雕小琳琳
2026-03-26 15:31:42
億萬國人破防了!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

億萬國人破防了!90歲院士平靜宣布,中國導(dǎo)彈從此沒有任何死角!

墨蘭史書
2026-03-05 07:10:08
收評:三大指數(shù)均跌超1% 兩市成交額跌破2萬億

收評:三大指數(shù)均跌超1% 兩市成交額跌破2萬億

財(cái)聯(lián)社
2026-03-26 15:02:09
別被“某音”前凸后翹的網(wǎng)紅騙了

別被“某音”前凸后翹的網(wǎng)紅騙了

健身S叔
2026-03-22 11:12:04
華裔女賭神趙蘇茜:曾橫掃美國賭場,一局贏下400萬,33歲遭焚尸

華裔女賭神趙蘇茜:曾橫掃美國賭場,一局贏下400萬,33歲遭焚尸

嘆為觀止易
2026-03-24 16:45:26
美軍官揭露“愛國者”慘敗原因:伊朗不講武德用了幾千架無人機(jī)!

美軍官揭露“愛國者”慘敗原因:伊朗不講武德用了幾千架無人機(jī)!

阿芒娛樂說
2026-03-27 00:16:22
國足決戰(zhàn)庫拉索 541陣型沖首勝 首發(fā)11人基本定9人 王鈺棟或替補(bǔ)

國足決戰(zhàn)庫拉索 541陣型沖首勝 首發(fā)11人基本定9人 王鈺棟或替補(bǔ)

男足的小球童
2026-03-26 17:47:27
51歲林志玲狀態(tài)炸上熱搜!歲月在她臉上按了暫停鍵?看完我服了

51歲林志玲狀態(tài)炸上熱搜!歲月在她臉上按了暫停鍵?看完我服了

時(shí)間巡查
2026-03-27 00:27:26
萊萬最后1屆世界杯懸了:波蘭0-1輸球就出局

萊萬最后1屆世界杯懸了:波蘭0-1輸球就出局

我是一個養(yǎng)蝦人
2026-03-27 01:05:31
為什么閑魚很多賣家只支持自提?網(wǎng)友:等你碰上到手刀的就老實(shí)了

為什么閑魚很多賣家只支持自提?網(wǎng)友:等你碰上到手刀的就老實(shí)了

另子維愛讀史
2026-03-22 22:34:48
她58歲仍是干凈之身,至今沒談過戀愛,除非是最愛不然不會獻(xiàn)身

她58歲仍是干凈之身,至今沒談過戀愛,除非是最愛不然不會獻(xiàn)身

小熊侃史
2026-02-15 07:30:10
不結(jié)婚怎么解決生理需求?33歲的女頂流楊紫,用六個字道破真相!

不結(jié)婚怎么解決生理需求?33歲的女頂流楊紫,用六個字道破真相!

丁丁鯉史紀(jì)
2026-03-08 16:53:30
2026-03-27 01:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

親子
房產(chǎn)
藝術(shù)
數(shù)碼
軍事航空

親子要聞

看看把孩子嚇得哈哈哈

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

藝術(shù)要聞

北京大興機(jī)場和青島膠東機(jī)場“撞臉”,長得像就是抄襲?

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版