国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1.5B模型新SOTA,RL訓練新解法打破「簡單題過擬合、難題學不動」

0
分享至



QuestA(問題增強)引入了一種方法,用于提升強化學習中的推理能力。通過在訓練過程中注入部分解題提示,QuestA 實現(xiàn)兩項重大成果:

Pass@1 的 SOTA 性能:在 1.5B 模型上實現(xiàn)了最先進的結(jié)果,甚至在關(guān)鍵基準測試中超越了早期的 32B 模型。
提升 Pass@k:在提高 Pass@1 的同時,QuestA 不會降低 Pass@k 性能 —— 事實上,它通過讓模型在多次嘗試中進行更有效的推理,從而提升了模型能力。

這一在強化學習訓練中的發(fā)現(xiàn),為開發(fā)具有更強推理能力的模型打開了大門。QuestA 使 RL 能夠高效處理不同難度的任務(wù),消除了通常在簡單與困難問題之間存在的權(quán)衡。

兩難:簡單任務(wù)導致熵坍縮 vs. 難任務(wù)減緩學習效率

多年來,RL 訓練一直存在一個需要思考的數(shù)據(jù)平衡問題:簡單任務(wù)導致模型過度自信,而難任務(wù)提高推理能力,但由于樣本效率低下,學習速度變慢。

  • 簡單任務(wù)傾向于使模型過擬合,使其在特定、更簡單的問題上非常準確。然而,這導致模型變得過度自信,從而妨礙了其泛化能力,難以解決更復(fù)雜的任務(wù)。
  • 難任務(wù)提高了模型的推理能力,但具有低樣本效率,這意味著它需要更長的時間來學習和進展。稀疏的獎勵和任務(wù)的難度使得在困難問題上的訓練變得緩慢,限制了整體的學習速度。

這個權(quán)衡一直是 RL 模型的挑戰(zhàn),近日清華大學、上海期智研究院、Amazon 和斯坦福大學等機構(gòu)提出的QuestA 解決了這個問題。通過在訓練困難任務(wù)時引入部分解決方案提示,QuestA 幫助模型更快地學習,同時不犧牲在簡單任務(wù)上的表現(xiàn)。這確保了模型能夠從簡單任務(wù)和難任務(wù)中獲益,提升其推理能力,同時避免過擬合或?qū)W習緩慢。



  • 論文標題:QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
  • Arxiv 論文地址:https://www.arxiv.org/abs/2507.13266
  • HF 模型地址:https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
  • GitHub 地址:https://github.com/foreverlasting1202/QuestA

研究者得出的關(guān)鍵結(jié)果是:強化學習可以提升模型能力。具體而言,QuestA 取得了以下顯著成果:

  1. Pass@1 改進:QuestA 顯著提高了Pass@1。研究者在使用 1.5B 參數(shù)模型的數(shù)學基準測試中達到了新的最先進結(jié)果:在 AIME24 上達到 72.50%(+10.73%),在 AIME25 上達到 62.29%(+12.79%),在 HMMT25 上達到 41.67%(+10.11%),甚至超越了DeepSeek-R1-Distill-32B,盡管它是一個更小的模型。這表明 QuestA 顯著提高了模型在平時使用中的表現(xiàn)。
  2. Pass@k 改進:與傳統(tǒng)的 RL 方法不同,QuestA 還提高了Pass@k,展示了模型的容量隨著 RL 訓練的進行而增加。這是一個關(guān)鍵的區(qū)別,因為它表明 QuestA 使得模型能夠持續(xù)進行探索和推理,而不像其他方法,在優(yōu)化Pass@1時Pass@k性能會下降。

X上有人評價稱,QuestA 是一種巧妙的數(shù)據(jù)增強方法,不僅加速了 pass@1 的改進,還保持/增強了pass@k,并且沒有多樣性損失。這是 1.5B 推理模型的新SOTA。



QuestA 方法:提示即所需

QuestA 通過「數(shù)據(jù)增強 + 迭代課程學習」的組合設(shè)計,實現(xiàn)對 RL 訓練的高效改進,核心邏輯如下:

  1. 聚焦高難度問題:采用兩階段過濾流程篩選訓練數(shù)據(jù) —— 首先以 DeepSeek-R1-Distill-1.5B 為篩選模型,從 OpenR1-Math-220K 數(shù)據(jù)集中選出僅 0-1 次正確(8 次采樣)的 26K 高難度樣本;再對增強后的提示詞進行二次篩選,保留模型仍難以正確解答(0-4 次正確)的樣本,最終聚焦不超過 10K 的核心困難任務(wù),確保訓練資源用在能力突破點上。
  2. 動態(tài)調(diào)整提示比例:為避免模型依賴提示,QuestA 設(shè)計迭代式課程學習 —— 先以 50% 比例的部分解決方案作為提示(p=50%)訓練至性能飽和,再將提示比例降至 25%(p=25%)繼續(xù)訓練,逐步引導模型從「依賴提示」過渡到 “自主推理”,實現(xiàn)能力的真實遷移。
  3. 輕量化集成 RL:QuestA 無需修改 RL 算法核心或獎勵函數(shù),僅通過替換訓練數(shù)據(jù)(用增強提示詞替代原始提示詞)即可集成至現(xiàn)有 RL pipeline(如 GRPO、DAPO),具備「即插即用」的靈活性。



QuestA 通過在數(shù)據(jù)集中每個原始問題前添加部分解決方案提示,對原始問題進行增強處理。



圖 1: QuestA 是一種數(shù)據(jù)增強方法,通過注入部分解決方案,為強化學習(RL)在復(fù)雜推理問題上的訓練提供有效支撐。研究者基于 OpenR1 中的高難度樣本,構(gòu)建了 2.6 萬個高質(zhì)量增強提示詞(augmented prompts),并采用 32K 上下文長度的強化學習對模型進行微調(diào)。將該方法應(yīng)用于 Nemotron-1.5B 模型后,QuestA 帶來了顯著的性能提升 —— 在所有數(shù)學基準測試中,均為 15 億參數(shù)模型創(chuàng)下了新的當前最優(yōu)(SOTA)結(jié)果。

訓練細節(jié)

研究者使用AReaLite框架進行 RL 訓練。

具體而言,他們應(yīng)用了 GRPO 算法,并結(jié)合了來自 DAPO 的動態(tài)過濾技術(shù),以排除訓練中顯而易見正確或錯誤的樣本。這一優(yōu)化幫助聚焦于最難的問題,提升了訓練效率。

評估

研究者在競爭級數(shù)學基準測試上評估了 Pass@1(32 個樣本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中達到了最先進水平,并在多個基準測試中匹配或超過了DeepSeek-R1-Distill-32B,同時其模型體積小于20×。



核心差異點:實現(xiàn)真實能力提升,而非熵坍縮

實驗結(jié)果表明,QuestA 方法在提升模型推理能力的同時,并未損害其多樣性。如圖 2 所示,即便在問題難度持續(xù)增加的情況下,Pass@k曲線仍呈現(xiàn)出穩(wěn)定的上升趨勢。



圖 2:研究者比較了使用 RLVR 訓練的模型在有和沒有 QuestA 的情況下的 pass@k 曲線。作為對照實驗,我們使用易難不同的提示進行 RL 訓練。標準 RL 在易提示下(紅色)隨著 k 值增大,pass@k 顯著下降,而與基準模型(藍色)相比,表現(xiàn)較差。在難提示下訓練(綠色)能夠提高 pass@k,但代價是訓練時間顯著增加。這激發(fā)了他們開發(fā) QuestA 的動機,QuestA 通過為困難問題提供框架,提升了訓練效率,并且在所有 k 值下提供了更強的結(jié)果:RL+QuestA 模型(橙色)在所有 k 值上都優(yōu)于標準 RL(紅色),同時在較大的 k 值下相較于使用困難提示訓練的 RL 模型,性能也保持或有所提升。

消融實驗

QuestA 同時也在不同的基礎(chǔ)模型和不同的數(shù)據(jù)集進行了實驗,都讓模型得到了相應(yīng)幅度的提升,這證明了 QuestA 這個方法的泛用性。具體細節(jié)參考 Arxiv 文章。

結(jié)論:QuestA 方法彰顯強化學習在推理任務(wù)中的更大應(yīng)用潛力

QuestA 方法的研究結(jié)果表明,強化學習確實能夠助力模型習得新能力。通過同時提升Pass@1與Pass@k指標的性能表現(xiàn),該方法證實:強化學習可在不犧牲效率與泛化能力的前提下,持續(xù)拓展模型的能力邊界。

此外,QuestA 方法有效消除了傳統(tǒng)訓練中簡單任務(wù)與復(fù)雜任務(wù)之間的權(quán)衡矛盾,使模型能夠在涵蓋廣泛問題類型的場景下,實現(xiàn)推理能力的極大提升。


這一技術(shù)突破對強化學習未來的應(yīng)用發(fā)展具有深遠意義。依托 QuestA 方法,我們期待基于強化學習構(gòu)建的模型如今可處理更多復(fù)雜且多樣的推理任務(wù),其應(yīng)用場景已從數(shù)學問題求解延伸至邏輯推理及創(chuàng)造性思維等領(lǐng)域。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
警方查處一涉黃洗浴場,抓獲賣淫嫖娼人員14人,已對涉嫌組織賣淫者立案偵查

警方查處一涉黃洗浴場,抓獲賣淫嫖娼人員14人,已對涉嫌組織賣淫者立案偵查

觀威海
2025-12-19 14:34:18
剎車失靈時速115狂奔490公里司機發(fā)聲:4個半小時高度緊張,害怕車多有急彎,油盡下車后渾身發(fā)抖無法說話

剎車失靈時速115狂奔490公里司機發(fā)聲:4個半小時高度緊張,害怕車多有急彎,油盡下車后渾身發(fā)抖無法說話

極目新聞
2025-12-19 13:12:07
量子科技上市公司46歲董事長,緣何在辦公室內(nèi)猝然離世

量子科技上市公司46歲董事長,緣何在辦公室內(nèi)猝然離世

穿透
2025-12-19 13:07:34
邢自強:如果房地產(chǎn)不實現(xiàn)止跌回穩(wěn),很難打破消費疲軟等問題

邢自強:如果房地產(chǎn)不實現(xiàn)止跌回穩(wěn),很難打破消費疲軟等問題

新浪財經(jīng)
2025-12-18 15:48:03
大瓜!年輕少婦出軌被當場抓奸,丈夫唯唯諾諾,視頻曝光惹怒網(wǎng)友

大瓜!年輕少婦出軌被當場抓奸,丈夫唯唯諾諾,視頻曝光惹怒網(wǎng)友

烏娛子醬
2025-12-19 14:26:23
柬埔寨再次故技重施,眼看打不過泰國,隨即公布阿努廷的私人照片

柬埔寨再次故技重施,眼看打不過泰國,隨即公布阿努廷的私人照片

低調(diào)看天下
2025-12-19 12:11:34
馬文峰任廣東省外事辦公室主任

馬文峰任廣東省外事辦公室主任

中國經(jīng)濟網(wǎng)
2025-12-19 14:20:06
新華社發(fā)布《江南春》跟蹤去向,南博律師:龐家人要討回畫不占理

新華社發(fā)布《江南春》跟蹤去向,南博律師:龐家人要討回畫不占理

蜜桔娛樂
2025-12-19 15:48:42
深圳最新通報:禁言

深圳最新通報:禁言

中國日報網(wǎng)
2025-12-19 18:33:04
突發(fā)!湛江帥哥何聰宇去世,年僅20歲,常吃雌激素,知情人曝細節(jié)

突發(fā)!湛江帥哥何聰宇去世,年僅20歲,常吃雌激素,知情人曝細節(jié)

裕豐娛間說
2025-12-19 08:45:53
稅務(wù)局回應(yīng)大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經(jīng)過正規(guī)審批,價格比市場便宜

稅務(wù)局回應(yīng)大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經(jīng)過正規(guī)審批,價格比市場便宜

觀威海
2025-12-18 10:18:04
南京導航,為何集體失靈?真相過于炸裂……

南京導航,為何集體失靈?真相過于炸裂……

熱點菌本君
2025-12-19 15:22:56
楊穎實慘越混越差,化大濃妝參加上海網(wǎng)紅聚會,合照都在最角落里

楊穎實慘越混越差,化大濃妝參加上海網(wǎng)紅聚會,合照都在最角落里

小娛樂悠悠
2025-12-18 15:05:19
1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

1979年,楊顯東參觀完大寨后怒批陳永貴:他騙全國人民,騙黨中央

帝哥說史
2025-12-19 06:25:03
突發(fā)心梗、腦梗時,第一時間不是打120,很多人可能做錯了

突發(fā)心梗、腦梗時,第一時間不是打120,很多人可能做錯了

健康科普365
2025-12-19 09:02:26
炸裂!26歲女子猥褻12歲侄子,丈夫披露事發(fā)細節(jié),鑒定結(jié)果引質(zhì)疑

炸裂!26歲女子猥褻12歲侄子,丈夫披露事發(fā)細節(jié),鑒定結(jié)果引質(zhì)疑

派大星紀錄片
2025-12-19 11:47:05
國務(wù)院安委會辦公室對21個市級政府開展安全生產(chǎn)約談

國務(wù)院安委會辦公室對21個市級政府開展安全生產(chǎn)約談

界面新聞
2025-12-18 14:41:59
曝TikTok交易達成,美國和字節(jié)跳動各掌握一家公司

曝TikTok交易達成,美國和字節(jié)跳動各掌握一家公司

爆角追蹤
2025-12-19 18:18:51
細思極恐!南京全城導航集體失靈,揭開高德、百度地圖背后的真相

細思極恐!南京全城導航集體失靈,揭開高德、百度地圖背后的真相

火山詩話
2025-12-19 06:18:20
中學生務(wù)工時在公司宿舍被打致死,施暴者無刑責能力 父母起訴多方索賠144萬,一審判了

中學生務(wù)工時在公司宿舍被打致死,施暴者無刑責能力 父母起訴多方索賠144萬,一審判了

紅星新聞
2025-12-19 17:06:17
2025-12-19 19:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領(lǐng)土問題的意愿

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領(lǐng)土問題的意愿

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

家居
本地
數(shù)碼
親子
軍事航空

家居要聞

高端私宅 理想隱居圣地

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

數(shù)碼要聞

DDR5暴漲:玩家呼吁AMD銳龍7 5800X3D回歸!你同意嗎

親子要聞

寶藍和姐姐蜘蛛俠一起去游樂園拍照吃零食,玩的太開心了!

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進入關(guān)懷版