網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

清華劉知遠團隊論文：在嚴格可控環(huán)境下重新回答「強化學習能否教會大模型新能力」丨ICLR 2026

2026-02-06 17:52:21　來源: AI科技評論

廣東舉報

分享至

強化學習改變了模型組織技能的方式，而非簡單提升指標。

作者丨鄭佳美

編輯丨岑峰

隨著大語言模型規(guī)模和預訓練強度的不斷提升，強化學習在后訓練階段的角色正在發(fā)生微妙變化。

一方面，它仍然是當前提升模型推理能力和多步?jīng)Q策表現(xiàn)的關鍵技術手段；另一方面，越來越多的經(jīng)驗性結果表明，在許多任務上，強化學習帶來的性能提升往往難以與“新能力的形成”直接劃等號。

尤其是在 pass@k 等評測指標下，強化學習模型與基礎模型之間的差距常常隨著采樣數(shù)的增加而迅速縮小，這使得一種觀點逐漸占據(jù)上風：強化學習可能更多是在對模型內部已有解法進行篩選和重排，而非真正拓展模型的能力邊界。

問題在于，這一判斷本身并不容易被驗證或反駁。自然語言任務中，技能邊界高度交織，模型在預訓練階段所接觸的數(shù)據(jù)分布幾乎無法完全排除，使得性能變化很難被明確歸因于能力結構的改變。在這樣的環(huán)境下，關于強化學習是否“教會模型新能力”的討論，往往停留在指標層面的解釋差異，而缺乏一個能夠清晰刻畫技能、控制任務難度并排除干擾因素的實驗基礎。

正是在這樣的背景下，清華大學的孫茂松、劉知遠團隊提出了《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》這項研究。

與其繼續(xù)在復雜的自然語言任務中爭論強化學習是否“有效”，研究團隊選擇退回到一個更可控的實驗環(huán)境，轉而聚焦一個更基礎也更根本的問題：強化學習究竟能否教會模型此前并不具備的新能力？如果可以，這些新能力具體是什么，在什么條件下才能被學習到，又是否具有跨任務的泛化性。

在這一問題框架下，研究并未將注意力放在某一具體性能指標的提升上，而是假設模型已經(jīng)掌握了一組基本的原子技能，進一步考察強化學習是否能夠推動模型形成新的能力結構，使其學會系統(tǒng)性地組合這些技能，從而解決更高難度、甚至分布外任務中的問題。正是出于對這些問題的系統(tǒng)性考察需求，研究者才設計了這一高度可控的實驗環(huán)境。

論文地址：https://arxiv.org/pdf/2509.25123

01
當語言模型開始真正「會組合」

研究的實驗結果表明，在合適的激勵條件下，強化學習能夠使大語言模型獲得此前并不存在的新能力，而不僅僅是對已有答案進行重排。

這種新能力具體體現(xiàn)為一種系統(tǒng)性的技能組合能力，即模型能夠將已經(jīng)掌握的原子技能按照結構化方式進行組合，并將這一組合策略泛化到更高難度的問題，甚至遷移到完全不同的任務中。

研究中通過設計 20 余個“非常規(guī)”字符串操作函數(shù)，將「函數(shù)結果預測」作為任務。為徹底排除預訓練語料污染及模型語義聯(lián)想（即根據(jù)函數(shù)名盲猜代碼邏輯）的影響，所有函數(shù)均采用隨機命名的無意義字符串。研究核心在于對比以下兩種能力：

原子能力：指模型在不依賴 Prompt 中函數(shù)定義的前提下，準確預測單一函數(shù)f(x)輸出的能力。

組合能力：指模型預測多層復合函數(shù)（如 f(g(x))）執(zhí)行結果的能力。

由于函數(shù)隨機命名，沒有模型具備該任務的原子能力。因此為了單獨訓練模型在該任務上的原子能力，在數(shù)據(jù)收集階段，研究者首先在 Prompt 中提供明確的函數(shù)定義以及單函數(shù)的輸出預測題目，獲取模型生成的思維鏈與預測結果，且僅保留正確樣本。

隨后在 SFT（監(jiān)督微調）階段，研究者移除了 Prompt 中的函數(shù)定義，讓模型學習原本的思維鏈與預測結果。通過這種訓練方式，模型被強制將函數(shù)邏輯內化至參數(shù)空間，從而在不查閱定義的情況下掌握“原子能力”，為后續(xù)評估復雜的“組合能力”奠定基礎。

研究人員在對擁有了原子能力的SFT模型進行強化學習訓練，通過改變強化學習階段提供的題目難度（僅單函數(shù)、僅二層嵌套函數(shù)、單函數(shù)與二層嵌套函數(shù)混合），觀察模型在三層、四層乃至更深層次的組合問題上的測試性能（這些問題在訓練中從未出現(xiàn)過，且所涉及的原子函數(shù)本身也未在強化學習階段見過），研究人員發(fā)現(xiàn)僅在單函數(shù)上進行強化學習的模型，在三層及以上組合任務上的準確率幾乎為零，而一旦訓練數(shù)據(jù)中包含最基礎的二層嵌套函數(shù)，模型在三層組合上的準確率可提升至約 30%，在四層組合上仍保持約 15%，并在更高層級上持續(xù)顯著優(yōu)于隨機水平。

這表明模型并非依賴偶然猜測或記憶模板，而是學會了一種可遞歸使用的組合策略；如果強化學習僅僅激活或重排已有推理模式，這種隨組合深度增加仍能發(fā)揮作用的行為是難以解釋的。

進一步的對照實驗顯示，僅提供組合訓練數(shù)據(jù)并不足以產(chǎn)生這種能力。研究團隊在完全相同的二層組合數(shù)據(jù)上，用監(jiān)督學習替代強化學習進行訓練，發(fā)現(xiàn)這個模型在三層組合任務上的準確率始終處于極低水平，甚至在同一難度但函數(shù)不同的二層組合測試中也表現(xiàn)不穩(wěn)定。

相比之下，強化學習模型不僅能夠穩(wěn)定解決二層組合問題，還能系統(tǒng)性地外推到更深層的組合任務，說明真正起關鍵作用的是強化學習所引入的結果驅動、探索機制與策略更新過程，它們共同促使模型形成新的推理結構。

研究還通過跨任務實驗驗證了這種組合能力的通用性：如果模型在A、B任務上學習了原子能力，僅在A任務上進行合適的組合能力強化學習，模型就能將該能力泛化至B任務上。在SFT階段，除了先前提及的函數(shù)輸出預測任務，研究人員混入了另一個任務，Countdown任務的SFT數(shù)據(jù)，以使得模型同樣具備Countdown任務的原子能力。而在強化學習階段，仍然只在包含二層嵌套函數(shù)的輸出預測任務上進行強化學習。

測試結果顯示，盡管未在Countdown任務上進行強化學習，僅在復合函數(shù)輸出預測上進行強化學習后的模型在多步Countdown任務上的表現(xiàn)也取得了明顯提升。這表明強化學習獲得的并非特定于字符串任務的技巧，而是一種能夠組織和調度已有原子技能的通用能力，即一種元技能。然而，這一遷移也是有條件的，在其他任務上學到的組合能力并不能泛化到模型不具備原子能力的任務上，即SFT階段如果未學習Countdown的原子能力，模型在強化學習后無法完成Countdown任務。

針對“強化學習只是將 pass@k 壓縮為 pass@1”的觀點，研究人員進一步分析了不同難度任務下的表現(xiàn)差異，發(fā)現(xiàn)這個現(xiàn)象主要出現(xiàn)在簡單問題中。在低難度任務上，基礎模型本就能夠通過多次采樣得到正確答案，強化學習的作用確實主要體現(xiàn)為重排。

而在高難度組合任務中，基礎模型即使在極大采樣預算下仍表現(xiàn)不佳，強化學習模型的優(yōu)勢卻隨著采樣數(shù)增加而不斷擴大。研究團隊據(jù)此指出，這種“強化學習只是重排”的結論在一定程度上是一種評測假象。

最后，錯誤類型分析表明，強化學習帶來的變化并不僅體現(xiàn)在準確率上，而是體現(xiàn)在模型行為結構的根本轉變上。基礎模型、監(jiān)督學習模型以及僅進行原子強化學習訓練的模型，其主要錯誤來源于忽略組合結構或誤解嵌套關系。

而經(jīng)過組合任務強化學習訓練的模型，其錯誤更多來自原子步驟的執(zhí)行失誤，而非對整體組合結構的誤解。這說明強化學習首先教會模型正確理解和執(zhí)行組合結構，即使失敗，也失敗在更低層級，從而體現(xiàn)出一種認知層面的變化。

02
從模糊能力到可量化技能

為了保證研究結論具有高度可信性，研究團隊在實驗設計上進行了近乎教科書級的嚴格控制。

研究人員沒有直接采用自然語言任務，而是選擇了字符串變換函數(shù)作為研究載體，主要原因在于自然語言任務中技能邊界往往模糊不清，模型表現(xiàn)容易受到預訓練語料的潛在污染，同時也難以明確判斷模型究竟學會了何種能力。

相比之下，字符串變換函數(shù)具有行為完全確定、復雜度可以被嚴格控制以及能夠人為構造模型在預訓練階段幾乎不可能接觸過的任務等優(yōu)勢，從而為分析強化學習是否產(chǎn)生新能力提供了一個干凈且可控的實驗環(huán)境。

在這一框架下，研究人員對“技能”給出了清晰而可操作的定義。原子技能被定義為在給定輸入的情況下，模型能夠正確預測單個函數(shù)作用后的輸出，而組合技能則指模型在面對嵌套函數(shù)時，能夠正確推斷多個函數(shù)順序作用后的最終結果。技能難度由函數(shù)嵌套的深度直接刻畫，這使得“新技能”不再是抽象或主觀的概念，而成為可以被精確檢驗和逐層分析的研究對象。

在訓練流程上，研究團隊采用了兩階段設計，刻意將“掌握單個技能”和“學會組合技能”這兩個過程分離。第一階段使用監(jiān)督學習訓練模型，使其充分掌握每一個字符串變換函數(shù)的具體行為，這一階段僅進行一次，用于建立穩(wěn)定的原子技能基礎。

第二階段則完全隱藏函數(shù)定義，僅向模型提供函數(shù)名稱和輸入字符串，從而迫使模型要么真正理解并正確組合已掌握的原子技能，要么在任務中失敗。在這一階段中，研究人員系統(tǒng)比較了監(jiān)督學習和強化學習兩種訓練方式，其中強化學習只提供基于最終結果正確與否的獎勵信號，用以檢驗不同訓練機制對組合能力學習的影響。

在評測方法上，研究團隊沒有依賴單一的整體指標，而是從多個維度對模型能力進行分析。他們通過測試新函數(shù)的組合能力排除了簡單記憶的可能，通過更深層次的函數(shù)嵌套考察模型是否形成了可泛化的組合策略，并通過跨任務遷移實驗檢驗模型是否僅對特定任務產(chǎn)生適應。

結合不同難度下的準確率、不同采樣預算下的 pass@k 表現(xiàn)以及錯誤類型的細致分析，研究人員構建了一條完整而自洽的證據(jù)鏈，從多個角度支撐了其關于強化學習技能獲取機制的結論。

03
關于 RL 價值之爭，一個更成熟的回答

這項研究的意義遠不止于在字符串任務上取得了具體實驗結果，更在于其對當前大語言模型強化學習研究中的核心爭論給出了實質性回應。

圍繞“強化學習是否能夠教會大語言模型新的能力”這一問題，研究團隊并未給出簡單的肯定或否定答案，而是提出了一個條件化結論，即強化學習確實能夠促使模型獲得新的能力，但前提在于模型已經(jīng)具備完成任務所需的原子技能，同時訓練任務的設計能夠真實地激勵模型去使用并發(fā)展這種新能力。這種表述超越了以往非黑即白的討論方式，使相關爭論在概念上更加精細和成熟。

在此基礎上，研究還為大語言模型的訓練流程提供了一種具有啟發(fā)性的技能分工范式。研究人員隱含提出，預訓練或監(jiān)督微調階段的核心作用在于幫助模型掌握基本操作和原子能力，而強化學習更適合用于學習如何組織和調度這些已有能力，從而形成更高層次的推理和決策結構。這一訓練思路與人類技能學習理論高度一致，也為當前圍繞強化學習價值的分歧提供了一個清晰的實踐方向。

此外，這項研究首次使跨任務泛化這一長期存在但缺乏解釋的問題變得更加可理解。研究結果表明，模型在不同任務之間表現(xiàn)提升的根本原因并非知識層面的直接遷移，而是技能結構層面的遷移，即模型學會了一種更通用的能力組織方式，從而能夠在新的任務中更有效地利用已有的原子技能。這一視角為理解多種先進大語言模型在不同領域中展現(xiàn)出的泛化能力提供了重要的分析框架。

04
強大背景的研究團隊

這篇論文的一作是袁立凡，目前為伊利諾伊大學香檳分校博士研究生，師從彭昊教授。在此之前，他曾在清華大學自然語言處理實驗室開展研究工作，與劉知遠教授等合作，積累了扎實的大規(guī)模語言模型研究基礎，并與季姮教授團隊保持學術合作。

其研究興趣主要集中于大語言模型的反饋學習與強化學習、可擴展數(shù)據(jù)合成方法以及可自我進化的人工智能系統(tǒng)設計，致力于通過高質量反饋和環(huán)境交互提升模型的推理能力、對齊性與可靠性。

在相關方向上，他作為作者在 ICLR、ICML 等國際頂級會議及 arXiv 上發(fā)表多項研究成果，提出并參與構建了 UltraFeedback、Eurus 等具有影響力的數(shù)據(jù)集與方法，對推動大模型訓練范式和反饋增強學習研究產(chǎn)生了積極影響。

參考鏈接：https://lifan-yuan.github.io/

論文的另一位一作為陳緯澤，目前在清華大學自然語言處理實驗室攻讀計算機科學與技術博士，師從劉知遠教授。

陳緯澤的主要研究興趣涵蓋大規(guī)模語言模型、智能體系統(tǒng)、多智能體協(xié)作學習以及強化學習等領域，尤其關注如何提升語言模型在復雜任務推理、協(xié)作與可推廣性方面的能力。

他在構建增強型 LLM 基礎架構、多智能體系統(tǒng)優(yōu)化、推理能力強化學習等方向取得了一系列重要成果，并積極參與多項領先的研究項目，在推動語言模型性能效率與泛化能力提升方面做出了貢獻。

作為主要作者或共同作者，陳緯澤在自然語言處理與人工智能領域的頂級會議與期刊（如ICLR、NeurIPS 等）上發(fā)表了多篇具有影響力的論文，他的研究成果廣泛被引用，涉及強化學習優(yōu)化、多智能體協(xié)作策略等前沿課題，為推動 LLM 在復雜協(xié)作與學習任務中的廣泛應用提供了理論與實踐支持。

參考鏈接：https://weizechen.com/

論文的通訊作者為劉知遠，他是清華大學計算機科學與技術系教授、博士生導師，兼任中國中文信息學會理事、社會媒體處理專委會副主任等學術職務。

劉知遠分別于 2006 年、 2011 年于清華大學計算機科學與技術系獲得學士、博士學位，并在清華大學開展博士后研究，后留校任教。其主要研究方向包括大模型技術、自然語言處理、知識圖譜與語義計算以及社會計算等核心領域。

劉知遠在國際主流學術會議和期刊（如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI）上發(fā)表了200 余篇論文，其 Google Scholar 引用量超過7萬次，反映出廣泛的學術影響力。

他在多項國家級科研項目中擔任負責人或主要參與者，曾獲教育部自然科學一等獎、中國中文信息學會錢偉長中文信息處理科學技術獎一等獎、世界互聯(lián)網(wǎng)領先科技成果獎、北京市青年教學名師獎等多項科研獎勵，并入選包括國家青年人才計劃、Elsevier 中國高被引學者、《麻省理工科技評論》中國區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”及中國科協(xié)青年人才托舉工程等人才項目。

參考地址：https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

另一位通訊作者為丁寧，他是清華大學電子工程系的助理教授、博士生導師，研究橫跨自然語言處理、機器學習與人工智能等核心領域。

他的主要研究方向是通用智能與推理能力的理論、算法和系統(tǒng)設計，特別關注如何通過強化學習、反饋機制和可擴展學習方法提升大規(guī)模語言模型和智能系統(tǒng)的推理能力與探索學習能力，同時探索這些技術在科學發(fā)現(xiàn)和復雜任務中的應用。

在學術貢獻上，丁寧已在諸如Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL等國際頂級會議和期刊上發(fā)表多篇高引用論文，其谷歌學術引用量超過一萬次。

丁寧曾入選中國科協(xié)青年人才托舉工程，并榮獲包括 ACL 最佳系統(tǒng)演示論文獎、世界人工智能大會青年優(yōu)秀論文獎、中國算力大會最佳學術論文獎、清華大學優(yōu)秀博士論文獎等多項重要榮譽。

參考鏈接：https://www.stingning.cn

第三位通訊作者為崔淦渠，目前在上海人工智能實驗室擔任青年科學家，并于清華大學自然語言處理實驗室獲得計算機科學與技術博士學位，導師為劉知遠教授。

崔淦渠的研究方向主要包括大規(guī)模語言模型對齊、強化學習，同時他也早期從事圖神經(jīng)網(wǎng)絡及其在圖表示學習中的應用研究。

他還積極推進開源項目和工具的建設，并因在語言模型強化學習與對齊領域的突出貢獻獲得包括 WAIC 云帆新星獎、國家自然科學基金資助與清華優(yōu)秀博士論文獎等多項榮譽。

參考鏈接：https://cgq15.github.io

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.