華人團(tuán)隊提出智能體自我進(jìn)化框架，無需人類標(biāo)注，大幅提升通用推理能力

2025-11-26 18:22:06　來源: 人工智能學(xué)家

北京舉報

分享至

來源：DeepTech深科技

運(yùn)營/排版：何晨龍

大語言模型可以從互聯(lián)網(wǎng)上海量的文本中學(xué)習(xí)，但當(dāng)這些模型需要進(jìn)化成能夠自主行動的智能體（Agent）時，數(shù)據(jù)問題變得完全不同。Agent 需要的不是簡單的文本序列，而是包含“觀察-行動-反饋”完整循環(huán)的交互軌跡（trajectory）數(shù)據(jù)。

相關(guān)研究顯示，這類數(shù)據(jù)的收集正成為 Agent 開發(fā)的最大瓶頸：人工標(biāo)注成本高昂，合成數(shù)據(jù)質(zhì)量難以保證，而記錄現(xiàn)有 Agent 的軌跡又受限于其能力上限。

雖然已有一些自我進(jìn)化（self-evolution）方法試圖讓模型自己生成訓(xùn)練數(shù)據(jù)，但這些方法普遍面臨兩個困境：模型只能生成不超出自身知識范圍的任務(wù)，以及僅支持單輪交互而無法處理復(fù)雜的多步推理。

面對這個困境，近期，由北卡羅來納大學(xué)教堂山分校（UNC）助理教授姚驊修領(lǐng)導(dǎo)的聯(lián)合團(tuán)隊提出了 Agent0 框架，試圖通過引入外部工具和多輪交互來打破這些局限。

圖丨相關(guān)論文（來源：arXiv）

Agent0 的核心是一個雙智能體協(xié)同進(jìn)化系統(tǒng)。系統(tǒng)包含兩個從同一基礎(chǔ)模型初始化的 Agent：課程智能體（Curriculum Agent）負(fù)責(zé)生成問題，執(zhí)行智能體（Executor Agent）則嘗試解決這些問題。

但課程智能體不是隨意出題，而是通過強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）優(yōu)化，專門生成那些恰好處于執(zhí)行智能體能力邊界的任務(wù)。

這個邊界如何界定？研究團(tuán)隊用了一個巧妙的方法：讓執(zhí)行智能體對同一問題生成多個答案，如果答案不一致，說明這個問題正好在它能力的邊緣。

他們將這種不確定性量化為一個獎勵函數(shù)，當(dāng)執(zhí)行智能體的答案分布接近 50% 一致時，也就是最糾結(jié)的時候，獎勵最高。這種設(shè)計確保了生成的任務(wù)既不會太簡單讓模型學(xué)不到東西，也不會難到完全無法入手。

圖丨Agent0 自主共演化框架。（來源：arXiv）

但這樣還不夠。如果只靠模型自己的知識生成和解決問題，很快就會陷入停滯，模型不可能憑空創(chuàng)造出超出自己理解范圍的任務(wù)。研究團(tuán)隊的方法是引入外部工具，具體來說是一個 Python 代碼解釋器。

這個工具可以執(zhí)行代碼、進(jìn)行復(fù)雜計算、驗證數(shù)學(xué)結(jié)果。不僅執(zhí)行智能體可以使用這個工具，課程智能體也配備了同樣的能力。

這就形成了一個獨(dú)特的協(xié)同進(jìn)化機(jī)制。執(zhí)行智能體有了代碼解釋器后，可以解決需要復(fù)雜計算的問題，能力邊界向外擴(kuò)展。這時課程智能體發(fā)現(xiàn)，原來能難倒執(zhí)行智能體的問題現(xiàn)在變簡單了，不確定性獎勵下降。

為了維持獎勵水平，課程智能體被迫生成更復(fù)雜的、需要更多工具調(diào)用的問題。研究團(tuán)隊在獎勵函數(shù)中特意加入了工具使用頻率的獎勵項，進(jìn)一步推動這個螺旋上升的過程。

圖丨Agent0 的協(xié)同進(jìn)化循環(huán)（來源：arXiv）

實(shí)驗數(shù)據(jù)驗證了這個機(jī)制的有效性。在三輪迭代中，課程智能體生成的任務(wù)里平均工具調(diào)用次數(shù)從 1.65 次增加到 2.60 次，任務(wù)難度也確實(shí)在上升，用第一輪的執(zhí)行智能體去測試后續(xù)生成的任務(wù)，通過率從 64% 持續(xù)下降到 51%。

研究團(tuán)隊手工檢查了生成的問題樣本：第一輪的問題相對直接，比如“正方形內(nèi)至少需要多少個點(diǎn)才能保證有兩個點(diǎn)距離不超過 0.25 單位”；到了第三輪，問題演化為“一個滿足特定遞推關(guān)系的正整數(shù)序列，求第 2024 項除以 1,000 的余數(shù)”，這需要設(shè)計算法、編寫代碼、處理大數(shù)運(yùn)算。

執(zhí)行智能體的訓(xùn)練面臨另一個挑戰(zhàn)：沒有人工標(biāo)注，怎么知道答案對不對？系統(tǒng)采用的是多數(shù)投票機(jī)制，讓執(zhí)行智能體對每個問題生成 10 個答案，把得票最多的答案當(dāng)作“正確答案”。

但研究團(tuán)隊意識到這種偽標(biāo)簽（pseudo-label）的可靠性參差不齊。對于執(zhí)行智能體回答高度一致的簡單任務(wù)，多數(shù)投票結(jié)果可信；對于回答分散的困難任務(wù)，偽標(biāo)簽可能就是錯的。

他們?yōu)榇碎_發(fā)了 ADPO（Ambiguity-Dynamic Policy Optimization，歧義動態(tài)策略優(yōu)化）算法。這個算法的核心思路是“看菜下碟”，根據(jù)任務(wù)的歧義程度動態(tài)調(diào)整訓(xùn)練策略。對于高歧義任務(wù)，降低訓(xùn)練信號的權(quán)重，避免模型在可能錯誤的標(biāo)簽上過度學(xué)習(xí)。

同時還放寬策略更新的約束，給模型更大的探索空間。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法為了穩(wěn)定性會嚴(yán)格限制每步更新的幅度，但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑，對困難任務(wù)反而不利。

執(zhí)行智能體的訓(xùn)練還包含一個關(guān)鍵設(shè)計：多輪交互。不同于傳統(tǒng)的單次輸入-輸出，執(zhí)行代理會進(jìn)行多步推理：先生成自然語言推理，識別需要計算的部分，生成 Python 代碼，執(zhí)行代碼獲得結(jié)果，將結(jié)果融入推理過程，必要時進(jìn)行多輪代碼調(diào)用，最終給出答案。這模擬了人類解決復(fù)雜問題時“嘗試-反饋-修正”的過程。

當(dāng)然，不是課程智能體生成的所有任務(wù)都適合拿來訓(xùn)練。系統(tǒng)會根據(jù)自洽性分?jǐn)?shù)篩選，只保留那些執(zhí)行智能體自洽性在 0.3 到 0.8 之間的任務(wù)——太簡單（接近 1）學(xué)不到東西，太難（接近 0）偽標(biāo)簽不可靠。

在 Qwen3-8B 基礎(chǔ)模型上的測試結(jié)果相當(dāng)可觀。經(jīng)過三輪迭代，數(shù)學(xué)推理能力從 49.2% 提升到 58.2%，漲幅約為 18%。在 MATH（高中競賽數(shù)學(xué)）、GSM8K（小學(xué)應(yīng)用題）、2024 和 2025 年美國數(shù)學(xué)邀請賽等多個基準(zhǔn)上，模型表現(xiàn)也都有穩(wěn)定提升。

圖丨數(shù)學(xué)推理基準(zhǔn)的綜合結(jié)果（來源：arXiv）

更重要的是這種方法所表現(xiàn)出的泛化能力。雖然訓(xùn)練聚焦在數(shù)學(xué)問題上，但模型在通用推理任務(wù)上的表現(xiàn)也提升了約 24%。SuperGPQA（研究生水平的跨學(xué)科問題）從 28.3% 提升到 33.0%，MMLU-Pro（多任務(wù)語言理解）從 51.8% 提升到 63.4%，BBEH（Big-Bench 困難子集）從 8.6% 提升到 13.7%。這說明通過工具輔助培養(yǎng)的多步推理能力確實(shí)可以遷移到其他領(lǐng)域。

對比其他無需外部數(shù)據(jù)的方法，Agent0 比 R-Zero 方法提升了 6.4%，相比同樣使用代碼執(zhí)行器的 Absolute Zero 提升了 10.6%，甚至比依賴 OpenAI API 的 Socratic-Zero 還高出 3.7%。

消融實(shí)驗進(jìn)一步證明去掉任何一個核心組件都會導(dǎo)致性能下降：如果移除課程智能體的訓(xùn)練，性能將大幅下跌 9.3%；若不給予工具使用獎勵，則下降 7.2%。

不過，團(tuán)隊表示這一方法更適合有明確驗證標(biāo)準(zhǔn)的任務(wù)，比如數(shù)學(xué)、編程、邏輯推理。對于創(chuàng)意寫作、風(fēng)格設(shè)計這類主觀性強(qiáng)的任務(wù)，多數(shù)投票機(jī)制就不太管用了。

而且雖然省去了人工標(biāo)注，但同時訓(xùn)練兩個 Agent、每個任務(wù)生成 10 個候選答案，計算開銷也不小?？蚣苣壳耙蕾嚹芴峁┛陀^反饋的工具，對純語言推理或需要人類主觀判斷的任務(wù)適用性有限。

但 Agent0 展示的方向值得關(guān)注。隨著 Agent 應(yīng)用越來越廣，軌跡數(shù)據(jù)需求會持續(xù)增長，完全依賴人工標(biāo)注顯然不可持續(xù)。Agent0 證明了 AI 系統(tǒng)可以在沒有人類直接監(jiān)督的情況下，通過精心設(shè)計的自我博弈和工具輔助實(shí)現(xiàn)能力的螺旋式上升。

目前，研究團(tuán)隊已經(jīng)將相關(guān)代碼開源。

參考資料：

相關(guān)論文：https://arxiv.org/pdf/2511.16043

項目地址：https://github.com/aiming-lab/Agent0

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.