国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華人團(tuán)隊提出智能體自我進(jìn)化框架,無需人類標(biāo)注,大幅提升通用推理能力

0
分享至


來源:DeepTech深科技

運(yùn)營/排版:何晨龍

大語言模型可以從互聯(lián)網(wǎng)上海量的文本中學(xué)習(xí),但當(dāng)這些模型需要進(jìn)化成能夠自主行動的智能體(Agent)時,數(shù)據(jù)問題變得完全不同。Agent 需要的不是簡單的文本序列,而是包含“觀察-行動-反饋”完整循環(huán)的交互軌跡(trajectory)數(shù)據(jù)。

相關(guān)研究顯示,這類數(shù)據(jù)的收集正成為 Agent 開發(fā)的最大瓶頸:人工標(biāo)注成本高昂,合成數(shù)據(jù)質(zhì)量難以保證,而記錄現(xiàn)有 Agent 的軌跡又受限于其能力上限。

雖然已有一些自我進(jìn)化(self-evolution)方法試圖讓模型自己生成訓(xùn)練數(shù)據(jù),但這些方法普遍面臨兩個困境:模型只能生成不超出自身知識范圍的任務(wù),以及僅支持單輪交互而無法處理復(fù)雜的多步推理。

面對這個困境,近期,由北卡羅來納大學(xué)教堂山分校(UNC)助理教授姚驊修領(lǐng)導(dǎo)的聯(lián)合團(tuán)隊提出了 Agent0 框架,試圖通過引入外部工具和多輪交互來打破這些局限。


圖丨相關(guān)論文(來源:arXiv)

Agent0 的核心是一個雙智能體協(xié)同進(jìn)化系統(tǒng)。系統(tǒng)包含兩個從同一基礎(chǔ)模型初始化的 Agent:課程智能體(Curriculum Agent)負(fù)責(zé)生成問題,執(zhí)行智能體(Executor Agent)則嘗試解決這些問題。

但課程智能體不是隨意出題,而是通過強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)優(yōu)化,專門生成那些恰好處于執(zhí)行智能體能力邊界的任務(wù)。

這個邊界如何界定?研究團(tuán)隊用了一個巧妙的方法:讓執(zhí)行智能體對同一問題生成多個答案,如果答案不一致,說明這個問題正好在它能力的邊緣。

他們將這種不確定性量化為一個獎勵函數(shù),當(dāng)執(zhí)行智能體的答案分布接近 50% 一致時,也就是最糾結(jié)的時候,獎勵最高。這種設(shè)計確保了生成的任務(wù)既不會太簡單讓模型學(xué)不到東西,也不會難到完全無法入手。


圖丨Agent0 自主共演化框架。(來源:arXiv)

但這樣還不夠。如果只靠模型自己的知識生成和解決問題,很快就會陷入停滯,模型不可能憑空創(chuàng)造出超出自己理解范圍的任務(wù)。研究團(tuán)隊的方法是引入外部工具,具體來說是一個 Python 代碼解釋器。

這個工具可以執(zhí)行代碼、進(jìn)行復(fù)雜計算、驗證數(shù)學(xué)結(jié)果。不僅執(zhí)行智能體可以使用這個工具,課程智能體也配備了同樣的能力。

這就形成了一個獨(dú)特的協(xié)同進(jìn)化機(jī)制。執(zhí)行智能體有了代碼解釋器后,可以解決需要復(fù)雜計算的問題,能力邊界向外擴(kuò)展。這時課程智能體發(fā)現(xiàn),原來能難倒執(zhí)行智能體的問題現(xiàn)在變簡單了,不確定性獎勵下降。

為了維持獎勵水平,課程智能體被迫生成更復(fù)雜的、需要更多工具調(diào)用的問題。研究團(tuán)隊在獎勵函數(shù)中特意加入了工具使用頻率的獎勵項,進(jìn)一步推動這個螺旋上升的過程。


圖丨Agent0 的協(xié)同進(jìn)化循環(huán)(來源:arXiv)

實(shí)驗數(shù)據(jù)驗證了這個機(jī)制的有效性。在三輪迭代中,課程智能體生成的任務(wù)里平均工具調(diào)用次數(shù)從 1.65 次增加到 2.60 次,任務(wù)難度也確實(shí)在上升,用第一輪的執(zhí)行智能體去測試后續(xù)生成的任務(wù),通過率從 64% 持續(xù)下降到 51%。

研究團(tuán)隊手工檢查了生成的問題樣本:第一輪的問題相對直接,比如“正方形內(nèi)至少需要多少個點(diǎn)才能保證有兩個點(diǎn)距離不超過 0.25 單位”;到了第三輪,問題演化為“一個滿足特定遞推關(guān)系的正整數(shù)序列,求第 2024 項除以 1,000 的余數(shù)”,這需要設(shè)計算法、編寫代碼、處理大數(shù)運(yùn)算。

執(zhí)行智能體的訓(xùn)練面臨另一個挑戰(zhàn):沒有人工標(biāo)注,怎么知道答案對不對?系統(tǒng)采用的是多數(shù)投票機(jī)制,讓執(zhí)行智能體對每個問題生成 10 個答案,把得票最多的答案當(dāng)作“正確答案”。

但研究團(tuán)隊意識到這種偽標(biāo)簽(pseudo-label)的可靠性參差不齊。對于執(zhí)行智能體回答高度一致的簡單任務(wù),多數(shù)投票結(jié)果可信;對于回答分散的困難任務(wù),偽標(biāo)簽可能就是錯的。

他們?yōu)榇碎_發(fā)了 ADPO(Ambiguity-Dynamic Policy Optimization,歧義動態(tài)策略優(yōu)化)算法。這個算法的核心思路是“看菜下碟”,根據(jù)任務(wù)的歧義程度動態(tài)調(diào)整訓(xùn)練策略。對于高歧義任務(wù),降低訓(xùn)練信號的權(quán)重,避免模型在可能錯誤的標(biāo)簽上過度學(xué)習(xí)。

同時還放寬策略更新的約束,給模型更大的探索空間。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法為了穩(wěn)定性會嚴(yán)格限制每步更新的幅度,但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑,對困難任務(wù)反而不利。

執(zhí)行智能體的訓(xùn)練還包含一個關(guān)鍵設(shè)計:多輪交互。不同于傳統(tǒng)的單次輸入-輸出,執(zhí)行代理會進(jìn)行多步推理:先生成自然語言推理,識別需要計算的部分,生成 Python 代碼,執(zhí)行代碼獲得結(jié)果,將結(jié)果融入推理過程,必要時進(jìn)行多輪代碼調(diào)用,最終給出答案。這模擬了人類解決復(fù)雜問題時“嘗試-反饋-修正”的過程。

當(dāng)然,不是課程智能體生成的所有任務(wù)都適合拿來訓(xùn)練。系統(tǒng)會根據(jù)自洽性分?jǐn)?shù)篩選,只保留那些執(zhí)行智能體自洽性在 0.3 到 0.8 之間的任務(wù)——太簡單(接近 1)學(xué)不到東西,太難(接近 0)偽標(biāo)簽不可靠。

在 Qwen3-8B 基礎(chǔ)模型上的測試結(jié)果相當(dāng)可觀。經(jīng)過三輪迭代,數(shù)學(xué)推理能力從 49.2% 提升到 58.2%,漲幅約為 18%。在 MATH(高中競賽數(shù)學(xué))、GSM8K(小學(xué)應(yīng)用題)、2024 和 2025 年美國數(shù)學(xué)邀請賽等多個基準(zhǔn)上,模型表現(xiàn)也都有穩(wěn)定提升。


圖丨數(shù)學(xué)推理基準(zhǔn)的綜合結(jié)果(來源:arXiv)

更重要的是這種方法所表現(xiàn)出的泛化能力。雖然訓(xùn)練聚焦在數(shù)學(xué)問題上,但模型在通用推理任務(wù)上的表現(xiàn)也提升了約 24%。SuperGPQA(研究生水平的跨學(xué)科問題)從 28.3% 提升到 33.0%,MMLU-Pro(多任務(wù)語言理解)從 51.8% 提升到 63.4%,BBEH(Big-Bench 困難子集)從 8.6% 提升到 13.7%。這說明通過工具輔助培養(yǎng)的多步推理能力確實(shí)可以遷移到其他領(lǐng)域。

對比其他無需外部數(shù)據(jù)的方法,Agent0 比 R-Zero 方法提升了 6.4%,相比同樣使用代碼執(zhí)行器的 Absolute Zero 提升了 10.6%,甚至比依賴 OpenAI API 的 Socratic-Zero 還高出 3.7%。

消融實(shí)驗進(jìn)一步證明去掉任何一個核心組件都會導(dǎo)致性能下降:如果移除課程智能體的訓(xùn)練,性能將大幅下跌 9.3%;若不給予工具使用獎勵,則下降 7.2%。

不過,團(tuán)隊表示這一方法更適合有明確驗證標(biāo)準(zhǔn)的任務(wù),比如數(shù)學(xué)、編程、邏輯推理。對于創(chuàng)意寫作、風(fēng)格設(shè)計這類主觀性強(qiáng)的任務(wù),多數(shù)投票機(jī)制就不太管用了。

而且雖然省去了人工標(biāo)注,但同時訓(xùn)練兩個 Agent、每個任務(wù)生成 10 個候選答案,計算開銷也不小??蚣苣壳耙蕾嚹芴峁┛陀^反饋的工具,對純語言推理或需要人類主觀判斷的任務(wù)適用性有限。

但 Agent0 展示的方向值得關(guān)注。隨著 Agent 應(yīng)用越來越廣,軌跡數(shù)據(jù)需求會持續(xù)增長,完全依賴人工標(biāo)注顯然不可持續(xù)。Agent0 證明了 AI 系統(tǒng)可以在沒有人類直接監(jiān)督的情況下,通過精心設(shè)計的自我博弈和工具輔助實(shí)現(xiàn)能力的螺旋式上升。

目前,研究團(tuán)隊已經(jīng)將相關(guān)代碼開源。

參考資料:

相關(guān)論文:https://arxiv.org/pdf/2511.16043

項目地址:https://github.com/aiming-lab/Agent0

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
許世友當(dāng)面怒問李德生:你有啥可驕傲的?李德生:等你這把火燒完

許世友當(dāng)面怒問李德生:你有啥可驕傲的?李德生:等你這把火燒完

何咯說
2025-12-26 19:25:01
糖尿病患者總在半夜2、3點(diǎn)醒來,一般暗示這5個并發(fā)癥,需注意

糖尿病患者總在半夜2、3點(diǎn)醒來,一般暗示這5個并發(fā)癥,需注意

看世界的人
2025-12-27 17:35:08
大批人開始返鄉(xiāng)!有人判斷,不出5年,農(nóng)村會開始越來越熱鬧

大批人開始返鄉(xiāng)!有人判斷,不出5年,農(nóng)村會開始越來越熱鬧

小談食刻美食
2025-12-26 16:45:23
據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

忠于法紀(jì)
2025-12-04 11:25:07
調(diào)查發(fā)現(xiàn):老人過了72歲后,基本都有這7個現(xiàn)狀,要學(xué)會接受

調(diào)查發(fā)現(xiàn):老人過了72歲后,基本都有這7個現(xiàn)狀,要學(xué)會接受

王二哥老搞笑
2025-12-27 06:49:03
黃日華:一生一個郭靖便足矣,他卻演了6個別人無法超越的角色

黃日華:一生一個郭靖便足矣,他卻演了6個別人無法超越的角色

芳芳?xì)v史燴
2025-12-27 13:12:38
突發(fā)!某車企兩高層被秘密帶走調(diào)查!

突發(fā)!某車企兩高層被秘密帶走調(diào)查!

電動知家
2025-12-27 10:25:08
太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

太絕了!這水果蒸完,喉嚨里的痰“嘩嘩”化,全家人都愛喝!

江江食研社
2025-12-16 08:30:06
庫里獲提名!MVP榜TOP10更新:約基奇轟56+16+15領(lǐng)跑火箭申京入選

庫里獲提名!MVP榜TOP10更新:約基奇轟56+16+15領(lǐng)跑火箭申京入選

鍋?zhàn)踊@球
2025-12-27 12:40:41
船蛆:這個奇怪的動物群體,它們到底如何吃下木頭、泥沙和石頭?

船蛆:這個奇怪的動物群體,它們到底如何吃下木頭、泥沙和石頭?

怪羅
2025-12-26 23:55:53
男子發(fā)現(xiàn)女兒非親生,多部門調(diào)解讓他放棄追責(zé)!評論區(qū)一言難盡!

男子發(fā)現(xiàn)女兒非親生,多部門調(diào)解讓他放棄追責(zé)!評論區(qū)一言難盡!

你食不食油餅
2025-12-25 20:35:40
山西省退休人員超335萬人,平均養(yǎng)老金多少?繳費(fèi)30年能領(lǐng)多少?

山西省退休人員超335萬人,平均養(yǎng)老金多少?繳費(fèi)30年能領(lǐng)多少?

云鵬敘事
2025-12-27 05:30:02
沒想到!白蘿卜配山楂,才2天時間,解決了大煩惱,真是高手!

沒想到!白蘿卜配山楂,才2天時間,解決了大煩惱,真是高手!

江江食研社
2025-12-20 07:30:07
痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

鋭娛之樂
2025-12-27 20:43:12
成功了!彈劾提案通過,賴清德或?qū)⑾屡_,兩岸統(tǒng)一最佳窗口出現(xiàn)?

成功了!彈劾提案通過,賴清德或?qū)⑾屡_,兩岸統(tǒng)一最佳窗口出現(xiàn)?

博覽歷史
2025-12-26 19:07:23
藏不住了 徐湖平2位“貴人”浮出水面多情人 龐家曝發(fā)票造假鐵證

藏不住了 徐湖平2位“貴人”浮出水面多情人 龐家曝發(fā)票造假鐵證

阿纂看事
2025-12-27 09:39:21
普京公開表示戀愛!卡巴耶娃再成焦點(diǎn),俄“第一夫人”浮出水面?

普京公開表示戀愛!卡巴耶娃再成焦點(diǎn),俄“第一夫人”浮出水面?

手工制作阿殲
2025-12-27 14:26:23
69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

豐譚筆錄
2025-12-16 10:55:06
張梓琳帶女兒過節(jié)一臉孕相,胖妹臉型完美,這美貌馬賽克都擋不住

張梓琳帶女兒過節(jié)一臉孕相,胖妹臉型完美,這美貌馬賽克都擋不住

八怪娛
2025-12-26 16:00:33
隨著利雅得新月3-2,沙特聯(lián)最新積分榜出爐:C羅率隊僅1分優(yōu)勢領(lǐng)跑

隨著利雅得新月3-2,沙特聯(lián)最新積分榜出爐:C羅率隊僅1分優(yōu)勢領(lǐng)跑

側(cè)身凌空斬
2025-12-27 06:48:06
2025-12-27 22:15:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

游戲
本地
數(shù)碼
公開課
軍事航空

PS5玩家注意!這個設(shè)置將改善成千上萬款游戲的體驗

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

數(shù)碼要聞

全國首個AMD ROCm on Radeon開源生態(tài)智算中心在無錫正式點(diǎn)亮

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進(jìn)入關(guān)懷版