国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Agent0實(shí)現(xiàn)AI自我博弈進(jìn)化,開創(chuàng)智能新范式

0
分享至

當(dāng)AI開始“自我出題”:Agent0揭示智能體進(jìn)化新范式

現(xiàn)在的大語言模型想變成能自己進(jìn)化的智能體,卡在一個(gè)大難題上數(shù)據(jù)。

以前AI學(xué)東西,要么靠人標(biāo)注數(shù)據(jù),成本高得嚇人;要么用機(jī)器合成數(shù)據(jù),質(zhì)量又不行。

Agent0框架就是來解決這個(gè)問題的,它讓AI能自己生成任務(wù)、自己訓(xùn)練,不用再等人類喂數(shù)據(jù)。



Agent0最核心的點(diǎn)子是搞了兩個(gè)智能體互相配合,一個(gè)當(dāng)“老師”,一個(gè)當(dāng)“學(xué)生”,這個(gè)“老師”叫課程智能體,專門琢磨怎么出難題,它不是瞎出題,而是通過強(qiáng)化學(xué)習(xí),專挑那些剛好在“學(xué)生”能力邊界上的題。

說白了,就是學(xué)生做起來有點(diǎn)費(fèi)勁,但又不是完全不會(huì)的那種,課程智能體判斷題好不好,有個(gè)特別的標(biāo)準(zhǔn)。

要是學(xué)生做這道題的答案,一半對一半錯(cuò),就覺得這題出得好,給的獎(jiǎng)勵(lì)最高。

你想啊,太簡單的題學(xué)生全對,學(xué)不到東西;太難的題全錯(cuò),也沒用,這種“剛好夠得著”的題,才能逼著學(xué)生進(jìn)步。



“學(xué)生”叫執(zhí)行智能體,負(fù)責(zé)解題,它解題可不是拍腦袋,要走四步:先用自然語言想思路,再寫代碼驗(yàn)證,然后整合結(jié)果,不對就反復(fù)改。

遇到復(fù)雜計(jì)算,它還會(huì)喊“工具人”Python解釋器來幫忙,比如算正方形里點(diǎn)的距離,或者遞推數(shù)列的余數(shù),這些需要精確計(jì)算的題,代碼一跑就出結(jié)果。

這倆智能體一起練了幾輪后,變化挺明顯,一開始學(xué)生解題時(shí),平均調(diào)用1.65次工具;練到后來,要調(diào)用2.6次。

工具用得越多,說明題越難,學(xué)生的能力也確實(shí)跟著上來了,這種“老師出題-學(xué)生解題-老師再調(diào)整”的循環(huán),有點(diǎn)像人類教學(xué)里的“因材施教”,只不過這里是AI自己教自己。



光有老師和學(xué)生還不夠,怎么保證訓(xùn)練效果?Agent0搞了個(gè)叫ADPO的動(dòng)態(tài)算法。

以前訓(xùn)練AI,常用多數(shù)投票定答案,但遇到模糊的題,多數(shù)投票很容易錯(cuò)。

ADPO不這么干,它會(huì)根據(jù)題目的模糊程度,動(dòng)態(tài)調(diào)整訓(xùn)練的權(quán)重。

說白了,就是對那些答案不明確的題,ADPO不硬給結(jié)論,而是放寬更新約束,把那些看起來概率低但可能正確的思路也保留下來。



你想啊,創(chuàng)新的解法一開始往往不被看好,要是直接按多數(shù)票砍掉,可能就錯(cuò)過突破了。

這種“留有余地”的訓(xùn)練方式,讓AI能在模糊中慢慢找到對的方向,訓(xùn)練的時(shí)候,Agent0還會(huì)篩選任務(wù)。

太簡單的,學(xué)生一看就會(huì),pass;太難的,怎么都做不對,也pass,只留下那些學(xué)生做對的概率在30%到80%之間的題。

用這種“跳一跳夠得著”的題訓(xùn)練,效率特別高,有數(shù)據(jù)顯示,用這個(gè)方法練Qwen3-8B模型,數(shù)學(xué)推理能力從原來的不到五成提升到了近六成。



對比傳統(tǒng)的PPO算法,ADPO更靈活,PPO為了穩(wěn)定,對訓(xùn)練過程約束很嚴(yán),遇到難題容易“保守治療”,不敢嘗試新方法。

ADPO就敢放手讓AI試錯(cuò),在錯(cuò)誤中學(xué)習(xí),這種“動(dòng)態(tài)調(diào)整+容錯(cuò)”的思路,可能就是Agent0能在無監(jiān)督情況下進(jìn)步的關(guān)鍵。

現(xiàn)在Agent0已經(jīng)開源了,代碼放在GitHub上,誰都能去看,它目前在數(shù)學(xué)推理上表現(xiàn)不錯(cuò),從小學(xué)應(yīng)用題到美國數(shù)學(xué)邀請賽的題都能應(yīng)付。

但也有局限,比如離了工具就玩不轉(zhuǎn),純語言類的任務(wù),像寫小說、編故事,效果一般;而且雙智能體訓(xùn)練,計(jì)算成本也不低。



未來要是能把圖像、語音這些工具也整合進(jìn)來,Agent0的能力可能會(huì)再上一個(gè)臺(tái)階。

說不定以后自動(dòng)駕駛的決策系統(tǒng),或者幫科學(xué)家發(fā)現(xiàn)新物質(zhì)的AI,都會(huì)用上這種“自己教自己”的模式。

不過話說回來,AI自己進(jìn)化,價(jià)值觀怎么對齊也是個(gè)問題,這事兒還得慢慢琢磨。

Agent0最讓人覺得有意思的,是它跳出了“人工喂數(shù)據(jù)”的老路子,讓AI通過自我博弈實(shí)現(xiàn)進(jìn)化。



這種“自己出題、自己解題、自己優(yōu)化”的模式,可能真的是智能體進(jìn)化的新范式。

以后AI會(huì)不會(huì)越來越“聰明”,就看這種新范式能不能走通了。

這種新范式若能持續(xù)優(yōu)化,AI或許能在沒有明確規(guī)則和大量標(biāo)注數(shù)據(jù)的環(huán)境下,憑借自我探索和博弈不斷積累經(jīng)驗(yàn),進(jìn)而提升自身的智能水平。

就像人類在面對未知領(lǐng)域時(shí),通過不斷嘗試和總結(jié)來獲取知識一樣,AI也有望在這種模式下實(shí)現(xiàn)質(zhì)的飛躍,在更多復(fù)雜且多變的場景中展現(xiàn)出強(qiáng)大的適應(yīng)能力和解決問題的能力。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
直播間“大牌尾貨”竟是回收箱舊衣服!總臺(tái)《財(cái)經(jīng)調(diào)查》曝光舊衣回收產(chǎn)業(yè)鏈內(nèi)幕→

直播間“大牌尾貨”竟是回收箱舊衣服!總臺(tái)《財(cái)經(jīng)調(diào)查》曝光舊衣回收產(chǎn)業(yè)鏈內(nèi)幕→

央視財(cái)經(jīng)
2025-12-21 21:00:22
新華社權(quán)威快報(bào)|支持個(gè)人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社權(quán)威快報(bào)|支持個(gè)人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社
2025-12-22 08:33:06
對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

離離言幾許
2025-12-20 19:56:40
科爾直言永遠(yuǎn)不會(huì)離開庫里!回應(yīng)庫明加處境:與上賽季維金斯一樣

科爾直言永遠(yuǎn)不會(huì)離開庫里!回應(yīng)庫明加處境:與上賽季維金斯一樣

羅說NBA
2025-12-22 06:40:07
聲稱拿下庫皮揚(yáng)斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

聲稱拿下庫皮揚(yáng)斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

項(xiàng)鵬飛
2025-12-21 20:34:23
龐家后人香港媒體發(fā)聲:不公正、不理解、不接受!選擇硬剛到底!

龐家后人香港媒體發(fā)聲:不公正、不理解、不接受!選擇硬剛到底!

眼光很亮
2025-12-22 02:45:46
中國“好”媒體,反復(fù)炒作負(fù)面議題帶節(jié)奏,標(biāo)榜“清醒”吃人血饅頭

中國“好”媒體,反復(fù)炒作負(fù)面議題帶節(jié)奏,標(biāo)榜“清醒”吃人血饅頭

不掉線電波
2025-12-21 20:47:15
太無恥!網(wǎng)傳一河源男子炫耀,從家長群約女開房,上午下午各一個(gè)

太無恥!網(wǎng)傳一河源男子炫耀,從家長群約女開房,上午下午各一個(gè)

火山詩話
2025-12-22 08:28:06
急轉(zhuǎn)彎猛夸中國?介文汲說魯比奧深諳官場之道法

急轉(zhuǎn)彎猛夸中國?介文汲說魯比奧深諳官場之道法

看看新聞Knews
2025-12-21 19:13:19
60歲以上注意:2026年拿身份證去辦這5件事,好處別錯(cuò)過!

60歲以上注意:2026年拿身份證去辦這5件事,好處別錯(cuò)過!

前沿天地
2025-12-21 16:14:39
沒有實(shí)名制,美國如何找到虛擬號碼電詐分子,如何修理運(yùn)營商?

沒有實(shí)名制,美國如何找到虛擬號碼電詐分子,如何修理運(yùn)營商?

小小河
2025-12-21 17:22:33
152-150!公牛9人上雙險(xiǎn)勝老鷹 杰倫36+11+9吹楊35+9丟扳平球

152-150!公牛9人上雙險(xiǎn)勝老鷹 杰倫36+11+9吹楊35+9丟扳平球

醉臥浮生
2025-12-22 07:12:06
亞馬爾破門+造紅牌,巴薩2-0送黃潛主場首敗,8連勝領(lǐng)跑積分榜

亞馬爾破門+造紅牌,巴薩2-0送黃潛主場首敗,8連勝領(lǐng)跑積分榜

釘釘陌上花開
2025-12-22 05:30:07
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

八卦南風(fēng)
2025-12-19 14:40:36
股價(jià)跌超43%!泡泡瑪特王寧現(xiàn)身遭喊話:回購點(diǎn)吧,跌成狗了

股價(jià)跌超43%!泡泡瑪特王寧現(xiàn)身遭喊話:回購點(diǎn)吧,跌成狗了

金石隨筆
2025-12-21 18:12:25
離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

離譜!楊書記為何敢直接拿走博物館的瓷花瓶?

仕道
2025-12-22 09:20:15
南京博物院保管員偷19件文物,被依法處決

南京博物院保管員偷19件文物,被依法處決

智識漂流
2025-12-21 23:29:54
以色列想再次襲擊伊朗

以色列想再次襲擊伊朗

喀秋莎大世界
2025-12-21 21:42:22
54歲埃梅里激動(dòng)脫衣怒吼!率隊(duì)10連勝震撼英超 終結(jié)對曼聯(lián)6場不勝

54歲埃梅里激動(dòng)脫衣怒吼!率隊(duì)10連勝震撼英超 終結(jié)對曼聯(lián)6場不勝

我愛英超
2025-12-22 02:40:29
2025-12-22 09:59:00
老斉科普君
老斉科普君
世界如此奇妙,一起來認(rèn)識世界吧
798文章數(shù) 24關(guān)注度
往期回顧 全部

科技要聞

7490億美元!馬斯克又把財(cái)富天花板捅破了

頭條要聞

媒體:日本軍機(jī)連續(xù)2天被照射 污蔑中國先進(jìn)武器干的

頭條要聞

媒體:日本軍機(jī)連續(xù)2天被照射 污蔑中國先進(jìn)武器干的

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

人民幣快漲到7了!

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

本地
親子
時(shí)尚
房產(chǎn)
公開課

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

親子要聞

孩子降生后,夫妻性生活如何“破冰”?

紅色不流行了?今年最火的穿搭居然是它

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版