国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

威斯康辛大學(xué)與AWS聯(lián)手:讓AI智能體像熟練工匠一樣學(xué)會(huì)技能傳承

0
分享至


這項(xiàng)由威斯康辛大學(xué)的王炯曉博士與AWS智能體AI團(tuán)隊(duì)聯(lián)合完成的研究發(fā)表于2025年12月的arXiv預(yù)印本平臺(tái)(編號(hào):arXiv:2512.17102v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。這項(xiàng)研究解決了一個(gè)困擾AI智能體發(fā)展的重要問(wèn)題:如何讓它們?cè)谛颅h(huán)境中持續(xù)學(xué)習(xí)和自我改進(jìn)。

在當(dāng)今數(shù)字化時(shí)代,AI智能體已經(jīng)廣泛應(yīng)用于代碼編寫(xiě)、深度研究、個(gè)人助理和網(wǎng)頁(yè)瀏覽等各個(gè)領(lǐng)域。這些智能體就像是數(shù)字世界中的多面手,能夠處理復(fù)雜的任務(wù)和多輪對(duì)話。然而,有一個(gè)關(guān)鍵問(wèn)題一直困擾著研究者:當(dāng)這些智能體被部署到全新的環(huán)境中時(shí),它們往往表現(xiàn)得像新手一樣,無(wú)法有效利用之前的經(jīng)驗(yàn)來(lái)應(yīng)對(duì)相似的任務(wù)。

設(shè)想這樣一個(gè)場(chǎng)景:一位經(jīng)驗(yàn)豐富的木工師傅在面對(duì)不同的木工項(xiàng)目時(shí),會(huì)將之前學(xué)會(huì)的技能——比如如何切割榫卯、如何打磨表面——應(yīng)用到新的作品制作中。但現(xiàn)有的AI智能體卻缺乏這種"技能傳承"的能力。它們?cè)谟?xùn)練階段表現(xiàn)出色,但一旦遇到訓(xùn)練時(shí)沒(méi)見(jiàn)過(guò)的情況,就像失去了記憶的工匠,需要重新摸索每一個(gè)步驟。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案:建立一個(gè)"技能圖書(shū)館"系統(tǒng),讓AI智能體能夠像工匠傳承手藝一樣,將學(xué)會(huì)的技能保存下來(lái),并在遇到類(lèi)似任務(wù)時(shí)靈活調(diào)用。更重要的是,他們開(kāi)發(fā)了一套名為SAGE(技能增強(qiáng)GRPO自我進(jìn)化框架)的訓(xùn)練方法,通過(guò)強(qiáng)化學(xué)習(xí)讓智能體學(xué)會(huì)如何更好地生成、驗(yàn)證和應(yīng)用這些技能。

這項(xiàng)研究的核心創(chuàng)新在于將技能庫(kù)的概念與強(qiáng)化學(xué)習(xí)緊密結(jié)合。傳統(tǒng)的技能庫(kù)方法主要依靠人工設(shè)計(jì)的提示詞來(lái)指導(dǎo)智能體使用技能,這就像給工匠一本說(shuō)明書(shū),但工匠的理解能力有限,往往無(wú)法準(zhǔn)確執(zhí)行。而SAGE框架則通過(guò)強(qiáng)化學(xué)習(xí)的方式,讓智能體在實(shí)際操作中學(xué)會(huì)如何生成高質(zhì)量的技能,以及什么時(shí)候使用哪些技能,就像師傅帶徒弟一樣,通過(guò)反復(fù)練習(xí)和指導(dǎo)來(lái)提升技能水平。

在AppWorld數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果令人印象深刻。經(jīng)過(guò)SAGE訓(xùn)練的智能體在場(chǎng)景目標(biāo)完成率上提升了8.9%,同時(shí)所需的交互步驟減少了26%,生成的代碼量減少了59%。這意味著智能體不僅變得更加準(zhǔn)確,還變得更加高效。這就像是一個(gè)經(jīng)驗(yàn)豐富的工匠,不僅能做出更好的作品,還能用更少的時(shí)間和材料完成任務(wù)。

一、技能庫(kù)智能體的設(shè)計(jì)理念

要理解這項(xiàng)研究的創(chuàng)新之處,我們首先需要了解什么是技能庫(kù)智能體。在傳統(tǒng)的AI智能體系統(tǒng)中,每當(dāng)遇到一個(gè)新任務(wù)時(shí),智能體都需要從零開(kāi)始思考解決方案,就像每次做菜都要重新想配方一樣。而技能庫(kù)智能體則像是一個(gè)有經(jīng)驗(yàn)的廚師,會(huì)將成功的菜譜保存在食譜本中,下次遇到類(lèi)似的食材時(shí)就能快速找到合適的做法。

研究團(tuán)隊(duì)采用了與以往方法不同的設(shè)計(jì)思路。之前的技能庫(kù)系統(tǒng)通常在完成整個(gè)任務(wù)后才開(kāi)始總結(jié)和提取技能,這就像是一個(gè)廚師在做完一桌菜后才開(kāi)始寫(xiě)食譜。這種方法雖然能夠觀察到完整的制作過(guò)程,但在實(shí)際應(yīng)用中存在兩個(gè)問(wèn)題:對(duì)于復(fù)雜的長(zhǎng)期任務(wù),額外的技能生成過(guò)程會(huì)讓整個(gè)流程變得冗長(zhǎng);同時(shí),將任務(wù)執(zhí)行和技能生成分離開(kāi)來(lái),可能導(dǎo)致學(xué)習(xí)效果不佳。

為了解決這些問(wèn)題,研究團(tuán)隊(duì)借鑒了DynaSaur方法的思路,將任務(wù)解決和技能生成統(tǒng)一到同一個(gè)框架中。當(dāng)智能體與環(huán)境交互時(shí),它不是直接調(diào)用多個(gè)API接口,而是首先生成一個(gè)可以保存為技能的程序函數(shù),然后調(diào)用這個(gè)函數(shù)來(lái)執(zhí)行任務(wù)。這就像是一個(gè)廚師在做菜的同時(shí)就在心里記錄每一個(gè)步驟,隨時(shí)可以形成新的菜譜。

具體來(lái)說(shuō),當(dāng)面對(duì)一個(gè)任務(wù)時(shí),智能體可以執(zhí)行四種不同的操作。第一種是技能使用:從技能庫(kù)中選擇合適的已有技能來(lái)處理當(dāng)前任務(wù),就像廚師從食譜本中找到合適的菜譜。第二種是技能生成:創(chuàng)建一個(gè)由多個(gè)操作組成的新技能函數(shù),然后立即調(diào)用它來(lái)處理任務(wù),就像廚師根據(jù)現(xiàn)有食材創(chuàng)新出新的菜譜。第三種是技能更新:如果某個(gè)技能執(zhí)行失敗,智能體會(huì)修改這個(gè)技能并重新嘗試,就像廚師調(diào)整菜譜中的調(diào)料比例。第四種是技能保存:如果技能執(zhí)行成功,就將這個(gè)新技能或更新后的技能保存到技能庫(kù)中,供以后使用。

這種設(shè)計(jì)的巧妙之處在于,它讓技能的生成和使用變成了一個(gè)自然流暢的過(guò)程。智能體在解決問(wèn)題的同時(shí)就在積累經(jīng)驗(yàn),不需要額外的步驟來(lái)總結(jié)和提取技能。這就像是一個(gè)經(jīng)驗(yàn)豐富的工匠,在制作每一件作品的過(guò)程中都在完善自己的技藝。

二、SAGE框架的核心創(chuàng)新

SAGE框架是這項(xiàng)研究的核心貢獻(xiàn),它巧妙地將強(qiáng)化學(xué)習(xí)與技能庫(kù)系統(tǒng)結(jié)合起來(lái)。要理解SAGE的工作原理,我們可以把它比作一個(gè)高級(jí)烹飪學(xué)校的訓(xùn)練體系。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法就像是讓學(xué)生單獨(dú)練習(xí)每一道菜,每次都從頭開(kāi)始,無(wú)法積累烹飪技巧。而SAGE則設(shè)計(jì)了一種"連鎖訓(xùn)練"的方法,叫做順序展開(kāi)。在這種訓(xùn)練方式中,智能體不是處理單獨(dú)的任務(wù),而是處理一系列相關(guān)的任務(wù),就像讓烹飪學(xué)生連續(xù)制作同一類(lèi)型的幾道菜。

順序展開(kāi)的工作機(jī)制是這樣的:研究團(tuán)隊(duì)會(huì)給智能體提供一個(gè)任務(wù)鏈,其中包含兩個(gè)相似的任務(wù)。智能體首先處理第一個(gè)任務(wù),在這個(gè)過(guò)程中生成的技能會(huì)被保存到技能庫(kù)中。接著處理第二個(gè)任務(wù)時(shí),智能體就可以使用剛剛學(xué)會(huì)的技能。這就像是一個(gè)廚師先學(xué)會(huì)了如何制作基礎(chǔ)湯底,然后在制作另一道湯品時(shí)就可以直接使用這個(gè)湯底配方。

為了確保智能體能夠有效學(xué)習(xí)技能的生成和使用,研究團(tuán)隊(duì)還設(shè)計(jì)了一套特殊的獎(jiǎng)勵(lì)機(jī)制,稱為技能集成獎(jiǎng)勵(lì)。這套獎(jiǎng)勵(lì)機(jī)制不僅會(huì)根據(jù)任務(wù)是否完成來(lái)給予獎(jiǎng)勵(lì),還會(huì)根據(jù)技能的質(zhì)量和使用情況給予額外的獎(jiǎng)勵(lì)。

具體來(lái)說(shuō),這套獎(jiǎng)勵(lì)機(jī)制包含兩個(gè)組成部分。第一部分是基礎(chǔ)的任務(wù)完成獎(jiǎng)勵(lì),就像學(xué)生成功做出一道菜會(huì)得到基礎(chǔ)分?jǐn)?shù)。第二部分是技能相關(guān)的額外獎(jiǎng)勵(lì),包括技能生成獎(jiǎng)勵(lì)和技能使用獎(jiǎng)勵(lì)。當(dāng)智能體在第一個(gè)任務(wù)中生成的技能被成功用于第二個(gè)任務(wù)時(shí),第一個(gè)任務(wù)會(huì)獲得額外的技能生成獎(jiǎng)勵(lì);當(dāng)智能體在第二個(gè)任務(wù)中成功使用了之前生成的技能時(shí),第二個(gè)任務(wù)會(huì)獲得技能使用獎(jiǎng)勵(lì)。

這種獎(jiǎng)勵(lì)機(jī)制的巧妙之處在于,它鼓勵(lì)智能體不僅要完成當(dāng)前任務(wù),還要考慮如何生成對(duì)未來(lái)任務(wù)有用的技能。就像一個(gè)好的廚師不僅要做好當(dāng)前的菜,還要思考如何積累可以用于其他菜品的技巧。

為了防止智能體偷懶或者提供無(wú)用的回答,研究團(tuán)隊(duì)還設(shè)置了一個(gè)懲罰機(jī)制:如果智能體沒(méi)有提供任何代碼就結(jié)束任務(wù),會(huì)受到負(fù)分懲罰。這就像是對(duì)不認(rèn)真學(xué)習(xí)的學(xué)生給予扣分處理。

三、實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)集選擇

為了驗(yàn)證SAGE框架的有效性,研究團(tuán)隊(duì)選擇了AppWorld數(shù)據(jù)集作為實(shí)驗(yàn)平臺(tái)。AppWorld是一個(gè)專門(mén)為評(píng)估工具使用智能體而設(shè)計(jì)的數(shù)據(jù)集,它模擬了9個(gè)日常應(yīng)用程序的環(huán)境,包括亞馬遜購(gòu)物、Spotify音樂(lè)、Venmo轉(zhuǎn)賬、Gmail郵件、Todoist任務(wù)管理、SimpleNote筆記、Splitwise賬單分?jǐn)?、文件系統(tǒng)和電話等。

這個(gè)數(shù)據(jù)集的特點(diǎn)是高度貼近真實(shí)應(yīng)用場(chǎng)景。智能體需要通過(guò)查閱API文檔、調(diào)用API接口、編寫(xiě)程序代碼來(lái)完成各種日常數(shù)字任務(wù),比如給室友發(fā)送轉(zhuǎn)賬、發(fā)送短信、管理任務(wù)清單等。整個(gè)環(huán)境包含457個(gè)不同的API接口,并且設(shè)置了100多個(gè)模擬用戶,讓智能體在一個(gè)接近真實(shí)世界的環(huán)境中進(jìn)行學(xué)習(xí)和測(cè)試。

AppWorld數(shù)據(jù)集的結(jié)構(gòu)特別適合測(cè)試技能庫(kù)系統(tǒng)。整個(gè)數(shù)據(jù)集包含750個(gè)任務(wù),這些任務(wù)被組織成250個(gè)場(chǎng)景,每個(gè)場(chǎng)景包含三個(gè)具有相似指令的任務(wù)。這種結(jié)構(gòu)天然符合SAGE的順序展開(kāi)設(shè)計(jì)理念,因?yàn)橥粓?chǎng)景內(nèi)的任務(wù)具有相似性,智能體在處理第一個(gè)任務(wù)時(shí)學(xué)到的技能很可能對(duì)后續(xù)任務(wù)有用。

研究團(tuán)隊(duì)將數(shù)據(jù)集分為四個(gè)部分:訓(xùn)練集(105個(gè)任務(wù))、開(kāi)發(fā)集(60個(gè)任務(wù))、測(cè)試正常集(168個(gè)任務(wù))和測(cè)試挑戰(zhàn)集(417個(gè)任務(wù))。測(cè)試挑戰(zhàn)集特別有意思,它包含了訓(xùn)練時(shí)沒(méi)有見(jiàn)過(guò)的亞馬遜和Gmail應(yīng)用的API,專門(mén)用來(lái)測(cè)試智能體對(duì)未知API的泛化能力。

為了確保實(shí)驗(yàn)的公平性和可比較性,研究團(tuán)隊(duì)選擇了Qwen2.5-32B-Instruct作為基礎(chǔ)模型。這個(gè)選擇基于之前在AppWorld數(shù)據(jù)集上的相關(guān)研究,確保能夠與現(xiàn)有方法進(jìn)行直接比較。

實(shí)驗(yàn)的評(píng)估指標(biāo)也很有針對(duì)性。除了傳統(tǒng)的任務(wù)目標(biāo)完成率之外,研究團(tuán)隊(duì)特別關(guān)注場(chǎng)景目標(biāo)完成率,這個(gè)指標(biāo)衡量的是在一個(gè)場(chǎng)景內(nèi)所有三個(gè)任務(wù)都成功完成的比例。這個(gè)指標(biāo)特別適合評(píng)估技能傳遞的效果,因?yàn)橹挥挟?dāng)智能體能夠有效地在任務(wù)間傳遞和使用技能時(shí),才能在整個(gè)場(chǎng)景內(nèi)保持穩(wěn)定的高性能。

為了評(píng)估智能體的效率,研究團(tuán)隊(duì)還記錄了完成任務(wù)所需的平均交互步驟數(shù)和生成的代碼量。這些指標(biāo)能夠反映出技能重用帶來(lái)的效率提升,因?yàn)槌晒Φ募寄苤赜脩?yīng)該能夠減少重復(fù)工作,讓智能體更快地完成任務(wù)。

四、訓(xùn)練過(guò)程的精妙設(shè)計(jì)

SAGE的訓(xùn)練過(guò)程就像是設(shè)計(jì)一個(gè)精密的學(xué)習(xí)體系,每個(gè)環(huán)節(jié)都經(jīng)過(guò)精心考慮。由于開(kāi)源模型在理解和執(zhí)行技能庫(kù)相關(guān)指令方面存在天然的局限性,研究團(tuán)隊(duì)首先采用了監(jiān)督微調(diào)的方法來(lái)提升模型的基礎(chǔ)能力。

這個(gè)監(jiān)督微調(diào)過(guò)程可以比作讓一個(gè)初學(xué)者跟著大師學(xué)習(xí)基本功。研究團(tuán)隊(duì)使用Claude 3.5 Sonnet V2這樣的先進(jìn)模型作為"大師",讓它在技能庫(kù)智能體框架下生成高質(zhì)量的示范軌跡。這個(gè)過(guò)程采用了拒絕采樣的方法,就像是反復(fù)挑選最好的示范動(dòng)作。

具體的數(shù)據(jù)收集過(guò)程是這樣進(jìn)行的:研究團(tuán)隊(duì)讓Claude模型在不同的溫度設(shè)置下(從0.05到1.0,以0.05為間隔)生成解決方案,每個(gè)場(chǎng)景最多嘗試10次。如果第二個(gè)任務(wù)失敗,通常意味著技能生成過(guò)程有問(wèn)題,這樣的場(chǎng)景就會(huì)被丟棄。最終,他們收集了1129個(gè)有效的示例,這些示例展示了如何正確地生成和使用技能。

在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)使用了特殊的訓(xùn)練策略。由于收集到的軌跡包含多輪交互,他們只對(duì)智能體的回應(yīng)部分進(jìn)行梯度更新,而將提示詞和環(huán)境反饋部分遮蔽掉。這就像是在教學(xué)中只糾正學(xué)生的回答,而不改變問(wèn)題本身。訓(xùn)練采用了128的批量大小和1e-6的學(xué)習(xí)率,使用余弦調(diào)度策略,并設(shè)置了0.1的預(yù)熱比例。

經(jīng)過(guò)監(jiān)督微調(diào)的模型為后續(xù)的強(qiáng)化學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。在SAGE的強(qiáng)化學(xué)習(xí)階段,研究團(tuán)隊(duì)對(duì)傳統(tǒng)的GRPO算法進(jìn)行了專門(mén)的改進(jìn),以適應(yīng)技能庫(kù)系統(tǒng)的特殊需求。

SAGE的強(qiáng)化學(xué)習(xí)過(guò)程采用了場(chǎng)景級(jí)別的采樣策略。不同于傳統(tǒng)方法隨機(jī)抽取單個(gè)任務(wù),SAGE會(huì)先選擇一定數(shù)量的任務(wù)場(chǎng)景,然后在每個(gè)場(chǎng)景內(nèi)抽取兩個(gè)任務(wù)形成任務(wù)鏈。這種采樣方式確保了智能體能夠在相關(guān)任務(wù)之間進(jìn)行技能傳遞的練習(xí)。

在每個(gè)訓(xùn)練步驟中,研究團(tuán)隊(duì)使用了訓(xùn)練集中的24個(gè)場(chǎng)景,每個(gè)場(chǎng)景抽取兩個(gè)任務(wù),共形成48個(gè)任務(wù)。每組使用8個(gè)智能體進(jìn)行采樣,總共產(chǎn)生384個(gè)軌跡用于訓(xùn)練。這個(gè)數(shù)量比基礎(chǔ)GRPO方法要大,因?yàn)轫樞蛘归_(kāi)過(guò)程需要更多的計(jì)算資源。

訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)計(jì)算特別精妙。對(duì)于任務(wù)鏈中的每個(gè)任務(wù),系統(tǒng)會(huì)根據(jù)任務(wù)完成情況和技能使用情況計(jì)算綜合獎(jiǎng)勵(lì)。第一個(gè)任務(wù)的獎(jiǎng)勵(lì)包括基礎(chǔ)完成獎(jiǎng)勵(lì),以及當(dāng)其生成的技能被第二個(gè)任務(wù)成功使用時(shí)的額外獎(jiǎng)勵(lì)。第二個(gè)任務(wù)的獎(jiǎng)勵(lì)包括基礎(chǔ)完成獎(jiǎng)勵(lì),以及成功使用第一個(gè)任務(wù)生成的技能時(shí)的額外獎(jiǎng)勵(lì)。

這種獎(jiǎng)勵(lì)機(jī)制創(chuàng)造了一個(gè)正向循環(huán):智能體被激勵(lì)生成高質(zhì)量、可重用的技能,同時(shí)也被激勵(lì)正確地識(shí)別和使用已有技能。就像是一個(gè)學(xué)習(xí)系統(tǒng),既獎(jiǎng)勵(lì)創(chuàng)新,也獎(jiǎng)勵(lì)對(duì)已有知識(shí)的有效運(yùn)用。

研究團(tuán)隊(duì)在訓(xùn)練過(guò)程中還實(shí)施了細(xì)致的檢查點(diǎn)管理策略。他們每5個(gè)訓(xùn)練步驟保存一次模型,并在開(kāi)發(fā)集上評(píng)估性能。最終選擇在任務(wù)目標(biāo)完成率和場(chǎng)景目標(biāo)完成率組合得分最高的第75步模型作為最終版本。這種選擇策略確保了模型在技能傳遞能力方面的最優(yōu)化。

五、實(shí)驗(yàn)結(jié)果的詳細(xì)分析

SAGE框架在AppWorld數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果展現(xiàn)了令人矚目的性能提升。在測(cè)試正常集上,經(jīng)過(guò)SAGE訓(xùn)練的智能體達(dá)到了72.0%的任務(wù)目標(biāo)完成率和60.7%的場(chǎng)景目標(biāo)完成率,相比基礎(chǔ)GRPO方法的69.2%和51.8%有了顯著提升。更重要的是,智能體的效率也得到了大幅改善,平均交互步驟從16.4步減少到12.1步,生成的代碼量從3613個(gè)tokens減少到1475個(gè)tokens。

這些數(shù)字背后反映的是技能重用帶來(lái)的實(shí)質(zhì)性改進(jìn)。當(dāng)智能體能夠有效地重用之前學(xué)到的技能時(shí),它就不需要每次都從零開(kāi)始思考解決方案,這就像是一個(gè)經(jīng)驗(yàn)豐富的技術(shù)人員能夠快速解決問(wèn)題,而不需要每次都查閱完整的操作手冊(cè)。

為了更深入地理解技能庫(kù)的作用,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的技能使用模式分析。他們發(fā)現(xiàn),經(jīng)過(guò)SAGE訓(xùn)練的智能體在技能使用率和成功技能使用率方面都有顯著提升。技能使用率是指在有技能庫(kù)可用的情況下,智能體選擇使用技能的比例;成功技能使用率是指在使用技能的情況下,成功完成任務(wù)的比例。

分析結(jié)果顯示,基礎(chǔ)模型雖然能夠生成大量技能,但在技能質(zhì)量和使用效果方面存在明顯不足。經(jīng)過(guò)監(jiān)督微調(diào)后,模型的成功技能使用率有所提升,但在技能生成和主動(dòng)使用方面仍然有限。只有經(jīng)過(guò)SAGE訓(xùn)練后,智能體才展現(xiàn)出了優(yōu)秀的技能生成、選擇和使用能力。

研究團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn)來(lái)驗(yàn)證各個(gè)組件的重要性。他們發(fā)現(xiàn),僅僅擁有技能庫(kù)而沒(méi)有適當(dāng)?shù)挠?xùn)練,智能體的性能甚至可能下降,這說(shuō)明技能庫(kù)的有效使用需要專門(mén)的學(xué)習(xí)過(guò)程。而順序展開(kāi)和技能集成獎(jiǎng)勵(lì)這兩個(gè)核心組件的結(jié)合,才真正實(shí)現(xiàn)了性能的突破。

在不同獎(jiǎng)勵(lì)設(shè)計(jì)的對(duì)比實(shí)驗(yàn)中,研究團(tuán)隊(duì)驗(yàn)證了技能集成獎(jiǎng)勵(lì)相比于簡(jiǎn)單的結(jié)果導(dǎo)向獎(jiǎng)勵(lì)和鏈?zhǔn)姜?jiǎng)勵(lì)的優(yōu)越性。結(jié)果導(dǎo)向獎(jiǎng)勵(lì)只關(guān)注任務(wù)是否完成,缺乏對(duì)技能質(zhì)量的激勵(lì);鏈?zhǔn)姜?jiǎng)勵(lì)雖然考慮了任務(wù)鏈的整體成功,但沒(méi)有細(xì)致地區(qū)分技能生成和使用的貢獻(xiàn)。只有技能集成獎(jiǎng)勵(lì)能夠精確地激勵(lì)智能體在技能生成和使用兩個(gè)方面都達(dá)到最優(yōu)。

特別有趣的是關(guān)于技能檢索方法的實(shí)驗(yàn)。在實(shí)際應(yīng)用中,任務(wù)往往沒(méi)有明確的場(chǎng)景標(biāo)簽,智能體需要自主決定使用哪些技能。研究團(tuán)隊(duì)測(cè)試了幾種不同的技能檢索方法,包括基于查詢?cè)~匯重疊的方法、基于查詢語(yǔ)義嵌入的方法,以及基于技能功能嵌入的方法。結(jié)果顯示,精心設(shè)計(jì)的檢索機(jī)制能夠接近理想情況下的性能,這為技能庫(kù)系統(tǒng)的實(shí)際部署提供了可行的方案。

六、技術(shù)創(chuàng)新的深層意義

SAGE框架的成功不僅在于其優(yōu)異的實(shí)驗(yàn)結(jié)果,更在于它為AI智能體的持續(xù)學(xué)習(xí)和自我改進(jìn)開(kāi)辟了新的道路。這項(xiàng)研究解決了長(zhǎng)期困擾該領(lǐng)域的一個(gè)核心問(wèn)題:如何讓智能體在新環(huán)境中有效利用之前的經(jīng)驗(yàn)。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往局限于特定的訓(xùn)練場(chǎng)景,一旦環(huán)境發(fā)生變化,智能體就需要重新學(xué)習(xí)。這就像是培養(yǎng)了一個(gè)只會(huì)在特定廚房工作的廚師,換了廚房就不知所措。而SAGE框架通過(guò)技能庫(kù)系統(tǒng),讓智能體具備了"技能遷移"的能力,能夠?qū)⒃谝粋€(gè)環(huán)境中學(xué)到的經(jīng)驗(yàn)應(yīng)用到新的環(huán)境中。

這種技能遷移能力的實(shí)現(xiàn)依賴于幾個(gè)關(guān)鍵的設(shè)計(jì)決策。首先是統(tǒng)一的技能表示格式,將復(fù)雜的操作序列抽象為可重用的函數(shù),這為技能的存儲(chǔ)、檢索和應(yīng)用提供了標(biāo)準(zhǔn)化的接口。其次是智能的技能生成策略,通過(guò)強(qiáng)化學(xué)習(xí)讓智能體學(xué)會(huì)生成既能解決當(dāng)前問(wèn)題又具有通用價(jià)值的技能。最后是有效的技能選擇機(jī)制,讓智能體能夠在面對(duì)新任務(wù)時(shí)快速識(shí)別和調(diào)用相關(guān)的技能。

SAGE框架的另一個(gè)重要貢獻(xiàn)是將技能的生成和使用過(guò)程無(wú)縫集成到智能體的決策過(guò)程中。傳統(tǒng)方法往往將技能學(xué)習(xí)視為一個(gè)獨(dú)立的階段,完成任務(wù)后再提取和總結(jié)技能。而SAGE讓智能體在解決問(wèn)題的過(guò)程中就在學(xué)習(xí)和積累技能,這種"邊做邊學(xué)"的模式更符合人類(lèi)專家的技能積累方式。

從更廣泛的角度來(lái)看,這項(xiàng)研究為構(gòu)建真正智能的自適應(yīng)系統(tǒng)提供了重要啟示。在快速變化的技術(shù)環(huán)境中,系統(tǒng)能夠持續(xù)學(xué)習(xí)和適應(yīng)新情況的能力變得越來(lái)越重要。SAGE框架展示了如何通過(guò)巧妙的系統(tǒng)設(shè)計(jì)和訓(xùn)練策略,讓AI系統(tǒng)獲得這種持續(xù)學(xué)習(xí)的能力。

研究團(tuán)隊(duì)在論文中也誠(chéng)實(shí)地指出了當(dāng)前工作的局限性。目前的實(shí)驗(yàn)主要在AppWorld這一個(gè)數(shù)據(jù)集上進(jìn)行,雖然這個(gè)數(shù)據(jù)集具有很好的代表性,但不同的應(yīng)用場(chǎng)景可能需要不同的智能體設(shè)計(jì)。未來(lái)的工作需要在更多樣化的環(huán)境中驗(yàn)證SAGE框架的通用性。

此外,當(dāng)前的技能檢索機(jī)制雖然有效,但仍有進(jìn)一步改進(jìn)的空間。特別是在處理大規(guī)模技能庫(kù)時(shí),如何快速準(zhǔn)確地找到最相關(guān)的技能是一個(gè)需要繼續(xù)研究的問(wèn)題。這就像是管理一個(gè)龐大的工具庫(kù),需要有效的分類(lèi)和索引系統(tǒng)來(lái)支持快速檢索。

七、應(yīng)用前景與現(xiàn)實(shí)意義

SAGE框架的成功為AI智能體的實(shí)際應(yīng)用開(kāi)啟了新的可能性。在軟件開(kāi)發(fā)領(lǐng)域,這種技能庫(kù)系統(tǒng)可以幫助代碼生成智能體積累編程經(jīng)驗(yàn),逐漸學(xué)會(huì)復(fù)雜的編程模式和最佳實(shí)踐。當(dāng)智能體在處理一個(gè)新的編程任務(wù)時(shí),它可以調(diào)用之前學(xué)到的代碼片段和解決方案,而不是每次都從基礎(chǔ)語(yǔ)法開(kāi)始思考。

在客戶服務(wù)領(lǐng)域,技能庫(kù)智能體可以積累處理各種客戶問(wèn)題的經(jīng)驗(yàn)。每次成功解決一個(gè)客戶問(wèn)題后,智能體可以將這個(gè)解決方案抽象為一個(gè)可重用的技能。當(dāng)遇到類(lèi)似問(wèn)題時(shí),智能體就能夠快速提供有效的解決方案,提升服務(wù)質(zhì)量和效率。

在教育技術(shù)領(lǐng)域,這種方法可以用來(lái)構(gòu)建自適應(yīng)的學(xué)習(xí)系統(tǒng)。智能體可以根據(jù)不同學(xué)生的學(xué)習(xí)特點(diǎn),積累有效的教學(xué)策略和方法。隨著與更多學(xué)生的交互,系統(tǒng)會(huì)變得越來(lái)越智能,能夠?yàn)槊總€(gè)學(xué)生提供最適合的學(xué)習(xí)方案。

在科學(xué)研究領(lǐng)域,技能庫(kù)系統(tǒng)可以幫助智能體積累實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和結(jié)果解釋的經(jīng)驗(yàn)。這對(duì)于加速科學(xué)發(fā)現(xiàn)過(guò)程具有重要意義,特別是在需要處理大量數(shù)據(jù)和復(fù)雜實(shí)驗(yàn)的領(lǐng)域。

然而,這項(xiàng)技術(shù)的廣泛應(yīng)用也面臨一些挑戰(zhàn)。首先是技能質(zhì)量的保證問(wèn)題。隨著技能庫(kù)規(guī)模的增長(zhǎng),如何確保其中的技能都是高質(zhì)量和有效的,是一個(gè)需要持續(xù)關(guān)注的問(wèn)題。這就像是維護(hù)一個(gè)知識(shí)庫(kù),需要有機(jī)制來(lái)識(shí)別和淘汰過(guò)時(shí)或錯(cuò)誤的信息。

其次是技能泛化能力的問(wèn)題。目前的研究主要關(guān)注在相似任務(wù)間的技能傳遞,但在實(shí)際應(yīng)用中,智能體可能需要在差異很大的任務(wù)間進(jìn)行技能遷移。如何提升技能的泛化能力,讓它們能夠適應(yīng)更廣泛的應(yīng)用場(chǎng)景,是一個(gè)有待進(jìn)一步研究的問(wèn)題。

安全性和可解釋性也是重要的考慮因素。在關(guān)鍵應(yīng)用領(lǐng)域,我們需要確保智能體使用的技能是安全可靠的,并且能夠解釋為什么選擇特定的技能來(lái)解決問(wèn)題。這對(duì)于建立用戶對(duì)智能體系統(tǒng)的信任至關(guān)重要。

盡管存在這些挑戰(zhàn),SAGE框架為構(gòu)建更智能、更自適應(yīng)的AI系統(tǒng)指明了方向。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,這種具有持續(xù)學(xué)習(xí)能力的智能體將在各個(gè)領(lǐng)域發(fā)揮越來(lái)越重要的作用。

說(shuō)到底,威斯康辛大學(xué)和AWS團(tuán)隊(duì)的這項(xiàng)研究成果讓我們看到了AI智能體發(fā)展的一個(gè)重要轉(zhuǎn)折點(diǎn)。通過(guò)巧妙地結(jié)合技能庫(kù)系統(tǒng)和強(qiáng)化學(xué)習(xí),他們創(chuàng)造了一種真正能夠"學(xué)會(huì)學(xué)習(xí)"的智能體。這就像是從訓(xùn)練單一技能的工匠,轉(zhuǎn)向培養(yǎng)能夠不斷積累經(jīng)驗(yàn)、持續(xù)改進(jìn)的專業(yè)人才。

SAGE框架不僅在技術(shù)上實(shí)現(xiàn)了突破,更重要的是它為AI系統(tǒng)的未來(lái)發(fā)展提供了新的思路。在一個(gè)快速變化的世界中,能夠持續(xù)學(xué)習(xí)和適應(yīng)的能力將成為智能系統(tǒng)的核心競(jìng)爭(zhēng)力。這項(xiàng)研究表明,通過(guò)合適的設(shè)計(jì)和訓(xùn)練方法,我們確實(shí)可以構(gòu)建出具有這種能力的AI系統(tǒng)。

對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)的AI助手將變得更加智能和貼心。它們不會(huì)每次都給你千篇一律的回答,而是會(huì)根據(jù)積累的經(jīng)驗(yàn)提供越來(lái)越個(gè)性化、越來(lái)越精準(zhǔn)的服務(wù)。這種技術(shù)的成熟和普及,將真正讓AI成為我們生活和工作中的得力伙伴。

當(dāng)然,這還只是一個(gè)開(kāi)始。技術(shù)的發(fā)展需要時(shí)間,實(shí)際應(yīng)用還需要解決許多工程和倫理方面的問(wèn)題。但威斯康辛大學(xué)和AWS團(tuán)隊(duì)的這項(xiàng)工作無(wú)疑為這個(gè)激動(dòng)人心的未來(lái)鋪平了道路。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2512.17102v1查找完整的論文。

Q&A

Q1:SAGE框架是什么?

A:SAGE是"技能增強(qiáng)GRPO自我進(jìn)化框架"的簡(jiǎn)稱,由威斯康辛大學(xué)和AWS團(tuán)隊(duì)開(kāi)發(fā)。它是一種讓AI智能體學(xué)會(huì)積累和重用技能的訓(xùn)練方法,類(lèi)似于讓智能體像經(jīng)驗(yàn)豐富的工匠一樣,能夠?qū)W(xué)到的技能保存起來(lái)并在類(lèi)似任務(wù)中重復(fù)使用。

Q2:技能庫(kù)智能體和普通AI智能體有什么區(qū)別?

A:普通AI智能體每次面對(duì)任務(wù)都要從零開(kāi)始思考,而技能庫(kù)智能體會(huì)將成功的解決方案保存為"技能",下次遇到類(lèi)似問(wèn)題時(shí)可以直接調(diào)用這些技能。就像普通人每次做菜都要重新想配方,而有經(jīng)驗(yàn)的廚師會(huì)積累食譜并重復(fù)使用。

Q3:SAGE框架在實(shí)驗(yàn)中取得了什么成果?

A:在AppWorld數(shù)據(jù)集測(cè)試中,SAGE讓智能體的場(chǎng)景完成率提升了8.9%,同時(shí)交互步驟減少了26%,生成代碼量減少了59%。這說(shuō)明智能體不僅變得更準(zhǔn)確,還變得更高效,能用更少的時(shí)間和資源完成更多任務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
早就想打!日媒首次爆料:中國(guó)雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國(guó)雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩(shī)意世界
2025-08-21 13:13:50
《用武之地》還是《匿殺》?元旦五部電影,哪部都不想看

《用武之地》還是《匿殺》?元旦五部電影,哪部都不想看

影視口碑榜
2025-12-31 17:31:30
史上最快暴富!90后中國(guó)小伙,10天狂賺數(shù)百億……

史上最快暴富!90后中國(guó)小伙,10天狂賺數(shù)百億……

功夫財(cái)經(jīng)
2025-12-31 08:26:37
凱迪拉克多款車(chē)型推限時(shí)優(yōu)惠 全新CT5售19.99萬(wàn)元起

凱迪拉克多款車(chē)型推限時(shí)優(yōu)惠 全新CT5售19.99萬(wàn)元起

太平洋汽車(chē)
2025-12-31 15:14:35
1956年不愿被提及的羅源灣空戰(zhàn),原志愿軍王牌飛行員被擊落犧牲

1956年不愿被提及的羅源灣空戰(zhàn),原志愿軍王牌飛行員被擊落犧牲

興趣知識(shí)
2025-12-31 02:34:52
娛樂(lè)圈真是一個(gè)圈!白百何老公不要的前妻,竟在張繼科那光芒四射

娛樂(lè)圈真是一個(gè)圈!白百何老公不要的前妻,竟在張繼科那光芒四射

凡知
2025-12-05 04:58:03
普京險(xiǎn)遭"斬首",24小時(shí)后,4國(guó)收到特殊來(lái)信,中方對(duì)烏措辭變了

普京險(xiǎn)遭"斬首",24小時(shí)后,4國(guó)收到特殊來(lái)信,中方對(duì)烏措辭變了

阿器談史
2026-01-01 06:39:11
失業(yè)的人越來(lái)越多了

失業(yè)的人越來(lái)越多了

曹多魚(yú)的財(cái)經(jīng)世界
2025-12-24 14:56:20
庫(kù)里獲專屬榮譽(yù)!擁有自己名字命名立交樞紐 調(diào)侃想把路牌偷回家

庫(kù)里獲專屬榮譽(yù)!擁有自己名字命名立交樞紐 調(diào)侃想把路牌偷回家

羅說(shuō)NBA
2026-01-01 06:32:32
他判刑13年至死未平反,10萬(wàn)人送行墓前立百碑,百姓說(shuō)不能忘了他

他判刑13年至死未平反,10萬(wàn)人送行墓前立百碑,百姓說(shuō)不能忘了他

來(lái)科點(diǎn)譜
2025-12-10 09:03:06
從無(wú)視陳夢(mèng)握手,到2次投訴后輩蒯曼,國(guó)乒某名將的風(fēng)評(píng)越來(lái)越差

從無(wú)視陳夢(mèng)握手,到2次投訴后輩蒯曼,國(guó)乒某名將的風(fēng)評(píng)越來(lái)越差

譚顳愛(ài)搞笑
2025-12-30 21:35:03
陳方“痛并快樂(lè)著”,新賽季女排人才井噴,整體實(shí)力不降反升!

陳方“痛并快樂(lè)著”,新賽季女排人才井噴,整體實(shí)力不降反升!

吳锎旅行ing
2026-01-01 05:34:53
劉亦菲在家玩自拍!不料被鏡子“出賣(mài)”了,網(wǎng)友直呼:好女人??!

劉亦菲在家玩自拍!不料被鏡子“出賣(mài)”了,網(wǎng)友直呼:好女人??!

小欣欣聊體育
2025-12-18 20:44:37
“半價(jià)版”理想L9,配置高的嚇人,續(xù)航2000km,4月上市,不火都難

“半價(jià)版”理想L9,配置高的嚇人,續(xù)航2000km,4月上市,不火都難

隔壁說(shuō)車(chē)?yán)贤?/span>
2025-12-30 06:09:51
數(shù)千輛“巨無(wú)霸”,每天綿延幾公里!滬上公路引發(fā)“安全之憂”,相關(guān)部門(mén)回應(yīng)

數(shù)千輛“巨無(wú)霸”,每天綿延幾公里!滬上公路引發(fā)“安全之憂”,相關(guān)部門(mén)回應(yīng)

新民晚報(bào)
2025-12-30 19:23:40
3大國(guó)家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

3大國(guó)家保密中成藥:中風(fēng)急救、心??祻?fù),心血管的護(hù)身符!

展望云霄
2025-12-25 21:39:14
跨年晚會(huì)現(xiàn)場(chǎng),演員李川求婚錘娜麗莎

跨年晚會(huì)現(xiàn)場(chǎng),演員李川求婚錘娜麗莎

瀟湘晨報(bào)
2025-12-31 23:29:09
周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認(rèn)前夫當(dāng)干爹

周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認(rèn)前夫當(dāng)干爹

籃球看比賽
2025-12-31 11:58:00
卡扎菲次子賽義夫:被囚6年,前女友不離不棄,最終將其解救出獄

卡扎菲次子賽義夫:被囚6年,前女友不離不棄,最終將其解救出獄

小熊侃史
2025-12-31 11:57:54
因長(zhǎng)得像中國(guó)人,印度男青年在街頭被圍毆打死!

因長(zhǎng)得像中國(guó)人,印度男青年在街頭被圍毆打死!

荊楚寰宇文樞
2025-12-31 21:59:57
2026-01-01 07:36:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

土耳其宣布對(duì)持普通護(hù)照中國(guó)公民免簽

頭條要聞

土耳其宣布對(duì)持普通護(hù)照中國(guó)公民免簽

體育要聞

羅馬諾:內(nèi)馬爾與桑托斯就續(xù)約達(dá)成協(xié)議,合同期至2026年12月

娛樂(lè)要聞

官宣才兩天就翻車(chē)?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車(chē)要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬(wàn)/33寸曲面屏

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
游戲
旅游
軍事航空

藝術(shù)要聞

某官媒對(duì)中國(guó)歷史的神分析,醍醐灌頂!

房產(chǎn)要聞

終于等來(lái)了!2026年首個(gè)買(mǎi)房大利好

Epic下周免費(fèi)游戲曝光!經(jīng)典塔防Steam特別好評(píng)

旅游要聞

哈瓦那街巷里的堅(jiān)韌與希望

軍事要聞

沉浸式感受"正義使命-2025"演習(xí)現(xiàn)場(chǎng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版