国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

獨(dú)立研究者發(fā)表的大模型強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)分配全景報(bào)告

0
分享至


這篇由獨(dú)立研究者完成的綜述論文發(fā)表于2026年4月,arXiv編號(hào)為2604.09459(v2版本于2026年4月13日更新),是目前學(xué)術(shù)界首篇系統(tǒng)性聚焦于大型語(yǔ)言模型強(qiáng)化學(xué)習(xí)中"功勞認(rèn)定"問(wèn)題的專(zhuān)題綜述。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)檢索全文。

當(dāng)你雇了一個(gè)團(tuán)隊(duì)幫你裝修房子,最后裝修效果很差,你會(huì)怎么追責(zé)?是罵負(fù)責(zé)設(shè)計(jì)的人、還是罵負(fù)責(zé)施工的人、還是罵負(fù)責(zé)采購(gòu)材料的人?如果整個(gè)團(tuán)隊(duì)分工明確、每人只做了一部分,而你只知道最終結(jié)果很糟糕,那要怎么判斷究竟是哪個(gè)環(huán)節(jié)出了問(wèn)題、下次應(yīng)該換掉誰(shuí)?

這個(gè)看似日常的困境,正是當(dāng)前人工智能領(lǐng)域最核心的技術(shù)難題之一。一個(gè)大型語(yǔ)言模型(也就是類(lèi)似ChatGPT這樣的AI)在被訓(xùn)練成"會(huì)做事的助手"時(shí),會(huì)經(jīng)歷成千上萬(wàn)次嘗試。每次嘗試,它可能做了幾十步、幾百步才得到一個(gè)結(jié)果,但訓(xùn)練系統(tǒng)只告訴它"這次成功了"或"這次失敗了"——根本不知道是哪一步起了關(guān)鍵作用。這就是所謂的"功勞認(rèn)定"問(wèn)題(Credit Assignment),也是本文的核心議題。

這篇綜述梳理了2024年到2026年初之間發(fā)表的47篇相關(guān)論文,把這些解決方案分門(mén)別類(lèi)地整理成一套完整的知識(shí)體系。它不只是一本目錄,還附帶了一套幫助研究者和工程師選方法的決策樹(shù)、一份給未來(lái)研究者的寫(xiě)作規(guī)范清單,以及一個(gè)基準(zhǔn)測(cè)試的協(xié)議規(guī)范。對(duì)于任何想在這一方向上開(kāi)展研究或?qū)嶋H應(yīng)用的人來(lái)說(shuō),這篇綜述是一份難得的導(dǎo)航地圖。

一、從"寫(xiě)作業(yè)"到"干活":AI能力進(jìn)化帶來(lái)的新麻煩

要理解這個(gè)問(wèn)題有多棘手,先得了解AI是如何一步步"進(jìn)化"的。

早期的AI訓(xùn)練方式,有點(diǎn)像雇人寫(xiě)一篇作文然后請(qǐng)老師打分。系統(tǒng)生成一段話,人類(lèi)或者評(píng)分程序打一個(gè)總分,AI據(jù)此調(diào)整自己。這個(gè)過(guò)程中,整篇作文只拿到一個(gè)分?jǐn)?shù),每個(gè)句子、每個(gè)詞都獲得了同等的"獎(jiǎng)懲"。這就是所謂的"結(jié)果級(jí)別獎(jiǎng)勵(lì)"。在任務(wù)比較簡(jiǎn)單、回答比較短的情況下,這種方式勉強(qiáng)夠用。

后來(lái),隨著DeepSeek-R1和OpenAI的o1這類(lèi)模型的出現(xiàn),AI開(kāi)始被訓(xùn)練去解數(shù)學(xué)題和寫(xiě)代碼,而且要展示完整的推理過(guò)程。這時(shí)候,一段回答可能長(zhǎng)達(dá)一兩萬(wàn)個(gè)詞,里面包含幾十個(gè)推理步驟。這就是所謂的"推理型強(qiáng)化學(xué)習(xí)"階段。光靠最后一個(gè)"答對(duì)了"或"答錯(cuò)了"來(lái)訓(xùn)練,效率太低了——就像老師批改數(shù)學(xué)作業(yè)只寫(xiě)"錯(cuò)"但不指出哪一步算錯(cuò)了,學(xué)生根本不知道該從哪里改。

再往后發(fā)展,AI被賦予了真正"干活"的能力:它可以上網(wǎng)搜索、執(zhí)行代碼、調(diào)用工具、發(fā)送消息、與其他AI協(xié)作。一個(gè)任務(wù)可能要來(lái)回操作幾十次甚至上百次,耗費(fèi)的文字量可能高達(dá)幾十萬(wàn)到上百萬(wàn)個(gè)詞。這就是"智能體型強(qiáng)化學(xué)習(xí)"階段,也是目前技術(shù)前沿所在。在這種情況下,"功勞認(rèn)定"問(wèn)題達(dá)到了前所未有的復(fù)雜程度。

綜述提供了一組非常直觀的數(shù)字對(duì)比來(lái)說(shuō)明這個(gè)落差。在解簡(jiǎn)單數(shù)學(xué)題時(shí),AI大約只需要兩三百到八百個(gè)詞,做出三到十個(gè)關(guān)鍵決策。在解競(jìng)賽數(shù)學(xué)題時(shí),可能需要一兩萬(wàn)個(gè)詞、幾十到一百個(gè)關(guān)鍵步驟。而在處理像SWE-bench這樣的軟件工程任務(wù)時(shí),AI可能需要來(lái)回操作二三十次到一百多次,總共用掉十萬(wàn)到五十萬(wàn)個(gè)詞,做出幾十到上百個(gè)關(guān)鍵決策。當(dāng)一個(gè)AI在第三步做了一個(gè)糟糕的選擇,但之后的九十七步都還算正常,最終任務(wù)失敗——訓(xùn)練系統(tǒng)如何知道是第三步的鍋?這就是問(wèn)題的本質(zhì)。

二、"所有人平分獎(jiǎng)金"為什么行不通

現(xiàn)在最流行的大模型訓(xùn)練方法叫做GRPO(群體相對(duì)策略優(yōu)化),它的核心邏輯是:讓AI對(duì)同一個(gè)任務(wù)做出多次嘗試,然后根據(jù)每次嘗試的結(jié)果好壞來(lái)給那次嘗試的所有步驟打同樣的分。換句話說(shuō),如果這次嘗試成功了,那么這次嘗試中的每一個(gè)詞、每一步操作都獲得同等的"功勞";如果失敗了,每一步都背同等的"黑鍋"。

這就像一家公司的績(jī)效考核制度是這樣的:如果這個(gè)月業(yè)績(jī)好,所有員工無(wú)論貢獻(xiàn)多少都拿同樣的獎(jiǎng)金;如果業(yè)績(jī)差,所有人無(wú)論犯沒(méi)犯錯(cuò)都被扣同等的工資。這種制度在員工很少、每個(gè)人的工作都清晰可見(jiàn)的小團(tuán)隊(duì)中或許還能接受,但在一個(gè)有一百個(gè)部門(mén)、每個(gè)部門(mén)又有幾十個(gè)人的大公司里,就完全失效了。

綜述用了一個(gè)嚴(yán)格的數(shù)學(xué)分析來(lái)說(shuō)明這個(gè)問(wèn)題。在單純的統(tǒng)計(jì)學(xué)上,當(dāng)你對(duì)一百個(gè)不同的決策都用同一個(gè)信號(hào)來(lái)判斷好壞時(shí),平均到每個(gè)決策上的"信息量"只有單決策情況的百分之一。這不只是效率低的問(wèn)題,而是會(huì)導(dǎo)致模型學(xué)到錯(cuò)誤的東西。研究者們發(fā)現(xiàn),在這種訓(xùn)練方式下,AI會(huì)逐漸傾向于做那些"安全但毫無(wú)意義"的重復(fù)動(dòng)作——因?yàn)樽鋈魏涡缕娴膰L試風(fēng)險(xiǎn)太高,不如一直重復(fù)已知的動(dòng)作,反正獎(jiǎng)懲信號(hào)那么模糊,誰(shuí)也說(shuō)不清楚。這個(gè)現(xiàn)象被研究者稱(chēng)為"回聲陷阱"。

正因如此,四十七篇論文的核心目標(biāo)只有一個(gè):找到更好的方式,把那個(gè)模糊的最終結(jié)果獎(jiǎng)勵(lì),精準(zhǔn)地分配到真正值得獎(jiǎng)勵(lì)或懲罰的那一步上。

三、分類(lèi)整理:解決問(wèn)題的四十七種思路

這篇綜述把四十七種方法整理成了一張二維地圖。橫軸是"方法論"——用什么技術(shù)來(lái)計(jì)算功勞;縱軸是"粒度"——把功勞分配到哪個(gè)層級(jí)。

從粒度來(lái)說(shuō),最細(xì)的是詞語(yǔ)級(jí)別(每個(gè)詞都分開(kāi)算),往上是段落級(jí)別(把一段推理當(dāng)一個(gè)單元),再往上是步驟或回合級(jí)別(每一次AI說(shuō)話或做操作算一個(gè)單元),最頂層是多AI級(jí)別(多個(gè)AI協(xié)作時(shí),每個(gè)AI各算各的)。不同任務(wù)適合不同粒度——就像餐廳績(jī)效考核可以精細(xì)到每道菜(詞語(yǔ)級(jí)),也可以粗略到每個(gè)班次(回合級(jí)),更可以整體評(píng)價(jià)前廳還是后廚團(tuán)隊(duì)(多智能體級(jí))。

從方法論來(lái)說(shuō),主要有五大家族。第一類(lèi)叫"蒙特卡洛法",思路是:從中間某步開(kāi)始,讓AI從那里繼續(xù)把任務(wù)做完,做很多次,用這多次的平均結(jié)果來(lái)估計(jì)這步的重要性。第二類(lèi)叫"時(shí)序差分法",思路是:訓(xùn)練一個(gè)專(zhuān)門(mén)負(fù)責(zé)打分的輔助模型,這個(gè)模型負(fù)責(zé)預(yù)測(cè)"從當(dāng)前狀態(tài)繼續(xù)下去大概能得多少分",用這個(gè)預(yù)測(cè)值來(lái)分配功勞。第三類(lèi)叫"AI自評(píng)法",思路是:直接問(wèn)AI自己"你覺(jué)得這一步重要嗎",用AI自己的語(yǔ)言理解能力來(lái)做裁判。第四類(lèi)叫"博弈論法",主要是Shapley值——這是個(gè)來(lái)自經(jīng)濟(jì)學(xué)的方法,核心是問(wèn)"如果去掉這一步,結(jié)果會(huì)差多少",通過(guò)所有可能的組合排列來(lái)公平地分配貢獻(xiàn)。第五類(lèi)叫"信息論法",思路是衡量"這一步提供了多少關(guān)于任務(wù)成功的新信息"。

在這張地圖上,從左上角到右下角有一條進(jìn)化路徑:推理型任務(wù)的方法主要集中在詞語(yǔ)級(jí)和段落級(jí),用蒙特卡洛或時(shí)序差分;而智能體型任務(wù)的方法主要集中在回合級(jí)和多AI級(jí),用事后分析、反事實(shí)推理和信息論。這條路徑本身就是一個(gè)重要發(fā)現(xiàn)。

四、推理AI的功勞分配:已有成熟方案

在推理型任務(wù)領(lǐng)域,方法已經(jīng)相對(duì)成熟,這里重點(diǎn)介紹幾個(gè)有代表性的。

VinePPO這個(gè)方法的核心比喻是"在棋局中途換人接著下"。它的做法是:在AI正在生成回答的某個(gè)詞的位置上,讓AI從那里繼續(xù)往下寫(xiě),寫(xiě)很多個(gè)不同的版本,統(tǒng)計(jì)這些版本最終有多少比例能得到正確答案。這個(gè)比例就是那個(gè)詞的"預(yù)期價(jià)值",而實(shí)際的功勞就是"真實(shí)結(jié)果"減去"預(yù)期價(jià)值"。好處是完全沒(méi)有偏差,不依賴任何輔助模型;壞處是計(jì)算量很大,每個(gè)詞都要生成額外的很多個(gè)版本。實(shí)驗(yàn)證明,這個(gè)方法在數(shù)學(xué)推理上比傳統(tǒng)PPO效果顯著更好,說(shuō)明功勞分配質(zhì)量本身就是訓(xùn)練的瓶頸,而不是優(yōu)化算法的問(wèn)題。

SPO走了一條更實(shí)用的路:不在每個(gè)詞上分配功勞,而是找到推理鏈條中的"分叉點(diǎn)"——那些推理從一個(gè)子問(wèn)題跳躍到另一個(gè)子問(wèn)題的地方,以這些有意義的段落作為單位。每個(gè)段落的功勞用比較"共享同一前綴的不同軌跡的結(jié)果"來(lái)估算。這樣既保留了比詞語(yǔ)級(jí)更細(xì)的信息,又避免了計(jì)算量爆炸。

SCAR走的是博弈論路線:把整段推理鏈條看作一個(gè)團(tuán)隊(duì)協(xié)作,每個(gè)段落是一個(gè)"隊(duì)員",用Shapley值來(lái)公平分配"誰(shuí)的功勞最大"。Shapley值有一個(gè)很好的性質(zhì),它滿足效率(所有人的功勞加起來(lái)等于總收益)、對(duì)稱(chēng)性(貢獻(xiàn)相同則獎(jiǎng)勵(lì)相同)和零貢獻(xiàn)性(對(duì)結(jié)果沒(méi)影響的步驟得零分)。缺點(diǎn)是計(jì)算復(fù)雜,因?yàn)橐紤]所有可能的組合順序,但研究者用了抽樣近似來(lái)解決。

PURE提出了一個(gè)有趣的理論洞察。傳統(tǒng)的過(guò)程獎(jiǎng)勵(lì)模型(簡(jiǎn)單理解為"步驟打分器")用的是"這步之后預(yù)期總得分"來(lái)衡量步驟質(zhì)量,PURE認(rèn)為這樣會(huì)被模型鉆空子——模型可能學(xué)會(huì)制造一些看起來(lái)分?jǐn)?shù)不低但實(shí)際上沒(méi)用的中間步驟。PURE改用"這步之后所有未來(lái)步驟中最低分"來(lái)衡量,強(qiáng)迫模型確保每一步都不拖后腿,而不是靠后面某些高分步驟來(lái)平攤。

HICRA發(fā)現(xiàn)了一個(gè)有趣的學(xué)習(xí)規(guī)律:AI在強(qiáng)化學(xué)習(xí)訓(xùn)練的過(guò)程中,先學(xué)會(huì)的是"程序性技能"(也就是固定套路和計(jì)算步驟),后學(xué)會(huì)的是"戰(zhàn)略規(guī)劃"(也就是高層次的問(wèn)題分解方式)?;诖?,HICRA建議把更多功勞集中在那些具有戰(zhàn)略意義的詞語(yǔ)和步驟上,而不是均勻分配。這個(gè)發(fā)現(xiàn)對(duì)智能體任務(wù)同樣有重要啟發(fā)價(jià)值。

五、智能體AI的功勞分配:全新挑戰(zhàn),全新方案

從推理型到智能體型,不只是任務(wù)變復(fù)雜了那么簡(jiǎn)單,而是有六個(gè)本質(zhì)性的結(jié)構(gòu)變化,這六個(gè)變化共同構(gòu)成了"為什么推理型方法不能直接搬過(guò)來(lái)用"的完整解釋。

第一個(gè)變化是"環(huán)境變得不可控"。當(dāng)AI只是在生成文字時(shí),環(huán)境完全可預(yù)測(cè)——下一步的狀態(tài)就是已有文字加上剛生成的詞。但當(dāng)AI開(kāi)始調(diào)用工具、執(zhí)行代碼、搜索網(wǎng)頁(yè)時(shí),同樣的操作可能因?yàn)榫W(wǎng)絡(luò)狀態(tài)、數(shù)據(jù)庫(kù)變化、執(zhí)行時(shí)序而得到完全不同的結(jié)果。這讓"從中間狀態(tài)出發(fā)多次模擬"變得要么成本極高,要么根本不可能。

第二個(gè)變化是"只能看到部分信息"。推理型任務(wù)是全透明的,AI看到的就是完整狀態(tài)。但在智能體任務(wù)中,AI只能看到它執(zhí)行查詢后得到的返回結(jié)果,看不到數(shù)據(jù)庫(kù)的全貌;只能看到文件系統(tǒng)中它選擇查看的文件,看不到整個(gè)代碼庫(kù)的結(jié)構(gòu)。這意味著即便某一步看起來(lái)是個(gè)"壞"決策,也可能是因?yàn)樾畔⒉蛔?,而非真的決策失誤。

第三個(gè)變化是"時(shí)間跨度爆炸"。從做幾十步推理變成了做幾十到上百次來(lái)回操作,計(jì)算信號(hào)質(zhì)量急劇下降。統(tǒng)計(jì)上,信噪比大約下降了一百倍。

第四個(gè)變化是"操作類(lèi)型千差萬(wàn)別"。推理鏈條里的每一步都是"想清楚下一個(gè)論證",相對(duì)同質(zhì)。但智能體的操作中,有制定高層計(jì)劃的戰(zhàn)略性決策,有選擇用哪個(gè)工具的技術(shù)性決策,有具體填寫(xiě)參數(shù)的執(zhí)行性操作,有格式化輸出的收尾性操作。這些操作的"重要程度"天差地別,但如果用統(tǒng)一的功勞分配方式,就會(huì)一視同仁。

第五個(gè)變化是"中間過(guò)程難以驗(yàn)證"。數(shù)學(xué)推理的每一步在邏輯上是可以檢驗(yàn)的——這個(gè)代數(shù)變形對(duì)不對(duì)、這個(gè)推導(dǎo)步驟合不合法。但在智能體任務(wù)中,"選擇搜索哪個(gè)關(guān)鍵詞是個(gè)好選擇嗎"只有等看到搜索結(jié)果再說(shuō),"這段代碼寫(xiě)得好不好"只有執(zhí)行之后才知道。

第六個(gè)變化是"分叉點(diǎn)稀少但致命"。在智能體任務(wù)中,大多數(shù)操作都是常規(guī)動(dòng)作,真正改變命運(yùn)走向的"關(guān)鍵決策點(diǎn)"其實(shí)非常少,但一旦在這個(gè)節(jié)點(diǎn)上做錯(cuò),就可能導(dǎo)致整個(gè)任務(wù)走入死胡同。這些點(diǎn)事先根本不知道是哪里,只有事后回頭看才能認(rèn)出來(lái)。

基于這六個(gè)挑戰(zhàn),研究者們發(fā)展出了一批專(zhuān)門(mén)針對(duì)智能體任務(wù)的新方法。

AgentPRM是把推理型的"步驟打分器"概念移植到智能體任務(wù)上,但把計(jì)算方式從"蒙特卡洛多次模擬"改成了"時(shí)序差分學(xué)習(xí)"——訓(xùn)練一個(gè)輔助模型,讓它不斷預(yù)測(cè)"從當(dāng)前步驟繼續(xù)下去,大概能得多少分",通過(guò)迭代更新來(lái)學(xué)會(huì)這個(gè)預(yù)測(cè)。這樣就不需要重啟環(huán)境去模擬,但引入了預(yù)測(cè)誤差。實(shí)驗(yàn)顯示樣本效率提升了八倍。

SWEET-RL提出了一個(gè)非常聰明的思路。訓(xùn)練的時(shí)候,人們可以掌握AI在推理時(shí)看不到的信息——比如正確答案是什么、整個(gè)任務(wù)最終是否成功。這叫做"特權(quán)信息"。SWEET-RL用這些特權(quán)信息訓(xùn)練一個(gè)專(zhuān)門(mén)的"裁判"模型,讓它在訓(xùn)練期間給每一步打出高質(zhì)量的功勞分;而參與實(shí)際任務(wù)的AI在執(zhí)行任務(wù)時(shí)并不依賴這個(gè)裁判——它只用自己能看到的信息來(lái)做決策。這種"訓(xùn)練時(shí)用特權(quán),運(yùn)行時(shí)不用特權(quán)"的不對(duì)稱(chēng)設(shè)計(jì),既提升了信號(hào)質(zhì)量,又不影響AI在真實(shí)環(huán)境中的獨(dú)立性。

CARL(關(guān)鍵行動(dòng)強(qiáng)化學(xué)習(xí))提出了一個(gè)大膽的簡(jiǎn)化思路:與其給所有操作都分配精細(xì)的功勞,不如只管那些真正關(guān)鍵的操作。怎么判斷哪步關(guān)鍵?用"熵"——在某個(gè)狀態(tài)下,如果AI面臨很多種可能的操作選擇且各有可能,說(shuō)明這是個(gè)真正需要做決策的關(guān)鍵時(shí)刻,熵值高;如果AI幾乎必然會(huì)做某個(gè)操作,說(shuō)明這只是常規(guī)步驟,熵值低。CARL只對(duì)高熵操作步驟進(jìn)行梯度更新,跳過(guò)其他所有步驟。結(jié)果令人意外:減少了72%的梯度更新量,但性能幾乎不下降。這說(shuō)明智能體軌跡中絕大多數(shù)操作根本不值得優(yōu)化,只有少數(shù)關(guān)鍵決策真的重要。

GiGPO提出了一種"組中組"的巧妙設(shè)計(jì)。在GRPO原本的基礎(chǔ)上,它增加了一層:不只是在多次完整嘗試之間做比較,而是在同一次嘗試中,找出那些"從相同出發(fā)點(diǎn)繼續(xù)"的步驟,把它們相互比較,用組內(nèi)相對(duì)表現(xiàn)來(lái)分配步驟級(jí)別的功勞。這樣既不需要額外的輔助模型,也不需要重啟環(huán)境,在計(jì)算效率和信號(hào)質(zhì)量之間找到了一個(gè)不錯(cuò)的平衡點(diǎn)。實(shí)驗(yàn)中在網(wǎng)頁(yè)購(gòu)物和家居任務(wù)兩個(gè)基準(zhǔn)測(cè)試上分別超越GRPO達(dá)12%和9%。

最引人關(guān)注的是2026年3月同一周內(nèi)冒出的三篇獨(dú)立論文,它們都走向了同一個(gè)方向:事后反事實(shí)分析。

HCAPO的核心思路是"事后諸葛亮":等整個(gè)任務(wù)做完之后,再回過(guò)頭來(lái)評(píng)估每一步的貢獻(xiàn)。它用AI來(lái)扮演裁判,讓裁判用完整的事后信息去問(wèn)"如果這步換成另一個(gè)操作,結(jié)果會(huì)不同嗎"。這種方法的關(guān)鍵洞察是:事后的功勞評(píng)估天然比事前更準(zhǔn)確,因?yàn)槟阋呀?jīng)知道結(jié)果了,可以真正區(qū)分"這步是真的好"和"這步只是恰好運(yùn)氣不錯(cuò)"。

C3(上下文反事實(shí)功勞分配)用的是"留一法"——把某一步的操作替換成一個(gè)"默認(rèn)操作",用AI來(lái)估計(jì)在這種反事實(shí)情況下任務(wù)最終會(huì)怎么發(fā)展,然后比較真實(shí)結(jié)果和反事實(shí)結(jié)果的差值作為那步的功勞。不需要重跑環(huán)境,反事實(shí)估算完全在AI的"想象中"完成。

CCPO提供了更嚴(yán)格的理論框架:把整個(gè)任務(wù)軌跡看作一個(gè)因果結(jié)構(gòu),每步操作是一個(gè)"干預(yù)變量",任務(wù)結(jié)果是被影響的"效果"。每步的功勞就是這個(gè)"干預(yù)"的平均處理效應(yīng)。這個(gè)框架在一定假設(shè)條件下有嚴(yán)格的理論保證。

三篇論文獨(dú)立得出相同結(jié)論,本身就是一個(gè)強(qiáng)烈信號(hào):對(duì)于智能體任務(wù),"事后回溯式"的功勞認(rèn)定思路正在成為主流范式。

六、多AI協(xié)作:最新的功勞認(rèn)定前沿

當(dāng)任務(wù)不是由一個(gè)AI獨(dú)立完成,而是由多個(gè)AI分工協(xié)作時(shí),問(wèn)題又多了一個(gè)維度:這個(gè)成果里,有多少是你的功勞,有多少是隊(duì)友的功勞?

這個(gè)問(wèn)題在現(xiàn)實(shí)中并不陌生。電影上映后,演員、導(dǎo)演、攝影師、劇本作者各自貢獻(xiàn)了多少,誰(shuí)應(yīng)該拿最多的獎(jiǎng)勵(lì),一直是討論不完的話題。多AI場(chǎng)景面臨的是完全類(lèi)似的挑戰(zhàn),而且還更復(fù)雜:不同AI的能力和角色完全不同(一個(gè)專(zhuān)門(mén)負(fù)責(zé)搜索,一個(gè)專(zhuān)門(mén)寫(xiě)代碼,一個(gè)專(zhuān)門(mén)做總結(jié)),共同完成了一個(gè)無(wú)法單獨(dú)拆開(kāi)評(píng)估的整體任務(wù)。

SHARP把Shapley值從推理任務(wù)的"步驟層面"搬到了多AI任務(wù)的"智能體層面":把整個(gè)AI團(tuán)隊(duì)看作一個(gè)合作游戲,每個(gè)AI的功勞是它在所有可能的團(tuán)隊(duì)組合中的"平均邊際貢獻(xiàn)"。實(shí)驗(yàn)顯示,平均比單一AI高出23.7%,比沒(méi)有Shapley功勞分配的多AI系統(tǒng)高出14.1%。

MAPPA走了另一條路:不等任務(wù)結(jié)束才算總賬,而是在每個(gè)AI的每一步操作完成后,就用另一個(gè)AI來(lái)評(píng)判這一步的即時(shí)價(jià)值。這樣每次訓(xùn)練時(shí)可以從每個(gè)軌跡里提取出更多的學(xué)習(xí)信號(hào)。實(shí)驗(yàn)中,在數(shù)學(xué)競(jìng)賽任務(wù)上提升幅度高達(dá)5到17個(gè)百分點(diǎn),是目前多AI方向上報(bào)告的最大增益之一。

Dr. MAS發(fā)現(xiàn)了一個(gè)具體的失效模式:當(dāng)用GRPO來(lái)訓(xùn)練多AI系統(tǒng)時(shí),如果用全局統(tǒng)一的基準(zhǔn)線來(lái)計(jì)算各AI的優(yōu)勢(shì)分,會(huì)出問(wèn)題——因?yàn)椴煌珹I的任務(wù)難度和獎(jiǎng)勵(lì)分布完全不同,一個(gè)統(tǒng)一的基準(zhǔn)線對(duì)某些AI來(lái)說(shuō)太高,對(duì)另一些來(lái)說(shuō)太低。解決方案是給每個(gè)AI各自維護(hù)獨(dú)立的統(tǒng)計(jì)基準(zhǔn),分別歸一化。這個(gè)改動(dòng)看起來(lái)簡(jiǎn)單,但卻把原本發(fā)散的訓(xùn)練過(guò)程穩(wěn)定下來(lái),并帶來(lái)了5.6%的性能提升。

七、做選擇時(shí)的實(shí)用指南

這篇綜述不只是盤(pán)點(diǎn)方法,還給出了一套決策框架,幫助實(shí)際工作者根據(jù)自己的情況選擇合適的方法。

核心邏輯是一棵決策樹(shù)。首先問(wèn)的是任務(wù)性質(zhì):是推理型(AI生成一段文字)、智能體型(AI與環(huán)境交互多個(gè)回合),還是多AI協(xié)作?在推理型任務(wù)中,再問(wèn)推理鏈條多長(zhǎng)。如果短(五千詞以內(nèi)),用GRPO家族就夠,加上PURE或SPRO來(lái)強(qiáng)化步驟級(jí)別信號(hào);如果長(zhǎng)(超過(guò)五千詞),且計(jì)算資源有限,用HICRA或CAPO;如果計(jì)算資源充裕,用VinePPO或SCAR來(lái)追求更高質(zhì)量的功勞分配。

在智能體型任務(wù)中,先問(wèn)軌跡有多長(zhǎng)。如果不超過(guò)三十個(gè)回合,再問(wèn)有沒(méi)有輔助模型資源:沒(méi)有的話用GiGPO、CARL或iStar;有的話用AgentPRM或SWEET-RL。如果超過(guò)三十個(gè)回合,再問(wèn)計(jì)算資源是否充裕:資源有限就用CARL或HCAPO或ArCHer的簡(jiǎn)化版;資源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI協(xié)作場(chǎng)景則推薦M-GRPO、SHARP或MAPPA。

綜述還整理了幾個(gè)關(guān)鍵取舍。粒度越細(xì)的方法(詞語(yǔ)級(jí))提供越精確的信號(hào),但計(jì)算成本越高;事后分析(HCAPO、C3)信息質(zhì)量高但引入延遲;不需要輔助模型的方法(CARL、GiGPO、iStar)更容易部署;專(zhuān)門(mén)為推理型設(shè)計(jì)的方法在智能體任務(wù)上往往失效,反之則不然。

八、這個(gè)領(lǐng)域還缺什么

綜述誠(chéng)實(shí)地指出了幾個(gè)尚未解決的重要問(wèn)題。

在實(shí)踐層面,目前評(píng)測(cè)各種功勞分配方法的基準(zhǔn)測(cè)試嚴(yán)重不統(tǒng)一。每篇論文用的任務(wù)、基礎(chǔ)模型、訓(xùn)練配置各不相同,導(dǎo)致無(wú)法真正比較哪個(gè)方法更好,還是說(shuō)哪個(gè)方法只是恰好在某個(gè)任務(wù)上更有優(yōu)勢(shì)。這讓整個(gè)領(lǐng)域的進(jìn)展變得模糊。研究者呼吁建立一套共享的基準(zhǔn)測(cè)試協(xié)議,包括已知正確功勞分配的推理任務(wù)、有控制分叉點(diǎn)的智能體任務(wù),以及有設(shè)計(jì)好功勞結(jié)構(gòu)的多AI任務(wù)。

在理論層面,絕大多數(shù)方法只有經(jīng)驗(yàn)驗(yàn)證而沒(méi)有理論保證。只有極少數(shù)方法(如VinePPO的無(wú)偏性證明、CCPO的因果假設(shè)下的保證)提供了形式化分析。在部分可觀測(cè)環(huán)境下,功勞分配如何收斂、樣本復(fù)雜度是多少,這些基本問(wèn)題幾乎沒(méi)有答案。

在新興應(yīng)用層面,當(dāng)AI任務(wù)跨度極長(zhǎng)(比如持續(xù)幾天的科研實(shí)驗(yàn))、獎(jiǎng)勵(lì)信號(hào)本身不確定(比如"用戶是否滿意"這種主觀評(píng)價(jià)),或者AI的操作影響到了AI自己的"記憶"(比如把某些信息存入外部數(shù)據(jù)庫(kù)以備后用),功勞應(yīng)該如何分配,現(xiàn)有方法幾乎無(wú)從應(yīng)對(duì)。

還有一個(gè)被忽略的機(jī)會(huì):功勞認(rèn)定和探索策略本來(lái)可以互相增益。在功勞認(rèn)定最不確定的狀態(tài)上,恰恰是AI最應(yīng)該去探索的地方——因?yàn)槟抢镄畔⒆钊狈?。但目前沒(méi)有任何方法把這兩件事真正結(jié)合在一起。

歸根結(jié)底,這個(gè)領(lǐng)域正在經(jīng)歷一個(gè)快速成熟的階段。推理型任務(wù)上的功勞分配問(wèn)題,大致已有可用的工程答案;智能體任務(wù)上的功勞分配問(wèn)題,思路已經(jīng)清晰但工具還不完備;多AI協(xié)作的功勞分配問(wèn)題,才剛剛開(kāi)始被認(rèn)真對(duì)待。

三年前,幾乎沒(méi)有人把"功勞分配"當(dāng)作一個(gè)獨(dú)立的研究方向來(lái)看待,它只是深藏在各種算法細(xì)節(jié)里的小問(wèn)題。但隨著AI從"會(huì)回答問(wèn)題"進(jìn)化到"會(huì)干活",這個(gè)問(wèn)題已經(jīng)從背景噪音變成了舞臺(tái)中央最響亮的那個(gè)聲音。下一波突破,很可能就藏在"怎么讓AI明白自己真正做對(duì)了什么"這個(gè)問(wèn)題的答案里。

有興趣深入了解的讀者可以通過(guò)arXiv編號(hào)2604.09459檢索這篇論文,或直接訪問(wèn)作者在GitHub上維護(hù)的相關(guān)論文列表(xxzcc/Awesome-Credit-Assignment-in-LLM-RL)以獲取持續(xù)更新的研究動(dòng)態(tài)。

Q&A

Q1:大模型強(qiáng)化學(xué)習(xí)中的功勞認(rèn)定問(wèn)題具體是什么?

A:功勞認(rèn)定問(wèn)題是指當(dāng)AI完成一項(xiàng)多步驟任務(wù)后,訓(xùn)練系統(tǒng)只知道最終結(jié)果的好壞,但不知道是哪一步操作真正起了決定性作用。就像一場(chǎng)球賽贏了,但說(shuō)不清楚是誰(shuí)的功勞。在AI做復(fù)雜任務(wù)時(shí),可能經(jīng)歷幾十步到上百步,如果只靠最終獎(jiǎng)勵(lì)來(lái)訓(xùn)練,效率極低,甚至?xí)孉I學(xué)到錯(cuò)誤的行為模式。

Q2:GRPO方法在智能體任務(wù)上為什么會(huì)出現(xiàn)"回聲陷阱"?

A:GRPO對(duì)整個(gè)任務(wù)軌跡中的每一步都給同樣的獎(jiǎng)懲信號(hào),當(dāng)任務(wù)變得復(fù)雜、步驟達(dá)到幾十甚至上百步時(shí),這個(gè)信號(hào)對(duì)每一步來(lái)說(shuō)變得極其微弱且充滿噪聲。AI因?yàn)闊o(wú)法分清哪步真正有用,為了降低風(fēng)險(xiǎn)就開(kāi)始不斷重復(fù)已知的安全動(dòng)作,變得越來(lái)越保守和重復(fù),完全失去了探索新方法的動(dòng)力,這就是所謂的"回聲陷阱"。

Q3:CARL方法中用來(lái)判斷關(guān)鍵決策點(diǎn)的"熵"是什么意思?

A:在CARL方法里,"熵"衡量的是AI在某個(gè)狀態(tài)下面對(duì)多少種可能選擇、且這些選擇的可能性有多均勻。如果AI幾乎肯定會(huì)做某一個(gè)操作,熵值低,說(shuō)明這只是常規(guī)步驟不需要特別訓(xùn)練;如果AI面臨很多種同樣可能的選擇,熵值高,說(shuō)明這是真正需要做判斷的關(guān)鍵時(shí)刻,才值得投入梯度更新資源。實(shí)驗(yàn)發(fā)現(xiàn)跳過(guò)低熵步驟可以減少72%的計(jì)算量但性能幾乎不變。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

綜合ROI時(shí)代,這些高速增長(zhǎng)的商家做對(duì)了什么?

刀法研究所
2026-04-16 15:00:13
G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

籃球資訊達(dá)人
2026-04-22 13:27:16
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深?lèi)?ài)雜談
2026-04-21 07:45:20
iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

iPhone Fold 國(guó)內(nèi)售價(jià)1.4萬(wàn)元?散熱方案曝光,這次信息量有點(diǎn)大

數(shù)碼Antenna
2026-04-22 11:47:48
建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

建國(guó)后外逃級(jí)別最高的貪官!至今未落網(wǎng),23年來(lái)逃跑方式仍是謎

老范談史
2026-04-22 16:45:31
段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

段睿悲痛萬(wàn)分,深夜發(fā)布訃告:他走了,再也沒(méi)有人等我回去了!

米果說(shuō)識(shí)
2026-04-22 14:41:50
到賬230億,賈躍亭起飛!

到賬230億,賈躍亭起飛!

鳴金網(wǎng)
2026-04-21 19:58:22
華為乾崑的3次“死磕”舉動(dòng),成了車(chē)圈最難抄的作業(yè)

華為乾崑的3次“死磕”舉動(dòng),成了車(chē)圈最難抄的作業(yè)

金錯(cuò)刀
2026-04-21 14:22:17
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩(shī)話
2026-04-22 17:56:13
拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬(wàn)億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
你寫(xiě)的Skill,正在拖慢模型?策略式Gene才是正確答案

你寫(xiě)的Skill,正在拖慢模型?策略式Gene才是正確答案

機(jī)器之心Pro
2026-04-21 18:54:52
5月1日起正式嚴(yán)打!8類(lèi)灰色行為直接入刑,所有人務(wù)必警惕

5月1日起正式嚴(yán)打!8類(lèi)灰色行為直接入刑,所有人務(wù)必警惕

另子維愛(ài)讀史
2026-04-22 07:39:03
曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
讓華北的地下水上一次熱搜吧!

讓華北的地下水上一次熱搜吧!

細(xì)雨中的呼喊
2026-04-22 13:29:31
2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱(chēng)贊并題詞

2013年,江青拍攝的照片以34萬(wàn)元的高價(jià)拍出,毛澤東曾稱(chēng)贊并題詞

南書(shū)房
2026-04-21 07:25:06
俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進(jìn)群聊

愛(ài)范兒
2026-04-21 22:36:25
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車(chē)

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車(chē)

全城探秘
2026-04-22 16:41:13
2026-04-22 19:39:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車(chē)要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

家居
游戲
時(shí)尚
本地
公開(kāi)課

家居要聞

極簡(jiǎn)繪夢(mèng) 克制和諧

《黑旗RE》官宣直播!B站抖音中文預(yù)告片首發(fā)!

初夏穿赫本的白褲子,清新又高級(jí)!

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版