網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

獨(dú)立研究者發(fā)表的大模型強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)分配全景報(bào)告

2026-04-21 22:03:39　來(lái)源: 科技行者

天津舉報(bào)

分享至

這篇由獨(dú)立研究者完成的綜述論文發(fā)表于2026年4月，arXiv編號(hào)為2604.09459（v2版本于2026年4月13日更新），是目前學(xué)術(shù)界首篇系統(tǒng)性聚焦于大型語(yǔ)言模型強(qiáng)化學(xué)習(xí)中"功勞認(rèn)定"問(wèn)題的專(zhuān)題綜述。感興趣的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)檢索全文。

當(dāng)你雇了一個(gè)團(tuán)隊(duì)幫你裝修房子，最后裝修效果很差，你會(huì)怎么追責(zé)？是罵負(fù)責(zé)設(shè)計(jì)的人、還是罵負(fù)責(zé)施工的人、還是罵負(fù)責(zé)采購(gòu)材料的人？如果整個(gè)團(tuán)隊(duì)分工明確、每人只做了一部分，而你只知道最終結(jié)果很糟糕，那要怎么判斷究竟是哪個(gè)環(huán)節(jié)出了問(wèn)題、下次應(yīng)該換掉誰(shuí)？

這個(gè)看似日常的困境，正是當(dāng)前人工智能領(lǐng)域最核心的技術(shù)難題之一。一個(gè)大型語(yǔ)言模型（也就是類(lèi)似ChatGPT這樣的AI）在被訓(xùn)練成"會(huì)做事的助手"時(shí)，會(huì)經(jīng)歷成千上萬(wàn)次嘗試。每次嘗試，它可能做了幾十步、幾百步才得到一個(gè)結(jié)果，但訓(xùn)練系統(tǒng)只告訴它"這次成功了"或"這次失敗了"——根本不知道是哪一步起了關(guān)鍵作用。這就是所謂的"功勞認(rèn)定"問(wèn)題（Credit Assignment），也是本文的核心議題。

這篇綜述梳理了2024年到2026年初之間發(fā)表的47篇相關(guān)論文，把這些解決方案分門(mén)別類(lèi)地整理成一套完整的知識(shí)體系。它不只是一本目錄，還附帶了一套幫助研究者和工程師選方法的決策樹(shù)、一份給未來(lái)研究者的寫(xiě)作規(guī)范清單，以及一個(gè)基準(zhǔn)測(cè)試的協(xié)議規(guī)范。對(duì)于任何想在這一方向上開(kāi)展研究或?qū)嶋H應(yīng)用的人來(lái)說(shuō)，這篇綜述是一份難得的導(dǎo)航地圖。

一、從"寫(xiě)作業(yè)"到"干活"：AI能力進(jìn)化帶來(lái)的新麻煩

要理解這個(gè)問(wèn)題有多棘手，先得了解AI是如何一步步"進(jìn)化"的。

早期的AI訓(xùn)練方式，有點(diǎn)像雇人寫(xiě)一篇作文然后請(qǐng)老師打分。系統(tǒng)生成一段話，人類(lèi)或者評(píng)分程序打一個(gè)總分，AI據(jù)此調(diào)整自己。這個(gè)過(guò)程中，整篇作文只拿到一個(gè)分?jǐn)?shù)，每個(gè)句子、每個(gè)詞都獲得了同等的"獎(jiǎng)懲"。這就是所謂的"結(jié)果級(jí)別獎(jiǎng)勵(lì)"。在任務(wù)比較簡(jiǎn)單、回答比較短的情況下，這種方式勉強(qiáng)夠用。

后來(lái)，隨著DeepSeek-R1和OpenAI的o1這類(lèi)模型的出現(xiàn)，AI開(kāi)始被訓(xùn)練去解數(shù)學(xué)題和寫(xiě)代碼，而且要展示完整的推理過(guò)程。這時(shí)候，一段回答可能長(zhǎng)達(dá)一兩萬(wàn)個(gè)詞，里面包含幾十個(gè)推理步驟。這就是所謂的"推理型強(qiáng)化學(xué)習(xí)"階段。光靠最后一個(gè)"答對(duì)了"或"答錯(cuò)了"來(lái)訓(xùn)練，效率太低了——就像老師批改數(shù)學(xué)作業(yè)只寫(xiě)"錯(cuò)"但不指出哪一步算錯(cuò)了，學(xué)生根本不知道該從哪里改。

再往后發(fā)展，AI被賦予了真正"干活"的能力：它可以上網(wǎng)搜索、執(zhí)行代碼、調(diào)用工具、發(fā)送消息、與其他AI協(xié)作。一個(gè)任務(wù)可能要來(lái)回操作幾十次甚至上百次，耗費(fèi)的文字量可能高達(dá)幾十萬(wàn)到上百萬(wàn)個(gè)詞。這就是"智能體型強(qiáng)化學(xué)習(xí)"階段，也是目前技術(shù)前沿所在。在這種情況下，"功勞認(rèn)定"問(wèn)題達(dá)到了前所未有的復(fù)雜程度。

綜述提供了一組非常直觀的數(shù)字對(duì)比來(lái)說(shuō)明這個(gè)落差。在解簡(jiǎn)單數(shù)學(xué)題時(shí)，AI大約只需要兩三百到八百個(gè)詞，做出三到十個(gè)關(guān)鍵決策。在解競(jìng)賽數(shù)學(xué)題時(shí)，可能需要一兩萬(wàn)個(gè)詞、幾十到一百個(gè)關(guān)鍵步驟。而在處理像SWE-bench這樣的軟件工程任務(wù)時(shí)，AI可能需要來(lái)回操作二三十次到一百多次，總共用掉十萬(wàn)到五十萬(wàn)個(gè)詞，做出幾十到上百個(gè)關(guān)鍵決策。當(dāng)一個(gè)AI在第三步做了一個(gè)糟糕的選擇，但之后的九十七步都還算正常，最終任務(wù)失敗——訓(xùn)練系統(tǒng)如何知道是第三步的鍋？這就是問(wèn)題的本質(zhì)。

二、"所有人平分獎(jiǎng)金"為什么行不通

現(xiàn)在最流行的大模型訓(xùn)練方法叫做GRPO（群體相對(duì)策略優(yōu)化），它的核心邏輯是：讓AI對(duì)同一個(gè)任務(wù)做出多次嘗試，然后根據(jù)每次嘗試的結(jié)果好壞來(lái)給那次嘗試的所有步驟打同樣的分。換句話說(shuō)，如果這次嘗試成功了，那么這次嘗試中的每一個(gè)詞、每一步操作都獲得同等的"功勞"；如果失敗了，每一步都背同等的"黑鍋"。

這就像一家公司的績(jī)效考核制度是這樣的：如果這個(gè)月業(yè)績(jī)好，所有員工無(wú)論貢獻(xiàn)多少都拿同樣的獎(jiǎng)金；如果業(yè)績(jī)差，所有人無(wú)論犯沒(méi)犯錯(cuò)都被扣同等的工資。這種制度在員工很少、每個(gè)人的工作都清晰可見(jiàn)的小團(tuán)隊(duì)中或許還能接受，但在一個(gè)有一百個(gè)部門(mén)、每個(gè)部門(mén)又有幾十個(gè)人的大公司里，就完全失效了。

綜述用了一個(gè)嚴(yán)格的數(shù)學(xué)分析來(lái)說(shuō)明這個(gè)問(wèn)題。在單純的統(tǒng)計(jì)學(xué)上，當(dāng)你對(duì)一百個(gè)不同的決策都用同一個(gè)信號(hào)來(lái)判斷好壞時(shí)，平均到每個(gè)決策上的"信息量"只有單決策情況的百分之一。這不只是效率低的問(wèn)題，而是會(huì)導(dǎo)致模型學(xué)到錯(cuò)誤的東西。研究者們發(fā)現(xiàn)，在這種訓(xùn)練方式下，AI會(huì)逐漸傾向于做那些"安全但毫無(wú)意義"的重復(fù)動(dòng)作——因?yàn)樽鋈魏涡缕娴膰L試風(fēng)險(xiǎn)太高，不如一直重復(fù)已知的動(dòng)作，反正獎(jiǎng)懲信號(hào)那么模糊，誰(shuí)也說(shuō)不清楚。這個(gè)現(xiàn)象被研究者稱(chēng)為"回聲陷阱"。

正因如此，四十七篇論文的核心目標(biāo)只有一個(gè)：找到更好的方式，把那個(gè)模糊的最終結(jié)果獎(jiǎng)勵(lì)，精準(zhǔn)地分配到真正值得獎(jiǎng)勵(lì)或懲罰的那一步上。

三、分類(lèi)整理：解決問(wèn)題的四十七種思路

這篇綜述把四十七種方法整理成了一張二維地圖。橫軸是"方法論"——用什么技術(shù)來(lái)計(jì)算功勞；縱軸是"粒度"——把功勞分配到哪個(gè)層級(jí)。

從粒度來(lái)說(shuō)，最細(xì)的是詞語(yǔ)級(jí)別（每個(gè)詞都分開(kāi)算），往上是段落級(jí)別（把一段推理當(dāng)一個(gè)單元），再往上是步驟或回合級(jí)別（每一次AI說(shuō)話或做操作算一個(gè)單元），最頂層是多AI級(jí)別（多個(gè)AI協(xié)作時(shí)，每個(gè)AI各算各的）。不同任務(wù)適合不同粒度——就像餐廳績(jī)效考核可以精細(xì)到每道菜（詞語(yǔ)級(jí)），也可以粗略到每個(gè)班次（回合級(jí)），更可以整體評(píng)價(jià)前廳還是后廚團(tuán)隊(duì)（多智能體級(jí)）。

從方法論來(lái)說(shuō)，主要有五大家族。第一類(lèi)叫"蒙特卡洛法"，思路是：從中間某步開(kāi)始，讓AI從那里繼續(xù)把任務(wù)做完，做很多次，用這多次的平均結(jié)果來(lái)估計(jì)這步的重要性。第二類(lèi)叫"時(shí)序差分法"，思路是：訓(xùn)練一個(gè)專(zhuān)門(mén)負(fù)責(zé)打分的輔助模型，這個(gè)模型負(fù)責(zé)預(yù)測(cè)"從當(dāng)前狀態(tài)繼續(xù)下去大概能得多少分"，用這個(gè)預(yù)測(cè)值來(lái)分配功勞。第三類(lèi)叫"AI自評(píng)法"，思路是：直接問(wèn)AI自己"你覺(jué)得這一步重要嗎"，用AI自己的語(yǔ)言理解能力來(lái)做裁判。第四類(lèi)叫"博弈論法"，主要是Shapley值——這是個(gè)來(lái)自經(jīng)濟(jì)學(xué)的方法，核心是問(wèn)"如果去掉這一步，結(jié)果會(huì)差多少"，通過(guò)所有可能的組合排列來(lái)公平地分配貢獻(xiàn)。第五類(lèi)叫"信息論法"，思路是衡量"這一步提供了多少關(guān)于任務(wù)成功的新信息"。

在這張地圖上，從左上角到右下角有一條進(jìn)化路徑：推理型任務(wù)的方法主要集中在詞語(yǔ)級(jí)和段落級(jí)，用蒙特卡洛或時(shí)序差分；而智能體型任務(wù)的方法主要集中在回合級(jí)和多AI級(jí)，用事后分析、反事實(shí)推理和信息論。這條路徑本身就是一個(gè)重要發(fā)現(xiàn)。

四、推理AI的功勞分配：已有成熟方案

在推理型任務(wù)領(lǐng)域，方法已經(jīng)相對(duì)成熟，這里重點(diǎn)介紹幾個(gè)有代表性的。

VinePPO這個(gè)方法的核心比喻是"在棋局中途換人接著下"。它的做法是：在AI正在生成回答的某個(gè)詞的位置上，讓AI從那里繼續(xù)往下寫(xiě)，寫(xiě)很多個(gè)不同的版本，統(tǒng)計(jì)這些版本最終有多少比例能得到正確答案。這個(gè)比例就是那個(gè)詞的"預(yù)期價(jià)值"，而實(shí)際的功勞就是"真實(shí)結(jié)果"減去"預(yù)期價(jià)值"。好處是完全沒(méi)有偏差，不依賴任何輔助模型；壞處是計(jì)算量很大，每個(gè)詞都要生成額外的很多個(gè)版本。實(shí)驗(yàn)證明，這個(gè)方法在數(shù)學(xué)推理上比傳統(tǒng)PPO效果顯著更好，說(shuō)明功勞分配質(zhì)量本身就是訓(xùn)練的瓶頸，而不是優(yōu)化算法的問(wèn)題。

SPO走了一條更實(shí)用的路：不在每個(gè)詞上分配功勞，而是找到推理鏈條中的"分叉點(diǎn)"——那些推理從一個(gè)子問(wèn)題跳躍到另一個(gè)子問(wèn)題的地方，以這些有意義的段落作為單位。每個(gè)段落的功勞用比較"共享同一前綴的不同軌跡的結(jié)果"來(lái)估算。這樣既保留了比詞語(yǔ)級(jí)更細(xì)的信息，又避免了計(jì)算量爆炸。

SCAR走的是博弈論路線：把整段推理鏈條看作一個(gè)團(tuán)隊(duì)協(xié)作，每個(gè)段落是一個(gè)"隊(duì)員"，用Shapley值來(lái)公平分配"誰(shuí)的功勞最大"。Shapley值有一個(gè)很好的性質(zhì)，它滿足效率（所有人的功勞加起來(lái)等于總收益）、對(duì)稱(chēng)性（貢獻(xiàn)相同則獎(jiǎng)勵(lì)相同）和零貢獻(xiàn)性（對(duì)結(jié)果沒(méi)影響的步驟得零分）。缺點(diǎn)是計(jì)算復(fù)雜，因?yàn)橐紤]所有可能的組合順序，但研究者用了抽樣近似來(lái)解決。

PURE提出了一個(gè)有趣的理論洞察。傳統(tǒng)的過(guò)程獎(jiǎng)勵(lì)模型（簡(jiǎn)單理解為"步驟打分器"）用的是"這步之后預(yù)期總得分"來(lái)衡量步驟質(zhì)量，PURE認(rèn)為這樣會(huì)被模型鉆空子——模型可能學(xué)會(huì)制造一些看起來(lái)分?jǐn)?shù)不低但實(shí)際上沒(méi)用的中間步驟。PURE改用"這步之后所有未來(lái)步驟中最低分"來(lái)衡量，強(qiáng)迫模型確保每一步都不拖后腿，而不是靠后面某些高分步驟來(lái)平攤。

HICRA發(fā)現(xiàn)了一個(gè)有趣的學(xué)習(xí)規(guī)律：AI在強(qiáng)化學(xué)習(xí)訓(xùn)練的過(guò)程中，先學(xué)會(huì)的是"程序性技能"（也就是固定套路和計(jì)算步驟），后學(xué)會(huì)的是"戰(zhàn)略規(guī)劃"（也就是高層次的問(wèn)題分解方式）?；诖?，HICRA建議把更多功勞集中在那些具有戰(zhàn)略意義的詞語(yǔ)和步驟上，而不是均勻分配。這個(gè)發(fā)現(xiàn)對(duì)智能體任務(wù)同樣有重要啟發(fā)價(jià)值。

五、智能體AI的功勞分配：全新挑戰(zhàn)，全新方案

從推理型到智能體型，不只是任務(wù)變復(fù)雜了那么簡(jiǎn)單，而是有六個(gè)本質(zhì)性的結(jié)構(gòu)變化，這六個(gè)變化共同構(gòu)成了"為什么推理型方法不能直接搬過(guò)來(lái)用"的完整解釋。

第一個(gè)變化是"環(huán)境變得不可控"。當(dāng)AI只是在生成文字時(shí)，環(huán)境完全可預(yù)測(cè)——下一步的狀態(tài)就是已有文字加上剛生成的詞。但當(dāng)AI開(kāi)始調(diào)用工具、執(zhí)行代碼、搜索網(wǎng)頁(yè)時(shí)，同樣的操作可能因?yàn)榫W(wǎng)絡(luò)狀態(tài)、數(shù)據(jù)庫(kù)變化、執(zhí)行時(shí)序而得到完全不同的結(jié)果。這讓"從中間狀態(tài)出發(fā)多次模擬"變得要么成本極高，要么根本不可能。

第二個(gè)變化是"只能看到部分信息"。推理型任務(wù)是全透明的，AI看到的就是完整狀態(tài)。但在智能體任務(wù)中，AI只能看到它執(zhí)行查詢后得到的返回結(jié)果，看不到數(shù)據(jù)庫(kù)的全貌；只能看到文件系統(tǒng)中它選擇查看的文件，看不到整個(gè)代碼庫(kù)的結(jié)構(gòu)。這意味著即便某一步看起來(lái)是個(gè)"壞"決策，也可能是因?yàn)樾畔⒉蛔?，而非真的決策失誤。

第三個(gè)變化是"時(shí)間跨度爆炸"。從做幾十步推理變成了做幾十到上百次來(lái)回操作，計(jì)算信號(hào)質(zhì)量急劇下降。統(tǒng)計(jì)上，信噪比大約下降了一百倍。

第四個(gè)變化是"操作類(lèi)型千差萬(wàn)別"。推理鏈條里的每一步都是"想清楚下一個(gè)論證"，相對(duì)同質(zhì)。但智能體的操作中，有制定高層計(jì)劃的戰(zhàn)略性決策，有選擇用哪個(gè)工具的技術(shù)性決策，有具體填寫(xiě)參數(shù)的執(zhí)行性操作，有格式化輸出的收尾性操作。這些操作的"重要程度"天差地別，但如果用統(tǒng)一的功勞分配方式，就會(huì)一視同仁。

第五個(gè)變化是"中間過(guò)程難以驗(yàn)證"。數(shù)學(xué)推理的每一步在邏輯上是可以檢驗(yàn)的——這個(gè)代數(shù)變形對(duì)不對(duì)、這個(gè)推導(dǎo)步驟合不合法。但在智能體任務(wù)中，"選擇搜索哪個(gè)關(guān)鍵詞是個(gè)好選擇嗎"只有等看到搜索結(jié)果再說(shuō)，"這段代碼寫(xiě)得好不好"只有執(zhí)行之后才知道。

第六個(gè)變化是"分叉點(diǎn)稀少但致命"。在智能體任務(wù)中，大多數(shù)操作都是常規(guī)動(dòng)作，真正改變命運(yùn)走向的"關(guān)鍵決策點(diǎn)"其實(shí)非常少，但一旦在這個(gè)節(jié)點(diǎn)上做錯(cuò)，就可能導(dǎo)致整個(gè)任務(wù)走入死胡同。這些點(diǎn)事先根本不知道是哪里，只有事后回頭看才能認(rèn)出來(lái)。

基于這六個(gè)挑戰(zhàn)，研究者們發(fā)展出了一批專(zhuān)門(mén)針對(duì)智能體任務(wù)的新方法。

AgentPRM是把推理型的"步驟打分器"概念移植到智能體任務(wù)上，但把計(jì)算方式從"蒙特卡洛多次模擬"改成了"時(shí)序差分學(xué)習(xí)"——訓(xùn)練一個(gè)輔助模型，讓它不斷預(yù)測(cè)"從當(dāng)前步驟繼續(xù)下去，大概能得多少分"，通過(guò)迭代更新來(lái)學(xué)會(huì)這個(gè)預(yù)測(cè)。這樣就不需要重啟環(huán)境去模擬，但引入了預(yù)測(cè)誤差。實(shí)驗(yàn)顯示樣本效率提升了八倍。

SWEET-RL提出了一個(gè)非常聰明的思路。訓(xùn)練的時(shí)候，人們可以掌握AI在推理時(shí)看不到的信息——比如正確答案是什么、整個(gè)任務(wù)最終是否成功。這叫做"特權(quán)信息"。SWEET-RL用這些特權(quán)信息訓(xùn)練一個(gè)專(zhuān)門(mén)的"裁判"模型，讓它在訓(xùn)練期間給每一步打出高質(zhì)量的功勞分；而參與實(shí)際任務(wù)的AI在執(zhí)行任務(wù)時(shí)并不依賴這個(gè)裁判——它只用自己能看到的信息來(lái)做決策。這種"訓(xùn)練時(shí)用特權(quán)，運(yùn)行時(shí)不用特權(quán)"的不對(duì)稱(chēng)設(shè)計(jì)，既提升了信號(hào)質(zhì)量，又不影響AI在真實(shí)環(huán)境中的獨(dú)立性。

CARL（關(guān)鍵行動(dòng)強(qiáng)化學(xué)習(xí)）提出了一個(gè)大膽的簡(jiǎn)化思路：與其給所有操作都分配精細(xì)的功勞，不如只管那些真正關(guān)鍵的操作。怎么判斷哪步關(guān)鍵？用"熵"——在某個(gè)狀態(tài)下，如果AI面臨很多種可能的操作選擇且各有可能，說(shuō)明這是個(gè)真正需要做決策的關(guān)鍵時(shí)刻，熵值高；如果AI幾乎必然會(huì)做某個(gè)操作，說(shuō)明這只是常規(guī)步驟，熵值低。CARL只對(duì)高熵操作步驟進(jìn)行梯度更新，跳過(guò)其他所有步驟。結(jié)果令人意外：減少了72%的梯度更新量，但性能幾乎不下降。這說(shuō)明智能體軌跡中絕大多數(shù)操作根本不值得優(yōu)化，只有少數(shù)關(guān)鍵決策真的重要。

GiGPO提出了一種"組中組"的巧妙設(shè)計(jì)。在GRPO原本的基礎(chǔ)上，它增加了一層：不只是在多次完整嘗試之間做比較，而是在同一次嘗試中，找出那些"從相同出發(fā)點(diǎn)繼續(xù)"的步驟，把它們相互比較，用組內(nèi)相對(duì)表現(xiàn)來(lái)分配步驟級(jí)別的功勞。這樣既不需要額外的輔助模型，也不需要重啟環(huán)境，在計(jì)算效率和信號(hào)質(zhì)量之間找到了一個(gè)不錯(cuò)的平衡點(diǎn)。實(shí)驗(yàn)中在網(wǎng)頁(yè)購(gòu)物和家居任務(wù)兩個(gè)基準(zhǔn)測(cè)試上分別超越GRPO達(dá)12%和9%。

最引人關(guān)注的是2026年3月同一周內(nèi)冒出的三篇獨(dú)立論文，它們都走向了同一個(gè)方向：事后反事實(shí)分析。

HCAPO的核心思路是"事后諸葛亮"：等整個(gè)任務(wù)做完之后，再回過(guò)頭來(lái)評(píng)估每一步的貢獻(xiàn)。它用AI來(lái)扮演裁判，讓裁判用完整的事后信息去問(wèn)"如果這步換成另一個(gè)操作，結(jié)果會(huì)不同嗎"。這種方法的關(guān)鍵洞察是：事后的功勞評(píng)估天然比事前更準(zhǔn)確，因?yàn)槟阋呀?jīng)知道結(jié)果了，可以真正區(qū)分"這步是真的好"和"這步只是恰好運(yùn)氣不錯(cuò)"。

C3（上下文反事實(shí)功勞分配）用的是"留一法"——把某一步的操作替換成一個(gè)"默認(rèn)操作"，用AI來(lái)估計(jì)在這種反事實(shí)情況下任務(wù)最終會(huì)怎么發(fā)展，然后比較真實(shí)結(jié)果和反事實(shí)結(jié)果的差值作為那步的功勞。不需要重跑環(huán)境，反事實(shí)估算完全在AI的"想象中"完成。

CCPO提供了更嚴(yán)格的理論框架：把整個(gè)任務(wù)軌跡看作一個(gè)因果結(jié)構(gòu)，每步操作是一個(gè)"干預(yù)變量"，任務(wù)結(jié)果是被影響的"效果"。每步的功勞就是這個(gè)"干預(yù)"的平均處理效應(yīng)。這個(gè)框架在一定假設(shè)條件下有嚴(yán)格的理論保證。

三篇論文獨(dú)立得出相同結(jié)論，本身就是一個(gè)強(qiáng)烈信號(hào)：對(duì)于智能體任務(wù)，"事后回溯式"的功勞認(rèn)定思路正在成為主流范式。

六、多AI協(xié)作：最新的功勞認(rèn)定前沿

當(dāng)任務(wù)不是由一個(gè)AI獨(dú)立完成，而是由多個(gè)AI分工協(xié)作時(shí)，問(wèn)題又多了一個(gè)維度：這個(gè)成果里，有多少是你的功勞，有多少是隊(duì)友的功勞？

這個(gè)問(wèn)題在現(xiàn)實(shí)中并不陌生。電影上映后，演員、導(dǎo)演、攝影師、劇本作者各自貢獻(xiàn)了多少，誰(shuí)應(yīng)該拿最多的獎(jiǎng)勵(lì)，一直是討論不完的話題。多AI場(chǎng)景面臨的是完全類(lèi)似的挑戰(zhàn)，而且還更復(fù)雜：不同AI的能力和角色完全不同（一個(gè)專(zhuān)門(mén)負(fù)責(zé)搜索，一個(gè)專(zhuān)門(mén)寫(xiě)代碼，一個(gè)專(zhuān)門(mén)做總結(jié)），共同完成了一個(gè)無(wú)法單獨(dú)拆開(kāi)評(píng)估的整體任務(wù)。

SHARP把Shapley值從推理任務(wù)的"步驟層面"搬到了多AI任務(wù)的"智能體層面"：把整個(gè)AI團(tuán)隊(duì)看作一個(gè)合作游戲，每個(gè)AI的功勞是它在所有可能的團(tuán)隊(duì)組合中的"平均邊際貢獻(xiàn)"。實(shí)驗(yàn)顯示，平均比單一AI高出23.7%，比沒(méi)有Shapley功勞分配的多AI系統(tǒng)高出14.1%。

MAPPA走了另一條路：不等任務(wù)結(jié)束才算總賬，而是在每個(gè)AI的每一步操作完成后，就用另一個(gè)AI來(lái)評(píng)判這一步的即時(shí)價(jià)值。這樣每次訓(xùn)練時(shí)可以從每個(gè)軌跡里提取出更多的學(xué)習(xí)信號(hào)。實(shí)驗(yàn)中，在數(shù)學(xué)競(jìng)賽任務(wù)上提升幅度高達(dá)5到17個(gè)百分點(diǎn)，是目前多AI方向上報(bào)告的最大增益之一。

Dr. MAS發(fā)現(xiàn)了一個(gè)具體的失效模式：當(dāng)用GRPO來(lái)訓(xùn)練多AI系統(tǒng)時(shí)，如果用全局統(tǒng)一的基準(zhǔn)線來(lái)計(jì)算各AI的優(yōu)勢(shì)分，會(huì)出問(wèn)題——因?yàn)椴煌珹I的任務(wù)難度和獎(jiǎng)勵(lì)分布完全不同，一個(gè)統(tǒng)一的基準(zhǔn)線對(duì)某些AI來(lái)說(shuō)太高，對(duì)另一些來(lái)說(shuō)太低。解決方案是給每個(gè)AI各自維護(hù)獨(dú)立的統(tǒng)計(jì)基準(zhǔn)，分別歸一化。這個(gè)改動(dòng)看起來(lái)簡(jiǎn)單，但卻把原本發(fā)散的訓(xùn)練過(guò)程穩(wěn)定下來(lái)，并帶來(lái)了5.6%的性能提升。

七、做選擇時(shí)的實(shí)用指南

這篇綜述不只是盤(pán)點(diǎn)方法，還給出了一套決策框架，幫助實(shí)際工作者根據(jù)自己的情況選擇合適的方法。

核心邏輯是一棵決策樹(shù)。首先問(wèn)的是任務(wù)性質(zhì)：是推理型（AI生成一段文字）、智能體型（AI與環(huán)境交互多個(gè)回合），還是多AI協(xié)作？在推理型任務(wù)中，再問(wèn)推理鏈條多長(zhǎng)。如果短（五千詞以內(nèi)），用GRPO家族就夠，加上PURE或SPRO來(lái)強(qiáng)化步驟級(jí)別信號(hào)；如果長(zhǎng)（超過(guò)五千詞），且計(jì)算資源有限，用HICRA或CAPO；如果計(jì)算資源充裕，用VinePPO或SCAR來(lái)追求更高質(zhì)量的功勞分配。

在智能體型任務(wù)中，先問(wèn)軌跡有多長(zhǎng)。如果不超過(guò)三十個(gè)回合，再問(wèn)有沒(méi)有輔助模型資源：沒(méi)有的話用GiGPO、CARL或iStar；有的話用AgentPRM或SWEET-RL。如果超過(guò)三十個(gè)回合，再問(wèn)計(jì)算資源是否充裕：資源有限就用CARL或HCAPO或ArCHer的簡(jiǎn)化版；資源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI協(xié)作場(chǎng)景則推薦M-GRPO、SHARP或MAPPA。

綜述還整理了幾個(gè)關(guān)鍵取舍。粒度越細(xì)的方法（詞語(yǔ)級(jí)）提供越精確的信號(hào)，但計(jì)算成本越高；事后分析（HCAPO、C3）信息質(zhì)量高但引入延遲；不需要輔助模型的方法（CARL、GiGPO、iStar）更容易部署；專(zhuān)門(mén)為推理型設(shè)計(jì)的方法在智能體任務(wù)上往往失效，反之則不然。

八、這個(gè)領(lǐng)域還缺什么

綜述誠(chéng)實(shí)地指出了幾個(gè)尚未解決的重要問(wèn)題。

在實(shí)踐層面，目前評(píng)測(cè)各種功勞分配方法的基準(zhǔn)測(cè)試嚴(yán)重不統(tǒng)一。每篇論文用的任務(wù)、基礎(chǔ)模型、訓(xùn)練配置各不相同，導(dǎo)致無(wú)法真正比較哪個(gè)方法更好，還是說(shuō)哪個(gè)方法只是恰好在某個(gè)任務(wù)上更有優(yōu)勢(shì)。這讓整個(gè)領(lǐng)域的進(jìn)展變得模糊。研究者呼吁建立一套共享的基準(zhǔn)測(cè)試協(xié)議，包括已知正確功勞分配的推理任務(wù)、有控制分叉點(diǎn)的智能體任務(wù)，以及有設(shè)計(jì)好功勞結(jié)構(gòu)的多AI任務(wù)。

在理論層面，絕大多數(shù)方法只有經(jīng)驗(yàn)驗(yàn)證而沒(méi)有理論保證。只有極少數(shù)方法（如VinePPO的無(wú)偏性證明、CCPO的因果假設(shè)下的保證）提供了形式化分析。在部分可觀測(cè)環(huán)境下，功勞分配如何收斂、樣本復(fù)雜度是多少，這些基本問(wèn)題幾乎沒(méi)有答案。

在新興應(yīng)用層面，當(dāng)AI任務(wù)跨度極長(zhǎng)（比如持續(xù)幾天的科研實(shí)驗(yàn)）、獎(jiǎng)勵(lì)信號(hào)本身不確定（比如"用戶是否滿意"這種主觀評(píng)價(jià)），或者AI的操作影響到了AI自己的"記憶"（比如把某些信息存入外部數(shù)據(jù)庫(kù)以備后用），功勞應(yīng)該如何分配，現(xiàn)有方法幾乎無(wú)從應(yīng)對(duì)。

還有一個(gè)被忽略的機(jī)會(huì)：功勞認(rèn)定和探索策略本來(lái)可以互相增益。在功勞認(rèn)定最不確定的狀態(tài)上，恰恰是AI最應(yīng)該去探索的地方——因?yàn)槟抢镄畔⒆钊狈?。但目前沒(méi)有任何方法把這兩件事真正結(jié)合在一起。

歸根結(jié)底，這個(gè)領(lǐng)域正在經(jīng)歷一個(gè)快速成熟的階段。推理型任務(wù)上的功勞分配問(wèn)題，大致已有可用的工程答案；智能體任務(wù)上的功勞分配問(wèn)題，思路已經(jīng)清晰但工具還不完備；多AI協(xié)作的功勞分配問(wèn)題，才剛剛開(kāi)始被認(rèn)真對(duì)待。

三年前，幾乎沒(méi)有人把"功勞分配"當(dāng)作一個(gè)獨(dú)立的研究方向來(lái)看待，它只是深藏在各種算法細(xì)節(jié)里的小問(wèn)題。但隨著AI從"會(huì)回答問(wèn)題"進(jìn)化到"會(huì)干活"，這個(gè)問(wèn)題已經(jīng)從背景噪音變成了舞臺(tái)中央最響亮的那個(gè)聲音。下一波突破，很可能就藏在"怎么讓AI明白自己真正做對(duì)了什么"這個(gè)問(wèn)題的答案里。

有興趣深入了解的讀者可以通過(guò)arXiv編號(hào)2604.09459檢索這篇論文，或直接訪問(wèn)作者在GitHub上維護(hù)的相關(guān)論文列表（xxzcc/Awesome-Credit-Assignment-in-LLM-RL）以獲取持續(xù)更新的研究動(dòng)態(tài)。

Q&A

Q1：大模型強(qiáng)化學(xué)習(xí)中的功勞認(rèn)定問(wèn)題具體是什么？

A：功勞認(rèn)定問(wèn)題是指當(dāng)AI完成一項(xiàng)多步驟任務(wù)后，訓(xùn)練系統(tǒng)只知道最終結(jié)果的好壞，但不知道是哪一步操作真正起了決定性作用。就像一場(chǎng)球賽贏了，但說(shuō)不清楚是誰(shuí)的功勞。在AI做復(fù)雜任務(wù)時(shí)，可能經(jīng)歷幾十步到上百步，如果只靠最終獎(jiǎng)勵(lì)來(lái)訓(xùn)練，效率極低，甚至?xí)孉I學(xué)到錯(cuò)誤的行為模式。

Q2：GRPO方法在智能體任務(wù)上為什么會(huì)出現(xiàn)"回聲陷阱"？

A：GRPO對(duì)整個(gè)任務(wù)軌跡中的每一步都給同樣的獎(jiǎng)懲信號(hào)，當(dāng)任務(wù)變得復(fù)雜、步驟達(dá)到幾十甚至上百步時(shí)，這個(gè)信號(hào)對(duì)每一步來(lái)說(shuō)變得極其微弱且充滿噪聲。AI因?yàn)闊o(wú)法分清哪步真正有用，為了降低風(fēng)險(xiǎn)就開(kāi)始不斷重復(fù)已知的安全動(dòng)作，變得越來(lái)越保守和重復(fù)，完全失去了探索新方法的動(dòng)力，這就是所謂的"回聲陷阱"。

Q3：CARL方法中用來(lái)判斷關(guān)鍵決策點(diǎn)的"熵"是什么意思？

A：在CARL方法里，"熵"衡量的是AI在某個(gè)狀態(tài)下面對(duì)多少種可能選擇、且這些選擇的可能性有多均勻。如果AI幾乎肯定會(huì)做某一個(gè)操作，熵值低，說(shuō)明這只是常規(guī)步驟不需要特別訓(xùn)練；如果AI面臨很多種同樣可能的選擇，熵值高，說(shuō)明這是真正需要做判斷的關(guān)鍵時(shí)刻，才值得投入梯度更新資源。實(shí)驗(yàn)發(fā)現(xiàn)跳過(guò)低熵步驟可以減少72%的計(jì)算量但性能幾乎不變。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.