二元成功率已經(jīng)過時！PRM-as-a-Judge是你需要的具身操作評測框架

2026-04-14 12:24:23　來源: 機器之心Pro

河北舉報

分享至

隨著機器人操作從短程、單步技能逐步走向長程、富接觸、需要持續(xù)協(xié)調(diào)與恢復(fù)能力的復(fù)雜任務(wù)，傳統(tǒng)以二元成功率為核心的評測方式開始暴露出明顯局限。它能夠回答 “任務(wù)是否完成”，卻難以回答 “策略推進到了哪里”“執(zhí)行過程是否高效穩(wěn)定”“失敗究竟發(fā)生在什么階段”。

圍繞這一問題，來自中國科學(xué)院自動化研究所、北京大學(xué)和智源研究院等機構(gòu)的研究人員提出PRM-as-a-Judge：不再只根據(jù)終局結(jié)果評價策略，而是從軌跡視頻中恢復(fù)任務(wù)相關(guān)的連續(xù)進度信號，并據(jù)此對執(zhí)行過程進行細粒度審計。該框架的核心包括任務(wù)條件化的進度勢能、OPD 三層指標體系，以及用于驗證評估器細粒度分辨能力的 RoboPulse 基準。

論文標題：PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing
論文鏈接：https://arxiv.org/abs/2603.21669
網(wǎng)頁鏈接：https://prm-as-a-judge.github.io/
代碼鏈接：https://github.com/Yuheng2000/PRM-as-a-Judge
Benchmark 鏈接：https://huggingface.co/datasets/yuheng2000/RoboPulse

1. 為什么二元成功率不足以評估長程任務(wù)？

在現(xiàn)有具身智能研究中，策略評估仍然高度依賴二元成功率。對于短程、結(jié)構(gòu)清晰的任務(wù)，這一指標能夠提供一種直觀的比較方式；但當(dāng)任務(wù)逐漸演化為長程、多階段、強交互的復(fù)雜操作時，二元成功率所能提供的信息開始明顯不足。

這種不足主要體現(xiàn)在兩個方面。

首先是分辨率不足。二元標簽只能回答 “最終是否成功”，卻無法刻畫軌跡內(nèi)部的關(guān)鍵差異。一個已經(jīng)接近完成、卻在最后階段失手的軌跡，與一個在早期就明顯偏離目標的軌跡，往往都會被統(tǒng)一記為失敗。這樣一來，不同方法在任務(wù)推進深度上的真實差異就被壓縮掉了。
其次是診斷能力有限。成功率無法回答機器人是 “如何成功” 的，也無法解釋它 “為何失敗”。一次平穩(wěn)高效的成功執(zhí)行，與一次依賴多次冗余修正后才勉強完成的軌跡，在結(jié)果層面可能完全相同；同樣，停滯、回退、恢復(fù)失敗等過程特征，也不會在最終標簽中留下痕跡。對于需要進一步定位瓶頸、優(yōu)化策略行為的研究而言，這種信息缺失會直接限制后續(xù)分析的深度。

因此，對于長程任務(wù)來說，決定策略優(yōu)劣的關(guān)鍵已經(jīng)不再只是終點上的 “成功” 與 “失敗”，而是執(zhí)行過程中究竟推進到了哪一階段、推進得是否穩(wěn)定，以及失效究竟發(fā)生在什么位置。

相同的二元標簽下隱藏著截然不同的物理執(zhí)行邏輯。失敗可能發(fā)生在任務(wù)的任何階段（從 5% 到 99% 進度），而成功亦有 “平穩(wěn)高效” 與 “反復(fù)修正” 之分。

2. 從結(jié)果判定到過程級評測

為了恢復(fù)被二元標簽壓縮掉的軌跡信息，作者將評測重心從 “結(jié)果” 轉(zhuǎn)向 “過程”。在真實物理場景中，研究者通常拿不到模擬器中的特權(quán)信息，例如精確位姿、接觸力或完整狀態(tài)變量。

因此，這項工作沒有把評測建立在這些理想化信號上，而是選擇了一條更具現(xiàn)實意義的路徑：直接根據(jù)視覺狀態(tài)的演化來刻畫任務(wù)進度。

具體來說，作者為給定任務(wù)條件下的每個狀態(tài)分配一個位于 [0,1] 區(qū)間上的進度勢能 Φ。一旦有了這個勢能表示，一條原本只對應(yīng) “成功/失敗” 標簽的執(zhí)行軌跡，就可以被表示為一條隨時間變化的連續(xù)進度曲線。這樣，研究者看到的就不再只是一個終點結(jié)果，而是一條可比較、可分解、可診斷的過程信號：軌跡推進得有多深，推進過程中是否反復(fù)回退，哪些階段容易停滯，都可以被顯式刻畫出來。

3. 一個合格的密集評測器，需要滿足什么條件？

在這一框架下，作者進一步把 “密集評測” 形式化為兩個核心性質(zhì)。

第一個是macro-consistency。它要求評測結(jié)果在時間上具有可加性和路徑一致性：同一段執(zhí)行過程，無論如何切分為更短的時間片，其累積進度都應(yīng)保持一致。換句話說，評測結(jié)果不能隨著軌跡分段方式的改變而漂移。

第二個是micro-resolution。它要求評測器能夠識別細粒度、任務(wù)相關(guān)的狀態(tài)變化，而不是只對粗粒度視覺差異做出反應(yīng)。

作者進一步指出，在其采用的 potential-based formulation 中，只要評測器能夠在固定任務(wù)上下文下，為每個狀態(tài)賦予一個可比較的標量進度值，并將任意時間區(qū)間上的進度定義為兩個狀態(tài)勢能的差值，那么宏觀上的時間加性與分段不變性就可以直接得到保證。PRM judge 在這里被作者視為這種表述的一個自然且實用的實現(xiàn)：它通過任務(wù)條件化的標量進度輸出，為 OPD 指標提供統(tǒng)一的進度坐標。

相比之下，許多依賴相對比較或相似度啟發(fā)式的方法，往往并不顯式對應(yīng)這樣一個全局一致的勢能表示，因此在不同時間段、不同視角或不同比較基準下，更容易出現(xiàn)尺度漂移或路徑相關(guān)的問題。至于 micro-resolution，則不能僅由這種結(jié)構(gòu)性定義自動推出，而仍需通過專門的診斷基準進行檢驗。

4. OPD：把一條軌跡拆成三層可解釋信號

在進度勢能 Φ 的基礎(chǔ)上，作者構(gòu)建了OPD（Outcome–Process–Diagnosis）指標體系，用于把一條復(fù)雜執(zhí)行軌跡分解為三個層次的審計結(jié)果。Outcome 層回答 “推進到了哪里”，Process 層回答 “推進得怎么樣”，Diagnosis 層回答 “如果沒做好，問題主要出在哪里”。這也是 PRM-as-a-Judge 的核心輸出形式。

在Outcome層，作者采用 MC 和 MP 兩個指標描述推進深度。其中，MC（Milestone Coverage）用于刻畫軌跡到達了哪些關(guān)鍵里程碑，MP（Max Progress）則記錄整段軌跡曾達到的最高連續(xù)進度值。它們共同回答的是：這條軌跡究竟走到了什么位置。

在Process層，作者定義了 PPL（Path-weighted Progress Length），用于衡量推進是否高效、是否存在明顯冗余。PPL 越高，說明軌跡越接近單調(diào)推進、回繞和反復(fù)修正越少。它對應(yīng)的是 “同樣推進到某個位置，不同策略的路徑質(zhì)量是否一致” 這一問題。

在Diagnosis層，作者使用 CRA 和 STR 刻畫兩類常見失效機制。CRA（Cumulative Regret Area）衡量軌跡相對于歷史最佳狀態(tài)的累計回退程度；STR（Stagnation Ratio）則衡量軌跡中 “幾乎沒有任務(wù)相關(guān)推進” 的時間占比，用于反映猶豫、等待或停滯。與單一成功率相比，OPD 的價值不在于 “多報幾個數(shù)”，而在于它把執(zhí)行過程重寫為結(jié)構(gòu)化、可診斷的行為信號。

OPD 將一次執(zhí)行分解為三層信號：Outcome 刻畫推進深度，Process 刻畫執(zhí)行質(zhì)量，Diagnosis 刻畫失敗機制。五個核心指標 MC、MP、PPL、CRA 與 STR 分別對應(yīng)階段可達性、最大進度、路徑效率、回退代價與停滯比例。

5. RoboPulse：評估器是否真的具備細粒度分辨能力？

有了理論上的性質(zhì)約束和過程級指標之后，接下來的關(guān)鍵問題是：評估器是否真的能看懂微小但任務(wù)相關(guān)的物理變化？

為此，作者構(gòu)建了RoboPulse。論文明確指出，在該框架下，macro-consistency 由勢能形式在結(jié)構(gòu)上保證，而 micro-resolution 則需要通過受控實驗進行檢驗；RoboPulse 正是圍繞這一點設(shè)計的診斷基準。

RoboPulse 將進度評測轉(zhuǎn)化為一個成對判斷問題：給定來自同一執(zhí)行軌跡的兩個狀態(tài)，評估器需要判斷后一個狀態(tài)相對于前一個狀態(tài)，是 “前進” 還是 “回退”。這種設(shè)計不依賴絕對進度標定，而是直接考察更本質(zhì)的能力：當(dāng)物理變化很細微時，評估器是否仍能穩(wěn)定識別出進度方向。作者在構(gòu)建基準時，先用關(guān)鍵幀把軌跡劃分為語義一致的階段，只保留進度單調(diào)的區(qū)間，過濾掉近靜止、往復(fù)振蕩和難以標注的片段，再在這些區(qū)間內(nèi)按 Small、Medium、Large 三個 hop 范圍采樣樣本。

從規(guī)模上看，RoboPulse 包含1800個成對進度判斷樣本，這些樣本來自1622條執(zhí)行軌跡、覆蓋816個任務(wù)，并匯集了7個數(shù)據(jù)源?；鶞释瑫r覆蓋真實機器人、仿真、UMI 采集和人類第一視角等多種設(shè)置，并在不同相對進度跨度上系統(tǒng)考察評估器的分辨能力。

RoboPulse 涵蓋了多個數(shù)據(jù)源和不同的本體型號，用于評估 judge model 的微觀進度分辨能力。

在 RoboPulse 上，作者將 PRM-based judges 與兩類常見替代方案進行比較：一類是基于 CLIP 的視覺相似度評測方法，另一類是通用多模態(tài)基礎(chǔ)模型，如 Gemini、GPT-5.2。實驗結(jié)果顯示，PRM 在細粒度進度判斷上整體表現(xiàn)更強。以 Robo-Dopamine 為例，其總體準確率達到 0.83；Gemini 為 0.66，Qwen3-VL-8B 為 0.59，而多種 CLIP 變體整體落在 0.46–0.59 區(qū)間。

更關(guān)鍵的是，在最具挑戰(zhàn)性的 Small-hop 區(qū)間，優(yōu)勢會進一步擴大。Robo-Dopamine 的平均準確率達到 0.80；另外兩個 PRM judge 也達到 0.61 和 0.63。相比之下，Gemini 在該區(qū)間為 0.54，GPT-5.2 為 0.47。論文據(jù)此指出，當(dāng)比較尺度變得足夠細時，粗粒度語義線索的幫助會下降，而真正與物理過程相關(guān)的進度監(jiān)督會體現(xiàn)出更明顯優(yōu)勢。

在 RoboPulse 基準上，PRM-based judges 在不同相對進度跨度下均表現(xiàn)出更強的分辨能力，在最困難的 Small-hop 區(qū)間優(yōu)勢尤為顯著，證明其對細微、任務(wù)相關(guān)的物理狀態(tài)變化具備極高的敏感性。

6. 用 OPD 重新審視真實策略軌跡

在驗證了 judge 的 micro-resolution 之后，作者進一步將 PRM-as-a-Judge 應(yīng)用于 RoboTwin 2.0 ，并選擇了 5 類代表性的 policy 模型（DP、ACT、RDT、pi0、OpenVLA-OFT），在多個長程操作任務(wù)上統(tǒng)一評測，每個策略 - 任務(wù)組合進行 50 次 rollout。

6.1 失敗究竟發(fā)生在什么階段？

Outcome 層最直接的價值，是把 “失敗” 進一步分解為不同階段的失敗。以 Blocks Ranking RGB 為例，大多數(shù)策略在早期階段的可達性都不低：MC@25 落在 84–100 區(qū)間；但到了最終完成階段，MC@100 只剩 0–8。這說明大量 rollout 并不是 “一開始就不會”，而是在已經(jīng)取得相當(dāng)推進后，集中失效在末段階段。

更進一步，OPD 還能區(qū)分 “同樣是零成功率” 但物理含義完全不同的策略。例如在同一任務(wù)上，pi0 的 MC@75 為 40，而 OpenVLA-OFT 的 MC@75 僅為 6，盡管兩者的 MC@100 都接近于零。前者的失敗通常更接近終點，后者則更容易在中早期階段提前掉隊。這類差異，在傳統(tǒng)成功率下是不可見的。

階段性可達性揭示了 “最后一公里” 的差距，并將早期崩潰與近乎完全的故障區(qū)分開來。

6.2 成功與成功，并不等價

為了評價 policy model 在成功條件下的執(zhí)行質(zhì)量，作者選取了 Handover Mic 任務(wù)上成功的樣本進行了分析。結(jié)果顯示，DP 在成功樣本中的 PPL 為 94.9，高于若干對比方法；同時其 CRA 僅為 0.26，也顯著低于 OpenVLA-OFT 的 2.55。這意味著，DP 一旦進入成功軌道，往往能夠以更高效率、更低回退代價完成任務(wù)。

但這并不意味著它在總體上最可靠。結(jié)合 Outcome 層結(jié)果可以看到，DP 在 Handover Mic 上的 MC@100 只有 44，而另外一些策略則達到 98 甚至 100。論文據(jù)此指出：成功條件下的高質(zhì)量執(zhí)行，不必然等于更高的總體可靠性。有些方法在 “成功時” 做得非常漂亮，但它們在失敗時，完全沒有從錯誤中恢復(fù)的能力。

成功條件下的執(zhí)行質(zhì)量圖：在成功樣本內(nèi)部，不同策略仍然可能呈現(xiàn)顯著不同的執(zhí)行質(zhì)量。路徑效率與回退代價共同表明：成功并不自動意味著高質(zhì)量成功，高精度執(zhí)行與整體可靠性也并不總是一致。

6.3 “失敗” 也有不同機制

Diagnosis 層則把原本統(tǒng)一的失敗標簽，進一步拆解為不同的失效機制。以 Place Bread Basket 任務(wù)為例，OpenVLA-OFT 的 MP 達到 92.6，說明它常常能夠推進到相當(dāng)靠后的位置；但其 CRA 達到 26.3，顯示出明顯的晚期回退和恢復(fù)代價。與之相對，ACT 在該任務(wù)上的 MP 為 73.1，而 STR 達到 65.4，更接近一種早期停滯主導(dǎo)的失敗模式。

類似地，在 Handover Mic 上，DP 的失敗更偏向高停滯，即 STR 為 57.2；OpenVLA-OFT 則表現(xiàn)為更高的回退和較低效率，其 PPL 為 66.2，CRA 為 5.66。作者據(jù)此提出，OPD 給出的并不是簡單的 “好 / 壞” 排序，而是一種可復(fù)現(xiàn)的 failure fingerprint：不同策略家族會在 OPD 空間中表現(xiàn)出相對穩(wěn)定的失效畫像，這種畫像能夠為后續(xù)改進提供更具針對性的方向。

失敗指紋圖：在失敗樣本上，CRA 與 STR 將 failure 從單一終局標簽進一步拆解為不同機制：有些策略更接近晚期失穩(wěn)與明顯回退，有些策略則更表現(xiàn)為長時間停滯和推進不足。相同的 “失敗” 標簽背后，可能對應(yīng)完全不同的原因。

6.4 差異體現(xiàn)在指標聯(lián)合畫像中

作者也將 OPD 框架應(yīng)用到RoboChallenge Table30公開榜單比較中，使用 Robo-Dopamine-2.0-8B-Preview 作為評估器，對不同模型在真實執(zhí)行中的軌跡特征進行統(tǒng)一分析。

從 OPD 指標下的 RoboChallenge 總榜來看，可以清楚地發(fā)現(xiàn)：真正拉開方法差距的，往往不只是 “最后是否完成”，而是推進深度、執(zhí)行質(zhì)量與失敗形態(tài)這幾類信號的共同作用。在頭部模型中，DM0 的優(yōu)勢并不只是更常完成任務(wù)，而是同時體現(xiàn)在推進深度和執(zhí)行質(zhì)量上：它不僅擁有最高的 Avg MC@100（62.0），也同時在 Avg MP（70.3）和 Avg PPL（31.2）上領(lǐng)先。這說明它的領(lǐng)先并不是單純依賴更高的終局完成率，而是同時來自更深的平均可達性和更高的執(zhí)行效率。

相比之下，GigaBrain-0.1 雖然在 Avg MP 上幾乎與 DM0 持平，但 Avg PPL（26.2）明顯更低，說明它雖然能夠推進到接近的位置，路徑質(zhì)量卻相對較差。因此，OPD 所刻畫的并不只是誰成功更多，而是誰的成功更接近高效、平穩(wěn)、少修正的成功。

OPD 指標下的 RoboChallenge Table30 總榜：DM0 擁有最高的 Avg MC@100，Avg MP 和 Avg PPL，其成功來自更高水平的推進深度和執(zhí)行質(zhì)量；GigaBrain-0.1 則呈現(xiàn)出 “最后一公里” 差距。詳細指標見官方博客：https://prm-as-a-judge.github.io/leaderboard.html

與之相比，GigaBrain-0.1 則呈現(xiàn)出一種更典型的 “最后一公里” 差距。它的 Avg MP 達到 70.1，與 DM0 的 70.3 幾乎相同，但 Avg MC@100 卻只有 51.7，相比 DM0 的 62.0 明顯更低，說明兩者并不是在 “能否把軌跡推進到高進度區(qū)間” 上存在本質(zhì)差異，而是在 “能否把已經(jīng)獲得的高進度穩(wěn)定轉(zhuǎn)化為最終完成” 上拉開了距離。把 Avg MP 和 MC@100 一起納入分析后就會發(fā)現(xiàn)，GigaBrain-0.1 在末段收束上仍然存在缺口。

值得注意的是，回退、停滯與推進深度不能被割裂地理解。RoboChallenge 中 RDT-1B 的 Avg MC@100 只有 15.0，但 Avg CRA 卻僅為 5.3，是總榜中最低的一檔；這并不意味著它的執(zhí)行更平滑，而更說明其整體推進深度本就有限，因此較少出現(xiàn)推進到后期再明顯回退的情況。

相對地，wall-oss-v0.1 的 Avg MP 仍達到 59.7，說明它并非完全缺乏推進能力，但其 Avg STR 高達 41.2，則顯示出更明顯的停滯和低效推進。低回退或中等進度本身都不足以說明執(zhí)行更強或更順；OPD 的價值不在于提供彼此孤立的若干指標，而在于通過 Outcome、Process 與 Diagnosis 三層信號的聯(lián)合刻畫，更完整地揭示軌跡的推進狀態(tài)、執(zhí)行質(zhì)量與失效機制。

9 個模型在 RoboChallenge Table30 上的整體表現(xiàn)：OPD 指標提供了聯(lián)合而非孤立的軌跡畫像，通過 Outcome、Process 與 Diagnosis 三層信號的統(tǒng)一刻畫，揭示模型走到了哪里、走得如何，以及問題主要出現(xiàn)在什么階段。

7. 交互式軌跡審計：把指標變化和物理行為對齊

除了論文和基準，項目博客還提供了交互式軌跡分析界面。用戶可以在頁面中同步查看視頻播放、進度曲線以及 MC、MP、PPL、CRA、STR 等核心指標，并隨著時間軸拖動觀察它們?nèi)绾螌崟r更新。博客將這一模塊定位為單條軌跡的完整時間審計工具：進度上升、回退和停滯，不再只是抽象曲線，而能和具體物理行為逐幀對應(yīng)起來。

讀者可進一步訪問項目主頁與博客中的交互式 Demo，查看單條軌跡的逐幀審計結(jié)果https://prm-as-a-judge.github.io/blog.html

8. 總結(jié)：從 “是否完成” 走向 “如何完成”

PRM-as-a-Judge 的意義，不只是對 success rate 做一次補充，而是把機器人評測從終局判定推進到了過程刻畫。借助任務(wù)條件化的進度勢能、OPD 三層指標體系以及 RoboPulse 的細粒度驗證，這項工作把原本被壓縮為單一標簽的執(zhí)行軌跡，重新表示為可解釋、可比較、可診斷的過程信號。

對于越來越長程、越來越復(fù)雜的具身操作任務(wù)來說，單一二元標簽已經(jīng)很難完整反映模型行為的真實差異。相比只比較 “做沒做成”，過程級審計更關(guān)心 “推進到了哪里”“成功得是否高效穩(wěn)定”“失敗主要由什么機制導(dǎo)致”。從這個意義上說，PRM-as-a-Judge 提供的不只是一個新指標系統(tǒng)，更是一種更適合長程機器人任務(wù)的評測視角。

該團隊表示：「我們也呼吁更多 benchmark 組織者與模型開發(fā)者，在提交 leaderboard 結(jié)果的同時公開執(zhí)行視頻與 rollout 證據(jù)，讓機器人評測從 “只看分數(shù)” 進一步走向 “可回放、可核查、可診斷”。只有當(dāng)軌跡本身是開放和透明的，我們才真正有機會比較不同策略在推進深度、執(zhí)行質(zhì)量與失敗模式上的真實差異，而不僅僅停留在最終是否完成任務(wù)這一單點結(jié)論。

我們也期待與更多基準團隊和研究者協(xié)作，把這種面向過程的稠密審計擴展到更廣泛的機器人任務(wù)中，共同建立一個跨 benchmark、可復(fù)核、可演進的透明評測生態(tài)。評測不應(yīng)只是終點處的一次裁決，而應(yīng)成為理解機器人行為、診斷系統(tǒng)能力邊界、推動社區(qū)共同進步的基礎(chǔ)設(shè)施?！?/p>

作者簡介

本文第一作者冀昱衡，為中國科學(xué)院自動化研究所博士生，研究方向為具身智能與基礎(chǔ)模型，已在 NeurIPS、CVPR、AAAI、ACM MM 等國際頂級會議上發(fā)表多篇論文，通訊作者為仉尚航助理教授和鄭曉龍研究員。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.