北大清華聯(lián)合多校提出TrustJudge，讓LLM評估更值得信賴

2026-03-31 14:54:10　來源: 機器之心Pro

河北舉報

分享至

本文共同第一作者王一棟（北京大學(xué)）和宋昀澤（新加坡國立大學(xué)）主要從事大語言模型評估與對齊研究。通訊作者王存翔（清華大學(xué)）和葉蔚、張世琨（北京大學(xué)）分別在自然語言處理、軟件工程和知識推理等方向有長期積累。團(tuán)隊成員來自北大、清華、南大、NUS、CMU、西湖大學(xué)、東南大學(xué)、東京科學(xué)大學(xué)等多所高校，長期關(guān)注 LLM 可信評估問題。

讓 GPT-4 給兩篇文章打分，A 拿了 4 分、B 拿了 3 分。按常理 A 應(yīng)該比 B 好吧？但換成成對比較，同一個模型卻說「B 更好」。更離譜的情況也有——A > B > C > A 的「石頭剪刀布」循環(huán)，連傳遞性都守不住。這事還真不少見。

北京大學(xué)、清華大學(xué)等八所高校的研究團(tuán)隊在ICLR 2026上提出了TrustJudge，一個基于概率的評估框架。核心想法不復(fù)雜：與其讓模型吐一個離散分?jǐn)?shù)了事，不如把它內(nèi)部的完整概率分布也用上。不用額外訓(xùn)練，評估不一致性就降了一大截，準(zhǔn)確率還跟著漲了。

論文標(biāo)題：TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
作者：Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang?, Wei Ye?, Shikun Zhang?
單位：北京大學(xué)、清華大學(xué)、新加坡國立大學(xué)、南京大學(xué)、卡內(nèi)基梅隆大學(xué)、西湖大學(xué)、東南大學(xué)、東京科學(xué)大學(xué)
論文鏈接：https://arxiv.org/abs/2509.21117
開源代碼：https://github.com/TrustJudge/TrustJudge

01｜問題有多嚴(yán)重？

用大模型給其他模型當(dāng)裁判，已經(jīng)是評估界的標(biāo)配——MT-Bench 用單項評分，AlpacaEval 用成對比較，RLHF/GRPO 做偏好標(biāo)注。但這個裁判的兩種考法給出的結(jié)論，經(jīng)常打架。

TrustJudge 的作者做了系統(tǒng)測量，把問題量化成了兩類：

評分-比較不一致（Score-Comparison Inconsistency）

打分時 A 比 B 高，拉到一起比較時又說 B 好。用 Llama-3.1-70B 測試，不一致率 23.32%——差不多每四次評估就矛盾一次。

成對傳遞性不一致（Pairwise Transitivity Inconsistency）

成對比較出現(xiàn)循環(huán)偏好（A > B > C > A）或者等價矛盾（A = B = C 但 A ≠ C）。Llama-3.1-70B 上的不一致率是15.22%

圖 1：左圖是 Llama-3 系列在 1,200 條指令上的評分熵分布，右圖是成對比較中兩種傳遞性錯誤的占比。

02｜問題出在哪？

數(shù)據(jù)擺出來了，接下來的問題是：這兩類不一致的根源是什么？作者從信息論的角度做了歸因。

離散評分丟信息

5 分制打分，本質(zhì)上是把模型心里的連續(xù)判斷硬塞進(jìn)幾個整數(shù)格子里。比方說兩條回復(fù)質(zhì)量分別是 3.8 和 4.2，5 分制下都成了 4 分，打分看不出差別。但拉到一起做比較，模型是感知得到這 0.4 差距的——矛盾就這么來了。

作者還在理論上證了一條：存在兩個不同的概率分布，離散評分下完全相同，但信息熵不同。換句話說，離散化在結(jié)構(gòu)上就一定會丟東西。

模糊平局帶來傳遞性問題

做成對比較時，模型對質(zhì)量相近的回復(fù)經(jīng)常給「平局」。但平局和平局不一樣——有的是模型真覺得半斤八兩，有的純粹是拿不準(zhǔn)。這些「含糊的平局」在不同組合里不一致地冒出來，A = B、B = C、但 A ≠ C 的情況就出現(xiàn)了。

03｜TrustJudge 怎么做的？

思路說白了就一句話：別只取模型吐出的那個離散答案，把背后的概率分布也用起來。框架分兩塊：

分布敏感評分（Distribution-Sensitive Scoring）

傳統(tǒng)做法是讓模型輸出一個分?jǐn)?shù)然后直接采納。TrustJudge 不這樣干：

把評分尺度從 5 分拉到 100 分，先把粒度給夠。
對所有候選分?jǐn)?shù)的 logits 做 softmax，得到一個完整的概率分布。
算加權(quán)期望作為最終分?jǐn)?shù)：

效果就是：原來 5 分制下都是 4 分的兩條回復(fù)，現(xiàn)在一個 3.82、一個 4.17，差異保住了。

跟 G-Eval 的區(qū)別在于，TrustJudge 用 softmax 歸一化確保概率和嚴(yán)格為 1，不會被非評分 token 干擾。

似然感知聚合（Likelihood-Aware Aggregation）

成對比較這邊，TrustJudge 給了兩種策略來打破平局：

策略一：基于困惑度（PPL-Based）

遇到平局時，分別算 A 在前和 B 在前兩種排列的困惑度，選困惑度低的那個方向的結(jié)果——模型讀起來更通順的排列，判斷往往更靠譜：

策略二：雙向概率聚合

把兩個方向的偏好概率加起來，取置信度最高的：

由于是兩個方向聚合，位置偏差（position bias）也在這個過程中被抵消了。

04｜理論上也站得住

上面的方法直覺上說得通，但有沒有更嚴(yán)格的保證？作者給出了形式化的理論證明：

一句話概括：信息保留得更多了，判斷的不確定性降下去了。

05｜實驗結(jié)果

實驗數(shù)據(jù)來自 MT-Bench（80 題）和 ArenaHard（500 題），裁判模型覆蓋 Llama-3 系列（3B / 8B / 70B）和 GPT-4o。

主實驗

表 1：所有模型上兩類不一致性都明顯下降，精確匹配率同步上升。其中 Llama-3.2-3B 的傳遞性不一致從 54.69% 直接降到 17.76%，落差接近 37 個點。

圖 2：不同容忍度 δ 下的不一致性對比。TrustJudge（方塊 / 三角）在各個設(shè)置下都低于 Baseline（虛線）。

消融實驗

為了搞清楚每個組件的貢獻(xiàn)，作者做了逐項消融（這里額外加入了 GPT-3.5-Turbo 作為參考）：

表 2：逐個拆開看，softmax 歸一化和 100 分制對評分不一致各有貢獻(xiàn)；似然聚合和 PPL 方法對傳遞性不一致效果都很明顯，似然聚合整體略優(yōu)。

06｜換個模型還管用嗎？

上面的主實驗只用了 Llama-3 和 GPT-4o。一個自然的問題是：換成別的架構(gòu)還有效嗎？

管用。作者把實驗擴展到Qwen-2.5（7B / 14B / 32B）、Gemma-2（2B / 9B / 27B）、Llama-3（3B / 8B / 70B）、GPT四個家族、共 12 個變體。

圖 3：四個模型家族上的不一致性對比。左圖為評分-比較不一致，右圖為傳遞性不一致，TrustJudge 在所有架構(gòu)上都有改善。

幾個值得注意的點：

分布敏感評分的效果跟模型架構(gòu)無關(guān)，都能降不一致性。
加上似然感知聚合后，8B 模型的傳遞性甚至比未使用 TrustJudge 的 70B 模型更好。
9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

07｜推理模型反而更不靠譜

一個意外發(fā)現(xiàn)：專門練過推理能力的模型，做評估時反而更容易自相矛盾。

DeepSeek-R1 蒸餾版的評分-比較不一致率58.75%，是同參數(shù)量 Llama 的將近兩倍?？雌饋碓跀?shù)學(xué)數(shù)據(jù)上做強化訓(xùn)練這件事，是以評估能力為代價的。

不過 TrustJudge 在這么高的不一致基線上依然有效：CR 降了將近 10 個點，傳遞性不一致從 63.98% 壓到了 18.50%。

08｜拿來做 Reward 也好使

除了評估，TrustJudge 還有一個實際用途：給強化學(xué)習(xí)提供獎勵信號。

作者把它接到GRPO（Group Relative Policy Optimization）上訓(xùn)練 Qwen2.5-7B-Instruct，訓(xùn)練數(shù)據(jù)覆蓋摘要、數(shù)學(xué)推理、指令遵循等，一共 8,600 條。

表 3：用 Baseline 獎勵訓(xùn)練的模型在兩種協(xié)議下都沒超過原始模型（反而略降）；用 TrustJudge 獎勵訓(xùn)練的模型兩邊都漲了。

圖 4：訓(xùn)練過程中的獎勵變化。TrustJudge 的獎勵信號全程高于 Baseline。

圖 5：驗證集上各任務(wù)的獎勵曲線，實線是 TrustJudge，虛線是 Baseline。改善不是靠單個任務(wù)拉的，是全面的。

道理也好理解：評估越一致，獎勵信號噪聲越小，模型學(xué)得越準(zhǔn)。

09｜光提高打分精度夠不夠？

看完前面的實驗，可能會有人問：TrustJudge 里面既提高了評分粒度（5 分 → 100 分），又加了概率歸一化。那要是我只做前者，不做后者，行不行？

圖 6：5 分、10 分、100 分三檔粒度下的不一致性變化。粒度越高不一致越低，但在同一粒度下 TrustJudge（虛線）始終低于 Baseline（實線）。

結(jié)論是：提高粒度有幫助，但光靠粒度不夠。TrustJudge 贏在粒度提升 + 概率歸一化兩件事疊加到一起。

10｜小結(jié)

TrustJudge 做的事情可以用兩句話講清楚：

離散評分丟信息→ 改用分布敏感評分，把概率分布的信息保住。
模糊平局壞傳遞性→ 改用似然感知聚合，讓模糊判定變得清晰。

實際效果上，它不用訓(xùn)練，開箱即用；跨 Llama、GPT、Qwen、Gemma 四個架構(gòu)都有效；除了做評估，接上 GRPO 當(dāng)獎勵信號也能用；而且有理論證明兜底。說到底，如果我們要讓大模型來當(dāng)裁判，總得先確認(rèn)這個裁判自己別前后矛盾才行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.