UC Davis發(fā)現(xiàn):AI評分系統(tǒng)理解個人偏好偏差超20個百分點研究突破

2026-04-16 20:22:44　來源: 科技行者

北京舉報

分享至

這項由加利福尼亞大學戴維斯分校（University of California, Davis）研究團隊完成的工作，以預印本形式于2026年4月8日發(fā)布在arXiv平臺，編號為arXiv:2604.07343v1，收錄于計算機科學·計算與語言（cs.CL）領域，目前正處于同行評審階段。

你有沒有遇到過這樣的情況：向AI助手提問，它給出的回答在質量上無可挑剔，邏輯清晰、內(nèi)容準確、語氣禮貌，但就是感覺"不對"——不是你真正想要的那種答案。也許你一向喜歡直接溝通、喜歡別人建議你主動和他人交流，但AI卻給了你一堆"自我調(diào)整"的建議，和你的性格完全背道而馳。這種微妙的"不對勁"，正是這項研究試圖正面攻克的核心問題。

AI系統(tǒng)的核心目標之一，是讓語言模型的行為與人類價值觀保持一致。為了做到這一點，研究者通常會訓練一個叫做"獎勵模型"的東西——可以把它理解為一位專職"品味評分員"。這位評分員的工作，是在AI生成多個候選回答之后，替人類挑出最好的那一個。這位評分員訓練得越準，AI最終給出的答案就越符合人類期望。問題在于，現(xiàn)有的這位"評分員"主要學的是"大眾口味"——什么是正確的、有用的、無害的——而對于每個人獨特的個人喜好，它幾乎是睜眼瞎。

這項研究的核心貢獻，是構建了一個名為**Personalized RewardBench**（個性化獎勵模型基準測試）的評估工具，用來專門測量這位"評分員"究竟有多懂你這個具體的人。研究團隊在測試了目前最先進的一批AI評分系統(tǒng)之后，得出了一個讓人警醒的結論：即使是表現(xiàn)最好的系統(tǒng)，在理解個人偏好這件事上的正確率也不超過76%。換句話說，每四次評分中就有超過一次判斷錯了方向。而當研究者給系統(tǒng)提供完整的個人偏好線索后，理論上能達到的正確率接近99%。這中間超過20個百分點的差距，正是當前AI個性化能力的真實鴻溝。

一、為什么"評分員"這么重要，而它又錯在哪里

要理解這個問題，不妨用一個生活中的比喻來搭建整個理解框架。把AI訓練的過程想象成一家餐廳培養(yǎng)服務員的過程。餐廳雇了一位"品質督導"，他的職責是在廚師端出多道菜之后，挑選出最好的那道送給顧客。這位督導經(jīng)過多年訓練，非常擅長判斷一道菜的火候是否到位、擺盤是否精美、食材是否新鮮——這些都是"通用質量標準"。

然而，餐廳的顧客各有不同。有人不吃辣，有人忌口蒜，有人希望分量大，有人則偏愛精致小份。當這位督導面對"哪道菜最好"這個問題時，他給的答案基于的是普遍意義上的烹飪水準，而不是這位具體顧客的口味檔案。結果就是，他送上去的菜在客觀上無可挑剔，但那位對蒜過敏的顧客可能一口都咽不下去。

這個比喻精準地描述了當前AI"獎勵模型"的困境?，F(xiàn)有系統(tǒng)，無論是直接輸出分數(shù)的"評分型"系統(tǒng)，還是通過推理過程來做比較的"生成型"系統(tǒng)，都主要學會了判斷"這個回答在客觀質量上是否優(yōu)秀"，而非"這個回答是否符合這位用戶的個人偏好"。

更關鍵的問題在于，現(xiàn)有的基準測試（也就是用來衡量這些評分員表現(xiàn)的"考卷"）也存在同樣的盲區(qū)。它們通常通過選擇"質量更差的模型生成的答案"或者"人為注入錯誤的答案"來構造所謂的"錯誤選項"，然后看評分員能不能挑出那個"質量更好的選項"。這種考卷考的其實是評分員能不能區(qū)分好壞，而不是能不能區(qū)分"適合你"和"不適合你"。

更糟糕的是，這些考卷上的成績，往往無法準確預測這位"評分員"在真實工作場景中的表現(xiàn)。一個在考卷上得了高分的督導，放在真實的餐廳里，不見得就能讓每位顧客滿意——因為考卷根本沒有測他會不會關注顧客的個人口味。

二、這張全新的"考卷"是怎么設計出來的

為了解決上面這個根本性問題，研究團隊設計了一套全新的評估方式。用餐廳比喻來說，他們做的事情是：先詳細記錄每位顧客的歷史點餐記錄和個人喜好，然后針對每位顧客精心準備兩道菜——一道嚴格按照他的個人口味檔案來做，另一道則故意違背他的口味偏好但在客觀質量上同樣無懈可擊，最后考察督導能不能挑出那道真正符合這位顧客口味的菜。

具體來說，研究團隊利用了一個叫做LaMP-QA的數(shù)據(jù)集作為原材料。這個數(shù)據(jù)集本身是一個"個性化問答"的測試集合，里面收錄了真實用戶提出的問題，以及每個用戶過去的歷史帖子和個人敘述。每道題目都附帶了一套"個人評分標準"——也就是這位用戶在回答這個問題時具體希望看到哪些方面的內(nèi)容，這套標準由人工驗證，契合度評分高達4.9分（滿分5分），可靠性非常高。

研究選取了三個"個人偏好差異最明顯"的領域：藝術與娛樂、生活方式與個人發(fā)展、社會與文化。之所以選這三個方向，是因為這些領域的問題沒有唯一正確答案，完全取決于個人的價值觀、經(jīng)歷和喜好——這正是考驗個性化理解能力的最佳場景。

為了構建每個用戶的個人檔案，團隊使用了一種叫做"檢索增強"的技術。簡單說，就是從用戶過去的大量歷史互動記錄中，自動找出最相關的10條，拼成一份"這個人是誰、他通常關心什么"的簡要畫像。

在生成回答對的環(huán)節(jié)，團隊采用了一個關鍵的創(chuàng)新設計。"正確答案"由Google的Gemini-3-Flash模型在明確知曉用戶個人評分標準的情況下生成——相當于廚師拿到了顧客的口味檔案。"錯誤答案"則同樣由這個模型生成，但這次輸入的是"用戶明確不希望看到的內(nèi)容方向"——相當于廚師被告知要刻意避開顧客喜歡的一切，但仍然可以做出客觀上不錯的菜。這樣一來，兩道菜的"通用質量"旗鼓相當，唯一的區(qū)別就在于是否符合這位顧客的個人口味。

整套測試集完全由測試題目組成，沒有任何訓練數(shù)據(jù)混入其中。藝術與娛樂類包含767道題，生活方式類包含989道題，社會與文化類包含1074道題，每道題平均涉及4到5個具體的個人評分維度。

三、人工驗證：這張考卷考的真的是"個人偏好"而非"質量高低"嗎

設計出這套考卷之后，研究團隊需要回答一個關鍵問題：這兩道菜真的只有口味上的差異，而不是一道明顯比另一道做得好嗎？

為此，團隊專門請了人工評審，對所有"正確答案"和"錯誤答案"從四個維度逐一打分。前三個維度衡量通用質量：事實準確性（信息是否正確無誤）、相關性與指令遵循（是否真正回答了問題）、有幫助性與無害性（是否真正有用且沒有不良內(nèi)容）。第四個維度則衡量個性化契合度：這個回答是否真正滿足了這位用戶的個人評分標準。打分范圍從1分（完全不合格）到5分（完全滿足）。

結果驗證了團隊的設計意圖。"正確答案"在三個通用質量維度上的得分分別是：事實準確性約4.94至4.99分，相關性約4.97至4.99分，有幫助性約4.89至4.97分。"錯誤答案"在這三個維度上同樣保持了相當高的水準：事實準確性約4.55至4.72分，相關性約4.50至4.63分，有幫助性約4.30至4.55分。兩類答案的通用質量差距非常有限，都處于"高質量"區(qū)間。

然而在個性化契合度這一維度上，兩者出現(xiàn)了天壤之別。"正確答案"的個人評分標準契合度在4.84至4.93分之間，接近滿分。而"錯誤答案"則跌至1.44至1.49分，幾乎墊底。這個結果清楚地表明：這張考卷里的兩個選項，通用質量上半斤八兩，唯一的決定性差異就是有沒有滿足這位用戶的個人偏好。這正是這套測試想要測量的東西。

四、現(xiàn)有的"評分員"們，成績究竟如何

測試結果出來之后，整體畫面相當令人清醒。研究團隊測試了三大類共二十余個當前最先進的獎勵模型系統(tǒng)，涵蓋直接輸出數(shù)值分數(shù)的"標量型獎勵模型"、通過語言推理來比較選項的"生成型獎勵模型"，以及專門針對個性化場景微調(diào)過的"個性化獎勵模型"。

即使是表現(xiàn)最好的系統(tǒng)，Google的Gemini-3-Flash，也只在"生活方式與個人發(fā)展"這個類別里達到了75.94%的正確率，在"藝術與娛樂"類別里是72.36%，在"社會與文化"類別里是75.51%。GPT-5.1在這三個類別里分別是65.45%、70.88%和66.76%，Anthropic的Claude-Sonnet-4-6則是67.28%、70.68%和73.56%。

在標量型獎勵模型這一類，internlm2-7b-reward的表現(xiàn)相對突出，在生活方式類達到了71.69%，在社會與文化類達到了74.95%。然而令人意外的是，參數(shù)量更大的internlm2-20b版本，在所有三個類別里都不如7b版本——這說明在個性化偏好理解這件事上，模型規(guī)模的擴大并不會自動帶來進步。類似的"越大越差"現(xiàn)象也出現(xiàn)在mR3系列的14B和8B版本之間。

那些專門為個性化場景微調(diào)過的獎勵模型，表現(xiàn)同樣不盡如人意。Bradley-Terry方法在三個類別里分別是63.75%、66.84%和64.99%，PAL方法則更低，最差的情況下只有48.76%到49.34%，幾乎等同于隨機猜測的水平。

與此形成鮮明對比的是，當研究者把真實的個人評分標準直接喂給Gemini-3-Flash，讓它作為一個知道所有個人偏好信息的"理想督導"來判斷時，正確率在三個類別里分別達到了97.78%、99.09%和98.60%——幾乎是滿分。這兩個數(shù)字之間超過20個百分點的巨大差距，既說明這套考卷本身的答案是清晰可辨的（不是題目太難或者本來就沒有正確答案），也說明現(xiàn)有系統(tǒng)的問題根本在于無法推斷和應用用戶的個人偏好。

五、用戶檔案能幫上忙嗎，以及應該怎么用

既然問題在于系統(tǒng)不了解用戶的個人偏好，一個自然的想法是：直接把用戶的歷史檔案塞給這些評分員，讓它們自己去讀，不就行了？

實驗結果給出了一個出乎意料的答案：直接塞反而會讓情況變得更糟。研究團隊發(fā)現(xiàn)，在大部分測試模型上，把用戶的歷史檔案直接附加到輸入里，比完全不給檔案信息的情況下表現(xiàn)還要差。原因在于，這些評分員是在標準的"問題-回答"格式下訓練出來的，突然多了一大段"用戶歷史聊天記錄"，對它們來說就是格式不匹配的噪聲，不僅沒有幫助，反而造成了干擾——這就好比一個從來沒讀過菜單的服務員，你突然扔給他一疊手寫的顧客日記，他只會更加手足無措。

為了解決這個問題，研究團隊提出了一個兩步走的策略。第一步，先用一個專門訓練過的"翻譯官"（在論文里稱為"計劃器"），把用戶的歷史檔案轉化為結構化的個人評分標準——也就是把那疊手寫日記濃縮成一份簡潔的口味清單，列明"這位顧客喜歡什么、不喜歡什么"。第二步，再把這份口味清單交給評分員，讓它在這個清晰指引下進行評分。

這個"先翻譯，再評分"的方案效果顯著。在Skywork、InternLM、RM-R1和Gemini這四個系列的模型上，使用這個方案之后，性能都有了明顯回升，大多數(shù)情況下不僅彌補了直接注入檔案帶來的損失，而且比完全不用檔案的基準情況還要好。這個結果表明，用戶檔案本身是有價值的信息，關鍵在于用正確的方式把它轉化成評分員能理解的格式。

對于那些專門微調(diào)過的個性化獎勵模型，研究團隊也專門做了對比實驗。結果同樣有趣：參數(shù)量更小的Llama-3.2-3B模型，在加入用戶檔案之后，在生活方式類別里達到了71.99%，在社會與文化類別里達到了72.07%，明顯高于參數(shù)量更大的Llama-3.1-8B在同一場景下的67.04%和68.34%。這再次印證了一個結論：對于個性化理解這種能力，模型架構的適應性和數(shù)據(jù)效率比單純堆砌參數(shù)規(guī)模更重要。

六、考卷上的成績能預測真實工作表現(xiàn)嗎

一套評估工具的價值，最終取決于它能不能準確預測"被評估的系統(tǒng)在實際應用中表現(xiàn)如何"。這是這項研究投入大量精力驗證的另一個核心問題。

研究團隊設計了兩種"真實工作場景"來檢驗這一點。第一種叫做Best-of-N（從N個中選最好的，簡稱BoN）：讓一個較小的語言模型（Qwen2.5-0.5B-Instruct）針對每道題目生成16個不同的候選回答，然后讓被測的獎勵模型從中選出它認為最好的一個，最后用一個更強的大模型（Qwen2.5-32B-Instruct）按照用戶的個人評分標準來評判這個被選中的回答質量如何。第二種叫做PPO（近端策略優(yōu)化），這是一種強化學習訓練方法：用被測的獎勵模型直接訓練那個較小的語言模型，讓它的行為朝著獎勵更高的方向調(diào)整，訓練完成后再評估這個被優(yōu)化過的模型在回答問題時的表現(xiàn)。

之所以使用較小的Qwen2.5-0.5B作為受訓模型，是一個刻意的實驗設計：它的基礎能力有限，所以最終表現(xiàn)的好壞主要取決于獎勵模型的引導質量，而不是模型本身的能力。

評估指標方面，團隊使用了四種衡量排名一致性的方法。Spearman's ρ衡量整體排名的單調(diào)一致性，簡單說就是"考卷上排第一的系統(tǒng)，在實際工作里是不是也接近第一"。NDCG和Weighted τ則更關注頂部排名的準確性，也就是"最優(yōu)秀的幾個系統(tǒng)有沒有被準確識別出來"。RBO衡量兩個排名列表從頂部開始的重疊程度。

結果相當有說服力。Personalized RewardBench在BoN場景下的NDCG達到了0.9180，Weighted τ達到了0.3409，Spearman's ρ達到了0.2571。在PPO場景下，NDCG達到了0.9265，Weighted τ達到了0.4793，Spearman's ρ達到了0.3714。相比之下，對照基準PersonalRewardBench（來自Chatbot Arena的個性化版本）在BoN場景下的NDCG只有0.6586，Weighted τ甚至是負數(shù)（-0.0736），意味著它的排名結果與實際工作表現(xiàn)完全背道而馳——在考卷上排名高的系統(tǒng)，在實際工作中反而表現(xiàn)差。PRISM數(shù)據(jù)集的個性化版本也類似，Weighted τ僅有0.0170，基本等同于沒有預測價值。

換句話說，用Personalized RewardBench的考卷成績來預測哪個評分員在實際工作中表現(xiàn)更好，準確度遠高于現(xiàn)有的其他測試方案。這才是一張好考卷真正應該做到的事情。

說到底，這項研究揭示了當前AI對齊技術中一個被長期低估的盲區(qū)。目前的"品味評分員"們，在判斷"一個回答客觀上夠不夠好"這件事上已經(jīng)相當熟練，但在判斷"這個回答有沒有真正滿足這位用戶的個人需求"時，仍然存在相當大的認知鴻溝。

這個發(fā)現(xiàn)的意義并不局限于技術層面。當AI系統(tǒng)被越來越廣泛地應用于教育輔導、健康建議、生活決策等與個人深度相關的場景時，一個無法準確理解個人偏好的"評分員"，可能會在訓練過程中系統(tǒng)性地引導AI產(chǎn)生那種"看起來很好但就是不對"的回答——通用質量合格，個性化體驗糟糕。

研究團隊提出的基準測試工具已經(jīng)開源，可以通過arXiv編號2604.07343查閱完整論文，數(shù)據(jù)集也在Huggingface平臺上公開，供研究者直接使用。正如研究者在論文中指出的，如何訓練出真正具備個性化理解能力的獎勵模型，仍然是一個大有可為的開放問題。畢竟，一位真正稱職的"品味評分員"，不只是懂烹飪，還得真正認識每一位顧客。

Q&A

Q1：Personalized RewardBench是什么，和普通的獎勵模型基準測試有什么不同？

A：Personalized RewardBench是由UC Davis團隊構建的一套評估工具，專門用來測試AI獎勵模型能否理解個人偏好。與普通基準測試不同，它構造的兩個候選答案在客觀質量上旗鼓相當，唯一的區(qū)別是一個滿足了用戶的個人評分標準，另一個則故意違背了這些標準。這樣的設計確保測試考察的是"有沒有讀懂這個人"，而不是"能不能區(qū)分好壞"。經(jīng)人工驗證，兩類答案在事實準確性、相關性和幫助性方面差異極小，只在個性化契合度上差距巨大。

Q2：現(xiàn)有最先進的AI獎勵模型在個性化偏好理解上表現(xiàn)有多差？

A：根據(jù)這項研究的測試，即使是表現(xiàn)最好的系統(tǒng)（Gemini-3-Flash），正確率也沒有超過76%，在藝術與娛樂類別里只有72.36%。而當研究者給系統(tǒng)提供完整的個人偏好標準作為參考時，理論上能達到的正確率接近99%。這意味著現(xiàn)有系統(tǒng)與理想狀態(tài)之間存在超過20個百分點的差距。更值得注意的是，模型參數(shù)量的增大并不能自動改善這種個性化理解能力，部分大參數(shù)模型反而不如小參數(shù)版本表現(xiàn)好。

Q3：為什么直接把用戶歷史檔案喂給獎勵模型反而會讓效果變差？

A：現(xiàn)有獎勵模型是在標準的"問題-回答"格式下訓練的，沒有處理用戶歷史檔案的能力。直接把大量歷史互動記錄附加到輸入中，會造成訓練格式與測試格式的嚴重不匹配，形成噪聲干擾。研究團隊發(fā)現(xiàn)更有效的做法是先用一個專門訓練過的"計劃器"模塊，把歷史檔案轉化為結構化的個人評分標準，再把這個清晰的口味清單交給獎勵模型。這種兩步走的方案在多個模型系列上都能穩(wěn)定提升性能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.