Intuit團(tuán)隊(duì)新發(fā)現(xiàn):當(dāng)AI檢索信息時(shí)，"找到答案"遠(yuǎn)不是故事的終點(diǎn)

2026-04-16 20:29:33　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由美國金融科技公司Intuit的研究人員完成的研究，以預(yù)印本形式于2026年4月7日發(fā)布在arXiv平臺上，論文編號為arXiv:2604.05467，感興趣的讀者可通過該編號檢索完整原文。

**一切要從一個(gè)日常場景說起**

假設(shè)你雇了一位私家偵探幫你調(diào)查一件事，他出去收集了一堆資料，最后回來告訴你答案。你該怎么評價(jià)他的工作？最簡單的方式當(dāng)然是看答案對不對。但真正有經(jīng)驗(yàn)的雇主會(huì)問更多：他找到的那些資料，哪些真正幫助了他得出答案？哪些是干擾？哪些根本沒用上？他有沒有因?yàn)槟撤菁偾閳?bào)走了彎路，雖然最后蒙對了，但過程一團(tuán)糟？

這正是Intuit這篇研究想解決的問題。現(xiàn)代AI系統(tǒng)——尤其是那些能回答復(fù)雜問題的大型語言模型——越來越擅長在回答之前先"出去檢索一圈資料"，然后綜合這些資料給出答案。這種方式被學(xué)界稱為"檢索增強(qiáng)生成"（Retrieval-Augmented Generation，簡稱RAG）。問題在于，學(xué)界長期以來評價(jià)這類系統(tǒng)的方式，就像那位只看最終答案的雇主一樣粗糙：答案對了就好，至于資料起了什么作用，沒人細(xì)究。

Intuit的研究團(tuán)隊(duì)認(rèn)為這遠(yuǎn)遠(yuǎn)不夠。他們開發(fā)了一套叫做**CUE-R**的評估框架，專門用來診斷每一條檢索到的證據(jù)究竟發(fā)揮了什么作用——不是靠猜測，而是靠"做實(shí)驗(yàn)"。

**一、問題的根源：我們一直在用錯(cuò)誤的方式給AI打分**

評價(jià)AI問答系統(tǒng)的方式，幾十年來基本沒變：問它一個(gè)問題，看它的答案對不對，完事。這就好比評價(jià)一位廚師只看最終端上桌的菜好不好吃，完全不管他用的是什么食材、怎么切、用了哪口鍋、火候如何。

然而，當(dāng)AI系統(tǒng)變得越來越復(fù)雜，這種"只看結(jié)果"的評價(jià)方式開始暴露嚴(yán)重缺陷。研究團(tuán)隊(duì)指出了兩個(gè)核心痛點(diǎn)。

第一個(gè)痛點(diǎn)是，最終答案太粗糙了，根本看不出檢索過程中發(fā)生了什么。一道菜可能因?yàn)榕既缓眠\(yùn)而美味，也可能因?yàn)閺N師技藝高超而美味，單看菜本身根本無法區(qū)分。同樣，AI可能恰好從記憶里調(diào)出了正確知識，也可能真的靠檢索到的資料推斷出了答案。如果只看最終答案，這兩種截然不同的情況看起來完全一樣。

第二個(gè)痛點(diǎn)是，AI系統(tǒng)在"思考過程"中寫下的推理步驟，并不總是忠實(shí)反映它內(nèi)部真正發(fā)生的事情。麻省理工學(xué)院和Anthropic的研究者們都曾發(fā)現(xiàn)，AI的"思維鏈"（也就是它寫出來的推理過程）有時(shí)更像是事后編造的合理化解釋，而非真實(shí)的推理軌跡。換句話說，偵探寫在報(bào)告里的"我是怎么破案的"，未必是他真正破案的方式。

正因如此，Intuit的團(tuán)隊(duì)決定不去信任AI寫下的推理文字，而是去觀察它的**行為**——它實(shí)際用了哪些資料，給出了什么答案，有多大把握。這些都是可以直接記錄和測量的"可觀察軌跡"，就像偵探的行動(dòng)記錄，而非他自述的心路歷程。

**二、CUE-R的核心思路：不信說的，只看做的**

CUE-R框架的核心設(shè)計(jì)哲學(xué)，可以用一個(gè)簡單的偵探實(shí)驗(yàn)來理解。假設(shè)偵探用了五份情報(bào)破了一個(gè)案子。你想知道每份情報(bào)分別起了什么作用，最直接的辦法是：把其中一份拿走，讓他重新破一次，看看結(jié)果有什么變化。把某份情報(bào)換成假的，再破一次。把某份情報(bào)復(fù)印一份塞進(jìn)去，再破一次。通過這些"干預(yù)實(shí)驗(yàn)"，你就能知道每份情報(bào)對最終結(jié)果的真實(shí)貢獻(xiàn)。

CUE-R做的正是這件事。對于每一條檢索到的證據(jù)，框架設(shè)計(jì)了三種"手術(shù)操作"。

第一種操作叫**REMOVE（移除）**，就是把目標(biāo)證據(jù)從資料堆里直接刪掉，讓AI在缺少這條證據(jù)的情況下重新回答。如果答案因此變差了，說明這條證據(jù)是必要的；如果沒變，說明AI其實(shí)不依賴它。

第二種操作叫**REPLACE（替換）**，把目標(biāo)證據(jù)換成一條"看起來相關(guān)、實(shí)際上沒用"的內(nèi)容——一條主題接近但不包含正確信息的假情報(bào)。這個(gè)操作專門測試AI面對誤導(dǎo)性信息時(shí)的抵抗力。

第三種操作叫**DUPLICATE（復(fù)制）**，把目標(biāo)證據(jù)復(fù)印一份，讓同樣的內(nèi)容出現(xiàn)兩次。這個(gè)操作測試冗余信息的影響——多一份一模一樣的情報(bào)，到底有沒有意義？

每次手術(shù)之后，研究團(tuán)隊(duì)不只看最終答案對不對，而是從四個(gè)維度全面測量變化：答案的**正確性**、證據(jù)引用的**可信度**（AI有沒有真的用對資料）、AI自我報(bào)告的**置信度誤差**（它以為自己有多準(zhǔn)，和實(shí)際準(zhǔn)確度之間的差距），以及整個(gè)推理過程的**行為軌跡偏離程度**（整個(gè)調(diào)查路徑發(fā)生了多大變化）。

這四個(gè)維度合在一起，就構(gòu)成了一幅完整的"證據(jù)角色圖譜"——每條證據(jù)到底是不可缺少的關(guān)鍵線索、可有可無的背景資料、令人迷惑的假情報(bào)，還是讓偵探自信過頭的危險(xiǎn)信號。

**三、實(shí)驗(yàn)設(shè)計(jì)：在兩個(gè)題庫、兩個(gè)AI身上反復(fù)驗(yàn)證**

為了確保結(jié)論可靠，研究團(tuán)隊(duì)在兩個(gè)經(jīng)典的多跳問答數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

第一個(gè)叫**HotpotQA**，這是一個(gè)專門為測試多步推理設(shè)計(jì)的問答庫。所謂"多跳"，就是回答一個(gè)問題需要把兩條不同來源的信息串聯(lián)起來，就像偵探需要把A處發(fā)現(xiàn)的線索和B處發(fā)現(xiàn)的線索聯(lián)合分析，才能得出結(jié)論。研究團(tuán)隊(duì)在HotpotQA上進(jìn)行了主要實(shí)驗(yàn)，用了200個(gè)問題來測試主力模型，同時(shí)另取200個(gè)問題做控制實(shí)驗(yàn)，再取100個(gè)問題用于跨模型驗(yàn)證。

第二個(gè)叫**2WikiMultihopQA**，同樣是多跳推理數(shù)據(jù)集，用100個(gè)問題來驗(yàn)證HotpotQA上得出的結(jié)論是否普遍適用。

測試用的AI模型有兩個(gè)。主力模型是**Qwen-3 8B**，一個(gè)參數(shù)量為80億的中等規(guī)模模型，在本地服務(wù)器上運(yùn)行。另一個(gè)用于跨模型驗(yàn)證的是**GPT-5.2**，即OpenAI最新一代的強(qiáng)大模型。選擇這兩個(gè)模型，是為了驗(yàn)證結(jié)論對不同能力級別的AI都成立，而非某個(gè)特定模型的特殊現(xiàn)象。

在檢索方式上，團(tuán)隊(duì)選擇了經(jīng)典的**BM25算法**——一種基于關(guān)鍵詞匹配的文檔檢索方法，每次為每個(gè)問題檢索5條最相關(guān)的段落。選擇這個(gè)"老派"的檢索方式是有意為之：它簡單、透明、可復(fù)現(xiàn)，有利于科學(xué)對比，盡管這也帶來了一定的局限性（后文會(huì)提到）。

**四、實(shí)驗(yàn)結(jié)果：三種手術(shù)引發(fā)了截然不同的后果**

實(shí)驗(yàn)結(jié)果非常清晰，像三條性格迥異的曲線，各走各的路。

在HotpotQA上，Qwen-3 8B在正常檢索條件下答對了58.5%的問題，答案F1分（一種衡量答案質(zhì)量的綜合指標(biāo)）為0.640，證據(jù)引用準(zhǔn)確率高達(dá)82.3%。這是偵探擁有完整情報(bào)時(shí)的表現(xiàn)。

當(dāng)把目標(biāo)證據(jù)**移除**之后，答對率驟降至28.5%，F(xiàn)1分跌到0.329，證據(jù)引用準(zhǔn)確率更是大跌至39.2%。偵探失去了關(guān)鍵情報(bào)，幾乎無從下手。更戲劇性的是，整個(gè)調(diào)查軌跡的偏離程度高達(dá)0.632——意味著偵探走了完全不同的調(diào)查路徑，而大多數(shù)都通向了錯(cuò)誤的結(jié)論。

**替換**操作的破壞力更猛。答對率降至27.0%，F(xiàn)1分0.318，證據(jù)引用準(zhǔn)確率35.3%，軌跡偏離0.637。假情報(bào)不但頂替了真情報(bào)，還主動(dòng)把偵探引向了錯(cuò)誤的方向。AI不僅失去了正確信息，還被填入了干擾信息，兩種損害疊加在一起。

換句話說，復(fù)制一份相同情報(bào)，不會(huì)讓偵探答錯(cuò)，但會(huì)讓他的調(diào)查方式悄悄改變——他可能更頻繁地引用這份情報(bào)，或者在某些步驟上走了略有不同的路徑。如果只看最終答案，你會(huì)認(rèn)為復(fù)制操作完全無害；但看完整的行為軌跡，你會(huì)發(fā)現(xiàn)它其實(shí)在暗地里影響著偵探的工作方式。

**五、一個(gè)不可忽視的對照實(shí)驗(yàn)：如果偵探完全沒有情報(bào)會(huì)怎樣**

為了確認(rèn)檢索這件事本身是有價(jià)值的——換句話說，為了證明實(shí)驗(yàn)觀察到的變化確實(shí)是因?yàn)榍閳?bào)質(zhì)量下降，而非AI系統(tǒng)本身不穩(wěn)定——研究團(tuán)隊(duì)專門進(jìn)行了一個(gè)"零情報(bào)"控制實(shí)驗(yàn)。

在這個(gè)實(shí)驗(yàn)里，AI根本沒有收到任何檢索結(jié)果，只能憑著自己的記憶（也就是訓(xùn)練時(shí)學(xué)到的知識）來回答問題。結(jié)果如何？答對率從58%跌到22%，F(xiàn)1分從0.629跌到0.270，證據(jù)引用準(zhǔn)確率直接歸零。

這個(gè)實(shí)驗(yàn)的意義在于：它確認(rèn)了檢索確實(shí)是有用的，AI不是隨機(jī)猜測的機(jī)器，檢索到的資料切實(shí)提升了它的表現(xiàn)。因此，當(dāng)移除或替換某條證據(jù)導(dǎo)致性能下降時(shí)，這種下降是真實(shí)的、有意義的損失，而非噪音。

**六、跨數(shù)據(jù)集、跨模型驗(yàn)證：規(guī)律是否普遍成立**

一個(gè)實(shí)驗(yàn)結(jié)論，如果只在一個(gè)數(shù)據(jù)集上、一個(gè)模型上成立，科學(xué)價(jià)值是有限的。研究團(tuán)隊(duì)因此專門做了兩輪驗(yàn)證。

在2WikiMultihopQA上的驗(yàn)證結(jié)果與HotpotQA高度吻合。正常檢索條件下答對54%，移除后降至39%，替換后降至37%，復(fù)制后略降為51%。軌跡偏離的模式同樣：移除0.594，替換0.622，復(fù)制僅0.063。證據(jù)引用準(zhǔn)確率從81.8%在有害操作下驟跌至46.5%和42.6%，而復(fù)制反而輕微提升到84%。不同數(shù)據(jù)集上，這個(gè)規(guī)律的整體形態(tài)完全一致。

這意味著，CUE-R揭示的規(guī)律并非某個(gè)弱模型的特有缺陷，而是一種在不同能力級別的AI系統(tǒng)中都普遍存在的現(xiàn)象。更強(qiáng)的模型對有害干預(yù)更有抵抗力，但絕非免疫。

**七、替換的難度重要嗎：假情報(bào)的質(zhì)量會(huì)不會(huì)影響破壞力**

研究團(tuán)隊(duì)還專門測試了一個(gè)細(xì)節(jié)問題：把真情報(bào)換成什么樣的假情報(bào)，影響有多大？

他們設(shè)計(jì)了三個(gè)難度等級。"簡單"替換是隨機(jī)挑一條不相關(guān)的文章段落塞進(jìn)去；"中等"替換是找一條與問題關(guān)鍵詞相似的段落；"困難"替換是找一條內(nèi)容與被替換情報(bào)最相似、但依然不包含正確答案的段落——這是最難分辨真假的那種假情報(bào)。

實(shí)驗(yàn)結(jié)果出乎意料地一致：三種難度下，答對率完全相同，都是35.4%。軌跡偏離也十分接近，在0.616到0.633之間。三種假情報(bào)，破壞力幾乎一樣。

唯一的細(xì)微差別在于"困難"替換略微提升了F1分（0.416對比其余兩種的0.394）和證據(jù)引用準(zhǔn)確率（0.434對比其余兩種的約0.39）——這可能是因?yàn)楦叨认嗨频募偾閳?bào)在結(jié)構(gòu)上與真情報(bào)接近，保留了一些有用的上下文框架，但核心答案信息仍然缺失。

這個(gè)實(shí)驗(yàn)告訴我們：假情報(bào)的質(zhì)量好壞，對最終破壞力影響有限。只要真情報(bào)消失了，偵探就會(huì)遭遇困難，不管塞進(jìn)去的是什么。

**八、多條情報(bào)的聯(lián)合效應(yīng)：1+1竟然不等于2**

在多跳問答場景中，回答一個(gè)問題通常需要來自兩個(gè)不同來源的信息聯(lián)合作用。研究團(tuán)隊(duì)專門對這種情況做了一個(gè)深入實(shí)驗(yàn)。

他們從HotpotQA中篩選出51個(gè)同時(shí)檢索到兩條關(guān)鍵證據(jù)的問題，然后分三種情況測試：只移除第一條證據(jù)、只移除第二條證據(jù)、同時(shí)移除兩條證據(jù)。

結(jié)果令人震驚。只移除第一條證據(jù)，F(xiàn)1分平均下降0.205。只移除第二條證據(jù)，F(xiàn)1分平均下降0.186。但同時(shí)移除兩條證據(jù)，F(xiàn)1分平均下降0.493——遠(yuǎn)遠(yuǎn)超過兩個(gè)單獨(dú)下降之和（0.205+0.186=0.391）。

更戲劇性的是，在13.7%的案例中，單獨(dú)移除任意一條證據(jù)，AI依然能答對；但同時(shí)移除兩條，AI就會(huì)答錯(cuò)。這兩條證據(jù)彼此"互相支撐"，缺少任何一條都能從另一條中找補(bǔ)回來，但兩條同時(shí)缺失就會(huì)徹底崩潰。

研究團(tuán)隊(duì)給出了一個(gè)具體例子：有個(gè)問題需要把《變形金剛》系列的一本書（Animorphs）和另一本書（The Hork-Bajir Chronicles）的信息結(jié)合起來才能回答。單獨(dú)移除任何一本書對應(yīng)的證據(jù)，AI仍然能靠另一條找到正確答案；但兩本書的證據(jù)同時(shí)移除后，AI就給出了錯(cuò)誤答案。

這一發(fā)現(xiàn)的意義在于：如果你只做"一次移除一條證據(jù)"的實(shí)驗(yàn)，你永遠(yuǎn)看不到這種互動(dòng)效應(yīng)，會(huì)低估AI對檢索信息的真實(shí)依賴程度。

**九、五個(gè)典型案例：證據(jù)角色的真實(shí)面貌**

研究團(tuán)隊(duì)還用具體案例展示了他們提出的"證據(jù)角色分類"在實(shí)踐中的樣子。

第一類是**關(guān)鍵構(gòu)建型**證據(jù)——缺了它，一切都崩塌。有個(gè)問題問的是布朗州立釣魚湖所在縣的人口數(shù)量，答案是9984。AI在有這條"布朗縣，堪薩斯州"證據(jù)時(shí)，自信地回答了9984。把這條證據(jù)移除后，AI的答案變成了"未知"，置信度從0.9跌到0，軌跡偏離幾乎達(dá)到最大值1.0。這條證據(jù)就是整個(gè)推理鏈的關(guān)鍵節(jié)點(diǎn)，缺了它寸步難行。

第二類是**答案不變但軌跡飄移型**——最能說明為什么不能只看答案。有個(gè)問題問的是某位漫畫家的出生年份（正確答案是1962）。原始AI回答的是1970（已經(jīng)答錯(cuò)了），置信度0.5。把某條證據(jù)替換后，AI改口說1968（依然是錯(cuò)的），但置信度跳升到0.9，軌跡偏離達(dá)0.88。從"對錯(cuò)"角度看，兩次都答錯(cuò)，毫無變化；但從"軌跡"角度看，AI的整個(gè)思路發(fā)生了巨大變化，甚至變得更自信——這是一種危險(xiǎn)的信號，答案錯(cuò)誤+高度自信，而單純看答對率根本發(fā)現(xiàn)不了。

第三類是**完全冗余型**——多了也沒用。有個(gè)問題問斯科特·德里克森和艾德·伍德是不是同一國籍（正確答案是"是"）。AI原本答的是"不是"（錯(cuò)誤），復(fù)制證據(jù)后依然回答"不是"，置信度相同，證據(jù)引用模式相同，軌跡偏離為零。這條證據(jù)無論如何都幫不上忙，多一份少一份完全一樣。

第四類是**置信度擾亂型**——答案對了，但信心搞錯(cuò)了。有個(gè)關(guān)于樂隊(duì)樂器數(shù)量比的問題，AI原本正確地回答了"Badly Drawn Boy"，置信度0.9。復(fù)制證據(jù)后，答案仍然正確，但置信度跌到了0.5，置信誤差從0.1飆升到0.5。如果只看答案，復(fù)制操作無害；但從置信度角度看，它把AI變成了一個(gè)正確但不自信的偵探——而錯(cuò)誤的信心評估在實(shí)際應(yīng)用中是非常危險(xiǎn)的，因?yàn)橄到y(tǒng)可能因此在該確認(rèn)的時(shí)候反而猶豫。

**十、這個(gè)框架的局限：誠實(shí)面對自己的不足**

研究團(tuán)隊(duì)在論文中非常坦誠地列出了CUE-R的各種局限性。

首先，實(shí)驗(yàn)中的"干預(yù)"操作修改的是輸入給AI的文本，這同時(shí)改變了文本的長度、內(nèi)容分布和注意力分配。因此，觀察到的變化是"對輸入擾動(dòng)的敏感度"，而非最嚴(yán)格意義上的"因果貢獻(xiàn)"，兩者之間有細(xì)微但重要的區(qū)別。

其次，CUE-R只能觀察AI的外在行為——它用了哪些資料、給出了什么答案、報(bào)告了什么置信度——而無法看到AI內(nèi)部真正發(fā)生了什么。這就像通過觀察偵探的行動(dòng)來推斷他的思路，而非直接讀取他的腦電波。

在實(shí)驗(yàn)規(guī)模上，100到200個(gè)樣本相對有限，檢索方式也選擇了較為基礎(chǔ)的BM25算法，而非業(yè)界最先進(jìn)的語義檢索技術(shù)。這些都意味著結(jié)論的泛化范圍還需要更多驗(yàn)證。

此外，證據(jù)引用準(zhǔn)確率的度量方式比較粗糙：只檢查AI引用的證據(jù)標(biāo)題是否與標(biāo)準(zhǔn)答案中的支持文章匹配，并不驗(yàn)證AI是否真的用了那篇文章中的正確信息。一個(gè)證據(jù)引用了正確的文章但用了里面錯(cuò)誤的信息，依然會(huì)被算作"正確引用"。

最后，自我報(bào)告置信度本身就是一個(gè)問題：AI系統(tǒng)對自己準(zhǔn)確度的估計(jì)普遍不夠可靠，不同模型的置信度信號質(zhì)量差異很大。

**十一、CUE-R在更大圖景中的位置**

研究團(tuán)隊(duì)專門制作了一張比較表，梳理了CUE-R與現(xiàn)有各類評估方法的區(qū)別，這有助于理解它填補(bǔ)的是什么空白。

已有的評估方法大致可以分為幾類。純粹看答案對不對的方法最常見，但完全不涉及檢索過程。檢查AI推理過程是否"看起來合理"的方法更進(jìn)一步，但依賴文字層面的表面判斷。檢查AI在答案中引用的文獻(xiàn)是否真實(shí)支持該答案的方法關(guān)注證據(jù)與答案的對應(yīng)關(guān)系，但也只停留在最終答案層面。完整評估AI執(zhí)行任務(wù)全過程軌跡的方法視角最廣，但并不聚焦于檢索證據(jù)的具體貢獻(xiàn)。專門做"拿走某條證據(jù)答案會(huì)不會(huì)變"實(shí)驗(yàn)的方法已經(jīng)有了干預(yù)思想，但只看答案變不變這一個(gè)維度。

CUE-R的獨(dú)特之處在于同時(shí)具備兩個(gè)特征：有干預(yù)實(shí)驗(yàn)，而且是多維度評估。在研究團(tuán)隊(duì)梳理的所有方法中，只有CUE-R同時(shí)具備這兩點(diǎn)，這是它真正的差異化價(jià)值。

說到底，CUE-R這項(xiàng)研究做的事情，像是給AI問答系統(tǒng)的工作過程裝上了一套全面的體檢儀器。過去，我們只能看最終體檢報(bào)告上那一個(gè)數(shù)字，卻對體檢過程中的所有環(huán)節(jié)視而不見。現(xiàn)在，Intuit的研究團(tuán)隊(duì)展示了通過系統(tǒng)性的干預(yù)實(shí)驗(yàn)，可以看到更多——哪些信息是真正不可缺少的，哪些看似有用實(shí)則冗余，哪些會(huì)悄悄影響AI的信心而不影響答案，而多個(gè)信息之間有時(shí)會(huì)產(chǎn)生遠(yuǎn)超單獨(dú)作用之和的聯(lián)合效應(yīng)。

這對普通人意味著什么？當(dāng)你使用任何依賴"查資料再回答"的AI工具時(shí)，AI給你的答案背后有一個(gè)復(fù)雜的信息處理過程，而這個(gè)過程中發(fā)生的事情，對答案的可靠性有深遠(yuǎn)影響。僅僅因?yàn)榇鸢缚雌饋砗侠?，不代表AI用對了資料；僅僅因?yàn)锳I很自信，不代表它真的有把握。CUE-R這套工具，讓我們有了更系統(tǒng)的方法去檢驗(yàn)這些隱藏的過程。

對于AI系統(tǒng)的開發(fā)者而言，這項(xiàng)研究提示：優(yōu)化最終答案質(zhì)量，和優(yōu)化檢索利用過程，是兩件不完全重疊的事情，需要分開來評估和改進(jìn)。對于更廣泛的研究社區(qū)而言，它打開了一扇新的窗口：通過可觀察的外在行為，而非不可信的內(nèi)在"思維鏈"文字，來理解AI如何使用它找到的信息。

如果你對這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣，可以通過arXiv編號2604.05467找到完整論文，所有實(shí)驗(yàn)數(shù)據(jù)、統(tǒng)計(jì)檢驗(yàn)結(jié)果和案例細(xì)節(jié)都在其中。

**Q&A**

Q1：CUE-R框架具體是用什么方法來判斷每條檢索證據(jù)的價(jià)值的？

A：CUE-R通過三種"手術(shù)實(shí)驗(yàn)"來判斷證據(jù)價(jià)值：一是直接刪除目標(biāo)證據(jù)讓AI重新回答（REMOVE），二是把目標(biāo)證據(jù)換成相關(guān)但無用的假情報(bào)（REPLACE），三是把目標(biāo)證據(jù)復(fù)制一份再放進(jìn)去（DUPLICATE）。然后從答案正確率、證據(jù)引用準(zhǔn)確率、置信度誤差和行為軌跡變化四個(gè)維度來對比前后差異，綜合判斷這條證據(jù)起了什么作用。不只看答案對不對，而是看整個(gè)推理行為有沒有變化。

Q2：DUPLICATE操作既然不影響答案正確率，為什么研究團(tuán)隊(duì)認(rèn)為它依然值得關(guān)注？

A：雖然復(fù)制一條證據(jù)通常不會(huì)讓答案變差，但實(shí)驗(yàn)發(fā)現(xiàn)它會(huì)顯著改變AI引用證據(jù)的方式和推理軌跡（統(tǒng)計(jì)上高度顯著），有時(shí)還會(huì)扭曲AI的自信程度——讓本來正確答案對應(yīng)的置信度降低，或者改變AI更偏向引用哪條資料。這種"答案不變但行為已變"的情況，如果只用答案來評估，就完全看不到，而這種隱藏的行為變化在實(shí)際應(yīng)用中可能帶來潛在風(fēng)險(xiǎn)。

Q3：HotpotQA雙支持消融實(shí)驗(yàn)（兩條證據(jù)同時(shí)移除）說明了什么問題？

A：這個(gè)實(shí)驗(yàn)發(fā)現(xiàn)，同時(shí)移除兩條關(guān)鍵證據(jù)導(dǎo)致的性能下降（F1平均降0.493）遠(yuǎn)遠(yuǎn)超過分別只移除一條時(shí)的損失之和（0.205+0.186=0.391）。更關(guān)鍵的是，有13.7%的案例中單獨(dú)移除任意一條證據(jù)AI還能答對，但兩條同時(shí)移除就答錯(cuò)了——說明兩條證據(jù)相互支撐、缺一不可。這意味著如果評估時(shí)只做"一次移除一條"的實(shí)驗(yàn)，會(huì)嚴(yán)重低估AI對檢索信息的實(shí)際依賴程度，多條證據(jù)之間可能存在非加性的協(xié)同關(guān)系。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.