国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Intuit團(tuán)隊(duì)新發(fā)現(xiàn):當(dāng)AI檢索信息時(shí),"找到答案"遠(yuǎn)不是故事的終點(diǎn)

0
分享至


這項(xiàng)由美國金融科技公司Intuit的研究人員完成的研究,以預(yù)印本形式于2026年4月7日發(fā)布在arXiv平臺上,論文編號為arXiv:2604.05467,感興趣的讀者可通過該編號檢索完整原文。

**一切要從一個(gè)日常場景說起**

假設(shè)你雇了一位私家偵探幫你調(diào)查一件事,他出去收集了一堆資料,最后回來告訴你答案。你該怎么評價(jià)他的工作?最簡單的方式當(dāng)然是看答案對不對。但真正有經(jīng)驗(yàn)的雇主會(huì)問更多:他找到的那些資料,哪些真正幫助了他得出答案?哪些是干擾?哪些根本沒用上?他有沒有因?yàn)槟撤菁偾閳?bào)走了彎路,雖然最后蒙對了,但過程一團(tuán)糟?

這正是Intuit這篇研究想解決的問題。現(xiàn)代AI系統(tǒng)——尤其是那些能回答復(fù)雜問題的大型語言模型——越來越擅長在回答之前先"出去檢索一圈資料",然后綜合這些資料給出答案。這種方式被學(xué)界稱為"檢索增強(qiáng)生成"(Retrieval-Augmented Generation,簡稱RAG)。問題在于,學(xué)界長期以來評價(jià)這類系統(tǒng)的方式,就像那位只看最終答案的雇主一樣粗糙:答案對了就好,至于資料起了什么作用,沒人細(xì)究。

Intuit的研究團(tuán)隊(duì)認(rèn)為這遠(yuǎn)遠(yuǎn)不夠。他們開發(fā)了一套叫做**CUE-R**的評估框架,專門用來診斷每一條檢索到的證據(jù)究竟發(fā)揮了什么作用——不是靠猜測,而是靠"做實(shí)驗(yàn)"。

**一、問題的根源:我們一直在用錯(cuò)誤的方式給AI打分**

評價(jià)AI問答系統(tǒng)的方式,幾十年來基本沒變:問它一個(gè)問題,看它的答案對不對,完事。這就好比評價(jià)一位廚師只看最終端上桌的菜好不好吃,完全不管他用的是什么食材、怎么切、用了哪口鍋、火候如何。

然而,當(dāng)AI系統(tǒng)變得越來越復(fù)雜,這種"只看結(jié)果"的評價(jià)方式開始暴露嚴(yán)重缺陷。研究團(tuán)隊(duì)指出了兩個(gè)核心痛點(diǎn)。

第一個(gè)痛點(diǎn)是,最終答案太粗糙了,根本看不出檢索過程中發(fā)生了什么。一道菜可能因?yàn)榕既缓眠\(yùn)而美味,也可能因?yàn)閺N師技藝高超而美味,單看菜本身根本無法區(qū)分。同樣,AI可能恰好從記憶里調(diào)出了正確知識,也可能真的靠檢索到的資料推斷出了答案。如果只看最終答案,這兩種截然不同的情況看起來完全一樣。

第二個(gè)痛點(diǎn)是,AI系統(tǒng)在"思考過程"中寫下的推理步驟,并不總是忠實(shí)反映它內(nèi)部真正發(fā)生的事情。麻省理工學(xué)院和Anthropic的研究者們都曾發(fā)現(xiàn),AI的"思維鏈"(也就是它寫出來的推理過程)有時(shí)更像是事后編造的合理化解釋,而非真實(shí)的推理軌跡。換句話說,偵探寫在報(bào)告里的"我是怎么破案的",未必是他真正破案的方式。

正因如此,Intuit的團(tuán)隊(duì)決定不去信任AI寫下的推理文字,而是去觀察它的**行為**——它實(shí)際用了哪些資料,給出了什么答案,有多大把握。這些都是可以直接記錄和測量的"可觀察軌跡",就像偵探的行動(dòng)記錄,而非他自述的心路歷程。

**二、CUE-R的核心思路:不信說的,只看做的**

CUE-R框架的核心設(shè)計(jì)哲學(xué),可以用一個(gè)簡單的偵探實(shí)驗(yàn)來理解。假設(shè)偵探用了五份情報(bào)破了一個(gè)案子。你想知道每份情報(bào)分別起了什么作用,最直接的辦法是:把其中一份拿走,讓他重新破一次,看看結(jié)果有什么變化。把某份情報(bào)換成假的,再破一次。把某份情報(bào)復(fù)印一份塞進(jìn)去,再破一次。通過這些"干預(yù)實(shí)驗(yàn)",你就能知道每份情報(bào)對最終結(jié)果的真實(shí)貢獻(xiàn)。

CUE-R做的正是這件事。對于每一條檢索到的證據(jù),框架設(shè)計(jì)了三種"手術(shù)操作"。

第一種操作叫**REMOVE(移除)**,就是把目標(biāo)證據(jù)從資料堆里直接刪掉,讓AI在缺少這條證據(jù)的情況下重新回答。如果答案因此變差了,說明這條證據(jù)是必要的;如果沒變,說明AI其實(shí)不依賴它。

第二種操作叫**REPLACE(替換)**,把目標(biāo)證據(jù)換成一條"看起來相關(guān)、實(shí)際上沒用"的內(nèi)容——一條主題接近但不包含正確信息的假情報(bào)。這個(gè)操作專門測試AI面對誤導(dǎo)性信息時(shí)的抵抗力。

第三種操作叫**DUPLICATE(復(fù)制)**,把目標(biāo)證據(jù)復(fù)印一份,讓同樣的內(nèi)容出現(xiàn)兩次。這個(gè)操作測試冗余信息的影響——多一份一模一樣的情報(bào),到底有沒有意義?

每次手術(shù)之后,研究團(tuán)隊(duì)不只看最終答案對不對,而是從四個(gè)維度全面測量變化:答案的**正確性**、證據(jù)引用的**可信度**(AI有沒有真的用對資料)、AI自我報(bào)告的**置信度誤差**(它以為自己有多準(zhǔn),和實(shí)際準(zhǔn)確度之間的差距),以及整個(gè)推理過程的**行為軌跡偏離程度**(整個(gè)調(diào)查路徑發(fā)生了多大變化)。

這四個(gè)維度合在一起,就構(gòu)成了一幅完整的"證據(jù)角色圖譜"——每條證據(jù)到底是不可缺少的關(guān)鍵線索、可有可無的背景資料、令人迷惑的假情報(bào),還是讓偵探自信過頭的危險(xiǎn)信號。

**三、實(shí)驗(yàn)設(shè)計(jì):在兩個(gè)題庫、兩個(gè)AI身上反復(fù)驗(yàn)證**

為了確保結(jié)論可靠,研究團(tuán)隊(duì)在兩個(gè)經(jīng)典的多跳問答數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

第一個(gè)叫**HotpotQA**,這是一個(gè)專門為測試多步推理設(shè)計(jì)的問答庫。所謂"多跳",就是回答一個(gè)問題需要把兩條不同來源的信息串聯(lián)起來,就像偵探需要把A處發(fā)現(xiàn)的線索和B處發(fā)現(xiàn)的線索聯(lián)合分析,才能得出結(jié)論。研究團(tuán)隊(duì)在HotpotQA上進(jìn)行了主要實(shí)驗(yàn),用了200個(gè)問題來測試主力模型,同時(shí)另取200個(gè)問題做控制實(shí)驗(yàn),再取100個(gè)問題用于跨模型驗(yàn)證。

第二個(gè)叫**2WikiMultihopQA**,同樣是多跳推理數(shù)據(jù)集,用100個(gè)問題來驗(yàn)證HotpotQA上得出的結(jié)論是否普遍適用。

測試用的AI模型有兩個(gè)。主力模型是**Qwen-3 8B**,一個(gè)參數(shù)量為80億的中等規(guī)模模型,在本地服務(wù)器上運(yùn)行。另一個(gè)用于跨模型驗(yàn)證的是**GPT-5.2**,即OpenAI最新一代的強(qiáng)大模型。選擇這兩個(gè)模型,是為了驗(yàn)證結(jié)論對不同能力級別的AI都成立,而非某個(gè)特定模型的特殊現(xiàn)象。

在檢索方式上,團(tuán)隊(duì)選擇了經(jīng)典的**BM25算法**——一種基于關(guān)鍵詞匹配的文檔檢索方法,每次為每個(gè)問題檢索5條最相關(guān)的段落。選擇這個(gè)"老派"的檢索方式是有意為之:它簡單、透明、可復(fù)現(xiàn),有利于科學(xué)對比,盡管這也帶來了一定的局限性(后文會(huì)提到)。

**四、實(shí)驗(yàn)結(jié)果:三種手術(shù)引發(fā)了截然不同的后果**

實(shí)驗(yàn)結(jié)果非常清晰,像三條性格迥異的曲線,各走各的路。

在HotpotQA上,Qwen-3 8B在正常檢索條件下答對了58.5%的問題,答案F1分(一種衡量答案質(zhì)量的綜合指標(biāo))為0.640,證據(jù)引用準(zhǔn)確率高達(dá)82.3%。這是偵探擁有完整情報(bào)時(shí)的表現(xiàn)。

當(dāng)把目標(biāo)證據(jù)**移除**之后,答對率驟降至28.5%,F(xiàn)1分跌到0.329,證據(jù)引用準(zhǔn)確率更是大跌至39.2%。偵探失去了關(guān)鍵情報(bào),幾乎無從下手。更戲劇性的是,整個(gè)調(diào)查軌跡的偏離程度高達(dá)0.632——意味著偵探走了完全不同的調(diào)查路徑,而大多數(shù)都通向了錯(cuò)誤的結(jié)論。

**替換**操作的破壞力更猛。答對率降至27.0%,F(xiàn)1分0.318,證據(jù)引用準(zhǔn)確率35.3%,軌跡偏離0.637。假情報(bào)不但頂替了真情報(bào),還主動(dòng)把偵探引向了錯(cuò)誤的方向。AI不僅失去了正確信息,還被填入了干擾信息,兩種損害疊加在一起。

換句話說,復(fù)制一份相同情報(bào),不會(huì)讓偵探答錯(cuò),但會(huì)讓他的調(diào)查方式悄悄改變——他可能更頻繁地引用這份情報(bào),或者在某些步驟上走了略有不同的路徑。如果只看最終答案,你會(huì)認(rèn)為復(fù)制操作完全無害;但看完整的行為軌跡,你會(huì)發(fā)現(xiàn)它其實(shí)在暗地里影響著偵探的工作方式。

**五、一個(gè)不可忽視的對照實(shí)驗(yàn):如果偵探完全沒有情報(bào)會(huì)怎樣**

為了確認(rèn)檢索這件事本身是有價(jià)值的——換句話說,為了證明實(shí)驗(yàn)觀察到的變化確實(shí)是因?yàn)榍閳?bào)質(zhì)量下降,而非AI系統(tǒng)本身不穩(wěn)定——研究團(tuán)隊(duì)專門進(jìn)行了一個(gè)"零情報(bào)"控制實(shí)驗(yàn)。

在這個(gè)實(shí)驗(yàn)里,AI根本沒有收到任何檢索結(jié)果,只能憑著自己的記憶(也就是訓(xùn)練時(shí)學(xué)到的知識)來回答問題。結(jié)果如何?答對率從58%跌到22%,F(xiàn)1分從0.629跌到0.270,證據(jù)引用準(zhǔn)確率直接歸零。

這個(gè)實(shí)驗(yàn)的意義在于:它確認(rèn)了檢索確實(shí)是有用的,AI不是隨機(jī)猜測的機(jī)器,檢索到的資料切實(shí)提升了它的表現(xiàn)。因此,當(dāng)移除或替換某條證據(jù)導(dǎo)致性能下降時(shí),這種下降是真實(shí)的、有意義的損失,而非噪音。

**六、跨數(shù)據(jù)集、跨模型驗(yàn)證:規(guī)律是否普遍成立**

一個(gè)實(shí)驗(yàn)結(jié)論,如果只在一個(gè)數(shù)據(jù)集上、一個(gè)模型上成立,科學(xué)價(jià)值是有限的。研究團(tuán)隊(duì)因此專門做了兩輪驗(yàn)證。

在2WikiMultihopQA上的驗(yàn)證結(jié)果與HotpotQA高度吻合。正常檢索條件下答對54%,移除后降至39%,替換后降至37%,復(fù)制后略降為51%。軌跡偏離的模式同樣:移除0.594,替換0.622,復(fù)制僅0.063。證據(jù)引用準(zhǔn)確率從81.8%在有害操作下驟跌至46.5%和42.6%,而復(fù)制反而輕微提升到84%。不同數(shù)據(jù)集上,這個(gè)規(guī)律的整體形態(tài)完全一致。

這意味著,CUE-R揭示的規(guī)律并非某個(gè)弱模型的特有缺陷,而是一種在不同能力級別的AI系統(tǒng)中都普遍存在的現(xiàn)象。更強(qiáng)的模型對有害干預(yù)更有抵抗力,但絕非免疫。

**七、替換的難度重要嗎:假情報(bào)的質(zhì)量會(huì)不會(huì)影響破壞力**

研究團(tuán)隊(duì)還專門測試了一個(gè)細(xì)節(jié)問題:把真情報(bào)換成什么樣的假情報(bào),影響有多大?

他們設(shè)計(jì)了三個(gè)難度等級。"簡單"替換是隨機(jī)挑一條不相關(guān)的文章段落塞進(jìn)去;"中等"替換是找一條與問題關(guān)鍵詞相似的段落;"困難"替換是找一條內(nèi)容與被替換情報(bào)最相似、但依然不包含正確答案的段落——這是最難分辨真假的那種假情報(bào)。

實(shí)驗(yàn)結(jié)果出乎意料地一致:三種難度下,答對率完全相同,都是35.4%。軌跡偏離也十分接近,在0.616到0.633之間。三種假情報(bào),破壞力幾乎一樣。

唯一的細(xì)微差別在于"困難"替換略微提升了F1分(0.416對比其余兩種的0.394)和證據(jù)引用準(zhǔn)確率(0.434對比其余兩種的約0.39)——這可能是因?yàn)楦叨认嗨频募偾閳?bào)在結(jié)構(gòu)上與真情報(bào)接近,保留了一些有用的上下文框架,但核心答案信息仍然缺失。

這個(gè)實(shí)驗(yàn)告訴我們:假情報(bào)的質(zhì)量好壞,對最終破壞力影響有限。只要真情報(bào)消失了,偵探就會(huì)遭遇困難,不管塞進(jìn)去的是什么。

**八、多條情報(bào)的聯(lián)合效應(yīng):1+1竟然不等于2**

在多跳問答場景中,回答一個(gè)問題通常需要來自兩個(gè)不同來源的信息聯(lián)合作用。研究團(tuán)隊(duì)專門對這種情況做了一個(gè)深入實(shí)驗(yàn)。

他們從HotpotQA中篩選出51個(gè)同時(shí)檢索到兩條關(guān)鍵證據(jù)的問題,然后分三種情況測試:只移除第一條證據(jù)、只移除第二條證據(jù)、同時(shí)移除兩條證據(jù)。

結(jié)果令人震驚。只移除第一條證據(jù),F(xiàn)1分平均下降0.205。只移除第二條證據(jù),F(xiàn)1分平均下降0.186。但同時(shí)移除兩條證據(jù),F(xiàn)1分平均下降0.493——遠(yuǎn)遠(yuǎn)超過兩個(gè)單獨(dú)下降之和(0.205+0.186=0.391)。

更戲劇性的是,在13.7%的案例中,單獨(dú)移除任意一條證據(jù),AI依然能答對;但同時(shí)移除兩條,AI就會(huì)答錯(cuò)。這兩條證據(jù)彼此"互相支撐",缺少任何一條都能從另一條中找補(bǔ)回來,但兩條同時(shí)缺失就會(huì)徹底崩潰。

研究團(tuán)隊(duì)給出了一個(gè)具體例子:有個(gè)問題需要把《變形金剛》系列的一本書(Animorphs)和另一本書(The Hork-Bajir Chronicles)的信息結(jié)合起來才能回答。單獨(dú)移除任何一本書對應(yīng)的證據(jù),AI仍然能靠另一條找到正確答案;但兩本書的證據(jù)同時(shí)移除后,AI就給出了錯(cuò)誤答案。

這一發(fā)現(xiàn)的意義在于:如果你只做"一次移除一條證據(jù)"的實(shí)驗(yàn),你永遠(yuǎn)看不到這種互動(dòng)效應(yīng),會(huì)低估AI對檢索信息的真實(shí)依賴程度。

**九、五個(gè)典型案例:證據(jù)角色的真實(shí)面貌**

研究團(tuán)隊(duì)還用具體案例展示了他們提出的"證據(jù)角色分類"在實(shí)踐中的樣子。

第一類是**關(guān)鍵構(gòu)建型**證據(jù)——缺了它,一切都崩塌。有個(gè)問題問的是布朗州立釣魚湖所在縣的人口數(shù)量,答案是9984。AI在有這條"布朗縣,堪薩斯州"證據(jù)時(shí),自信地回答了9984。把這條證據(jù)移除后,AI的答案變成了"未知",置信度從0.9跌到0,軌跡偏離幾乎達(dá)到最大值1.0。這條證據(jù)就是整個(gè)推理鏈的關(guān)鍵節(jié)點(diǎn),缺了它寸步難行。

第二類是**答案不變但軌跡飄移型**——最能說明為什么不能只看答案。有個(gè)問題問的是某位漫畫家的出生年份(正確答案是1962)。原始AI回答的是1970(已經(jīng)答錯(cuò)了),置信度0.5。把某條證據(jù)替換后,AI改口說1968(依然是錯(cuò)的),但置信度跳升到0.9,軌跡偏離達(dá)0.88。從"對錯(cuò)"角度看,兩次都答錯(cuò),毫無變化;但從"軌跡"角度看,AI的整個(gè)思路發(fā)生了巨大變化,甚至變得更自信——這是一種危險(xiǎn)的信號,答案錯(cuò)誤+高度自信,而單純看答對率根本發(fā)現(xiàn)不了。

第三類是**完全冗余型**——多了也沒用。有個(gè)問題問斯科特·德里克森和艾德·伍德是不是同一國籍(正確答案是"是")。AI原本答的是"不是"(錯(cuò)誤),復(fù)制證據(jù)后依然回答"不是",置信度相同,證據(jù)引用模式相同,軌跡偏離為零。這條證據(jù)無論如何都幫不上忙,多一份少一份完全一樣。

第四類是**置信度擾亂型**——答案對了,但信心搞錯(cuò)了。有個(gè)關(guān)于樂隊(duì)樂器數(shù)量比的問題,AI原本正確地回答了"Badly Drawn Boy",置信度0.9。復(fù)制證據(jù)后,答案仍然正確,但置信度跌到了0.5,置信誤差從0.1飆升到0.5。如果只看答案,復(fù)制操作無害;但從置信度角度看,它把AI變成了一個(gè)正確但不自信的偵探——而錯(cuò)誤的信心評估在實(shí)際應(yīng)用中是非常危險(xiǎn)的,因?yàn)橄到y(tǒng)可能因此在該確認(rèn)的時(shí)候反而猶豫。

**十、這個(gè)框架的局限:誠實(shí)面對自己的不足**

研究團(tuán)隊(duì)在論文中非常坦誠地列出了CUE-R的各種局限性。

首先,實(shí)驗(yàn)中的"干預(yù)"操作修改的是輸入給AI的文本,這同時(shí)改變了文本的長度、內(nèi)容分布和注意力分配。因此,觀察到的變化是"對輸入擾動(dòng)的敏感度",而非最嚴(yán)格意義上的"因果貢獻(xiàn)",兩者之間有細(xì)微但重要的區(qū)別。

其次,CUE-R只能觀察AI的外在行為——它用了哪些資料、給出了什么答案、報(bào)告了什么置信度——而無法看到AI內(nèi)部真正發(fā)生了什么。這就像通過觀察偵探的行動(dòng)來推斷他的思路,而非直接讀取他的腦電波。

在實(shí)驗(yàn)規(guī)模上,100到200個(gè)樣本相對有限,檢索方式也選擇了較為基礎(chǔ)的BM25算法,而非業(yè)界最先進(jìn)的語義檢索技術(shù)。這些都意味著結(jié)論的泛化范圍還需要更多驗(yàn)證。

此外,證據(jù)引用準(zhǔn)確率的度量方式比較粗糙:只檢查AI引用的證據(jù)標(biāo)題是否與標(biāo)準(zhǔn)答案中的支持文章匹配,并不驗(yàn)證AI是否真的用了那篇文章中的正確信息。一個(gè)證據(jù)引用了正確的文章但用了里面錯(cuò)誤的信息,依然會(huì)被算作"正確引用"。

最后,自我報(bào)告置信度本身就是一個(gè)問題:AI系統(tǒng)對自己準(zhǔn)確度的估計(jì)普遍不夠可靠,不同模型的置信度信號質(zhì)量差異很大。

**十一、CUE-R在更大圖景中的位置**

研究團(tuán)隊(duì)專門制作了一張比較表,梳理了CUE-R與現(xiàn)有各類評估方法的區(qū)別,這有助于理解它填補(bǔ)的是什么空白。

已有的評估方法大致可以分為幾類。純粹看答案對不對的方法最常見,但完全不涉及檢索過程。檢查AI推理過程是否"看起來合理"的方法更進(jìn)一步,但依賴文字層面的表面判斷。檢查AI在答案中引用的文獻(xiàn)是否真實(shí)支持該答案的方法關(guān)注證據(jù)與答案的對應(yīng)關(guān)系,但也只停留在最終答案層面。完整評估AI執(zhí)行任務(wù)全過程軌跡的方法視角最廣,但并不聚焦于檢索證據(jù)的具體貢獻(xiàn)。專門做"拿走某條證據(jù)答案會(huì)不會(huì)變"實(shí)驗(yàn)的方法已經(jīng)有了干預(yù)思想,但只看答案變不變這一個(gè)維度。

CUE-R的獨(dú)特之處在于同時(shí)具備兩個(gè)特征:有干預(yù)實(shí)驗(yàn),而且是多維度評估。在研究團(tuán)隊(duì)梳理的所有方法中,只有CUE-R同時(shí)具備這兩點(diǎn),這是它真正的差異化價(jià)值。

說到底,CUE-R這項(xiàng)研究做的事情,像是給AI問答系統(tǒng)的工作過程裝上了一套全面的體檢儀器。過去,我們只能看最終體檢報(bào)告上那一個(gè)數(shù)字,卻對體檢過程中的所有環(huán)節(jié)視而不見。現(xiàn)在,Intuit的研究團(tuán)隊(duì)展示了通過系統(tǒng)性的干預(yù)實(shí)驗(yàn),可以看到更多——哪些信息是真正不可缺少的,哪些看似有用實(shí)則冗余,哪些會(huì)悄悄影響AI的信心而不影響答案,而多個(gè)信息之間有時(shí)會(huì)產(chǎn)生遠(yuǎn)超單獨(dú)作用之和的聯(lián)合效應(yīng)。

這對普通人意味著什么?當(dāng)你使用任何依賴"查資料再回答"的AI工具時(shí),AI給你的答案背后有一個(gè)復(fù)雜的信息處理過程,而這個(gè)過程中發(fā)生的事情,對答案的可靠性有深遠(yuǎn)影響。僅僅因?yàn)榇鸢缚雌饋砗侠?,不代表AI用對了資料;僅僅因?yàn)锳I很自信,不代表它真的有把握。CUE-R這套工具,讓我們有了更系統(tǒng)的方法去檢驗(yàn)這些隱藏的過程。

對于AI系統(tǒng)的開發(fā)者而言,這項(xiàng)研究提示:優(yōu)化最終答案質(zhì)量,和優(yōu)化檢索利用過程,是兩件不完全重疊的事情,需要分開來評估和改進(jìn)。對于更廣泛的研究社區(qū)而言,它打開了一扇新的窗口:通過可觀察的外在行為,而非不可信的內(nèi)在"思維鏈"文字,來理解AI如何使用它找到的信息。

如果你對這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以通過arXiv編號2604.05467找到完整論文,所有實(shí)驗(yàn)數(shù)據(jù)、統(tǒng)計(jì)檢驗(yàn)結(jié)果和案例細(xì)節(jié)都在其中。

**Q&A**

Q1:CUE-R框架具體是用什么方法來判斷每條檢索證據(jù)的價(jià)值的?

A:CUE-R通過三種"手術(shù)實(shí)驗(yàn)"來判斷證據(jù)價(jià)值:一是直接刪除目標(biāo)證據(jù)讓AI重新回答(REMOVE),二是把目標(biāo)證據(jù)換成相關(guān)但無用的假情報(bào)(REPLACE),三是把目標(biāo)證據(jù)復(fù)制一份再放進(jìn)去(DUPLICATE)。然后從答案正確率、證據(jù)引用準(zhǔn)確率、置信度誤差和行為軌跡變化四個(gè)維度來對比前后差異,綜合判斷這條證據(jù)起了什么作用。不只看答案對不對,而是看整個(gè)推理行為有沒有變化。

Q2:DUPLICATE操作既然不影響答案正確率,為什么研究團(tuán)隊(duì)認(rèn)為它依然值得關(guān)注?

A:雖然復(fù)制一條證據(jù)通常不會(huì)讓答案變差,但實(shí)驗(yàn)發(fā)現(xiàn)它會(huì)顯著改變AI引用證據(jù)的方式和推理軌跡(統(tǒng)計(jì)上高度顯著),有時(shí)還會(huì)扭曲AI的自信程度——讓本來正確答案對應(yīng)的置信度降低,或者改變AI更偏向引用哪條資料。這種"答案不變但行為已變"的情況,如果只用答案來評估,就完全看不到,而這種隱藏的行為變化在實(shí)際應(yīng)用中可能帶來潛在風(fēng)險(xiǎn)。

Q3:HotpotQA雙支持消融實(shí)驗(yàn)(兩條證據(jù)同時(shí)移除)說明了什么問題?

A:這個(gè)實(shí)驗(yàn)發(fā)現(xiàn),同時(shí)移除兩條關(guān)鍵證據(jù)導(dǎo)致的性能下降(F1平均降0.493)遠(yuǎn)遠(yuǎn)超過分別只移除一條時(shí)的損失之和(0.205+0.186=0.391)。更關(guān)鍵的是,有13.7%的案例中單獨(dú)移除任意一條證據(jù)AI還能答對,但兩條同時(shí)移除就答錯(cuò)了——說明兩條證據(jù)相互支撐、缺一不可。這意味著如果評估時(shí)只做"一次移除一條"的實(shí)驗(yàn),會(huì)嚴(yán)重低估AI對檢索信息的實(shí)際依賴程度,多條證據(jù)之間可能存在非加性的協(xié)同關(guān)系。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長治女子萬達(dá)墜亡持續(xù)升級!目擊者再添實(shí)錘,不止是意外這么簡單

長治女子萬達(dá)墜亡持續(xù)升級!目擊者再添實(shí)錘,不止是意外這么簡單

離離言幾許
2026-04-21 07:18:30
缺口超50%!光模塊核心材料,國產(chǎn)化提速!龍頭股暴漲超60倍

缺口超50%!光模塊核心材料,國產(chǎn)化提速!龍頭股暴漲超60倍

數(shù)據(jù)寶
2026-04-22 07:39:19
曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
高99米,北京最高摩天輪歡樂谷“大眼京”預(yù)計(jì)6月28日運(yùn)營

高99米,北京最高摩天輪歡樂谷“大眼京”預(yù)計(jì)6月28日運(yùn)營

新京報(bào)
2026-04-22 13:06:20
取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

魯中晨報(bào)
2026-04-22 14:28:23
網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬

網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬

快科技
2026-04-20 10:51:04
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

米果說識
2026-04-22 14:41:50
單Agent時(shí)代正式結(jié)束:一個(gè)干不過,就上300個(gè)

單Agent時(shí)代正式結(jié)束:一個(gè)干不過,就上300個(gè)

機(jī)器之心Pro
2026-04-21 18:46:39
蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家

蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家

曉張說
2026-04-21 07:04:10
玉林烤鴨品牌創(chuàng)始人、玉林餐飲集團(tuán)董事長鄒勝利去世,北京烹飪協(xié)會(huì):沉痛悼念

玉林烤鴨品牌創(chuàng)始人、玉林餐飲集團(tuán)董事長鄒勝利去世,北京烹飪協(xié)會(huì):沉痛悼念

界面新聞
2026-04-22 14:23:15
內(nèi)塔尼亞胡放話:參與10月7日的人,一個(gè)都別想活著離開

內(nèi)塔尼亞胡放話:參與10月7日的人,一個(gè)都別想活著離開

桂系007
2026-04-21 21:18:39
白宮:萬斯巴基斯坦之行已被取消

白宮:萬斯巴基斯坦之行已被取消

新華社
2026-04-22 06:26:43
保定通報(bào)灌溉井水呈紅色:初步研判與染料有關(guān)

保定通報(bào)灌溉井水呈紅色:初步研判與染料有關(guān)

界面新聞
2026-04-22 17:32:17
讓華北的地下水上一次熱搜吧!

讓華北的地下水上一次熱搜吧!

細(xì)雨中的呼喊
2026-04-22 13:29:31
楊瀚森NBA生涯季后賽首勝:全場遭棄用躺贏 回主場后能否登場?

楊瀚森NBA生涯季后賽首勝:全場遭棄用躺贏 回主場后能否登場?

醉臥浮生
2026-04-22 10:47:21
綜合ROI時(shí)代,這些高速增長的商家做對了什么?

綜合ROI時(shí)代,這些高速增長的商家做對了什么?

刀法研究所
2026-04-16 15:00:13
任澤平退款731萬,恒大高管們開始退錢了

任澤平退款731萬,恒大高管們開始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

遠(yuǎn)方風(fēng)林
2026-04-22 11:58:01
我有罪,大導(dǎo)演昆汀花1萬美金,在包房舔腳半小時(shí),直到皮膚起皺

我有罪,大導(dǎo)演昆汀花1萬美金,在包房舔腳半小時(shí),直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
45歲金·卡戴珊與漢密爾頓海邊嬉戲,“如膠似漆”,卻引發(fā)爭議

45歲金·卡戴珊與漢密爾頓海邊嬉戲,“如膠似漆”,卻引發(fā)爭議

譯言
2026-04-22 07:23:37
2026-04-22 17:56:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

時(shí)尚
教育
藝術(shù)
本地
旅游

初夏穿赫本的白褲子,清新又高級!

教育要聞

慣子如殺子!孩子這4種表現(xiàn)說明已經(jīng)被慣壞了,再不改就來不及了

藝術(shù)要聞

無花不風(fēng)景

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

旅游要聞

四月的諸城茶園,到底能帶來多少驚喜?

無障礙瀏覽 進(jìn)入關(guān)懷版