国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)AI遇到"健忘癥":芝加哥大學(xué)團(tuán)隊(duì)如何讓智能助手不再胡編亂造

0
分享至


在人工智能飛速發(fā)展的今天,我們已經(jīng)習(xí)慣了與智能助手的日常對(duì)話(huà)。但你有沒(méi)有遇到過(guò)這樣的情況:明明問(wèn)了一個(gè)簡(jiǎn)單的問(wèn)題,AI卻信誓旦旦地給出了完全錯(cuò)誤的答案,而且說(shuō)得特別自信?這種現(xiàn)象被研究者們稱(chēng)為"AI幻覺(jué)",就像一個(gè)健忘的朋友,不記得某件事的時(shí)候卻不愿意承認(rèn),反而編造出一個(gè)聽(tīng)起來(lái)很合理的故事。

來(lái)自芝加哥伊利諾伊大學(xué)、紐約大學(xué)和莫納什大學(xué)的研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)突破性研究,題為《QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation》。這項(xiàng)研究發(fā)表于2024年12月,論文編號(hào)為arXiv:2512.19134v1。研究團(tuán)隊(duì)由芝加哥伊利諾伊大學(xué)的閔德海(Dehai Min)和程璐(Lu Cheng)領(lǐng)導(dǎo),與紐約大學(xué)的張凱麟(Kailin Zhang)以及莫納什大學(xué)的吳童童(Tongtong Wu)合作完成。

這個(gè)研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)前的AI系統(tǒng)就像一個(gè)過(guò)分自信的學(xué)生,即使不知道答案也要硬著頭皮回答,而且往往表現(xiàn)得特別確定。更糟糕的是,傳統(tǒng)的檢測(cè)AI是否在"撒謊"的方法就像通過(guò)觀察學(xué)生的表情來(lái)判斷他們是否在說(shuō)真話(huà)一樣不可靠。這些方法主要依賴(lài)AI內(nèi)部的信號(hào),比如它說(shuō)話(huà)時(shí)的"猶豫程度"或"緊張程度",但研究發(fā)現(xiàn)這些信號(hào)并不能準(zhǔn)確反映AI是否真的知道答案。

研究團(tuán)隊(duì)提出了一個(gè)全新的解決方案,叫做QuCo-RAG(Quantifying uncertainty via pre-training Corpus for Retrieval-Augmented Generation)。這個(gè)方法的核心思想特別巧妙:與其試圖從AI的"表情"判斷它是否在撒謊,不如直接檢查它的"記憶庫(kù)"——也就是訓(xùn)練它時(shí)用的所有資料。

想象一下,如果你想知道一個(gè)朋友是否真的了解某個(gè)歷史事件,最好的方法不是看他說(shuō)話(huà)時(shí)是否緊張,而是檢查他曾經(jīng)讀過(guò)的所有歷史書(shū)籍中是否提到過(guò)這個(gè)事件。QuCo-RAG就是基于這樣的邏輯:如果AI在訓(xùn)練時(shí)很少見(jiàn)到某個(gè)概念,或者從來(lái)沒(méi)有看到過(guò)兩個(gè)概念同時(shí)出現(xiàn),那它很可能對(duì)相關(guān)問(wèn)題不太了解,這時(shí)就應(yīng)該讓它去"查資料"再回答。

這項(xiàng)研究的創(chuàng)新之處在于,它首次將AI的不確定性檢測(cè)從主觀的內(nèi)部信號(hào)轉(zhuǎn)向了客觀的統(tǒng)計(jì)數(shù)據(jù)。研究團(tuán)隊(duì)開(kāi)發(fā)了一套兩階段的檢測(cè)系統(tǒng):第一階段在AI開(kāi)始回答之前,檢查問(wèn)題中提到的概念在訓(xùn)練資料中出現(xiàn)的頻率;第二階段在AI生成答案的過(guò)程中,實(shí)時(shí)驗(yàn)證它所聲稱(chēng)的事實(shí)關(guān)聯(lián)是否在訓(xùn)練資料中得到支持。

一、傳統(tǒng)方法的困境:為什么AI的"表情"不可信

現(xiàn)有的動(dòng)態(tài)檢索增強(qiáng)生成方法就像試圖通過(guò)觀察演員的微表情來(lái)判斷他們是否在演戲一樣困難。這些方法主要依賴(lài)AI內(nèi)部的各種信號(hào),包括詞匯生成的概率、信息熵、注意力權(quán)重等等。然而,這種做法存在一個(gè)根本性的問(wèn)題:AI系統(tǒng)本身就缺乏良好的"自我認(rèn)知"能力。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)前主流的不確定性檢測(cè)方法,比如DRAGIN系統(tǒng),經(jīng)常會(huì)出現(xiàn)令人啼笑皆非的錯(cuò)誤判斷。在一個(gè)典型的案例中,當(dāng)被問(wèn)及"《誘惑者》和《圣女貞德的審判》的導(dǎo)演是否來(lái)自同一個(gè)國(guó)家"時(shí),DRAGIN對(duì)問(wèn)題中的普通詞匯"Il"(意大利語(yǔ)中的冠詞)表現(xiàn)出高度不確定性,卻對(duì)完全虛構(gòu)的導(dǎo)演名字"馬里奧·卡梅里尼"表現(xiàn)出極高的信心。這就像一個(gè)學(xué)生對(duì)簡(jiǎn)單的語(yǔ)法感到困惑,卻對(duì)自己編造的歷史事實(shí)深信不疑。

這種現(xiàn)象的根源在于AI訓(xùn)練過(guò)程中的一個(gè)內(nèi)在矛盾。為了讓AI更好地服務(wù)用戶(hù),研究者們通常會(huì)對(duì)它進(jìn)行所謂的"監(jiān)督微調(diào)"和"強(qiáng)化學(xué)習(xí)"訓(xùn)練,讓它盡量給出確定的答案,避免說(shuō)"不知道"。這就像訓(xùn)練一個(gè)銷(xiāo)售員永遠(yuǎn)要表現(xiàn)得對(duì)產(chǎn)品很了解一樣,結(jié)果是AI學(xué)會(huì)了即使不確定也要裝作很確定的樣子。

更加麻煩的是,理論研究表明,即使是完美校準(zhǔn)的AI模型,在面對(duì)罕見(jiàn)事實(shí)時(shí)也必須選擇性地"撒謊"以維持統(tǒng)計(jì)一致性。這就像一個(gè)誠(chéng)實(shí)的占卜師:如果他總是說(shuō)"我不知道",人們就不會(huì)相信他的預(yù)測(cè)能力;但如果他對(duì)每個(gè)問(wèn)題都給出確定答案,就不可避免地會(huì)出錯(cuò)。

傳統(tǒng)方法的另一個(gè)問(wèn)題是它們過(guò)于依賴(lài)模型內(nèi)部的復(fù)雜信號(hào)。比如,有些方法會(huì)觀察AI生成文本時(shí)的"注意力分布",就像試圖通過(guò)觀察一個(gè)人眼球的轉(zhuǎn)動(dòng)來(lái)判斷他在想什么一樣。這些信號(hào)不僅難以解釋?zhuān)以诓煌哪P秃腿蝿?wù)中表現(xiàn)很不穩(wěn)定。一個(gè)在某種情況下表現(xiàn)良好的不確定性指標(biāo),在另一種情況下可能完全失效。

二、QuCo-RAG的創(chuàng)新思路:從"讀心術(shù)"到"查檔案"

QuCo-RAG的核心創(chuàng)新在于徹底改變了檢測(cè)AI不確定性的思路。傳統(tǒng)方法就像試圖通過(guò)觀察一個(gè)人的面部表情來(lái)判斷他是否在說(shuō)謊,而QuCo-RAG則選擇直接查看這個(gè)人曾經(jīng)接觸過(guò)的所有信息,以此來(lái)判斷他是否可能知道某個(gè)特定的事實(shí)。

這種方法基于一個(gè)簡(jiǎn)單而深刻的洞察:AI的知識(shí)完全來(lái)自于它的訓(xùn)練數(shù)據(jù)。如果某個(gè)概念在訓(xùn)練數(shù)據(jù)中很少出現(xiàn),那么AI對(duì)它的理解就可能不夠深入;如果兩個(gè)概念從來(lái)沒(méi)有在訓(xùn)練數(shù)據(jù)中同時(shí)出現(xiàn)過(guò),那么AI聲稱(chēng)它們之間存在某種關(guān)系就很可能是在"編故事"。

研究團(tuán)隊(duì)將這個(gè)思路具體化為兩個(gè)階段的檢測(cè)機(jī)制。第一個(gè)階段發(fā)生在AI開(kāi)始生成答案之前,就像老師在學(xué)生答題前先檢查題目的難度一樣。系統(tǒng)會(huì)提取問(wèn)題中的關(guān)鍵實(shí)體(比如人名、地名、事件名等),然后查詢(xún)這些實(shí)體在訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的頻率。如果平均頻率低于某個(gè)閾值,系統(tǒng)就會(huì)判斷這個(gè)問(wèn)題涉及"長(zhǎng)尾知識(shí)"——也就是那些相對(duì)冷門(mén)、AI可能掌握不好的知識(shí)領(lǐng)域。

這就像一個(gè)圖書(shū)管理員在讀者詢(xún)問(wèn)某本書(shū)的信息時(shí),首先檢查這本書(shū)在圖書(shū)館的借閱記錄。如果這本書(shū)很少被借閱,那么管理員可能需要花更多時(shí)間去查找詳細(xì)信息,而不是憑記憶回答。當(dāng)QuCo-RAG檢測(cè)到低頻實(shí)體時(shí),它會(huì)觸發(fā)檢索機(jī)制,讓AI在回答前先"查閱資料"。

第二個(gè)階段更加精妙,它發(fā)生在AI生成答案的過(guò)程中,就像一個(gè)實(shí)時(shí)的事實(shí)核查員。每當(dāng)AI生成一個(gè)句子,系統(tǒng)就會(huì)自動(dòng)提取其中的知識(shí)三元組——包括主體、關(guān)系和客體。比如,如果AI說(shuō)"愛(ài)因斯坦出生于德國(guó)",系統(tǒng)就會(huì)提取出(愛(ài)因斯坦,出生于,德國(guó))這樣的三元組。

然后,系統(tǒng)會(huì)檢查主體和客體(在這個(gè)例子中是"愛(ài)因斯坦"和"德國(guó)")是否曾經(jīng)在訓(xùn)練語(yǔ)料庫(kù)中共同出現(xiàn)過(guò)。這種"共現(xiàn)檢查"的邏輯很直觀:如果兩個(gè)概念在大規(guī)模語(yǔ)料庫(kù)中從來(lái)沒(méi)有一起出現(xiàn)過(guò),那么AI聲稱(chēng)它們之間存在某種關(guān)系很可能是無(wú)中生有。

值得注意的是,這種檢查是不對(duì)稱(chēng)的。如果兩個(gè)概念曾經(jīng)共同出現(xiàn),不能保證AI的說(shuō)法是正確的(因?yàn)樗鼈兛赡茉诓煌恼Z(yǔ)境中出現(xiàn),或者以不同的關(guān)系連接);但如果兩個(gè)概念從來(lái)沒(méi)有共同出現(xiàn)過(guò),那么AI的說(shuō)法很可能是錯(cuò)誤的。這就像法庭上的證據(jù):有證據(jù)不一定證明有罪,但沒(méi)有證據(jù)通常意味著指控站不住腳。

為了實(shí)現(xiàn)這種實(shí)時(shí)的語(yǔ)料庫(kù)查詢(xún),研究團(tuán)隊(duì)使用了一個(gè)叫做Infini-gram的先進(jìn)工具。這個(gè)工具可以在幾毫秒內(nèi)處理對(duì)數(shù)萬(wàn)億個(gè)詞匯的查詢(xún)請(qǐng)求,就像一個(gè)超級(jí)高效的搜索引擎。通過(guò)這種技術(shù),QuCo-RAG能夠在不影響對(duì)話(huà)流暢性的前提下,實(shí)時(shí)驗(yàn)證AI生成內(nèi)容的可靠性。

當(dāng)系統(tǒng)檢測(cè)到潛在的幻覺(jué)風(fēng)險(xiǎn)時(shí),它會(huì)構(gòu)造一個(gè)針對(duì)性的查詢(xún),然后從外部知識(shí)庫(kù)檢索相關(guān)信息,并要求AI根據(jù)這些可靠信息重新生成答案。這就像給一個(gè)健忘的朋友提供了一本隨身參考書(shū),讓他在不確定時(shí)可以隨時(shí)查閱。

三、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐的跨越

為了驗(yàn)證QuCo-RAG方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn)。他們首先選擇了OLMo-2模型系列作為主要測(cè)試對(duì)象,這個(gè)選擇很有戰(zhàn)略意義:OLMo-2是一個(gè)開(kāi)源模型,研究者可以完全訪(fǎng)問(wèn)其4萬(wàn)億詞匯的訓(xùn)練語(yǔ)料庫(kù),這為精確的統(tǒng)計(jì)驗(yàn)證提供了可能。

實(shí)驗(yàn)在兩個(gè)廣泛認(rèn)可的多跳問(wèn)答數(shù)據(jù)集上進(jìn)行:2WikiMultihopQA和HotpotQA。這兩個(gè)數(shù)據(jù)集的問(wèn)題都需要AI進(jìn)行多步推理,比如"誰(shuí)比較年長(zhǎng),《電影A》的導(dǎo)演還是《電影B》的導(dǎo)演?"這類(lèi)問(wèn)題要求AI首先找到兩部電影的導(dǎo)演,然后比較他們的年齡。這種復(fù)雜性正好測(cè)試了動(dòng)態(tài)檢索系統(tǒng)在復(fù)雜推理過(guò)程中的表現(xiàn)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在OLMo-2-7B模型上,QuCo-RAG在2WikiMultihopQA數(shù)據(jù)集上達(dá)到了32.7%的精確匹配率,比最強(qiáng)的基線(xiàn)方法提高了7.4個(gè)百分點(diǎn)。在HotpotQA上的表現(xiàn)同樣出色,達(dá)到了35.3%的精確匹配率,比基線(xiàn)提高了5.6個(gè)百分點(diǎn)。隨著模型規(guī)模的增大,這種優(yōu)勢(shì)變得更加明顯:在OLMo-2-13B上,QuCo-RAG在2WikiMultihopQA上的提升達(dá)到了驚人的12個(gè)百分點(diǎn)。

更有意思的是,QuCo-RAG在效率方面也表現(xiàn)優(yōu)異。雖然它需要進(jìn)行額外的語(yǔ)料庫(kù)查詢(xún),但由于其精準(zhǔn)的觸發(fā)機(jī)制,平均每個(gè)問(wèn)題只需要1.7次檢索操作,遠(yuǎn)少于那些頻繁觸發(fā)檢索的基線(xiàn)方法。一些基線(xiàn)方法雖然進(jìn)行了更多的檢索操作,但由于缺乏準(zhǔn)確的不確定性判斷,反而取得了更差的結(jié)果。

為了進(jìn)一步驗(yàn)證方法的普適性,研究團(tuán)隊(duì)進(jìn)行了跨模型轉(zhuǎn)移實(shí)驗(yàn)。他們使用OLMo-2的訓(xùn)練語(yǔ)料庫(kù)來(lái)為其他模型(如Llama-3、Qwen2.5和GPT系列)提供統(tǒng)計(jì)信息。這種做法基于一個(gè)重要假設(shè):大規(guī)模的網(wǎng)絡(luò)語(yǔ)料庫(kù)之間存在substantial overlap(大量重疊)。實(shí)驗(yàn)結(jié)果證實(shí)了這個(gè)假設(shè)的正確性:即使使用"代理語(yǔ)料庫(kù)",QuCo-RAG仍然能夠顯著提升這些模型的表現(xiàn)。

在Qwen2.5-32B上,QuCo-RAG在2WikiMultihopQA上的提升達(dá)到了14.1個(gè)百分點(diǎn),這是一個(gè)非常顯著的進(jìn)步。即使是在GPT-4.1和GPT-5這樣的先進(jìn)模型上,QuCo-RAG也能帶來(lái)4-8個(gè)百分點(diǎn)的提升。有趣的是,這些GPT模型自帶的網(wǎng)絡(luò)搜索功能反而表現(xiàn)不佳,往往比不使用任何檢索的baseline還要差,這說(shuō)明簡(jiǎn)單的網(wǎng)絡(luò)搜索并不能有效解決復(fù)雜推理中的幻覺(jué)問(wèn)題。

四、深入分析:方法的精妙之處

為了更深入理解QuCo-RAG的工作機(jī)制,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),兩個(gè)檢測(cè)階段都對(duì)最終性能有重要貢獻(xiàn),但作用方式不同。預(yù)生成知識(shí)評(píng)估(第一階段)主要幫助系統(tǒng)識(shí)別那些涉及冷門(mén)知識(shí)的問(wèn)題,平均能帶來(lái)2.5個(gè)百分點(diǎn)的提升。而運(yùn)行時(shí)聲明驗(yàn)證(第二階段)的貢獻(xiàn)更大,能帶來(lái)5.1個(gè)百分點(diǎn)的提升,這表明實(shí)時(shí)的幻覺(jué)檢測(cè)是系統(tǒng)成功的關(guān)鍵。

研究團(tuán)隊(duì)還分析了不同實(shí)體頻率范圍內(nèi)的表現(xiàn)差異。他們將測(cè)試問(wèn)題按照其中實(shí)體的平均頻率分成幾個(gè)區(qū)間,結(jié)果發(fā)現(xiàn)了一個(gè)有趣的模式。在低頻實(shí)體區(qū)間(頻率0-10),QuCo-RAG的優(yōu)勢(shì)最為明顯,比無(wú)檢索基線(xiàn)提升了10-17個(gè)百分點(diǎn)。這正好驗(yàn)證了方法的核心假設(shè):實(shí)體頻率確實(shí)是預(yù)測(cè)AI知識(shí)可靠性的有效指標(biāo)。

更令人驚訝的是,在高頻實(shí)體區(qū)間(頻率>1000),QuCo-RAG仍然能夠持續(xù)改進(jìn),而許多基線(xiàn)方法的表現(xiàn)反而出現(xiàn)下降。研究團(tuán)隊(duì)分析認(rèn)為,這種現(xiàn)象源于兩個(gè)原因:首先,傳統(tǒng)方法在面對(duì)熟悉概念時(shí)容易過(guò)度自信,即使生成錯(cuò)誤內(nèi)容也不會(huì)觸發(fā)檢索;其次,高頻實(shí)體在語(yǔ)料庫(kù)中有更豐富的關(guān)系文檔,使得共現(xiàn)統(tǒng)計(jì)更加可靠。

為了測(cè)試方法的領(lǐng)域泛化能力,研究團(tuán)隊(duì)在生物醫(yī)學(xué)問(wèn)答數(shù)據(jù)集PubMedQA上進(jìn)行了額外實(shí)驗(yàn)。這個(gè)領(lǐng)域的知識(shí)高度專(zhuān)業(yè)化,與通用語(yǔ)料庫(kù)的重疊相對(duì)較少。盡管如此,QuCo-RAG仍然取得了最佳的準(zhǔn)確率(66.4%),同時(shí)保持了很高的效率(平均每問(wèn)題0.93次檢索,54.9個(gè)詞匯消耗)。

有趣的是,傳統(tǒng)的內(nèi)部信號(hào)方法在這個(gè)專(zhuān)業(yè)領(lǐng)域表現(xiàn)出了兩種截然不同的失敗模式。FLARE方法出現(xiàn)了過(guò)度檢索的問(wèn)題,平均每個(gè)問(wèn)題觸發(fā)2.79次檢索,大大增加了計(jì)算成本。而DRAGIN和ETC方法則出現(xiàn)了檢索不足的問(wèn)題,它們的表現(xiàn)甚至不如完全不使用檢索的基線(xiàn)。這說(shuō)明內(nèi)部信號(hào)方法難以適應(yīng)領(lǐng)域變化,而基于語(yǔ)料庫(kù)統(tǒng)計(jì)的方法具有更好的魯棒性。

五、技術(shù)實(shí)現(xiàn)的巧思

QuCo-RAG系統(tǒng)的技術(shù)實(shí)現(xiàn)體現(xiàn)了研究團(tuán)隊(duì)的巧妙設(shè)計(jì)。為了最小化系統(tǒng)開(kāi)銷(xiāo),他們開(kāi)發(fā)了一個(gè)輕量級(jí)的知識(shí)三元組抽取器。這個(gè)抽取器基于GPT-4o-mini進(jìn)行蒸餾訓(xùn)練,使用4萬(wàn)個(gè)精心標(biāo)注的樣本,最終得到一個(gè)只有5億參數(shù)的專(zhuān)用模型。這個(gè)模型可以高效地從生成的句子中提取形如(主體,關(guān)系,客體)的知識(shí)三元組。

抽取器的訓(xùn)練策略很有針對(duì)性。對(duì)于包含事實(shí)性知識(shí)的陳述句,它會(huì)提取完整的知識(shí)三元組;對(duì)于問(wèn)句,它會(huì)提取部分三元組(因?yàn)榇鸢肝粗?;?duì)于推理結(jié)論性的句子(如"因此"、"所以"開(kāi)頭的句子),它會(huì)返回空結(jié)果,因?yàn)檫@些句子通常不包含新的可驗(yàn)證事實(shí)。

在共現(xiàn)驗(yàn)證方面,系統(tǒng)選擇檢查主體和客體的共現(xiàn)而不是包含關(guān)系的完整三元組。這個(gè)設(shè)計(jì)決策基于一個(gè)重要觀察:關(guān)系表達(dá)具有高度的詞匯變異性(比如"就職于"vs"工作在"vs"受雇于"),而命名實(shí)體相對(duì)穩(wěn)定。因此,檢查實(shí)體對(duì)的共現(xiàn)既保持了驗(yàn)證的準(zhǔn)確性,又避免了關(guān)系表達(dá)變化帶來(lái)的困擾。

系統(tǒng)設(shè)置了合理的閾值參數(shù):實(shí)體頻率閾值設(shè)為1000,共現(xiàn)閾值設(shè)為1。研究團(tuán)隊(duì)發(fā)現(xiàn),這些參數(shù)在相當(dāng)大的范圍內(nèi)都表現(xiàn)穩(wěn)定。實(shí)體頻率閾值可以在10^3到10^7之間變化而不顯著影響性能;而共現(xiàn)閾值為1具有清晰的語(yǔ)義:零共現(xiàn)強(qiáng)烈提示潛在幻覺(jué)。

為了保證實(shí)時(shí)性能,系統(tǒng)充分利用了Infini-gram這一先進(jìn)的索引工具。Infini-gram使用后綴數(shù)組技術(shù),能夠在毫秒級(jí)時(shí)間內(nèi)處理針對(duì)萬(wàn)億詞匯語(yǔ)料庫(kù)的n-gram查詢(xún)。這種高效性使得QuCo-RAG可以在不明顯影響對(duì)話(huà)流暢性的情況下進(jìn)行實(shí)時(shí)驗(yàn)證。

六、現(xiàn)實(shí)意義與局限性

QuCo-RAG方法的成功不僅僅是學(xué)術(shù)上的進(jìn)步,更具有重要的現(xiàn)實(shí)意義。在當(dāng)前AI系統(tǒng)廣泛部署的背景下,如何確保AI生成內(nèi)容的可靠性成為一個(gè)迫切的社會(huì)問(wèn)題。傳統(tǒng)的后驗(yàn)事實(shí)檢查往往為時(shí)已晚,而QuCo-RAG提供了一種前瞻性的解決方案。

這種方法特別適用于那些對(duì)準(zhǔn)確性要求較高的應(yīng)用場(chǎng)景。比如在醫(yī)療咨詢(xún)、法律分析、教育輔助等領(lǐng)域,AI的錯(cuò)誤信息可能導(dǎo)致嚴(yán)重后果。通過(guò)實(shí)時(shí)檢測(cè)和糾正潛在的幻覺(jué)內(nèi)容,QuCo-RAG可以顯著提高這些關(guān)鍵應(yīng)用的可靠性。

同時(shí),這項(xiàng)研究還為AI安全性提供了新的視角。不同于試圖讓AI"學(xué)會(huì)說(shuō)不知道"的傳統(tǒng)方法,QuCo-RAG提供了一個(gè)客觀、可驗(yàn)證的不確定性量化機(jī)制。這種外部化的驗(yàn)證方式更加透明和可解釋?zhuān)哺菀妆槐O(jiān)管和審計(jì)。

然而,研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了方法的局限性。首先是詞匯匹配的限制。當(dāng)前的共現(xiàn)驗(yàn)證依賴(lài)于精確的詞匯匹配,可能會(huì)錯(cuò)過(guò)那些使用不同表述但指向同一實(shí)體的情況。比如"紐約市"和"NYC"指向同一地點(diǎn),但在系統(tǒng)看來(lái)它們是不同的實(shí)體。這種限制可能導(dǎo)致一些誤報(bào)。

其次是靜態(tài)語(yǔ)料庫(kù)的時(shí)間局限性。預(yù)訓(xùn)練語(yǔ)料庫(kù)通常有一個(gè)固定的截止時(shí)間,無(wú)法包含更新的信息。因此,對(duì)于那些在語(yǔ)料庫(kù)創(chuàng)建之后出現(xiàn)的新實(shí)體或新事件,系統(tǒng)可能無(wú)法提供準(zhǔn)確的統(tǒng)計(jì)信息。這個(gè)問(wèn)題需要通過(guò)定期更新語(yǔ)料庫(kù)索引來(lái)解決。

盡管存在這些局限性,研究團(tuán)隊(duì)認(rèn)為這些都是可以通過(guò)技術(shù)改進(jìn)來(lái)解決的問(wèn)題。比如,可以引入實(shí)體鏈接和標(biāo)準(zhǔn)化技術(shù)來(lái)解決詞匯變異問(wèn)題;可以建立動(dòng)態(tài)更新機(jī)制來(lái)保持語(yǔ)料庫(kù)的時(shí)效性。更重要的是,當(dāng)前方法的保守策略(寧可多檢索也不愿意錯(cuò)過(guò)幻覺(jué))在大多數(shù)應(yīng)用場(chǎng)景中是合適的,因?yàn)槎嘤鄼z索的代價(jià)通常遠(yuǎn)小于錯(cuò)誤信息的代價(jià)。

七、未來(lái)展望與啟示

QuCo-RAG的成功開(kāi)啟了AI可靠性研究的新方向。這項(xiàng)研究表明,與其試圖讓AI系統(tǒng)"內(nèi)省"自己的知識(shí)狀態(tài),不如建立外部的、客觀的驗(yàn)證機(jī)制。這種思路可能對(duì)整個(gè)AI領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

研究團(tuán)隊(duì)展望了幾個(gè)值得探索的方向。首先是多語(yǔ)言驗(yàn)證,通過(guò)跨語(yǔ)言的統(tǒng)計(jì)信息來(lái)增強(qiáng)驗(yàn)證的魯棒性。其次是時(shí)間動(dòng)態(tài)建模,考慮知識(shí)的時(shí)間演化特性。第三是擴(kuò)展到事件、關(guān)系和數(shù)值聲明的驗(yàn)證,而不僅僅是實(shí)體關(guān)系。

從更廣泛的角度看,這項(xiàng)研究體現(xiàn)了一個(gè)重要趨勢(shì):從推理時(shí)干預(yù)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的AI改進(jìn)。通過(guò)精確識(shí)別模型的知識(shí)gaps,研究者不僅可以在推理時(shí)進(jìn)行補(bǔ)償,還可以指導(dǎo)訓(xùn)練數(shù)據(jù)的收集和模型的進(jìn)一步優(yōu)化。這種數(shù)據(jù)中心的思維方式可能會(huì)重新定義AI系統(tǒng)的開(kāi)發(fā)和部署流程。

QuCo-RAG還為AI的可解釋性提供了新的思路。傳統(tǒng)的可解釋性方法通常關(guān)注模型的內(nèi)部機(jī)制,而QuCo-RAG提供了一種基于外部證據(jù)的解釋框架。當(dāng)系統(tǒng)判斷某個(gè)生成內(nèi)容不可靠時(shí),它可以明確指出缺乏哪些統(tǒng)計(jì)證據(jù)支持,這種解釋更加直觀和可驗(yàn)證。

最后,這項(xiàng)研究對(duì)AI治理和監(jiān)管也有重要啟示。隨著AI系統(tǒng)在社會(huì)中扮演越來(lái)越重要的角色,如何確保其輸出的可靠性成為一個(gè)治理難題。QuCo-RAG提供的客觀驗(yàn)證機(jī)制可能成為AI審計(jì)和監(jiān)管的重要工具。監(jiān)管者可以要求AI服務(wù)提供商實(shí)施類(lèi)似的驗(yàn)證機(jī)制,以確保其系統(tǒng)的可靠性達(dá)到一定標(biāo)準(zhǔn)。

總的來(lái)說(shuō),這項(xiàng)由芝加哥伊利諾伊大學(xué)團(tuán)隊(duì)領(lǐng)導(dǎo)的研究不僅解決了一個(gè)重要的技術(shù)問(wèn)題,更為AI的可靠性和安全性研究開(kāi)辟了新的道路。它提醒我們,有時(shí)候解決復(fù)雜問(wèn)題的最好方法不是讓系統(tǒng)變得更聰明,而是給它提供更好的工具來(lái)認(rèn)識(shí)和承認(rèn)自己的局限性。在AI技術(shù)日新月異的今天,這種謙遜而務(wù)實(shí)的方法論可能正是我們最需要的。

Q&A

Q1:QuCo-RAG是什么技術(shù)?

A:QuCo-RAG是芝加哥伊利諾伊大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的一種新型AI可靠性檢測(cè)技術(shù)。它通過(guò)檢查AI訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)信息來(lái)判斷AI回答是否可靠,而不是依賴(lài)AI內(nèi)部的信號(hào)。當(dāng)發(fā)現(xiàn)AI可能不了解某個(gè)問(wèn)題時(shí),系統(tǒng)會(huì)讓AI先查閱資料再回答。

Q2:QuCo-RAG如何檢測(cè)AI是否在"胡編亂造"?

A:QuCo-RAG采用兩階段檢測(cè):第一階段檢查問(wèn)題中概念在訓(xùn)練數(shù)據(jù)中的出現(xiàn)頻率,頻率太低說(shuō)明AI可能不熟悉;第二階段檢查AI聲稱(chēng)的事實(shí)關(guān)聯(lián)是否在訓(xùn)練數(shù)據(jù)中得到支持,如果兩個(gè)概念從未同時(shí)出現(xiàn)過(guò),很可能是AI在編造關(guān)系。

Q3:這項(xiàng)技術(shù)能解決所有AI幻覺(jué)問(wèn)題嗎?

A:不能完全解決,但能顯著改善。QuCo-RAG在多個(gè)測(cè)試中將AI準(zhǔn)確率提升了5-14個(gè)百分點(diǎn)。它的局限性包括只能檢測(cè)詞匯完全匹配的情況,以及受訓(xùn)練數(shù)據(jù)時(shí)效性限制。但這種基于客觀統(tǒng)計(jì)的方法比傳統(tǒng)的內(nèi)部信號(hào)檢測(cè)要可靠得多。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
重要調(diào)整!珠海公立醫(yī)療機(jī)構(gòu),明起執(zhí)行!

重要調(diào)整!珠海公立醫(yī)療機(jī)構(gòu),明起執(zhí)行!

珠海發(fā)布
2025-12-31 20:11:06
羅永浩科技春晚遲到50分鐘后現(xiàn)身,200多萬(wàn)網(wǎng)友在線(xiàn)圍觀,本人發(fā)聲:出現(xiàn)了一些狀況,后續(xù)會(huì)解釋

羅永浩科技春晚遲到50分鐘后現(xiàn)身,200多萬(wàn)網(wǎng)友在線(xiàn)圍觀,本人發(fā)聲:出現(xiàn)了一些狀況,后續(xù)會(huì)解釋

極目新聞
2025-12-30 20:28:55
厲害了!湖南這 5 個(gè)縣即將代表中國(guó)走向世界!快看有沒(méi)有你老家

厲害了!湖南這 5 個(gè)縣即將代表中國(guó)走向世界!快看有沒(méi)有你老家

健身狂人
2025-12-31 15:22:52
領(lǐng)導(dǎo)根本不在意你干了多少活,只在意這3點(diǎn):一、有沒(méi)有及時(shí)匯報(bào);二、有沒(méi)有做出成效;三、能不能讓人放心

領(lǐng)導(dǎo)根本不在意你干了多少活,只在意這3點(diǎn):一、有沒(méi)有及時(shí)匯報(bào);二、有沒(méi)有做出成效;三、能不能讓人放心

德魯克博雅管理
2025-12-21 17:01:41
遼寧四連敗陷困境:是傷病不可抗力,還是教練組與外援選擇失當(dāng)?

遼寧四連敗陷困境:是傷病不可抗力,還是教練組與外援選擇失當(dāng)?

漫川舟船
2026-01-01 03:49:14
他唯一的缺點(diǎn)就是身高太矮,不然世界上就有十全十美的人了

他唯一的缺點(diǎn)就是身高太矮,不然世界上就有十全十美的人了

韓馳
2025-12-31 23:00:00
【公告精選】多家公司年度盈利預(yù)計(jì)翻倍;立訊精密擬10億元—20億元回購(gòu)股份

【公告精選】多家公司年度盈利預(yù)計(jì)翻倍;立訊精密擬10億元—20億元回購(gòu)股份

證券時(shí)報(bào)e公司
2025-12-31 23:51:11
從腳抽筋到去世,僅僅一晚!這起悲劇,給所有人敲響了警鐘

從腳抽筋到去世,僅僅一晚!這起悲劇,給所有人敲響了警鐘

讀懂世界歷史
2025-12-24 21:45:32
住建部已摸清國(guó)內(nèi)房子數(shù)量,過(guò)剩嚴(yán)重到什么情況?樓市或迎來(lái)變局

住建部已摸清國(guó)內(nèi)房子數(shù)量,過(guò)剩嚴(yán)重到什么情況?樓市或迎來(lái)變局

搬磚營(yíng)Z
2025-12-31 14:00:37
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過(guò)半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過(guò)半年或有6好處

展望云霄
2025-11-29 13:56:58
核桃竟是腎臟殺手?醫(yī)生含淚苦勸:4種堅(jiān)果貪嘴,可能加速腎衰竭

核桃竟是腎臟殺手?醫(yī)生含淚苦勸:4種堅(jiān)果貪嘴,可能加速腎衰竭

看世界的人
2025-11-29 13:58:28
福原愛(ài)不再沉默,公開(kāi)當(dāng)年離婚真相,在婆家處處忍耐,精神出問(wèn)題

福原愛(ài)不再沉默,公開(kāi)當(dāng)年離婚真相,在婆家處處忍耐,精神出問(wèn)題

眼底星碎
2025-12-31 02:40:23
為什么成功人士的精力都非常旺盛?網(wǎng)友:幾乎不管任何瑣碎的事情

為什么成功人士的精力都非常旺盛?網(wǎng)友:幾乎不管任何瑣碎的事情

另子維愛(ài)讀史
2025-12-29 17:29:04
“饅頭臉”混進(jìn)央視劇,真實(shí)顏值嚇人,張鐸演技再好,也帶不動(dòng)!

“饅頭臉”混進(jìn)央視劇,真實(shí)顏值嚇人,張鐸演技再好,也帶不動(dòng)!

付老師種植技術(shù)團(tuán)隊(duì)
2025-12-31 22:27:12
“元旦吃3樣,子孫后代旺”,是指哪3樣?今天元旦,別忘了吃

“元旦吃3樣,子孫后代旺”,是指哪3樣?今天元旦,別忘了吃

簡(jiǎn)食記工作號(hào)
2026-01-01 00:16:47
2026新年寄語(yǔ)100句,一起為新年干杯,望所愿皆成,所行皆坦!

2026新年寄語(yǔ)100句,一起為新年干杯,望所愿皆成,所行皆坦!

趴窗看雨的小龜
2025-12-29 08:55:05
更炸裂的來(lái)了,南博的水太深

更炸裂的來(lái)了,南博的水太深

亮見(jiàn)
2025-12-22 14:34:33
緊急送醫(yī),李弘權(quán)送醫(yī),曬住院照片,原因曝光,或缺席對(duì)陣遼寧

緊急送醫(yī),李弘權(quán)送醫(yī),曬住院照片,原因曝光,或缺席對(duì)陣遼寧

樂(lè)聊球
2025-12-31 09:09:06
女主持車(chē)禍去世,年僅38歲!好友透露其被“老頭樂(lè)”撞倒

女主持車(chē)禍去世,年僅38歲!好友透露其被“老頭樂(lè)”撞倒

深圳晚報(bào)
2025-12-31 08:14:08
新婚夜,新郎被咯得生痛,掀開(kāi)被子一看,先勃然大怒后喜不自勝

新婚夜,新郎被咯得生痛,掀開(kāi)被子一看,先勃然大怒后喜不自勝

書(shū)寫(xiě)傳奇
2025-12-28 09:19:49
2026-01-01 05:16:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

日企代表團(tuán)推遲原定訪(fǎng)華行程 外交部回應(yīng)

頭條要聞

日企代表團(tuán)推遲原定訪(fǎng)華行程 外交部回應(yīng)

體育要聞

羅馬諾:國(guó)米和巴薩再次就轉(zhuǎn)會(huì)聯(lián)系了坎塞洛的團(tuán)隊(duì)

娛樂(lè)要聞

官宣才兩天就翻車(chē)?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車(chē)要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬(wàn)/33寸曲面屏

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
游戲
公開(kāi)課
軍事航空

藝術(shù)要聞

中國(guó)博物館全書(shū)!看遍中國(guó)8000年頂流審美

房產(chǎn)要聞

終于等來(lái)了!2026年首個(gè)買(mǎi)房大利好

Epic下周免費(fèi)游戲曝光!經(jīng)典塔防Steam特別好評(píng)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

沉浸式感受"正義使命-2025"演習(xí)現(xiàn)場(chǎng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版