国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

再不怕亂引文獻(xiàn)!繞過付費(fèi)墻,BibAgent把學(xué)術(shù)核驗(yàn)轉(zhuǎn)為證據(jù)鏈

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】大模型正在批量生成「看起來很像真的」學(xué)術(shù)論述,但這些論述背后的引用,真的成立嗎?更關(guān)鍵的是:當(dāng)被引論文被付費(fèi)墻鎖住、原文根本讀不到時(shí),自動(dòng)化核驗(yàn)是否就注定失效?BIBAGENT給出了一個(gè)極具沖擊力的答案:不破解付費(fèi)墻,也能驗(yàn)證引文語義真?zhèn)。它首次把「不可訪問原文」從驗(yàn)證終點(diǎn),改寫成一種仍可推理、仍可審計(jì)的證據(jù)場(chǎng)景。

在生成式 AI 全面進(jìn)入科研寫作之后,學(xué)術(shù)世界正在遭遇一個(gè)比「寫得像不像論文」更根本的問題:它引用的文獻(xiàn),究竟有沒有真正支持它說的話?

這并不是吹毛求疵。引用是科學(xué)論證的承重墻,決定一項(xiàng)結(jié)論究竟是建立在證據(jù)之上,還是只是披著文獻(xiàn)外衣的「合理幻覺」。

現(xiàn)實(shí)中,錯(cuò)誤引用并不罕見:把相關(guān)性說成因果,把局部結(jié)果外推為普遍規(guī)律,把綜述包裝成一手實(shí)驗(yàn)依據(jù),甚至直接引用一個(gè)根本無法定位的「幽靈文獻(xiàn)」。

而當(dāng)大模型開始大規(guī)模生成流暢、完整、格式正確的科研文字時(shí),這類問題正在被成倍放大。

于是,一個(gè)看似基礎(chǔ)、其實(shí)極難的問題被推到了臺(tái)前:我們能不能把 citation verification 這件事,真正做成規(guī);、系統(tǒng)化、可追溯的能力?

難點(diǎn)恰恰在于,過去絕大多數(shù)方法都默認(rèn)了一個(gè)并不真實(shí)的前提:被引論文是可以讀到全文的。

可現(xiàn)實(shí)世界里,大量論文被鎖在 publisher paywall 之后。只要原文不可訪問,自動(dòng)化引文核驗(yàn)通常就會(huì)陷入兩難:要么直接放棄,要么依賴零碎的搜索片段和模型腦補(bǔ),給出一個(gè)聽起來有理、實(shí)際上卻并不可靠的判斷。也就是說,最值得被嚴(yán)格審查的那部分引用,長(zhǎng)期恰恰處在自動(dòng)化驗(yàn)證的盲區(qū)里。

BIBAGENT 的真正突破,就從這里開始。


論文鏈接:https://arxiv.org/abs/2601.16993

不是「查引用」

而是「驗(yàn)引用語義」

很多相關(guān)工作做的是 citation classification,或者只回答一個(gè)很粗的問題:這條引用看起來「像不像支持」這句話。

但BIBAGENT要處理的是更難、也更接近真實(shí)學(xué)術(shù)審稿的問題:一條引用究竟有沒有被正確使用?如果錯(cuò)了,錯(cuò)在什么層級(jí)?證據(jù)又在哪里?

為了讓這個(gè)問題可以被系統(tǒng)地定義和評(píng)測(cè),論文先提出了一套統(tǒng)一的五類 miscitation taxonomy,把過去籠統(tǒng)的「壞引用」拆成五種具有操作性的錯(cuò)誤類型:

  • Attribution & Traceability:引用本身無法可靠追溯,例如 ghost citation、作者或來源錯(cuò)配;

  • Citation Validity:文獻(xiàn)本身不應(yīng)再被當(dāng)作當(dāng)前主張的有效證據(jù),例如撤稿論文、過時(shí)證據(jù)、二手綜述被誤當(dāng)作一手研究;

  • Content Misrepresentation:引用者實(shí)質(zhì)性歪曲、偽造或反轉(zhuǎn)了原文結(jié)論;

  • Scope Extrapolation:原文在特定對(duì)象、任務(wù)或條件下成立,卻被不當(dāng)外推到更廣范圍;

  • Evidence Characterization:對(duì)證據(jù)類型或強(qiáng)度的夸大,例如把相關(guān)性寫成因果,把邊際結(jié)果寫成定論。

這套taxonomy的價(jià)值很大。它讓系統(tǒng)的輸出不再只是一個(gè)模糊的「對(duì)/錯(cuò)」,而是一個(gè)帶有錯(cuò)誤碼、證據(jù)鏈和解釋邏輯的判斷。換句話說,BIBAGENT不是在做「引用格式檢查器」,而是在做引用語義審計(jì)器。

把citation verification拆成兩個(gè)世界

BIBAGENT最聰明的地方,在于它沒有把所有引用都塞進(jìn)同一種處理邏輯里,而是非常清楚地承認(rèn):現(xiàn)實(shí)中citation verification天生存在兩個(gè)regime。


原文可訪問:難點(diǎn)不是「能不能看」,而是「能不能找到?jīng)Q定性證據(jù)」

對(duì)于可訪問全文的被引論文,BIBAGENT走的是ACSV(Accessible Cited Source Verifier)分支。它沒有簡(jiǎn)單把「引用上下文 + 被引全文」整篇喂給大模型,而是設(shè)計(jì)了一條更像真正審稿過程的漏斗式路徑:

1. 先在被引論文中做高召回的粗檢索,抓出最相關(guān)的段落;

2. 再用cross-encoder精排,把焦點(diǎn)縮小到更小的證據(jù)集合;

3. 隨后用NLI判斷哪些證據(jù)窗口明顯支持、明顯沖突,先解決掉一批簡(jiǎn)單樣本;

4. 只有在證據(jù)弱、沖突多、語義依賴上下文時(shí),才把問題送入更強(qiáng)的大模型做深度推理與自一致性表決。

這條鏈路看上去像工程細(xì)節(jié),實(shí)際上恰恰擊中了citation verification的要害:決定一條引用真?zhèn)蔚年P(guān)鍵信息,往往并不在整篇論文里平均分布,而是埋在極少數(shù)局部窗口、限定條件、實(shí)驗(yàn)caveat和邊界描述里。

如果把整篇全文暴力喂給模型,模型確實(shí)可能「讀到了很多東西」,但也更容易被長(zhǎng)上下文稀釋、被無關(guān)段落干擾,最后輸出一段流暢卻并不真正grounded的解釋。ACSV的核心價(jià)值,就是把判斷盡可能錨定在小而準(zhǔn)的證據(jù)窗口上。

原文不可訪問:不再「猜原文」,而是重建社區(qū)證據(jù)

真正讓這篇論文一下子拉開層級(jí)的,是ICSV(Inaccessible Cited Source Verifier),也就是它為paywalled source設(shè)計(jì)的驗(yàn)證機(jī)制。


這一步的思想非常漂亮:當(dāng)系統(tǒng)無法直接讀取被引論文 (B) 時(shí),它不再試圖「假裝看過 B」,也不把問題退化成一次脆弱的網(wǎng)頁(yè)檢索;相反,它把注意力轉(zhuǎn)向所有后續(xù)引用了 B 的開放論文,去收集這些論文究竟是如何描述B的。

具體來說,ICSV會(huì)先把當(dāng)前citing paper對(duì) (B) 的說法,抽取成一個(gè)盡量自足、明確、去代詞化的原子claim;然后在所有可訪問的下游引用者中,提取它們關(guān)于 (B) 的局部引用語境,再通過語義聚類,把這些描述分成若干「方面」:

例如某篇論文的方法貢獻(xiàn)、數(shù)據(jù)集角色、關(guān)鍵實(shí)驗(yàn)發(fā)現(xiàn)、適用邊界等。接著,系統(tǒng)會(huì)為每個(gè)方面蒸餾出一條規(guī)范化的 canonical evidence statement,并結(jié)合見證論文在本領(lǐng)域內(nèi)的影響力,對(duì)這些證據(jù)做加權(quán)。

論文把這套機(jī)制稱為Evidence Committee

它本質(zhì)上是在問一個(gè)非常有力量的問題:當(dāng)原文本身不可讀時(shí),學(xué)術(shù)共同體究竟如何在后續(xù)文獻(xiàn)中持續(xù)描述它?

這比簡(jiǎn)單搜索一個(gè)摘要、抓一段snippet要可靠得多。因?yàn)樗话褑我凰槠?dāng)成「原文替身」,而是把多個(gè)獨(dú)立下游見證整合成一份帶權(quán)重、帶沖突感知、帶棄權(quán)機(jī)制的「社區(qū)證詞」。

最后,ICSV再把這份證詞與當(dāng)前引用的說法進(jìn)行比對(duì),判斷它是被支持、被反駁,還是證據(jù)不足。

最關(guān)鍵的是,當(dāng)見證論文太少、證據(jù)彼此沖突、社區(qū)記憶并不穩(wěn)定時(shí),系統(tǒng)不會(huì)硬判,而是明確輸出Undecidable。這點(diǎn)極其重要。

它讓BIBAGENT在paywall場(chǎng)景下的能力,不是「神奇猜中原文內(nèi)容」,而是在證據(jù)足夠時(shí)謹(jǐn)慎判斷,在證據(jù)不足時(shí)誠(chéng)實(shí)棄權(quán)。這正是一個(gè)可信核驗(yàn)系統(tǒng)該有的姿態(tài)。

真正夠硬的benchmark

為了系統(tǒng)評(píng)測(cè)miscitation,論文同時(shí)構(gòu)建了MISCITEBENCH。這是一個(gè)覆蓋254個(gè)JCR學(xué)科類別、21個(gè)高層級(jí)學(xué)科、共6,350條專家校驗(yàn)樣本的大規(guī)模benchmark。

它最值得注意的,不只是「大」,而是「干凈」。作者專門設(shè)計(jì)了knowledge-blank cleanroom protocol:候選論文只有在一組強(qiáng)模型面對(duì)僅給元數(shù)據(jù)的法醫(yī)式提問時(shí)全部回答失敗,才允許進(jìn)入benchmark。

也就是說,MISCITEBENCH有意避免讓模型靠參數(shù)記憶「背題」過關(guān),而是逼著方法真正去做citation-level reasoning。

更進(jìn)一步,論文還確保benchmark與上面的五類taxonomy 一一對(duì)齊。

于是,BIBAGENT 的預(yù)測(cè)空間和 benchmark 的標(biāo)簽空間是統(tǒng)一的:系統(tǒng)不僅要判斷對(duì)錯(cuò),還必須給出錯(cuò)的類型。這使得它的評(píng)測(cè)目標(biāo)更加接近真實(shí)科研審稿,而不是一個(gè)過于抽象的「支持/反駁」二分類。

結(jié)果非常硬:可訪問場(chǎng)景更準(zhǔn)更省,不可訪問場(chǎng)景第一次真正能做


MisciteBench-Open上,也就是被引論文全文可訪問的場(chǎng)景,BIBAGENT相比同backbone的full-text baseline,準(zhǔn)確率提升+5.7到+19.8個(gè)點(diǎn),同時(shí)節(jié)省44.6%到79.4%的token消耗。這說明它不是靠「喂更多上下文」暴力取勝,而是靠更貼合問題結(jié)構(gòu)的agentic過程,把引用核驗(yàn)做得更準(zhǔn)、更省、更可解釋。


而在最難、也最有現(xiàn)實(shí)意義的MisciteBench-Paywall上,差距更大。 傳統(tǒng) Search baseline 即便允許外部搜索,在強(qiáng)模型上也只有22.1到36.2的Acc-pass@3;而 BIBAGENT 的 ICSV 分支可以把結(jié)果提升到66.5到80.3。更重要的是,這個(gè)提升不是靠「偶然搜到一段相似文本」,而是來自對(duì)社區(qū)共識(shí)的系統(tǒng)重建。


論文還做了一個(gè)非常關(guān)鍵的可靠性分析:當(dāng)某個(gè) paywalled source 的主導(dǎo)語義方面擁有至少6個(gè)獨(dú)立downstream witnesses時(shí),系統(tǒng)的非棄權(quán)率和條件精度都會(huì)明顯穩(wěn)定下來。這個(gè)結(jié)果并不只是一個(gè)數(shù)字,它揭示了ICSV的可信來源:它依賴的不是某次檢索運(yùn)氣,而是一個(gè)可以觀察、可以解釋的證據(jù)密度閾值。

這篇工作的真正意義:給 AI 時(shí)代的科學(xué)寫作補(bǔ)上一層「可審計(jì)基礎(chǔ)設(shè)施」

BIBAGENT最值得重視的地方,不只是「又做了一個(gè)論文工具」,而是它提出了一個(gè)更深的判斷:在AI 時(shí)代,寫作和驗(yàn)證必須解耦;引用完整性不能繼續(xù)停留在人工抽查,而必須進(jìn)入系統(tǒng)審計(jì)。

它告訴我們,miscitation不是零散的寫作疏漏,而是一個(gè)可以被結(jié)構(gòu)化定義、規(guī)模化檢測(cè)、證據(jù)化追溯的問題;它也告訴我們,paywall不應(yīng)該繼續(xù)作為自動(dòng)化科學(xué)核驗(yàn)的絕對(duì)終點(diǎn)。

只要把「直接讀原文」擴(kuò)展為「重建可追溯的社區(qū)證據(jù)」,那些過去被視為無解的場(chǎng)景,其實(shí)可以進(jìn)入一個(gè)可驗(yàn)證、可解釋、可保守棄權(quán)的框架。

換句話說,這篇paper修補(bǔ)的,不是citation format,而是科學(xué)寫作最底層的一條信任鏈:當(dāng)一句學(xué)術(shù)論斷被寫下時(shí),我們終于開始有機(jī)會(huì)系統(tǒng)地追問——這條引用,真的說了你說的那句話嗎?

參考資料:

https://arxiv.org/abs/2601.16993

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
越南已被逼入絕境,總理臨卸任死磕中國(guó),賭上國(guó)運(yùn)也要換掉米軌

越南已被逼入絕境,總理臨卸任死磕中國(guó),賭上國(guó)運(yùn)也要換掉米軌

諦聽骨語本尊
2026-04-07 18:33:35
一路走好!85歲陳麗華去世,私生活被扒底朝天,網(wǎng)友:老公太可憐

一路走好!85歲陳麗華去世,私生活被扒底朝天,網(wǎng)友:老公太可憐

別人都叫我阿螫
2026-04-08 06:26:16
張?zhí)m生日好鬧心!馬筱梅發(fā)文翻車,小玥兒做餅干,汪小菲躲避相聚

張?zhí)m生日好鬧心!馬筱梅發(fā)文翻車,小玥兒做餅干,汪小菲躲避相聚

潮鹿逐夢(mèng)
2026-04-08 00:02:21
12年江西男子淘到一破書,有人出500萬沒賣出,1年后以2600萬成交

12年江西男子淘到一破書,有人出500萬沒賣出,1年后以2600萬成交

談史論天地
2026-04-05 18:20:59
油車換電車1年真實(shí)感受:普通人別跟風(fēng)!買車前沒人告訴你的真相

油車換電車1年真實(shí)感受:普通人別跟風(fēng)!買車前沒人告訴你的真相

華庭講美食
2026-03-28 17:08:13
清明節(jié),兒子寫燒給母親的祭文,看哭了14億中國(guó)人!

清明節(jié),兒子寫燒給母親的祭文,看哭了14億中國(guó)人!

每日一首古詩(shī)詞
2026-04-05 06:07:07
留給美國(guó)時(shí)間不多了,伊朗戰(zhàn)爭(zhēng)打完后,世界就只剩一個(gè)超級(jí)大國(guó)了

留給美國(guó)時(shí)間不多了,伊朗戰(zhàn)爭(zhēng)打完后,世界就只剩一個(gè)超級(jí)大國(guó)了

觸摸史跡
2026-04-02 14:39:03
自導(dǎo)自演?佛山雞煲老板因流量壓力自黑求放過,結(jié)果慘遭網(wǎng)友扒光

自導(dǎo)自演?佛山雞煲老板因流量壓力自黑求放過,結(jié)果慘遭網(wǎng)友扒光

從零到一研究所
2026-04-03 15:04:26
阿爾忒彌斯2號(hào)拍的地球和月球,和我們平時(shí)看到的不一樣

阿爾忒彌斯2號(hào)拍的地球和月球,和我們平時(shí)看到的不一樣

空天論道
2026-04-06 20:30:03
美軍飛行員獲救,細(xì)節(jié)公開:48小時(shí)建簡(jiǎn)易機(jī)場(chǎng),搭進(jìn)去5架飛機(jī)

美軍飛行員獲救,細(xì)節(jié)公開:48小時(shí)建簡(jiǎn)易機(jī)場(chǎng),搭進(jìn)去5架飛機(jī)

潮鹿逐夢(mèng)
2026-04-05 16:55:57
詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

像詩(shī)一樣的姑娘
2026-04-08 10:26:34
“中國(guó)紫檀女王”陳麗華逝世,曾是中國(guó)女首富,47歲時(shí)倒追“唐僧”遲重瑞,晚年每天生活費(fèi)10元

“中國(guó)紫檀女王”陳麗華逝世,曾是中國(guó)女首富,47歲時(shí)倒追“唐僧”遲重瑞,晚年每天生活費(fèi)10元

極目新聞
2026-04-07 12:39:33
李先念稱陶鑄應(yīng)是元帥,說:我的部隊(duì),就是憑他8條槍起家的

李先念稱陶鑄應(yīng)是元帥,說:我的部隊(duì),就是憑他8條槍起家的

史之銘
2026-04-06 18:45:28
徹底崩了!《乘風(fēng)2026》突發(fā)停播,倪萍道歉沒用,節(jié)目組兜不住了

徹底崩了!《乘風(fēng)2026》突發(fā)停播,倪萍道歉沒用,節(jié)目組兜不住了

橙星文娛
2026-04-06 10:24:31
全紅嬋被集體霸凌,隊(duì)友潛伏攻擊全紅嬋內(nèi)部群,聊天記錄被曝光!

全紅嬋被集體霸凌,隊(duì)友潛伏攻擊全紅嬋內(nèi)部群,聊天記錄被曝光!

眼光很亮
2026-04-08 12:10:03
“戴套不算是強(qiáng)奸”,2011年26歲女子被領(lǐng)導(dǎo)強(qiáng)暴,報(bào)案時(shí)她被驚呆

“戴套不算是強(qiáng)奸”,2011年26歲女子被領(lǐng)導(dǎo)強(qiáng)暴,報(bào)案時(shí)她被驚呆

漢史趣聞
2026-03-25 14:14:30
時(shí)隔7年!火箭連兩季50勝 杜蘭特未獲致敬視頻導(dǎo)21分逆轉(zhuǎn)橫掃舊主

時(shí)隔7年!火箭連兩季50勝 杜蘭特未獲致敬視頻導(dǎo)21分逆轉(zhuǎn)橫掃舊主

醉臥浮生
2026-04-08 13:46:05
巴拿馬港口突然“不認(rèn)賬”了,美國(guó)官員剛說完話法院就裁決

巴拿馬港口突然“不認(rèn)賬”了,美國(guó)官員剛說完話法院就裁決

小影的娛樂
2026-04-08 02:22:24
金燦榮:第三次國(guó)共合作不可能,對(duì)國(guó)民黨不抱過高期待

金燦榮:第三次國(guó)共合作不可能,對(duì)國(guó)民黨不抱過高期待

混沌錄
2026-03-29 17:08:14
越南的恨,為何唯獨(dú)留給了中國(guó)

越南的恨,為何唯獨(dú)留給了中國(guó)

民間胡扯老哥
2026-04-05 21:51:40
2026-04-08 14:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14923文章數(shù) 66754關(guān)注度
往期回顧 全部

科技要聞

造出地表最強(qiáng)AI,卻死活不給你用!

頭條要聞

裝修工強(qiáng)奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對(duì)勁

頭條要聞

裝修工強(qiáng)奸未遂殺雇主 死者兒子跟"媽"聊天發(fā)現(xiàn)不對(duì)勁

體育要聞

皇馬1.5億巨星浪費(fèi)超級(jí)單刀 丟球攤手抱怨

娛樂要聞

楊穎鄧超低調(diào)現(xiàn)身觀眾席 支持陳赫話劇

財(cái)經(jīng)要聞

特朗普同意;饍芍 伊朗:接受;鹛嶙h

汽車要聞

5門5座/新復(fù)古造型 繽果Pro將于4月14日開啟預(yù)售

態(tài)度原創(chuàng)

教育
游戲
時(shí)尚
手機(jī)
數(shù)碼

教育要聞

關(guān)于公布大名縣學(xué)生軍訓(xùn)監(jiān)督舉報(bào)方式的公告

國(guó)產(chǎn)新高度!實(shí)機(jī)展示“絲襪”質(zhì)感 還能拉扯?

闊腿褲失寵了?今年這幾條褲子最時(shí)髦!

手機(jī)要聞

小米18首發(fā)!高通驍龍8E6系列新增協(xié)處理器:待機(jī)更持久

數(shù)碼要聞

小米R(shí)EDMI K Pad 2本月發(fā)布:搭載9100mAh電池、天璣9500處理器

無障礙瀏覽 進(jìn)入關(guān)懷版