国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

句子級(jí)溯源+生成式歸因,C2-Cite重塑大模型可信度

0
分享至



在人工智能快速發(fā)展的今天,大語言模型已經(jīng)深入到我們工作和生活的方方面面。然而,如何讓AI生成的內(nèi)容更加可信、可追溯,一直是學(xué)術(shù)界和工業(yè)界關(guān)注的焦點(diǎn)問題。想象一下,當(dāng)你向ChatGPT提問時(shí),它不僅給出答案,還能像學(xué)術(shù)論文一樣標(biāo)注每句話的信息來源——這就是"溯源大語言模型"要解決的核心問題。

北郵百家AI團(tuán)隊(duì)聯(lián)合小米大模型團(tuán)隊(duì)提出的溯源大模型C2-Cite,首創(chuàng)上下文感知的歸因生成技術(shù),不僅能讓大模型在生成內(nèi)容時(shí)自動(dòng)標(biāo)注精準(zhǔn)的信息來源,更能確保生成內(nèi)容與引用的外部知識(shí)高度語義對(duì)齊,實(shí)現(xiàn)每一處表述都有溯源依據(jù)、與參考來源深度協(xié)同,從根本上解決大模型生成內(nèi)容的可信度問題。該工作已被國際頂級(jí)會(huì)議WSDM 2026收錄。C2-Cite針對(duì)現(xiàn)有歸因模型存在的關(guān)鍵缺陷,通過引入"上下文感知"機(jī)制,讓引用標(biāo)記從被動(dòng)的占位符轉(zhuǎn)變?yōu)閹в猩舷挛恼Z義的特殊令牌,顯著提升了引用質(zhì)量和模型回答準(zhǔn)確性。



  • 論文標(biāo)題:

C2-Cite:Contextual-Aware Citation Generation for Attributed Large Language Models

  • 論文鏈接:

https://github.com/BAI-LAB/c2cite/blob/main/paper_wsdm_c2cite.pdf

  • 代碼倉庫:

https://github.com/BAI-LAB/c2cite

引言

在信息爆炸的時(shí)代,大語言模型雖然能夠生成流暢的文本,但"幻覺"問題(即生成虛假或不準(zhǔn)確的內(nèi)容)始終困擾著研究者。為了增強(qiáng)模型輸出的可信度,研究人員提出了歸因技術(shù)——在生成內(nèi)容中添加明確的引用標(biāo)記(如[1]、[2]),將每句話鏈接到具體的信息源。然而現(xiàn)有歸因模型存在顯著缺陷:

1.技術(shù)路徑存在固有局限:上下文學(xué)習(xí)歸因(P-ICL/I-ICL)依賴提示工程或迭代檢索,耗時(shí)且泛化性弱;指令微調(diào)歸因過度依賴高質(zhì)量訓(xùn)練數(shù)據(jù),缺乏對(duì)引用上下文的主動(dòng)關(guān)聯(lián),大大削弱大模型的溯源能力;事后歸因(Post-Hoc)采用兩階段處理,難以精確到句子級(jí)別,缺乏內(nèi)在歸因能力。

2.引用標(biāo)記淪為“通用占位符”:現(xiàn)有模型未賦予引用標(biāo)記(如 [i])上下文語義,僅將其視為無意義符號(hào),導(dǎo)致引用與所指內(nèi)容脫節(jié)、知識(shí)整合效果差;

3.引用質(zhì)量與回答準(zhǔn)確性失衡:部分模型雖能提升引用精準(zhǔn)度,但會(huì)破壞回答的語義連貫性和正確性;另一部分模型則因引用混亂,難以支撐回答可信度;

這些問題導(dǎo)致現(xiàn)有模型要么引用錯(cuò)誤/ 虛構(gòu)、溯源失效,要么回答邏輯斷裂、準(zhǔn)確性下滑,難以同時(shí)滿足 “引用可信” 與 “回答有效” 的核心需求。

C2-Cite溯源機(jī)制

為解決上述缺陷,北郵百家AI團(tuán)隊(duì)聯(lián)合小米提出上下文感知的溯源大模型框架(C2-Cite),核心思路是通過“上下文語義融入” 讓引用標(biāo)記從被動(dòng)占位符轉(zhuǎn)變?yōu)閹в忻鞔_語義指向的主動(dòng)知識(shí)指針,具體包含三大關(guān)鍵組件:

1.上下文感知嵌入機(jī)制(Contextual-Aware Embedding):將多令牌引用標(biāo)記(如“[i]”)標(biāo)準(zhǔn)化為單一引用符號(hào)令牌(如“?>”),并通過均值池化計(jì)算對(duì)應(yīng)檢索文檔的語義嵌入,替換傳統(tǒng)無意義占位符嵌入,使引用標(biāo)記攜帶所指文檔的語義信息;

2.上下文引用對(duì)齊機(jī)制Contextual Citation Alignment:引入引用路由器(二進(jìn)制分類器)區(qū)分默認(rèn)令牌與引用令牌,分別優(yōu)化兩類令牌的損失函數(shù)—— 默認(rèn)令牌采用交叉熵?fù)p失保證回答流暢性,引用令牌通過語義相似度匹配實(shí)現(xiàn)與檢索文檔的精準(zhǔn)對(duì)齊;

3.上下文注意力增強(qiáng)機(jī)制:通過距離衰減系數(shù)和注意力約束,放大后續(xù)生成令牌對(duì)先前引用令牌的關(guān)注度,維持引用與內(nèi)容的語義連貫性,避免因引用插入導(dǎo)致回答邏輯斷裂。

模型最終損失函數(shù)為默認(rèn)損失、引用對(duì)齊損失、路由器損失與注意力增強(qiáng)損失的加權(quán)和,確保引用質(zhì)量與回答準(zhǔn)確性的協(xié)同優(yōu)化。



實(shí)驗(yàn)

研究團(tuán)隊(duì)在ALCE基準(zhǔn)測(cè)試的三個(gè)數(shù)據(jù)集(ASQA、ELI5、QAMPARI)上進(jìn)行了全面評(píng)估,對(duì)比了多種主流歸因方法

3.1 主實(shí)驗(yàn)結(jié)果



實(shí)驗(yàn)結(jié)果令人振奮:

  • 引用質(zhì)量大幅提升:C2-Cite++在引用F1分?jǐn)?shù)上平均提升5.8%
  • 回答準(zhǔn)確性顯著增強(qiáng):在回答正確性指標(biāo)上平均提升17.4%
  • 泛化能力強(qiáng):在不同質(zhì)量的訓(xùn)練數(shù)據(jù)(SynSciQA 系列)上均表現(xiàn)穩(wěn)定,即使使用普通訓(xùn)練數(shù)據(jù)也能超越依賴高質(zhì)量數(shù)據(jù)的傳統(tǒng)微調(diào)模型。

3.2 效率分析

在保證效果的同時(shí),C2-Cite++還展現(xiàn)出卓越的計(jì)算效率。吞吐量(每秒處理樣本數(shù))測(cè)試顯示,相比需要多輪迭代的方法(如Blueprint),C2-Cite++實(shí)現(xiàn)了最高的處理速度,在實(shí)際應(yīng)用中具有明顯優(yōu)勢(shì)。



3.3溯源生成模型中注意力模式的轉(zhuǎn)變

注意力熱力圖可視化,直觀展示了C2-Cite的工作機(jī)制。在原生LLM中,引用符號(hào)前后的句子幾乎沒有交互;而在C2-Cite中,后續(xù)句子對(duì)前文的注意力顯著增強(qiáng),形成了緊密的語義連接。這種"跨引用的語義橋梁"正是模型生成高質(zhì)量溯源內(nèi)容的關(guān)鍵。



總結(jié)

C2-Cite框架通過"上下文感知"這一核心理念,成功解決了現(xiàn)有歸因大語言模型的關(guān)鍵痛點(diǎn):

  • 從符號(hào)到語義:將引用標(biāo)記從被動(dòng)占位符轉(zhuǎn)化為主動(dòng)知識(shí)指針
  • 精準(zhǔn)對(duì)齊:通過路由機(jī)制確保引用編號(hào)與文檔內(nèi)容的準(zhǔn)確匹配
  • 語義連貫:利用注意力增強(qiáng)保持引用前后內(nèi)容的流暢性
  • 雙重優(yōu)化:同時(shí)提升引用質(zhì)量和回答準(zhǔn)確性,而非顧此失彼

最后,僅僅優(yōu)化訓(xùn)練數(shù)據(jù)是不夠的,大模型的溯源能力需設(shè)計(jì)有效的學(xué)習(xí)機(jī)制。相比于復(fù)雜的數(shù)據(jù)合成流程,C2-Cite通過其"上下文感知"的設(shè)計(jì)思想,在內(nèi)容生成的過程依賴可靠的引用知識(shí)庫,為構(gòu)建更加可靠、透明的AI溯源系統(tǒng)提供了重要的技術(shù)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國要做好戰(zhàn)爭(zhēng)準(zhǔn)備,中國的下場(chǎng)戰(zhàn)爭(zhēng)不是印度菲律賓越南而是日本

中國要做好戰(zhàn)爭(zhēng)準(zhǔn)備,中國的下場(chǎng)戰(zhàn)爭(zhēng)不是印度菲律賓越南而是日本

百態(tài)人間
2026-01-09 17:17:17
哈梅內(nèi)伊死了,美伊戰(zhàn)爭(zhēng)烈度比想象的要大很多

哈梅內(nèi)伊死了,美伊戰(zhàn)爭(zhēng)烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網(wǎng)“斷供”

史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網(wǎng)“斷供”

鈦媒體APP
2026-02-28 11:09:22
美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認(rèn)欠中國的錢

美國發(fā)出警告:中國不還100年前的舊債,美國絕不承認(rèn)欠中國的錢

霽寒飄雪
2026-01-26 16:18:59
當(dāng)不成總統(tǒng)了?27座美軍基地遇襲,美本土爆發(fā)混亂,特朗普被逼宮

當(dāng)不成總統(tǒng)了?27座美軍基地遇襲,美本土爆發(fā)混亂,特朗普被逼宮

荷蘭豆愛健康
2026-03-02 13:11:10
票房128.6億,密鑰又一次延期,超過《哪吒2》只是時(shí)間問題

票房128.6億,密鑰又一次延期,超過《哪吒2》只是時(shí)間問題

白公子探劇
2026-03-02 15:26:41
王楚欽擊敗林昀儒奪得冠軍賽后居然對(duì)王皓吐槽說了三個(gè)字讓人心疼

王楚欽擊敗林昀儒奪得冠軍賽后居然對(duì)王皓吐槽說了三個(gè)字讓人心疼

不似少年游
2026-03-02 17:28:21
俄專家:美國如今面對(duì)的中國,是一個(gè)沒有任何缺陷的超級(jí)大國!

俄專家:美國如今面對(duì)的中國,是一個(gè)沒有任何缺陷的超級(jí)大國!

花花娛界
2025-11-07 20:54:57
河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

河南洛陽一女子過年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

小莜讀史
2026-03-01 17:16:27
伊朗教育部:美以對(duì)伊朗的襲擊已致175名師生死亡

伊朗教育部:美以對(duì)伊朗的襲擊已致175名師生死亡

環(huán)球網(wǎng)資訊
2026-03-02 17:45:23
所有AI全軍覆沒!學(xué)者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

所有AI全軍覆沒!學(xué)者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

DeepTech深科技
2026-03-01 17:25:27
《美人魚2》永不上映真相就一個(gè),周星馳你太慢了慢到被時(shí)代拋棄

《美人魚2》永不上映真相就一個(gè),周星馳你太慢了慢到被時(shí)代拋棄

楊仔述
2026-03-01 19:20:27
受美伊以沖突影響 中國男籃8月賽程撲朔迷離

受美伊以沖突影響 中國男籃8月賽程撲朔迷離

體壇周報(bào)
2026-03-02 13:57:38
美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個(gè)美國兵

美軍上尉回憶:志愿軍沖入陣地后,拿刺刀捅死看到的每一個(gè)美國兵

阿器談史
2026-02-26 17:42:09
醫(yī)生勸告:動(dòng)過心臟支架的人,這3事別再干了!后果無法承受

醫(yī)生勸告:動(dòng)過心臟支架的人,這3事別再干了!后果無法承受

阿兵科普
2026-03-02 09:53:51
伊朗稱重創(chuàng)美軍艦!安理會(huì)應(yīng)中俄要求緊急開會(huì)!聯(lián)合國秘書長(zhǎng)發(fā)表聲明

伊朗稱重創(chuàng)美軍艦!安理會(huì)應(yīng)中俄要求緊急開會(huì)!聯(lián)合國秘書長(zhǎng)發(fā)表聲明

每日經(jīng)濟(jì)新聞
2026-02-28 23:06:38
肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰也沒料到

肝癌后才懂放手!孫志浩全部遺產(chǎn)歸梧桐妹,這結(jié)局誰也沒料到

小椰的奶奶
2026-03-01 10:32:16
離岸人民幣兌美元跌破6.88

離岸人民幣兌美元跌破6.88

每日經(jīng)濟(jì)新聞
2026-03-02 08:44:35
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實(shí)

妍妍教育日記
2026-02-28 17:41:50
2026-03-02 18:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12393文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

頭條要聞

36歲副鎮(zhèn)長(zhǎng)開會(huì)暈倒除夕當(dāng)天不幸離世 家中有3個(gè)孩子

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

教育
旅游
家居
親子
手機(jī)

教育要聞

2月28日雅思大作文示范寫作 | 違規(guī)駕駛成因與最優(yōu)對(duì)策分析

旅游要聞

河南上元節(jié)去哪兒觀燈逛廟會(huì)?超全攻略在此,跟著逛就對(duì)了!

家居要聞

萬物互聯(lián) 享科技福祉

親子要聞

給中國姥姥拿鞋,一歲半的乖寶寶

手機(jī)要聞

vivo韓伯嘯揭秘X300 Ultra手機(jī)視頻拍攝升級(jí)亮點(diǎn)

無障礙瀏覽 進(jìn)入關(guān)懷版