国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 | 填補(bǔ)多語言語音幻覺檢測(cè)空白,CCFQA基準(zhǔn)助力評(píng)估大模型跨語言與跨模態(tài)事實(shí)一致性

0
分享至

隨著多模態(tài)大語言模型(MLLMs)在多語言場(chǎng)景中的廣泛應(yīng)用,模型的事實(shí)準(zhǔn)確性問題日益凸顯。然而,現(xiàn)有事實(shí)性評(píng)估基準(zhǔn)主要聚焦英語文本或視覺模態(tài),對(duì)多語言、尤其是語音輸入的評(píng)估仍存在明顯不足。

為此,哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與交互機(jī)器人研究中心知識(shí)計(jì)算組聯(lián)合鵬城實(shí)驗(yàn)室數(shù)據(jù)智能研究所,提出跨語言跨模態(tài)事實(shí)性基準(zhǔn) CCFQA。該基準(zhǔn)包含覆蓋 8 種語言的平行語音—文本事實(shí)問答數(shù)據(jù),用于系統(tǒng)評(píng)估 MLLMs 在跨語言與跨模態(tài)條件下的事實(shí)一致性。實(shí)驗(yàn)結(jié)果顯示,現(xiàn)有模型在多語言語音問答任務(wù)中表現(xiàn)受限,語音與文本輸入下的回答存在顯著不一致。針對(duì)這一問題,本文提出一種基于少樣本遷移學(xué)習(xí)的改進(jìn)方法,以提升模型的事實(shí)準(zhǔn)確性。該研究已被 AAAI 2026 接收。


論文名稱: CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation 論文鏈接: https://arxiv.org/pdf/2508.07295 代碼鏈接: https://github.com/yxduir/ccfqa 數(shù)據(jù)集鏈接: https://huggingface.co/datasets/yxdu/ccfqa
一、引言

隨著多模態(tài)大語言模型(MLLMs)在多語言環(huán)境中的日益普及,確保無幻覺的事實(shí)準(zhǔn)確性變得尤為重要。然而,現(xiàn)有評(píng)估可靠性的基準(zhǔn)主要集中在以英語為主的文本或視覺模態(tài),這導(dǎo)致在處理多語言輸入(尤其是語音)時(shí)存在評(píng)估空白。

為彌補(bǔ)這一不足,哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與交互機(jī)器人研究中心知識(shí)計(jì)算組和鵬城實(shí)驗(yàn)室數(shù)據(jù)智能研究所聯(lián)合發(fā)布跨語言跨模態(tài)事實(shí)性基準(zhǔn)(CCFQA),以推動(dòng)具備更可靠語音理解能力的MLLMs發(fā)展。該基準(zhǔn)包含涵蓋8種語言的平行語音-文本事實(shí)問答數(shù)據(jù)集,旨在系統(tǒng)評(píng)估MLLMs的跨語言與跨模態(tài)事實(shí)性一致性能力。

實(shí)驗(yàn)結(jié)果表明,當(dāng)前多模態(tài)大語言模型在CCFQA基準(zhǔn)上仍面臨顯著挑戰(zhàn),尤其是在多語言語音問答任務(wù)中表現(xiàn)有待提升,模型對(duì)語音與文本輸入的回復(fù)存在明顯不一致。針對(duì)MLLMs的跨語言與跨模態(tài)事實(shí)不一致問題,本文提出了一種基于少樣本遷移學(xué)習(xí)的改進(jìn)策略,旨在增強(qiáng)模型的事實(shí)準(zhǔn)確性。該論文現(xiàn)已被AAAI 2026錄用。


圖1:MLLM中的事實(shí)性不一致(a)對(duì)同一問題,不同語言回復(fù)的答案不一致;(b)對(duì)同一問題,不同模態(tài)輸入的答案不一致。 二、CCFQA基準(zhǔn)介紹 2.1 事實(shí)性基準(zhǔn)

事實(shí)性基準(zhǔn)作為評(píng)幻覺的有效工具受到越來越多關(guān)注。如表1所示,當(dāng)前基準(zhǔn)側(cè)重于文本或視覺輸入,且主要針對(duì)英語設(shè)計(jì),缺乏對(duì)多語言語音場(chǎng)景的覆蓋。目前仍然缺少用于評(píng)估多語言語音設(shè)置下模型事實(shí)性的綜合基準(zhǔn)。


表1:CCFQA與已有基準(zhǔn)對(duì)比 2.2 CCFQA介紹

為了彌補(bǔ)多語言語音幻覺檢測(cè)空白,研究團(tuán)隊(duì)提出了跨語言和跨模態(tài)事實(shí)性基準(zhǔn)(CCFQA),系統(tǒng)評(píng)估MLLM在跨語言和跨模態(tài)場(chǎng)景中的事實(shí)知識(shí)一致性。CCFQA基準(zhǔn)的獨(dú)特之處在于,每個(gè)事實(shí)性問題都以文本和語音兩種輸入形式呈現(xiàn),旨在評(píng)估MLLM在不同語言和輸入模態(tài)之間的一致性:

  • 跨語言一致性:模型能否在多種語言中產(chǎn)生等效的答案?

  • 跨模態(tài)一致性:模型能否在文本和語音輸入之間保持答案質(zhì)量?

該基準(zhǔn)包含8種語言的平行語音-文本事實(shí)性問題:英語、中文普通話、法語、日語、韓語、俄語、西班牙語、港式粵語。


表2:CCFQA樣本示例

研究團(tuán)隊(duì)從MKQA和MOOCCubeX數(shù)據(jù)集中收集原始英文問答文本,經(jīng)過翻譯和真人錄制,最終構(gòu)建了包含14,400個(gè)語音和文本問題樣本的高質(zhì)量數(shù)據(jù)集,涵蓋20個(gè)不同領(lǐng)域知識(shí)類別。

CCFQA基準(zhǔn)支持四種任務(wù)設(shè)置:多語言文本問答(QA)、跨語言文本問答(XQA)、多語言口語問答(SQA)、跨語言口語問答(XSQA)。


圖2:CCFQA數(shù)據(jù)集統(tǒng)計(jì) 三、少樣本遷移學(xué)習(xí)策略

為了提高M(jìn)LLM在事實(shí)知識(shí)方面的一致性,研究團(tuán)隊(duì)提出了一種基于英語作為樞紐語言的策略,以彌合跨語言問答中的知識(shí)鴻溝。該方法采用了一種簡(jiǎn)潔而有效的端到端流程:首先將非英語問題翻譯成英語,然后利用LLM在英語語境下強(qiáng)大的事實(shí)推理能力生成答案,最后將答案翻譯回目標(biāo)語言。實(shí)驗(yàn)表明,該方法僅需使用5樣本進(jìn)行跨語言語音問答訓(xùn)練,即可實(shí)現(xiàn)多語言語音問答功能,顯著提升了MLLM的事實(shí)一致性和可靠性。


圖3:少樣本遷移學(xué)習(xí)策略 四、實(shí)驗(yàn)

系統(tǒng)評(píng)估表明,現(xiàn)有MLLM在跨語言和跨模態(tài)的事實(shí)知識(shí)方面存在顯著不一致。即使是簡(jiǎn)單的問題,模型在同一查詢以不同語言或模態(tài)呈現(xiàn)時(shí),也經(jīng)常產(chǎn)生矛盾的答案,這凸顯了在多樣化輸入下保持事實(shí)一致性的難度。

實(shí)驗(yàn)結(jié)果顯示,當(dāng)前多模態(tài)大語言模型在CCFQA 基準(zhǔn)上仍面臨嚴(yán)峻挑戰(zhàn),尤其在跨語言和跨模態(tài)場(chǎng)景中,模型性能顯著下降。實(shí)驗(yàn)對(duì)比了包括 GPT-4o-mini-Audio、Qwen2.5-Omni等當(dāng)前效果最佳的多模態(tài)大語言模型。結(jié)果表明,當(dāng)前主流多模態(tài)大語言模型在多語言語音問答任務(wù)中,普遍存在相比文本模態(tài)明顯的性能不一致問題。


表3:MLLMs在4個(gè)任務(wù)上的F1和LLM評(píng)估得分 五、總結(jié)

本研究針對(duì)多模態(tài)大語言模型在多語言語音中存在的事實(shí)性幻覺問題,提出了一個(gè)名為CCFQA的創(chuàng)新基準(zhǔn)。該基準(zhǔn)填補(bǔ)了現(xiàn)有評(píng)估體系在多語言語音模態(tài)上的空白,涵蓋8種語言的平行語音-文本問答數(shù)據(jù),支持跨語言與跨模態(tài)一致性評(píng)估。實(shí)驗(yàn)表明,當(dāng)前MLLMs在應(yīng)對(duì)不同語言和輸入模態(tài)時(shí)存在顯著的事實(shí)不一致性。后續(xù)的研究有待在提升提升模型在多語言與跨模態(tài)場(chǎng)景下的一致性,并探索更有效的抗幻覺方法。

論文作者:都業(yè)興,劉開元,潘囿丞,初征,楊博,馮驍騁,劉銘,相洋 來源:公眾號(hào)【賽爾實(shí)驗(yàn)室】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃


TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。


投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測(cè)!奪冠幾乎不可能了?

2026年美加墨世界杯阿根廷最強(qiáng)陣容預(yù)測(cè)!奪冠幾乎不可能了?

體壇八點(diǎn)半的那些事兒
2026-03-13 18:50:31
隨著朝鮮1-2出局,2026女足亞洲杯四強(qiáng)誕生1席:東道主昂首晉級(jí)

隨著朝鮮1-2出局,2026女足亞洲杯四強(qiáng)誕生1席:東道主昂首晉級(jí)

側(cè)身凌空斬
2026-03-13 19:57:06
1170萬桶原油通過霍爾木茲,全部開往中國,特朗普第一次這么無力

1170萬桶原油通過霍爾木茲,全部開往中國,特朗普第一次這么無力

王裕慶
2026-03-13 13:02:47
“唯一貧窮的路被你找到了”,專八女生留守農(nóng)村,網(wǎng)友恨鐵不成鋼

“唯一貧窮的路被你找到了”,專八女生留守農(nóng)村,網(wǎng)友恨鐵不成鋼

妍妍教育日記
2026-03-13 21:47:44
陪玩陪睡僅冰山一角!關(guān)曉彤被公開“內(nèi)涵”,這一次誰也救不了她

陪玩陪睡僅冰山一角!關(guān)曉彤被公開“內(nèi)涵”,這一次誰也救不了她

動(dòng)物奇奇怪怪
2026-03-13 20:42:15
看哭了!大量伊朗人正在“逆行”回國 土伊邊境兩小時(shí)就有4波人返回伊朗

看哭了!大量伊朗人正在“逆行”回國 土伊邊境兩小時(shí)就有4波人返回伊朗

閃電新聞
2026-03-11 14:25:52
第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

鐵錘簡(jiǎn)科
2026-03-13 18:10:20
滯留吉隆坡!伊朗女足球員護(hù)照+手機(jī)被沒收 被特工包圍 滿臉恐懼

滯留吉隆坡!伊朗女足球員護(hù)照+手機(jī)被沒收 被特工包圍 滿臉恐懼

念洲
2026-03-13 09:50:47
隨著廣東4分險(xiǎn)勝,遼寧逆轉(zhuǎn),CBA最新排名如下!深圳3連敗排第6

隨著廣東4分險(xiǎn)勝,遼寧逆轉(zhuǎn),CBA最新排名如下!深圳3連敗排第6

薇說體育
2026-03-13 22:45:56
去世4個(gè)月后,翁帆被傳跑到英國享福,印證了楊振寧生前的評(píng)價(jià)

去世4個(gè)月后,翁帆被傳跑到英國享福,印證了楊振寧生前的評(píng)價(jià)

林輕吟
2026-03-12 07:28:08
終于平賬了!一深圳業(yè)主2017年花210萬買70平米房子,如今賣210萬

終于平賬了!一深圳業(yè)主2017年花210萬買70平米房子,如今賣210萬

火山詩話
2026-03-11 13:29:00
告訴大家一個(gè)壞消息:北京、廣州已出現(xiàn)4個(gè)怪象,值得每個(gè)人深思

告訴大家一個(gè)壞消息:北京、廣州已出現(xiàn)4個(gè)怪象,值得每個(gè)人深思

巢客HOME
2026-03-14 04:10:03
再見快船!倫納德“陰陽合同”處罰出爐,網(wǎng)友:活該

再見快船!倫納德“陰陽合同”處罰出爐,網(wǎng)友:活該

海闊山遙YAO
2026-03-13 17:22:54
火鍋店竹筒餐具現(xiàn)黑色斑點(diǎn),店方否認(rèn)發(fā)霉,監(jiān)管部門:已送檢并責(zé)令下架類似問題餐具

火鍋店竹筒餐具現(xiàn)黑色斑點(diǎn),店方否認(rèn)發(fā)霉,監(jiān)管部門:已送檢并責(zé)令下架類似問題餐具

極目新聞
2026-03-13 19:52:03
伊朗拒絕中國人捐錢,向俄羅斯開口求援,欠中國的人情賬夠多了

伊朗拒絕中國人捐錢,向俄羅斯開口求援,欠中國的人情賬夠多了

王裕慶
2026-03-13 17:07:33
誰在隔岸觀火?當(dāng)美以與革命衛(wèi)隊(duì)血戰(zhàn)

誰在隔岸觀火?當(dāng)美以與革命衛(wèi)隊(duì)血戰(zhàn)

民間胡扯老哥
2026-03-11 21:13:32
朝中社:日本推動(dòng)軍國主義復(fù)活將觸碰“紅線”

朝中社:日本推動(dòng)軍國主義復(fù)活將觸碰“紅線”

界面新聞
2026-03-13 12:18:11
比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

比安東尼還坑!曼聯(lián) 5000 萬新水貨,弗格森后最爛引援!

瀾歸序
2026-03-14 04:18:00
遼寧兩新外太好用!哈維主導(dǎo)三分,布羅金頓爆破,合體可主導(dǎo)攻守

遼寧兩新外太好用!哈維主導(dǎo)三分,布羅金頓爆破,合體可主導(dǎo)攻守

籃球資訊達(dá)人
2026-03-14 00:29:09
追覓宣布發(fā)射200萬顆衛(wèi)星!

追覓宣布發(fā)射200萬顆衛(wèi)星!

中國半導(dǎo)體論壇
2026-03-11 22:00:09
2026-03-14 05:59:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

頭條要聞

穆杰塔巴"亮相"沒講話 伊朗學(xué)者:其處境可能非常危險(xiǎn)

體育要聞

叕戰(zhàn)奧運(yùn),張雨霏要做回“小將”

娛樂要聞

廣電總局公布演員將用姓氏筆畫定番位

財(cái)經(jīng)要聞

“十五五”規(guī)劃綱要,全文來了!

汽車要聞

置換補(bǔ)貼價(jià)8.68萬 五菱繽果S 525km旗艦款上市

態(tài)度原創(chuàng)

本地
藝術(shù)
房產(chǎn)
公開課
軍事航空

本地新聞

坐標(biāo)北京,過敏季反向遷徒

藝術(shù)要聞

古代十大豪宅,放現(xiàn)在得值多少錢??!

房產(chǎn)要聞

不容易啊!??诮K于又要賣地了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗稱襲擊"林肯"號(hào)航母致其撤走

無障礙瀏覽 進(jìn)入關(guān)懷版