国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AdaMCoT:讓大模型學(xué)會「看題下菜碟」,動態(tài)選擇最佳思考語言

0
分享至



多語言大模型(MLLM)在面對多語言任務(wù)時,往往面臨一個選擇難題:是用原來的語言直接回答,還是翻譯成高資源語言去推理?

實際上,不同的語言在模型內(nèi)部承載著不同的「特長」。比如英語可能邏輯性強,適合科學(xué)推理;而中文或印尼語在處理特定文化背景或押韻任務(wù)時,可能比英語更具優(yōu)勢。

如何讓模型在面對不同任務(wù)時,自動選擇一條「最順手」的推理路徑?來自新加坡科技研究局(A*STAR)Nancy F. Chen 和 Ai Ti Aw 帶領(lǐng)的研究團隊,攜手新加坡科技設(shè)計大學(xué)(SUTD)Roy Ka-Wei Lee 教授團隊共同推出了AdaMCoT(Adaptive Multilingual Chain-of-Thought)框架。AdaMCoT 的核心在于把 「用哪種語言思考」本身當(dāng)成一個可優(yōu)化的決策變量:通過自適應(yīng)地在多種語言間路由并組合鏈?zhǔn)剿伎?,再將推理結(jié)果映射回目標(biāo)語言,從而顯著提升跨語言的事實推理準(zhǔn)確性與一致性。該工作已被 AAAI 2026 主軌道接收為 Oral 論文。



  • 論文標(biāo)題: AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought
  • 論文鏈接: https://arxiv.org/abs/2501.16154
  • 作者單位: 新加坡 A*STAR Institute for Infocomm Research(I2R)、新加坡科技設(shè)計大學(xué)(SUTD)

研究背景與痛點

現(xiàn)有的跨語言推理方法通常存在「路徑依賴」:要么不做處理直接推理,容易導(dǎo)致低資源語言的幻覺;要么強制全部轉(zhuǎn)換成英語推理,這在處理需要保留原語言文化韻味或特定語義的任務(wù)(如寫詩、雙關(guān)語)時,往往會弄巧成拙。

核心問題在于:沒有一種單一的語言適合所有的任務(wù)。

為了解決這一問題,研究團隊提出了AdaMCoT框架。與其強制模型「說英語」,不如賦予模型一種自適應(yīng)的元認(rèn)知能力。AdaMCoT 能夠根據(jù)輸入問題的特性(是邏輯題、文化題還是常識題),動態(tài)地從候選語言池(Thinking Languages)中「路由」出一條最佳的思維路徑。



方法與創(chuàng)新:讓模型「換種語言思考」


AdaMCoT 并不是「先翻譯再回答」,而是引入了一個自適應(yīng)路由機制(Adaptive Routing):模型會根據(jù)問題特性,選擇是直接用目標(biāo)語言推理,還是先在英語、中文等「思考語言」中展開鏈?zhǔn)剿伎迹倩氐侥繕?biāo)語言給出答案。



1. 雙路徑推理機制

AdaMCoT 設(shè)計了兩條主要的推理路徑:

  • 跨語言思維鏈(Cross-Lingual CoT):對于與提示語言不適配的任務(wù),模型將綜合考慮主題一致性、語言知識豐富程度等因素,選取一個合適的 “思考語言”。例如面對使用馬來文提問的數(shù)學(xué)題,模型可以選擇英文或者中文作為思考語言,利用這些語言豐富的邏輯和知識儲備完成推理步驟,最后將結(jié)果整合回目標(biāo)語言。
  • 直接生成(Direct Generation):對于模型本身擅長的語言或特定任務(wù)(如寫詩、押韻),直接在源語言上進(jìn)行分析且生成答案,避免跨語言帶來的語義損耗。

2. 基于獎勵的自適應(yīng)路由

為了讓模型「知道」何時該用哪種語言思考,研究團隊引入了一個基于獎勵的微調(diào)機制。利用 GPT-4o 作為獎勵模型(Reward Model),從事實正確性、連貫性和指令遵循度等維度對不同推理路徑生成的答案進(jìn)行打分。

在訓(xùn)練階段,模型只學(xué)習(xí)那些得高分(分?jǐn)?shù) ≥ 9)的推理路徑。這種「優(yōu)勝劣汰」的機制使得 AdaMCoT 能夠根據(jù)問題類型自動切換策略。例如,處理科學(xué)問題時可能傾向于用英語思考,而處理具有文化特色的問題時則可能保留原語言。

實驗結(jié)果:全面超越傳統(tǒng)方法


研究團隊在mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU 和 Cross-LogiQA等多個多語言基準(zhǔn)上評估了 AdaMCoT,涵蓋了 LLaMA 3.1 和 Qwen 2.5 等主流開源模型。



1. 事實推理能力顯著提升

在 mTruthfulQA 數(shù)據(jù)集上,LLaMA3.1-8B-AdaMCoT 在 32 種語言中的 31 種上都取得了性能提升。

  • 對于中文,準(zhǔn)確率相對原模型提升9.0%;
  • 對于低資源語言如印度尼西亞語,相對提升高達(dá)12.7%;
  • 在匈牙利語、葡萄牙語和孟加拉語等語言上,更是實現(xiàn)了超過10%的絕對提升。

相比之下,傳統(tǒng)的 Prompt 工程方法(如 AutoCAP)和翻譯對齊方法在低資源語言上往往表現(xiàn)不佳,甚至出現(xiàn)倒退。

2. 跨語言一致性增強

實驗表明,AdaMCoT 不僅提高了回答的準(zhǔn)確率,還顯著增強了跨語言的一致性。這意味著無論用戶用哪種語言提問,模型都能調(diào)用其內(nèi)部最一致的知識庫來回答,減少了「見人說人話,見鬼說鬼話」的幻覺現(xiàn)象 。



在 mTruthfulQA 數(shù)據(jù)集上的推理路徑選擇分布。大部分情況下,模型優(yōu)先選擇高資源語言(尤其是英語和中文)作為中間推理語種,從而顯著降低錯誤率;其他語種約占 10%,主要用于提升特殊類別問題的回答準(zhǔn)確性。

深度解讀:為什么「換語言思考」有效?


為了揭示 AdaMCoT 的生效機理,研究團隊利用Logit Lens和UMAP技術(shù)對模型的內(nèi)部狀態(tài)進(jìn)行了可視化分析。



1. Logit Lens:透視模型的思考過程

通過 Logit Lens 分析發(fā)現(xiàn),當(dāng)模型直接用低資源語言回答復(fù)雜問題時,中間層的預(yù)測往往充滿噪聲和幻覺。而當(dāng) AdaMCoT 引導(dǎo)模型先用英語「思考」時,模型在早期層級就能鎖定正確的事實路徑,最終生成的答案更加自信且準(zhǔn)確。



2. UMAP:語義空間的對齊

UMAP 可視化顯示,AdaMCoT 成功拉近了不同語言在語義空間中的距離。經(jīng)過微調(diào)后,非英語語言的嵌入向量(Embeddings)顯著向英語中心靠攏。同時并沒有破壞原有的語義結(jié)構(gòu),而是在保持整體分布的前提下,讓多語言在同一空間中更加對齊。 這表明 AdaMCoT 促進(jìn)了多語言知識在語義層面的深層融合,而非簡單的表面翻譯。

總結(jié)


AdaMCoT 提出了一種全新的多語言推理范式:不改變模型參數(shù)規(guī)模,不依賴海量多語言預(yù)訓(xùn)練數(shù)據(jù),僅通過「學(xué)會如何選擇思考語言」,就能顯著釋放大模型的跨語言潛能。

這項工作不僅為提升低資源語言的 AI 性能提供了低成本的高效方案,也為理解大模型的跨語言對齊機制提供了新的視角。隨著 AI 全球化的推進(jìn),AdaMCoT 有望成為打破語言隔閡、實現(xiàn)「AI 普惠」的關(guān)鍵技術(shù)之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黑色幽默!電詐園區(qū)辦公室中文標(biāo)語,簡直是天大的諷刺

黑色幽默!電詐園區(qū)辦公室中文標(biāo)語,簡直是天大的諷刺

麥大人
2025-11-06 08:32:30
這張照片背后的故事很慘!拉那烈親王坐在輪椅上對洪森握緊拳頭

這張照片背后的故事很慘!拉那烈親王坐在輪椅上對洪森握緊拳頭

杰絲聊古今
2025-12-18 20:58:58
深圳16歲“烤雞少年”火出圈,每天能賣兩三百只烤雞,靠努力實現(xiàn)逆襲人生

深圳16歲“烤雞少年”火出圈,每天能賣兩三百只烤雞,靠努力實現(xiàn)逆襲人生

瀟湘晨報
2025-12-17 22:00:17
福建艦、山東艦的兩個相同點

福建艦、山東艦的兩個相同點

新民周刊
2025-12-18 09:13:33
NBA杯最佳陣容:布倫森、東契奇、??怂埂啔v山大和唐斯入選

NBA杯最佳陣容:布倫森、東契奇、??怂埂啔v山大和唐斯入選

懂球帝
2025-12-19 07:57:45
廣州,已倒閉餐廳最意難平top1…

廣州,已倒閉餐廳最意難平top1…

羊城攻略
2025-12-18 18:37:03
廣州一公司突發(fā)公告:董事長逝世

廣州一公司突發(fā)公告:董事長逝世

南方都市報
2025-12-18 14:20:30
曝阿莫林下賽季不再執(zhí)教曼聯(lián),兩人成替代候選!拉爵三年承諾無用

曝阿莫林下賽季不再執(zhí)教曼聯(lián),兩人成替代候選!拉爵三年承諾無用

羅米的曼聯(lián)博客
2025-12-19 07:30:10
再爆大冷4-1,中國00后淘汰冠軍名將,太強了429-4!塞爾比12連勝

再爆大冷4-1,中國00后淘汰冠軍名將,太強了429-4!塞爾比12連勝

球場沒跑道
2025-12-18 23:08:33
77歲黎智英貌似占了大便宜,只判了五年多,先看他能否活過這幾年

77歲黎智英貌似占了大便宜,只判了五年多,先看他能否活過這幾年

我心縱橫天地間
2025-12-18 14:57:22
已花費超13億!緬甸喊話各國大使:盡快接回你們在妙瓦底的公民

已花費超13億!緬甸喊話各國大使:盡快接回你們在妙瓦底的公民

興史興談
2025-12-18 08:10:09
國家文物局:正在查“8800萬藏品被拍賣”,南京博物館“遺漏”?

國家文物局:正在查“8800萬藏品被拍賣”,南京博物館“遺漏”?

奇思妙想草葉君
2025-12-18 23:51:37
索尼將退出中國,補償方案也是值得學(xué)習(xí)

索尼將退出中國,補償方案也是值得學(xué)習(xí)

比爾蓋凱
2025-12-18 22:32:52
談判宣告破裂,徐正源突然反悔,與蓉城好聚好散,下一站基本確定

談判宣告破裂,徐正源突然反悔,與蓉城好聚好散,下一站基本確定

體壇風(fēng)之子
2025-12-18 07:00:05
鞠婧祎被經(jīng)紀(jì)公司指控:涉嫌嚴(yán)重經(jīng)濟犯罪,將擇日全網(wǎng)公開實名舉報!

鞠婧祎被經(jīng)紀(jì)公司指控:涉嫌嚴(yán)重經(jīng)濟犯罪,將擇日全網(wǎng)公開實名舉報!

每日經(jīng)濟新聞
2025-12-18 13:56:43
薩拉赫連遭重創(chuàng)!落選埃及大名單+利物浦已經(jīng)尋到替代者

薩拉赫連遭重創(chuàng)!落選埃及大名單+利物浦已經(jīng)尋到替代者

夜白侃球
2025-12-18 20:37:17
雷軍官宣:小米17 Ultra下周正式發(fā)布

雷軍官宣:小米17 Ultra下周正式發(fā)布

大象新聞
2025-12-18 11:21:04
Shams:加內(nèi)特以全新身份重返森林狼,21號球衣也將舉行退役儀式

Shams:加內(nèi)特以全新身份重返森林狼,21號球衣也將舉行退役儀式

懂球帝
2025-12-18 23:20:23
全球首條!人形機器人批量上崗寧德時代電池產(chǎn)線 單日工作量較人工提升3倍

全球首條!人形機器人批量上崗寧德時代電池產(chǎn)線 單日工作量較人工提升3倍

財聯(lián)社
2025-12-18 16:05:06
“灣區(qū)之眼”回應(yīng)招牌爭議:高度重視市民意見,將優(yōu)化調(diào)整

“灣區(qū)之眼”回應(yīng)招牌爭議:高度重視市民意見,將優(yōu)化調(diào)整

南方都市報
2025-12-19 09:04:17
2025-12-19 09:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11950文章數(shù) 142513關(guān)注度
往期回顧 全部

教育要聞

一年下滑36%,加拿大國際本科生遭遇斷崖式下跌!

頭條要聞

牛彈琴:戰(zhàn)機又被照射后日本急了 有人第一個想到中國

頭條要聞

牛彈琴:戰(zhàn)機又被照射后日本急了 有人第一個想到中國

體育要聞

紐約尼克斯,板正的球隊

娛樂要聞

絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

財經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

汽車要聞

在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

房產(chǎn)
手機
教育
旅游
公開課

房產(chǎn)要聞

搶藏瘋潮!封關(guān)時代,海口頂奢王炸壓軸,傳世資產(chǎn)即刻登場!

手機要聞

2026年智能手機價格料將上漲 全球出貨恐再度下滑

教育要聞

中小學(xué)校園精細(xì)化管理中德育教育的滲透

旅游要聞

番茄小鎮(zhèn)的歡樂與承諾(旅人心語)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版