国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Cell子刊:龍爾平/萬沛星團隊發(fā)布大模型“圓桌會議”框架,大幅提升醫(yī)療AI推理能力

0
分享至


編輯丨王多魚

排版丨水成文

醫(yī)療人工智能快速發(fā)展的當下,GPT-4、Med-PaLM2 等大型語言模型在醫(yī)學(xué)問答與考試中不斷刷新紀錄,展現(xiàn)出接近人類的認知能力。然而,單一模型固有的“黑箱”局限、缺乏多視角校驗的推理機制,已成為其在真實、高風(fēng)險臨床場景中安全落地的關(guān)鍵瓶頸。如何讓 AI 像多學(xué)科專家會診一樣,實現(xiàn)交叉質(zhì)證、協(xié)同決策,是醫(yī)療 AI 走向可信、可靠必須跨越的科學(xué)鴻溝。

2026 年 1 月 5 日,中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所龍爾平團隊與北京大學(xué)基礎(chǔ)醫(yī)學(xué)院萬沛星團隊合作(中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所博士生孫欣提、洪奇陽為論文共同第一作者),在Cell Reports Medicine期刊在線發(fā)表了題為:Model confrontation and collaboration: a debate intelligence framework for enhancing medical reasoning in large language models 的研究論文。

該研究提出了“模型對抗與協(xié)作”(Model confrontation and collaboration,MCC)框架,推動醫(yī)療 AI 從“單點智能”邁向“協(xié)同推理”的范式躍遷,通過構(gòu)建可辯論、可追溯、動態(tài)協(xié)作的模型圓桌,從根本上促進了醫(yī)療 AI 向可靠、可解釋、可協(xié)作的下一代形態(tài)演進。



MCC 框架:模型對抗與協(xié)作

在這項最新研究中,研究團隊提出了“模型對抗與協(xié)作”(Model Confrontation and Collaboration,MCC)框架,將不同的大型語言模型組合成一個動態(tài)的、具備“推理-行動-反思”的圓桌式智囊團。MCC 引入共享的“上下文工作區(qū)”(shared context):將問題、已生成的候選答案、關(guān)鍵證據(jù)點與各模型的立場變化以結(jié)構(gòu)化方式寫入同一上下文記憶,并在每一輪辯論中保持對完整對話歷史的可見性,從而確保批判與修正始終基于同一事實與語境。

其核心流程可概括為——

第一步,獨立推理(Reason):GPT-o1、Qwen-QwQ、DeepSeek-R1 在同一問題上并行生成答案與關(guān)鍵論證點;隨后引入分歧門控(Gate):系統(tǒng)/主持 LLM 對候選答案進行一致性檢測,僅在出現(xiàn)分歧時激活辯論,從源頭控制額外計算開銷。

第二步,對抗辯論(Debate as Action):進入多輪消息傳遞,每輪中模型執(zhí)行“質(zhì)疑-舉證-反駁-修正”四類動作,圍繞共享上下文中的證據(jù)缺口與推理斷點開展交叉驗證:定位論證中的跳步、證據(jù)不足或概念混淆,進一步補充指南、機制與鑒別診斷依據(jù);隨后進行自我反思,審計自身推理鏈與關(guān)鍵假設(shè),并以可解釋方式更新立場與結(jié)論。

第三步,共識優(yōu)化(Consensus Optimization):每輪結(jié)束后進行共識判定與早停;若三輪內(nèi)仍不收斂,則以多數(shù)投票作為保底輸出策略。與傳統(tǒng)“靜態(tài)集成/硬投票”不同,MCC將多模型互補性顯式轉(zhuǎn)化為“基于上下文的迭代糾錯”協(xié)作過程,使異構(gòu)模型在知識覆蓋與推理偏好上的差異得以用于錯誤定位與證據(jù)對齊,從而顯著提升難題場景下的收斂質(zhì)量與輸出穩(wěn)定性。


MCC 在 MedQA 基準上的表現(xiàn)與決策動態(tài)

多項醫(yī)學(xué)基準測試獲得 SOTA 表現(xiàn)

MCC 在多項代表性醫(yī)學(xué)基準上展現(xiàn)出一致而穩(wěn)定的性能:在 MedQA 上取得 92.6%(±0.3)的平均準確率,并在多次獨立運行中顯示出穩(wěn)定性。PubMedQA 達到 84.8%;在 MMLU 醫(yī)學(xué)子集中覆蓋遺傳學(xué)、解剖學(xué)等多個科目,整體維持 90%+,并在其中五個科目獲得 SOTA 表現(xiàn)。

更重要的是,MCC 不僅在“常規(guī)題”上提升準確率,也在“更難、更接近真實風(fēng)險”的評測中保持穩(wěn)?。涸?MedXpertQA 上準確率約 40%,在該基準的對比評測中表現(xiàn)位居前列。在 MetaMedQA 中能夠識別不確定或無明確標準答案的情形并給出“未知/需補充信息”的保守處理,體現(xiàn)出更強的元認知邊界管理能力。此外,在 RABBITS 魯棒性測試中,面對藥物商品名與學(xué)名的混用與替換,MCC 性能幾乎不受影響,顯示其對臨床語言變體具有更強的泛化與穩(wěn)定性。

長文本問答:綜合回答水平更高

在開放式長問答任務(wù)中,研究團隊使用 MultiMedQA 基準并邀請醫(yī)生與非專業(yè)評審開展雙視角盲評,以評估模型在真實醫(yī)療咨詢中的綜合表達與建議能力。結(jié)果顯示,MCC 在所有維度上均優(yōu)于 GPT-o1、Qwen、DeepSeek-R1 以及 Med-PaLM2:醫(yī)生評審的 12 項指標中,MCC 在病情要點提取、推理正確性與偏差控制等關(guān)鍵維度提升 8–12 個百分點且錯誤內(nèi)容率更低;在另一組 9 項綜合質(zhì)量指標中,其缺陷率下降 3%–9%,一致性與知識覆蓋更為穩(wěn)定。進一步在 HealthBench 上,MCC 在與臨床專家共識對齊的任務(wù)中取得 92.1 的綜合評分,并在更高難度的 HealthBench Hard 中保持領(lǐng)先,體現(xiàn)出在復(fù)雜場景下的穩(wěn)健性與安全性優(yōu)勢。


開放式醫(yī)學(xué)問答輸出的多維度評估

模擬診斷對話:對話版“診療小組”

為評估 MCC 在交互式診療場景中的能力,研究團隊構(gòu)建了類醫(yī)學(xué)院 OSCE 的模擬病例對話測試:模型作為醫(yī)生與模擬患者實時交互,在完成病史采集后給出診斷與鑒別診斷。結(jié)果顯示,MCC 在病史采集階段平均可捕獲 80% 以上的關(guān)鍵患者信息點;在 16 個病例中,有 14 例的信息覆蓋率超過 80%,而單一模型在同等標準下難以穩(wěn)定達到該水平。與此同時,MCC 提出的問題與患者主訴的相關(guān)性更高(多數(shù)病例>80%),提示其問診路徑更聚焦關(guān)鍵線索、減少遺漏。在診斷結(jié)論階段,在 15 個可判定病例中,MCC 的首選診斷正確率達到 80%(12/15),并在鑒別診斷的完整性上呈現(xiàn)優(yōu)勢。典型案例是一位 56 歲女性出現(xiàn)多飲多尿、乏力與體重下降,既往以 2 型糖尿病處理但血糖控制不佳。辯論過程中,模型間交叉質(zhì)詢促使補問胰腺相關(guān)病史與上腹痛向背部放射等線索,進而將診斷從“糖尿病本身”推進至“胰腺腫瘤相關(guān)繼發(fā)性糖尿病”的更深層解釋,體現(xiàn)出“圓桌式會診”對關(guān)鍵線索召回與深入診斷推理的促進作用。


MCC 在診斷對話任務(wù)中的表現(xiàn)

展望與意義

這項研究表明,多模型對抗與協(xié)作可作為醫(yī)療推理能力增強的一種通用范式:在不引入額外任務(wù)訓(xùn)練與外部知識庫的條件下,借助結(jié)構(gòu)化辯論將不同模型的知識覆蓋與推理偏好差異顯式用于交叉核驗、證據(jù)對齊與錯誤糾偏,從而提高復(fù)雜問題上的推理收斂質(zhì)量與輸出穩(wěn)定性。需要強調(diào)的是,MCC 并非替代醫(yī)生,而是提供多角度論據(jù)與可追溯的辯論日志,幫助臨床人員降低漏診誤判風(fēng)險并提升決策透明度,同時亦具備教學(xué)示范意義。面向臨床應(yīng)用,仍需進一步推進與電子病歷及檢查結(jié)果的端到端集成、對不確定/沖突信息的處理策略,以及隱私合規(guī)與計算成本控制,使其能夠以安全、高效的方式融入真實工作流。

論文鏈接

https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00620-2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
忍無可忍!廣東隊外援發(fā)文炮轟CBA裁判,炮轟CBA

忍無可忍!廣東隊外援發(fā)文炮轟CBA裁判,炮轟CBA

體育哲人
2026-01-07 14:06:23
知名大學(xué)兩院院士被指涉及性不端行為,遭校方解雇

知名大學(xué)兩院院士被指涉及性不端行為,遭校方解雇

超級數(shù)學(xué)建模
2026-01-06 22:38:55
充電5分鐘,循環(huán)10萬次!芬蘭小廠推出全球首款量產(chǎn)固態(tài)電池

充電5分鐘,循環(huán)10萬次!芬蘭小廠推出全球首款量產(chǎn)固態(tài)電池

徐德文科學(xué)頻道
2026-01-07 20:54:22
WTT冠軍賽:女單世界亞軍一輪游!0:3不敵日本張本美和,無緣晉級

WTT冠軍賽:女單世界亞軍一輪游!0:3不敵日本張本美和,無緣晉級

國乒二三事
2026-01-07 19:20:48
廣東5分險勝深圳引熱議!徐杰關(guān)鍵拋投殺死比賽引媒體人狂贊

廣東5分險勝深圳引熱議!徐杰關(guān)鍵拋投殺死比賽引媒體人狂贊

狼叔評論
2026-01-07 22:30:11
“哥都禮共和國”宣布成立,并宣布脫離緬甸獨立

“哥都禮共和國”宣布成立,并宣布脫離緬甸獨立

曼谷陳大叔
2026-01-07 15:57:35
別被誤導(dǎo)!美軍突破委內(nèi)瑞拉防空網(wǎng),原來真不是中國雷達的問題

別被誤導(dǎo)!美軍突破委內(nèi)瑞拉防空網(wǎng),原來真不是中國雷達的問題

兵國大事
2026-01-08 00:05:06
賴清德準備抓人,鄭麗文也有危險?大陸出手,對臺獨打手終身追責

賴清德準備抓人,鄭麗文也有危險?大陸出手,對臺獨打手終身追責

觸摸史跡
2026-01-07 13:55:48
倒計時30天!央視發(fā)布冬奧觀賽指南,谷愛凌除夕夜大跳臺沖金

倒計時30天!央視發(fā)布冬奧觀賽指南,谷愛凌除夕夜大跳臺沖金

全景體育V
2026-01-07 10:39:24
準備收網(wǎng)?澤連斯基振臂一呼,在華注冊公司被制裁,中方有言在先

準備收網(wǎng)?澤連斯基振臂一呼,在華注冊公司被制裁,中方有言在先

博覽歷史
2026-01-08 00:20:03
看懂史上真實的慈安,才明白慈禧為何絞盡腦汁,一輩子都斗不過她

看懂史上真實的慈安,才明白慈禧為何絞盡腦汁,一輩子都斗不過她

近史談
2026-01-06 16:28:59
35歲鄭爽近照曝光!臉部又僵又腫,徹底淪為素人,孩子身影曝光

35歲鄭爽近照曝光!臉部又僵又腫,徹底淪為素人,孩子身影曝光

葉公子
2026-01-07 20:11:46
小米,這次不是別人黑你們了吧!

小米,這次不是別人黑你們了吧!

亮見
2026-01-07 14:48:20
方便面巨頭涼了!從年銷20億到無人買,因老板野心大,3年干倒閉

方便面巨頭涼了!從年銷20億到無人買,因老板野心大,3年干倒閉

以茶帶書
2025-12-05 17:10:50
大陸博主曝光“臺獨”頑固分子沈伯洋住處和工作場所,國臺辦回應(yīng)

大陸博主曝光“臺獨”頑固分子沈伯洋住處和工作場所,國臺辦回應(yīng)

界面新聞
2026-01-07 10:59:20
別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

詩意世界
2026-01-03 15:19:25
馬杜羅還有救,聯(lián)合國召開大會,6國出面救人,朝鮮下令發(fā)射導(dǎo)彈

馬杜羅還有救,聯(lián)合國召開大會,6國出面救人,朝鮮下令發(fā)射導(dǎo)彈

軍機Talk
2026-01-06 10:23:09
27歲女生黃山墜亡最新!遇難細節(jié)蹊蹺,銀行卡被清空,家屬曝猛料

27歲女生黃山墜亡最新!遇難細節(jié)蹊蹺,銀行卡被清空,家屬曝猛料

游者走天下
2026-01-06 15:44:51
普通車廂站不直,商務(wù)車廂能打盹?深圳地鐵11號線車廂設(shè)置引熱議,地鐵回應(yīng):沒有取消計劃

普通車廂站不直,商務(wù)車廂能打盹?深圳地鐵11號線車廂設(shè)置引熱議,地鐵回應(yīng):沒有取消計劃

大風(fēng)新聞
2026-01-07 21:36:03
午后突變!貴金屬,全線跳水!

午后突變!貴金屬,全線跳水!

證券時報
2026-01-07 14:55:07
2026-01-08 01:00:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8681文章數(shù) 144958關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會:揭秘新款大殺器

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國 中方回應(yīng)

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國 中方回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

時尚
手機
教育
親子
家居

李夢系穿搭,就這么養(yǎng)成了

手機要聞

曝Galaxy S26系列2月25日發(fā)布,不會漲價!

教育要聞

中等生的“勤奮”,為何毫無回報

親子要聞

雀巢召回多國嬰兒配方奶粉,涉及中國市場71個批次

家居要聞

寧靜不單調(diào) 恰到好處的美

無障礙瀏覽 進入關(guān)懷版