国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國團(tuán)隊(duì)首次Nature子刊發(fā)布醫(yī)療AI標(biāo)準(zhǔn),未來醫(yī)生MedGPT全球奪冠

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

中國團(tuán)隊(duì)首次在全球頂尖期刊發(fā)表“大模型+醫(yī)療”領(lǐng)域的相關(guān)標(biāo)準(zhǔn)研究!

作為Nature體系中專注于數(shù)字醫(yī)療的旗艦期刊,《npj Digital Medicine》(JCR影響因子15.1,中科院醫(yī)學(xué)大類1區(qū)Top期刊)此次收錄的CSEDB研究,首次提出了一套用于評估醫(yī)療大模型真實(shí)臨床能力的系統(tǒng)性框架。

它由中國AI醫(yī)療公司“未來醫(yī)生”協(xié)同32位來自北京協(xié)和醫(yī)院、中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院、北京大學(xué)口腔醫(yī)院、中國醫(yī)學(xué)科學(xué)院阜外醫(yī)院、中國人民解放軍總醫(yī)院、復(fù)旦大學(xué)附屬華山醫(yī)院、上海市同濟(jì)醫(yī)院等頂尖醫(yī)療機(jī)構(gòu)的23個核心專科的一線臨床專家共同制定。



CSEDB全稱為Clinical Safety-Effectiveness Dual-Track Benchmark(臨床安全性與有效性雙軌基準(zhǔn)),它首次為評估醫(yī)療AI真實(shí)臨床能力建立了一個基于臨床專家共識、覆蓋全面風(fēng)險(xiǎn)維度,并將安全性與有效性分開考量的標(biāo)準(zhǔn)化基準(zhǔn)。

通過公開實(shí)驗(yàn),CSEDB直接給出了不同模型在同一標(biāo)尺下的臨床能力對照結(jié)果。

看到CSEDB登上Nature子刊后,GlobalMD創(chuàng)始人Tim Shi非常激動:

  • 這正是我們一直在等待的市場信號!
    由中國推動的標(biāo)準(zhǔn)+MedGPT的表現(xiàn)=真正的差異化。



從行業(yè)角度看,這項(xiàng)研究釋放出了一個清晰的信號:

  • 醫(yī)療AI的競爭,正在從能力展示階段,正式進(jìn)入責(zé)任定義階段。
CSEDB憑什么被權(quán)威期刊認(rèn)可?

醫(yī)療既是高價值場景,也是高風(fēng)險(xiǎn)場景,最近這條賽道上熱鬧非凡,包括谷歌、OpenAI、Anthropic等在內(nèi),都在加速押注醫(yī)療AI。

回看醫(yī)療AI發(fā)展至今的軌跡,有一個矛盾始終難以化解——

現(xiàn)有評估體系往往圍繞學(xué)術(shù)數(shù)據(jù)集展開,更多關(guān)注準(zhǔn)確率、召回率等統(tǒng)計(jì)指標(biāo),但鮮少回答在真實(shí)場景中部署使用會帶來什么結(jié)果。

而針對人類醫(yī)生設(shè)置的執(zhí)業(yè)醫(yī)師考試,難以覆蓋真實(shí)場景所需。

“真實(shí)臨床工作的復(fù)雜性遠(yuǎn)超考試?!北本﹨f(xié)和醫(yī)院胸外科主任醫(yī)師梁乃新教授告訴量子位,執(zhí)業(yè)醫(yī)師考試是一種通過性門檻,核心是考核基礎(chǔ)規(guī)范與“不犯錯”的能力。在面對個體化治療與多病共存的患者時,醫(yī)生的核心價值在于做出追求更好的綜合判斷。

所以,醫(yī)療AI往往在評測榜單上表現(xiàn)亮眼,但很難在真實(shí)診療環(huán)境中驗(yàn)證安全性和有效性。

正是在這樣的背景下,CSEDB被提出。

CSEDB由未來醫(yī)生協(xié)同32位來自頂尖醫(yī)療機(jī)構(gòu)23個核心??频囊痪€臨床專家共同制定。

最為創(chuàng)新的地方,在于CSEDB在醫(yī)療AI評估中首次引入了“安全性”與“有效性”雙軌評價體系。

與以往算總分的評測標(biāo)準(zhǔn)不同,CSEDB一條軌道專注安全性,另一條軌道衡量有效性,只有同時通過這兩道門檻,模型才被認(rèn)為具備臨床部署的基本資格。



更關(guān)鍵的是,CSEDB還進(jìn)一步在指標(biāo)設(shè)計(jì)上引入了風(fēng)險(xiǎn)權(quán)重機(jī)制,每一項(xiàng)評估指標(biāo)都會根據(jù)其潛在臨床風(fēng)險(xiǎn),被賦予1到5級的權(quán)重。

涉及誤診、禁忌用藥等高風(fēng)險(xiǎn)情境的指標(biāo),會對總評分產(chǎn)生顯著影響。

這種設(shè)計(jì)邏輯在評估階段就模擬醫(yī)療決策中的風(fēng)險(xiǎn)分級體系,把“安全優(yōu)先”嵌入到評分結(jié)構(gòu)之中。



為了支撐好CSEDB,專家團(tuán)隊(duì)特意構(gòu)建了一個面向真實(shí)臨床問題的數(shù)據(jù)集。

整套評估體系共涵蓋了2069個開放式問答條目,覆蓋26個臨床??啤?/p>

這些問答場景高度貼近一線實(shí)際的臨床病例推演,涵蓋危急重癥狀識別、致死性診斷失誤、劑量與器官功能失配、嚴(yán)重過敏史忽視、常見病正確診斷、多病并存優(yōu)先級、并發(fā)癥預(yù)警提示等關(guān)鍵場景,強(qiáng)調(diào)模型在連續(xù)決策中的表現(xiàn)。

從評估邏輯上看,CSEDB關(guān)注的核心并非模型“知道多少”,而是模型“如果這樣判斷,會發(fā)生什么”。

這種以醫(yī)療后果為中心的設(shè)計(jì),讓它天然具備部署導(dǎo)向和監(jiān)管友好性,同時具備向不同醫(yī)療體系擴(kuò)展的潛力。

從根本上改變評估目標(biāo),兼具專業(yè)性和完整性,方法論上可復(fù)現(xiàn)、可推廣,讓CSEDB能夠覆蓋真實(shí)臨床風(fēng)險(xiǎn),為不同國家的不同醫(yī)療機(jī)構(gòu)采用同一標(biāo)尺提供了可能。

推特上有網(wǎng)友留言:

  • CSEDB被Nature子刊收錄,可能有助于評估GPT的新應(yīng)用。



在這套框架下,專家團(tuán)隊(duì)評估了全球范圍內(nèi)的主流大模型,包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等在內(nèi),悉數(shù)接受了這套嚴(yán)格測試。

結(jié)果頗具沖擊力——

在總體得分、安全性和有效性三個核心維度上,中國未來醫(yī)生團(tuán)隊(duì)推出的MedGPT均位列第一。

尤其在安全性指標(biāo)上,MedGPT與其他模型拉開了顯著差距,更是唯一一個在安全性評分上超過有效性的模型。



臨床安全和有效性持續(xù)收斂,MedGPT技術(shù)大拆箱

奪冠的MedGPT是什么來頭?

由中國AI醫(yī)療公司“未來醫(yī)生”推出,是一個原生為臨床使用場景設(shè)計(jì)的醫(yī)療大模型。



鑒于醫(yī)療決策本身并不均質(zhì),MedGPT的核心架構(gòu)設(shè)計(jì)了快慢雙系統(tǒng)模式。

大量臨床場景其實(shí)高度常規(guī),路徑清晰、風(fēng)險(xiǎn)可控,并且在醫(yī)療場景中對響應(yīng)速度要求高,快慢雙系統(tǒng)中的“快系統(tǒng)”專為這類場景而設(shè)計(jì)。

它采用輕量化的推理結(jié)構(gòu),在高度結(jié)構(gòu)化的醫(yī)學(xué)知識約束下,快速生成候選結(jié)論,響應(yīng)時間可以壓縮到百毫秒量級。

簡單來說,快系統(tǒng)追求在低風(fēng)險(xiǎn)前提下的穩(wěn)定輸出,避免在簡單問題上過度消耗算力和推理成本。

但醫(yī)療場景里還有一些棘手的問題,比如有的患者癥狀不典型,或存在合并癥或用藥沖突的情況。這種時候,需要對其病癥反復(fù)推敲,才能下診斷。

在此類復(fù)雜場景下,即便人類醫(yī)生也面臨較高的誤判風(fēng)險(xiǎn),而AI模型還存在幻覺問題,單一的快系統(tǒng)機(jī)制顯然不足以保證安全性。

針對那些高復(fù)雜度、高風(fēng)險(xiǎn)場景,MedGPT則自備了一套“慢系統(tǒng)”。

慢系統(tǒng)會主動拉長推理鏈,引入多階段臨床演繹路徑,將診斷拆解為病史分析-鑒別診斷-結(jié)論驗(yàn)證等多個步驟,并調(diào)用更豐富的醫(yī)學(xué)知識庫與專家經(jīng)驗(yàn)進(jìn)行交叉校驗(yàn)。

雖然存在兩套系統(tǒng),但MedGPT并不會說讓兩套系統(tǒng)并行給出答案然后簡單擇優(yōu),它會根據(jù)問題的風(fēng)險(xiǎn)等級、信息不確定性以及潛在后果,動態(tài)決定是否從快系統(tǒng)升級到慢系統(tǒng)。

為了進(jìn)一步確保嚴(yán)謹(jǐn)性,MedGPT還進(jìn)一步引入了專門的風(fēng)險(xiǎn)調(diào)和與控制機(jī)制“ACC層”,來處理兩套系統(tǒng)輸出之間的沖突。

當(dāng)快系統(tǒng)給出的直覺性結(jié)論,與慢系統(tǒng)在深度推理中發(fā)現(xiàn)的風(fēng)險(xiǎn)信號出現(xiàn)不一致時,系統(tǒng)會優(yōu)先觸發(fā)風(fēng)險(xiǎn)約束,重新審視推理路徑,必要時直接拒絕輸出,并引導(dǎo)轉(zhuǎn)向人工就醫(yī)。

在訓(xùn)練和數(shù)據(jù)層面,MedGPT通過結(jié)構(gòu)化方式內(nèi)化了醫(yī)學(xué)知識體系。模型內(nèi)化醫(yī)學(xué)知識體系后,推理時會更接近醫(yī)學(xué)決策的真實(shí)路徑。

注意!MedGPT還在使用中不斷進(jìn)化。

每周,來自超過一萬名醫(yī)生的兩萬條診療反饋會沉淀,納入模型推理單元訓(xùn)練形成數(shù)據(jù)飛輪。從結(jié)果上來看,MedGPT每月準(zhǔn)確率均穩(wěn)定提升1.2%-1.5%。

不過,不是所有人都能根據(jù)快慢雙系統(tǒng)復(fù)刻出另一個MedGPT:MedGPT身上還有可以被拆解、被驗(yàn)證,也被真實(shí)運(yùn)行過的工程結(jié)果。

首先是醫(yī)學(xué)邏輯被顯式建模。

MedGPT主動把臨床決策過程拆成結(jié)構(gòu)化路徑,從病史分析、初步判斷,到鑒別診斷和結(jié)論驗(yàn)證,每一步都對應(yīng)明確的醫(yī)學(xué)知識來源和校驗(yàn)規(guī)則。

模型不再只是給結(jié)論,而是沿著一條可追溯的醫(yī)學(xué)邏輯鏈條推進(jìn),錯誤不容易被“一次生成”掩蓋。

其次是臨床風(fēng)險(xiǎn)被量化控制。

無論是快慢雙系統(tǒng)的分流,還是ACC層的風(fēng)險(xiǎn)調(diào)和,MedGPT把臨床可能遇到的風(fēng)險(xiǎn)前置到推理過程中。

高風(fēng)險(xiǎn)場景下,系統(tǒng)會主動提高驗(yàn)證門檻,甚至觸發(fā)拒答和就醫(yī)引導(dǎo),用工程化能力讓產(chǎn)品劃清責(zé)任邊界。

最后,也是最容易被忽略的一點(diǎn),那就是臨床反饋形成的動態(tài)閉環(huán)。

MedGPT在真實(shí)使用中持續(xù)接收醫(yī)生反饋,每周沉淀大量規(guī)則更新。

這些反饋并不只是“好不好用”的主觀評價,會直接作用于慢系統(tǒng)的推理路徑修正和風(fēng)險(xiǎn)策略調(diào)整,使模型的進(jìn)化方向始終由真實(shí)診療場景牽引。

綜上所述,醫(yī)學(xué)邏輯的顯式建模、臨床風(fēng)險(xiǎn)的量化控制以及臨床反饋的動態(tài)閉環(huán)這三層機(jī)制的疊加,讓安全性與有效性在MedGPT身上持續(xù)收斂,構(gòu)成了其難以被簡單復(fù)刻的核心壁壘。

故而MedGPT能在CSEDB中展現(xiàn)出優(yōu)勢。



而這個尊重醫(yī)學(xué)復(fù)雜性,且其設(shè)計(jì)哲學(xué)與評估標(biāo)準(zhǔn)高度一致的MedGPT,被團(tuán)隊(duì)設(shè)計(jì)為未來醫(yī)生產(chǎn)品體系的核心動力引擎。

讓醫(yī)療AI能力在使用中收斂

如果只把模型當(dāng)成技術(shù)能力的展示,那么一時在榜單上奪冠便已足夠。

然而對于未來醫(yī)生團(tuán)隊(duì)而言,比模型能力展示更重要的,是如何將技術(shù)優(yōu)勢轉(zhuǎn)化為真實(shí)的臨床價值。

未來醫(yī)生以通過CSEDB嚴(yán)格驗(yàn)證的MedGPT為核心,構(gòu)建了精準(zhǔn)匹配不同醫(yī)療角色與場景的產(chǎn)品矩陣

? 患者側(cè)的“未來醫(yī)生”,7*24小時為用戶提供高質(zhì)量、負(fù)責(zé)任、可追溯的嚴(yán)肅診療服務(wù),致力于“讓頂級專家免費(fèi)在線給全國人民看病”;
? 醫(yī)生側(cè)的“未來醫(yī)生AI工作室”,深度嵌入診療決策流程,成為醫(yī)生的智能協(xié)作者;
? 基層醫(yī)療場景下的“未來家醫(yī)”,則為資源有限的基層機(jī)構(gòu)提供持續(xù)、可靠的輔助支持。
? ……

這些產(chǎn)品讓技術(shù)主動適配臨床工作流,在每一個環(huán)節(jié)追求可衡量的效率提升與風(fēng)險(xiǎn)控制,目標(biāo)是通過AI新技術(shù)實(shí)現(xiàn)優(yōu)質(zhì)醫(yī)療資源的無限復(fù)制,進(jìn)而改變醫(yī)療資源供給不足引發(fā)的諸多困境,最終使高品質(zhì)的健康與醫(yī)療服務(wù)變得人人可及。

技術(shù)能力通過CSEDB這樣的評估框架得到驗(yàn)證,產(chǎn)品體系又讓這些能力持續(xù)暴露在真實(shí)使用場景中反復(fù)檢驗(yàn),一個獨(dú)特的“牽引式”進(jìn)化閉環(huán)就此誕生了。

技術(shù)能力通過CSEDB的驗(yàn)證獲得“準(zhǔn)生證”,產(chǎn)品矩陣則將其置于真實(shí)場景中反復(fù)淬煉。

技術(shù)被迫遵從臨床流程的嚴(yán)格約束,產(chǎn)品則通過用戶反饋不斷向技術(shù)提出更高、更精準(zhǔn)的要求。二者相互牽引,驅(qū)動系統(tǒng)向更可用、更可控的方向持續(xù)演進(jìn)。

在醫(yī)療AI這場馬拉松中,短期技術(shù)領(lǐng)先并不罕見,長期兌現(xiàn)的臨床價值卻極其稀缺。

放在更長的時間尺度中,榜單會變化,標(biāo)準(zhǔn)也會不斷升級……醫(yī)療AI的競爭,更像一場長期耐力測試。

技術(shù)、評估、產(chǎn)品三者的協(xié)同,正在成為醫(yī)療AI能否深入臨床的決定性因素。

這正在重新定義醫(yī)療AI通往臨床的核心路徑,從追求榜單上的智能,轉(zhuǎn)向兌現(xiàn)診療中的信任。

刊發(fā)網(wǎng)頁:
https://www.nature.com/articles/s41746-025-02277-8

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴特勒報(bào)銷影響:勇士最多落后30分結(jié)束4連勝 庫里16-40遭打爆

巴特勒報(bào)銷影響:勇士最多落后30分結(jié)束4連勝 庫里16-40遭打爆

醉臥浮生
2026-01-21 13:35:08
準(zhǔn)備開搶!美媒曬交易市場5條熱門大魚:巴特勒賽季報(bào)銷影響數(shù)人

準(zhǔn)備開搶!美媒曬交易市場5條熱門大魚:巴特勒賽季報(bào)銷影響數(shù)人

鍋?zhàn)踊@球
2026-01-20 21:33:35
一集比一集上頭,Netflix新劇又爆了!連刷全集!

一集比一集上頭,Netflix新劇又爆了!連刷全集!

楓塵余往逝
2026-01-21 07:13:46
北京一對夫妻深夜吵架,丈夫放話“不想活了”后離家出走,從五環(huán)走到四環(huán),警察:您可真能走,找了您一宿

北京一對夫妻深夜吵架,丈夫放話“不想活了”后離家出走,從五環(huán)走到四環(huán),警察:您可真能走,找了您一宿

環(huán)球網(wǎng)資訊
2026-01-20 21:13:11
北約盟友集體反水!馬克龍拒絕慘遭報(bào)復(fù),俄羅斯有人樂了…

北約盟友集體反水!馬克龍拒絕慘遭報(bào)復(fù),俄羅斯有人樂了…

新財(cái)迷
2026-01-21 10:34:12
1971年,毛主席選了黨、政、軍的接班人,唯有他走到了最后

1971年,毛主席選了黨、政、軍的接班人,唯有他走到了最后

大運(yùn)河時空
2026-01-20 18:50:03
特朗普發(fā)了張圖,加拿大、格陵蘭和委內(nèi)瑞拉都被涂上星條旗!加拿大:已模擬美軍事入侵;美財(cái)長警告歐洲:不許關(guān)稅報(bào)復(fù)

特朗普發(fā)了張圖,加拿大、格陵蘭和委內(nèi)瑞拉都被涂上星條旗!加拿大:已模擬美軍事入侵;美財(cái)長警告歐洲:不許關(guān)稅報(bào)復(fù)

每日經(jīng)濟(jì)新聞
2026-01-20 20:45:09
朝鮮送中國一包草籽當(dāng)國禮?千萬別小看,這包草籽不簡單

朝鮮送中國一包草籽當(dāng)國禮?千萬別小看,這包草籽不簡單

攬星河的筆記
2026-01-05 20:54:00
拳王鄒市明自爆破產(chǎn),不止賠光2億,其妻子參加婚禮耍酒瘋

拳王鄒市明自爆破產(chǎn),不止賠光2億,其妻子參加婚禮耍酒瘋

說歷史的老牢
2026-01-20 14:17:37
億元大獎沒了?中國彩票重磅調(diào)整

億元大獎沒了?中國彩票重磅調(diào)整

中國新聞周刊
2026-01-20 17:59:16
貝克漢姆說允許孩子犯錯,維多利亞與兒媳鬧矛盾的畫面曝光

貝克漢姆說允許孩子犯錯,維多利亞與兒媳鬧矛盾的畫面曝光

素素娛樂
2026-01-21 08:57:08
221名女囚漂洋過海,下船時全員懷孕,這批女囚竟生出了一個國家

221名女囚漂洋過海,下船時全員懷孕,這批女囚竟生出了一個國家

墨印齋
2026-01-19 12:24:30
又輸了!45歲少帥,上任后5勝12負(fù),將季后賽球隊(duì),帶到了倒數(shù)第3

又輸了!45歲少帥,上任后5勝12負(fù),將季后賽球隊(duì),帶到了倒數(shù)第3

金山話體育
2026-01-21 09:56:31
脾臟破裂,多根肋骨骨折:卡德羅夫家族危險(xiǎn)駕駛早就劣跡斑斑

脾臟破裂,多根肋骨骨折:卡德羅夫家族危險(xiǎn)駕駛早就劣跡斑斑

鷹眼Defence
2026-01-20 18:40:19
特朗普通告全球,要打破81年規(guī)則,中俄態(tài)度明顯不同,普京需三思

特朗普通告全球,要打破81年規(guī)則,中俄態(tài)度明顯不同,普京需三思

策略述
2026-01-20 17:13:37
“囤好5天物資,不排除美國入侵”

“囤好5天物資,不排除美國入侵”

觀察者網(wǎng)
2026-01-21 13:35:10
流落中國的外國公主,如今拒絕回國:我是中國人,中國就是我的家

流落中國的外國公主,如今拒絕回國:我是中國人,中國就是我的家

鶴羽說個事
2026-01-05 11:05:27
我國5600余個姓氏中只有8個姓氏從未衰落,看一下有你的姓氏嗎?

我國5600余個姓氏中只有8個姓氏從未衰落,看一下有你的姓氏嗎?

銘記歷史呀
2026-01-07 02:22:59
清官難斷家務(wù)事!88歲老人砸碎小兒子的大門,非要住他家里

清官難斷家務(wù)事!88歲老人砸碎小兒子的大門,非要住他家里

唐小糖說情感
2026-01-21 10:13:49
廣州地鐵四期規(guī)劃,四大郊區(qū)的線路預(yù)計(jì)慘不忍睹!

廣州地鐵四期規(guī)劃,四大郊區(qū)的線路預(yù)計(jì)慘不忍睹!

小鬼頭體育
2026-01-21 11:10:19
2026-01-21 14:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12040文章數(shù) 176360關(guān)注度
往期回顧 全部

健康要聞

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

頭條要聞

特朗普:對美國的真正威脅是聯(lián)合國和北約

頭條要聞

特朗普:對美國的真正威脅是聯(lián)合國和北約

體育要聞

只會防守反擊?不好意思,我們要踢決賽了

娛樂要聞

李亞鵬2天獲1291萬網(wǎng)友力挺

財(cái)經(jīng)要聞

消失的投資金 起底華文映像電影投資騙局

科技要聞

中芯國際等巨頭集體提價,8英寸芯片最高漲20%

汽車要聞

新一代理想L9電池加碼體型加大 重奪高端話語權(quán)

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
本地
游戲
教育

手機(jī)要聞

vivo全新春節(jié)限定水印亮相:六大風(fēng)格,可搭配新春AI視效使用

藝術(shù)要聞

一百多年前的中國,太雄偉震撼了!

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

200萬起家、盛大力捧!這款仙俠網(wǎng)游換了4任運(yùn)營商后又回來了!

教育要聞

英語背單詞:戳破自然拼讀的謊言,字母拼讀法不是死記硬背

無障礙瀏覽 進(jìn)入關(guān)懷版