国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI醫(yī)生考試高分,實(shí)戰(zhàn)不及格?Nature Medicine論文顯示,AI大模型不能幫助公眾作出更好的醫(yī)療決策

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

當(dāng)你感覺的身體不適時(shí),是否考慮過向 AI 咨詢醫(yī)療建議?

全世界的全球醫(yī)療保健提供者正在探索使用大語言模型(LLM)為公眾提供醫(yī)療建議。如今,LLM 在醫(yī)學(xué)執(zhí)業(yè)考試中幾乎能取得滿分,然而,考試所考察的是對(duì)標(biāo)準(zhǔn)化知識(shí)的記憶和理解。LLM 在這方面是“超級(jí)優(yōu)等生”,能快速檢索海量信息。但在現(xiàn)實(shí)場(chǎng)景中,醫(yī)療決策更像是一門藝術(shù),需要整合模糊、不完整甚至矛盾的病人信息(癥狀、病史、情緒、社會(huì)經(jīng)濟(jì)因素等),并進(jìn)行權(quán)衡。因此,LLM 強(qiáng)大的考試能力,是否能夠轉(zhuǎn)換為在現(xiàn)實(shí)醫(yī)療場(chǎng)景中的表現(xiàn),仍有待觀察。

此外,華山醫(yī)院張文宏醫(yī)生近日在高山書院論壇上明確表示,反對(duì)將 AI 系統(tǒng)性地引入醫(yī)院病歷和日常診療流程,其擔(dān)心 AI 可能會(huì)削弱年輕醫(yī)生的臨床思維訓(xùn)練與專業(yè)判斷能力。

2026 年 2 月 9 日,牛津大學(xué)的研究人員在國(guó)際頂尖醫(yī)學(xué)期刊Nature Medicine上發(fā)表了題為:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 的研究論文。

該研究進(jìn)行了一項(xiàng)大規(guī)模隨機(jī)對(duì)照試驗(yàn),以測(cè)試大語言模型(LLM)作為公眾醫(yī)療助手的實(shí)際效果,結(jié)果出人意料——在各種醫(yī)學(xué)考試中表現(xiàn)優(yōu)異、甚至堪比人類專家的大語言模型,在真實(shí)醫(yī)療場(chǎng)景中,或許并不能有效幫助公眾診斷疾病并做出正確的健康決策。這提示了基于大語言模型的 AI 醫(yī)生還需要在未來設(shè)計(jì)中更好地支持真實(shí)用戶,才能安全用于向公眾提供醫(yī)學(xué)建議。


理想豐滿——LLM醫(yī)學(xué)知識(shí)豐富

近來,人工智能(AI)研究取得的突破有可能通過擴(kuò)大醫(yī)療知識(shí)的獲取途徑、讓醫(yī)療服務(wù)更貼近患者來實(shí)現(xiàn)醫(yī)療保健的普及化。OpenAI 開發(fā)的ChatGPT及谷歌開發(fā)的Med-PaLM 2大語言模型(LLM),在各類醫(yī)學(xué)考試中表現(xiàn)優(yōu)異,甚至達(dá)到人類醫(yī)學(xué)專家的水平。這些成就讓人們對(duì)于 AI 在醫(yī)療領(lǐng)域的應(yīng)用充滿期待,特別是在醫(yī)療資源不發(fā)達(dá)的地區(qū),AI 醫(yī)生被視為解決醫(yī)療資源分布不均的有效手段。

實(shí)際上,調(diào)查結(jié)果也顯示,越來越多的人開始向 AI 聊天機(jī)器人咨詢健康相關(guān)問題。然而,在醫(yī)學(xué)考試中獲得高分,是否意味著這些 AI 就能在真實(shí)醫(yī)療場(chǎng)景中發(fā)揮作用?

現(xiàn)實(shí)骨感——LLM診斷和決策能力有限

在這項(xiàng)最新研究中,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)開創(chuàng)性試驗(yàn),以測(cè)試大語言模型(LLM)能夠幫助公眾準(zhǔn)確辨別醫(yī)療病癥(例如普通感冒、貧血或膽結(jié)石)并選擇一種行動(dòng)方案(例如呼叫救護(hù)車或聯(lián)系全科醫(yī)生)。

研究團(tuán)隊(duì)招募了 1298 名受試者,他們每人被指派了 10 種不同的醫(yī)療情景,并讓他們隨機(jī)使用三個(gè) LLM(GPT-4o、Llama 3 或 Command R+)中的一個(gè),或使用他們的常用資源(例如互聯(lián)網(wǎng)搜索引擎)作為對(duì)照組。


試驗(yàn)結(jié)果令人驚訝,在不用人類受試者進(jìn)行測(cè)試時(shí),這些 LLM 能夠準(zhǔn)確完成上述情景,識(shí)別疾病的準(zhǔn)確率高達(dá) 94.9%,選擇行動(dòng)方案的正確率為 56.3%。然而,當(dāng)這些人類受試者使用相同的 LLM 時(shí),相關(guān)病癥的識(shí)別正確率低于34.5%,選擇行動(dòng)方案的正確率低于44.2%,這些結(jié)果甚至沒有超過對(duì)照組。


也就是說,人類患者在真實(shí)醫(yī)療場(chǎng)景中,使用 LLM 用于疾病診斷和醫(yī)療決策時(shí),并沒有比使用傳統(tǒng)的搜索引擎更好。這意味著,LLM 本身的醫(yī)療知識(shí)水平并未轉(zhuǎn)化為使用者的實(shí)際決策能力。

癥結(jié)所在——人類-LLM交互難題

為什么會(huì)出現(xiàn)這種理想與現(xiàn)實(shí)之間的巨大鴻溝呢?

研究團(tuán)隊(duì)進(jìn)一步人工檢查了其中 30 種情況下的人類-LLM 交互,結(jié)果顯示,癥結(jié)不在于 LLM 的醫(yī)學(xué)知識(shí)儲(chǔ)備,而在于人類-LLM 交互難題。

在真實(shí)醫(yī)療場(chǎng)景中,人類患者往往無法準(zhǔn)確描述自己的癥狀,也不知道應(yīng)該提供哪些關(guān)鍵信息,這導(dǎo)致人類患者向 LLM 提供的信息不完整或不準(zhǔn)確,而 LLM 可能過于依賴專業(yè)術(shù)語,沒能將醫(yī)學(xué)知識(shí)“翻譯”為公眾所能理解的語言,此外,LLM 有時(shí)也可能會(huì)生成誤導(dǎo)性或錯(cuò)誤的信息。

以下圖為例,人類用戶向描述了自己與外賣相關(guān)的嚴(yán)重胃痛和嘔吐癥狀,LLM 初步列舉了消化不良和胃食管反流這兩種可能性并建議咨詢醫(yī)生。人類用戶進(jìn)一步詢問就醫(yī)的緊急程度時(shí),LLM 轉(zhuǎn)而回答了區(qū)分緊急醫(yī)療與常規(guī)體檢的一般原則。這暴露了人類用戶在提供信息不完整時(shí),LLM 可能無法替代專業(yè)醫(yī)生的判斷。


因此,LLM 在醫(yī)學(xué)考試中的表現(xiàn)令人印象深刻,但在與人類的真實(shí)對(duì)話中準(zhǔn)確率明顯下降,其掌握的醫(yī)學(xué)知識(shí)的專業(yè)性和公眾理解的通俗性之間存在著巨大鴻溝,標(biāo)準(zhǔn)化的醫(yī)學(xué)考試和模擬患者互動(dòng),并不能體現(xiàn) LLM 在真實(shí)場(chǎng)景中的表現(xiàn)。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)建議,LLM 在醫(yī)療領(lǐng)域大規(guī)模部署之前,應(yīng)進(jìn)行系統(tǒng)的人類用戶測(cè)試,以評(píng)估其與人類的交互能力。

這項(xiàng)研究也提示我們,AI 醫(yī)療的發(fā)展路徑可能應(yīng)該是“先專業(yè)后普及”,也就是先作為專業(yè)醫(yī)生的輔助工具,待發(fā)展成熟后逐步直接服務(wù)于公眾。

論文鏈接

https://www.nature.com/articles/s41591-025-04074-y

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
至今都讓人無法原諒的十大爛劇,每部都是影視界的奇恥大辱

至今都讓人無法原諒的十大爛劇,每部都是影視界的奇恥大辱

小Q侃電影
2026-02-24 12:33:35
WTT新加坡大滿貫:女單16強(qiáng)已出其8!國(guó)乒3人日本4人,陳熠戰(zhàn)橋本

WTT新加坡大滿貫:女單16強(qiáng)已出其8!國(guó)乒3人日本4人,陳熠戰(zhàn)橋本

全言作品
2026-02-24 21:07:13
閆軍被撤銷國(guó)際裁判并非意味著天亮了,在CBA,他依然呼風(fēng)喚雨

閆軍被撤銷國(guó)際裁判并非意味著天亮了,在CBA,他依然呼風(fēng)喚雨

姜大叔侃球
2026-02-24 18:12:32
趙心童奪冠誰最樂?女友顏值吸睛,商業(yè)價(jià)值井噴,這才是頂流人生

趙心童奪冠誰最樂?女友顏值吸睛,商業(yè)價(jià)值井噴,這才是頂流人生

阿廢冷眼觀察所
2026-02-25 01:45:39
限時(shí)價(jià)16.19萬元/雙色車身設(shè)計(jì) 天籟·鴻蒙座艙S380大師版上市

限時(shí)價(jià)16.19萬元/雙色車身設(shè)計(jì) 天籟·鴻蒙座艙S380大師版上市

太平洋汽車
2026-02-24 17:12:57
騰訊關(guān)閉天美蒙特利爾工作室!成立5年沒有自己作品

騰訊關(guān)閉天美蒙特利爾工作室!成立5年沒有自己作品

游民星空
2026-02-23 09:21:23
評(píng)皮凱蒂、桑德爾《平等》:再分配可以解決不平等問題嗎

評(píng)皮凱蒂、桑德爾《平等》:再分配可以解決不平等問題嗎

澎湃新聞
2026-02-23 11:14:27
特朗普:我不知道還能活多久,很多人都想置我于死地

特朗普:我不知道還能活多久,很多人都想置我于死地

揚(yáng)子晚報(bào)
2026-02-24 11:05:11
籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無可奈何

籃協(xié)即將換屆,王治郅或成新掌門人?答案早已明確,姚明無可奈何

萌蘭聊個(gè)球
2026-02-24 15:23:54
全國(guó)統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

全國(guó)統(tǒng)一執(zhí)行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

墨蘭史書
2026-02-24 22:41:18
空交火!美伊大戰(zhàn),還是打響了!

空交火!美伊大戰(zhàn),還是打響了!

大嘴說天下
2026-02-24 22:39:51
保時(shí)捷涼了?利潤(rùn)暴跌99%,百萬豪車價(jià)格腰斬,中年男人夢(mèng)碎一地

保時(shí)捷涼了?利潤(rùn)暴跌99%,百萬豪車價(jià)格腰斬,中年男人夢(mèng)碎一地

青眼財(cái)經(jīng)
2025-12-30 21:12:09
首展即被搶訂5000臺(tái)!國(guó)產(chǎn)“腦控睡眠儀”走俏,3億失眠人有救了

首展即被搶訂5000臺(tái)!國(guó)產(chǎn)“腦控睡眠儀”走俏,3億失眠人有救了

番茄健康
2026-02-24 17:20:54
節(jié)后新機(jī)扎堆,vivo、榮耀、OPPO、小米全都有

節(jié)后新機(jī)扎堆,vivo、榮耀、OPPO、小米全都有

科技鋒說
2026-02-24 05:54:45
墨西哥毒梟殘忍罪行曝光:綁架選美皇后、集體屠殺35人棄尸街頭、將炸藥綁在一對(duì)父子身上引爆

墨西哥毒梟殘忍罪行曝光:綁架選美皇后、集體屠殺35人棄尸街頭、將炸藥綁在一對(duì)父子身上引爆

大象新聞
2026-02-24 20:44:04
哪一瞬間你覺得眾生皆苦?網(wǎng)友:怎么在外國(guó)很少聽到這種事情

哪一瞬間你覺得眾生皆苦?網(wǎng)友:怎么在外國(guó)很少聽到這種事情

帶你感受人間冷暖
2026-02-22 08:03:33
李易峰“選妃”畫面曝光!現(xiàn)場(chǎng)看視頻選人,隨后其床照被公開太辣眼

李易峰“選妃”畫面曝光!現(xiàn)場(chǎng)看視頻選人,隨后其床照被公開太辣眼

八卦王者
2026-02-22 14:06:04
憤怒!皇馬不搭理中國(guó)球迷呼聲 唯有更高層面制裁才能讓它道歉

憤怒!皇馬不搭理中國(guó)球迷呼聲 唯有更高層面制裁才能讓它道歉

念洲
2026-02-25 07:49:04
歐冠悲喜夜:國(guó)米爆冷出局創(chuàng)恥辱,英超六隊(duì)全晉級(jí)創(chuàng)紀(jì)錄

歐冠悲喜夜:國(guó)米爆冷出局創(chuàng)恥辱,英超六隊(duì)全晉級(jí)創(chuàng)紀(jì)錄

民哥臺(tái)球解說
2026-02-25 07:53:16
一名球員在球場(chǎng)向女友求婚成功,僅過三天在社媒宣布分手

一名球員在球場(chǎng)向女友求婚成功,僅過三天在社媒宣布分手

懂球帝
2026-02-24 23:20:58
2026-02-25 08:16:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學(xué)研究
8916文章數(shù) 145003關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

北京獨(dú)生女被男友打殘:他隱瞞有兒子 想把戶口上我家

頭條要聞

北京獨(dú)生女被男友打殘:他隱瞞有兒子 想把戶口上我家

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

教育
家居
健康
旅游
公開課

教育要聞

弧中點(diǎn)運(yùn)用第2講,一個(gè)視頻學(xué)明白!

家居要聞

本真棲居 愛暖伴流年

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

春節(jié)假期,青海湖景區(qū)接待游客6.03萬人次

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版