国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻集團團隊顛覆醫(yī)療AI訓(xùn)練方式:用醫(yī)生智慧教AI更懂看病

0
分享至


這項由螞蟻集團聯(lián)合香港中文大學(xué)(深圳)和北京大學(xué)共同完成的研究發(fā)表于2026年2月,研究編號為arXiv:2602.09653v2,為醫(yī)療人工智能的訓(xùn)練方式帶來了突破性的改進。

當(dāng)我們?nèi)メt(yī)院看病時,好醫(yī)生和普通醫(yī)生的差別在哪里?好醫(yī)生不僅知識豐富,更重要的是,他們知道在什么情況下該說什么話,什么時候該緊張,什么時候該安撫患者。這種細膩的臨床判斷力,正是當(dāng)前醫(yī)療AI最缺乏的能力。

目前的醫(yī)療AI就像一個只會背書的學(xué)霸。它們在醫(yī)學(xué)考試中表現(xiàn)優(yōu)異,能夠回答各種醫(yī)學(xué)知識問題,但真正面對病人時,卻常常不知道如何恰當(dāng)?shù)販贤?。比如,?dāng)一個焦慮的母親詢問孩子發(fā)燒是否嚴重時,AI可能會機械地列出所有可能的疾病,把人嚇得夠嗆;而經(jīng)驗豐富的兒科醫(yī)生會先安撫情緒,再有針對性地詢問關(guān)鍵癥狀,給出恰當(dāng)?shù)慕ㄗh。

研究團隊發(fā)現(xiàn)了這個問題的根源:傳統(tǒng)的AI訓(xùn)練方法就像讓學(xué)生只做標準化考試,而忽略了真實的臨床情境訓(xùn)練。為了解決這個問題,他們開發(fā)了一套全新的訓(xùn)練體系,名為ClinAlign(臨床對齊),這套方法的核心思想是讓真正的醫(yī)生來教AI如何在不同情況下給出恰當(dāng)?shù)幕貞?yīng)。

一、醫(yī)生手把手教AI的智慧傳承體系

研究團隊設(shè)計了一套類似師傅帶徒弟的訓(xùn)練模式。他們首先收集了7034個真實的醫(yī)療咨詢案例,這些案例覆蓋了從簡單的健康咨詢到緊急醫(yī)療建議的各種情況。然后,他們讓GPT-5.1這個強大的AI先給出初步的評判標準,就像讓一個聰明的實習(xí)生先寫個診療方案草稿。

接下來,真正的醫(yī)生登場了。這111位來自不同科室的醫(yī)生,包括外科、內(nèi)科、婦產(chǎn)科等各個專業(yè)領(lǐng)域的主治醫(yī)生和科室主任,開始像批改作業(yè)一樣仔細審查這些AI生成的評判標準。他們不僅要糾正錯誤,更要根據(jù)自己的臨床經(jīng)驗來完善這些標準。

這個過程就像廚師改進食譜一樣。AI給出的初始"食譜"可能在理論上沒問題,但缺乏實際操作的細節(jié)。醫(yī)生們會說:"這里應(yīng)該強調(diào)安全性","那里需要考慮患者的心理感受","遇到緊急情況時措辭要更明確"。經(jīng)過平均1.34輪的修改,每個評判標準都得到了醫(yī)生們的一致認可。

整個過程耗費了632.2個工作小時,成本約15172.80美元。雖然聽起來不少,但考慮到這是在訓(xùn)練一個能服務(wù)千萬患者的醫(yī)療AI,這個投入是非常值得的。最終,他們建立了一個名為HealthRubrics的數(shù)據(jù)集,這相當(dāng)于一本由經(jīng)驗豐富的醫(yī)生共同編寫的"AI臨床行為指南"。

二、從具體案例中提煉通用醫(yī)療智慧

有了醫(yī)生驗證的7034個具體案例后,研究團隊面臨一個新問題:如何讓AI從這些具體案例中學(xué)會舉一反三?畢竟,真實世界的醫(yī)療咨詢千變?nèi)f化,不可能為每一種情況都準備專門的訓(xùn)練案例。

研究團隊的解決方案非常巧妙,他們開發(fā)了一套叫做HealthPrinciples的系統(tǒng),把醫(yī)生們在具體案例中體現(xiàn)的智慧提煉成119條通用原則。這個過程就像從無數(shù)個成功的烹飪案例中總結(jié)出一套完整的烹飪原理。

這119條原則按照四個維度進行分類:緊急程度、不確定性、用戶專業(yè)程度和任務(wù)類型。緊急程度分為三個級別:非緊急(如常規(guī)健康咨詢)、條件緊急(無法排除重要風(fēng)險,需要關(guān)鍵信息)、緊急(明確的高風(fēng)險特征,需要立即保護性行動)。不確定性也分為三個級別:信息充足、可減少的不確定性(通過對話可以澄清)、不可減少的不確定性(需要面診、檢查或化驗)。

用戶專業(yè)程度分為非專業(yè)人士和專業(yè)人士兩類,這很重要,因為對普通患者和醫(yī)學(xué)專業(yè)人員的溝通方式完全不同。任務(wù)類型則細分為21個類別,包括急診分診、癥狀評估、居家護理指導(dǎo)、藥物安全、檢查結(jié)果解讀等等。

每條原則都像一個智慧的提醒。比如,對于"條件緊急"情況的原則是:"用冷靜、非警示性的語言傳達潛在嚴重性;給出有序的下一步:停止不安全暴露,現(xiàn)在就做低風(fēng)險行動,避免傷害,監(jiān)控癥狀,并具體說明何時何地尋求面診或急診護理。"這樣的表達既體現(xiàn)了醫(yī)學(xué)的專業(yè)性,又保持了人文關(guān)懷。

三、讓AI學(xué)會在不同情況下恰當(dāng)應(yīng)答

有了這119條通用原則后,研究團隊就可以大規(guī)模地訓(xùn)練AI了。他們又收集了16872個額外的醫(yī)療問題,利用這些原則為每個問題生成恰當(dāng)?shù)脑u判標準。這個過程就像一個經(jīng)驗豐富的主廚,可以根據(jù)不同食材和顧客需求,快速調(diào)配出合適的調(diào)料配方。

具體來說,當(dāng)AI遇到一個新的醫(yī)療咨詢時,系統(tǒng)首先會分析這個問題屬于哪個類別:是緊急情況嗎?信息是否充足?咨詢者是專業(yè)人士還是普通患者?主要任務(wù)是什么?然后,系統(tǒng)會從119條原則中選擇相關(guān)的原則,平均每個問題會匹配到22.9條原則。

接著,系統(tǒng)會把這些通用原則轉(zhuǎn)化為針對具體問題的評判標準。比如,如果有人問"我孩子發(fā)燒了怎么辦",系統(tǒng)會識別這是一個"條件緊急"的"癥狀評估"任務(wù),咨詢者是"非專業(yè)人士",然后生成相應(yīng)的評判標準:回答應(yīng)該詢問關(guān)鍵癥狀(如發(fā)燒溫度、持續(xù)時間、伴隨癥狀),提供明確的就醫(yī)指征,使用安撫性語言等。

研究團隊還開發(fā)了一個推理時工具,可以在AI生成回答后,根據(jù)這些原則進行自我修正。這就像給AI配備了一個內(nèi)在的臨床督導(dǎo),隨時提醒它是否遵循了恰當(dāng)?shù)呐R床溝通原則。

四、訓(xùn)練效果令人驚艷的實際表現(xiàn)

研究團隊使用強化學(xué)習(xí)技術(shù),基于這些醫(yī)生驗證的評判標準來訓(xùn)練AI模型。他們選擇了相對較小的Qwen3-4B模型作為基礎(chǔ),通過精心設(shè)計的訓(xùn)練過程,讓它學(xué)會了如何在不同情況下給出恰當(dāng)?shù)尼t(yī)療建議。

訓(xùn)練效果簡直令人驚艷。在HealthBench-Hard這個專門測試醫(yī)療AI實用性的嚴格評測中,基礎(chǔ)的Qwen3-4B模型原本只能得到5.2%的分數(shù),經(jīng)過醫(yī)生手工標注的評判標準訓(xùn)練后,分數(shù)躍升到22.9%。當(dāng)使用提煉的119條通用原則進行大規(guī)模訓(xùn)練后,分數(shù)進一步提升到24.4%。

最令人印象深刻的是,當(dāng)研究團隊使用稍大一些的Qwen3-30B-A3B模型時,經(jīng)過完整的ClinAlign訓(xùn)練后,在HealthBench-Hard上達到了33.4%的分數(shù)。這個成績不僅超越了許多規(guī)模更大的開源模型,甚至超過了一些知名的商業(yè)模型,包括DeepSeek-R1和o3等。

在其他評測中,這個經(jīng)過特殊訓(xùn)練的醫(yī)療AI同樣表現(xiàn)出色。在LLMEval-Med這個測試醫(yī)療語言理解、推理和安全倫理的綜合評測中,模型在各個子項目上都有顯著提升。特別值得注意的是,這種訓(xùn)練方法不僅提升了醫(yī)療專業(yè)表現(xiàn),在Arena-Hard-v2這個測試通用能力的評測中也有顯著提升,創(chuàng)意寫作分數(shù)從34.9%躍升至79.4%。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:隨著訓(xùn)練問題數(shù)量的增加,模型性能持續(xù)提升。從1000個問題訓(xùn)練到20000個問題,在固定計算資源下,性能呈現(xiàn)單調(diào)上升趨勢。這說明多樣化的臨床情境訓(xùn)練比單純的重復(fù)訓(xùn)練更有效,就像醫(yī)學(xué)生需要接觸各種不同病例才能真正成長一樣。

五、推理時智能修正讓AI越來越聰明

研究團隊還開發(fā)了一個特殊功能,讓AI在回答問題時能夠進行自我反思和改進。這個功能基于提煉出的119條醫(yī)療智慧原則,當(dāng)AI生成一個回答后,它會自動檢查這個回答是否符合相關(guān)的臨床原則,如果發(fā)現(xiàn)不足,會自動進行修正。

這個過程就像一個醫(yī)生在給出診斷建議后,會習(xí)慣性地再檢查一遍:"我有沒有遺漏什么重要信息?表達是否恰當(dāng)?患者能理解嗎?是否考慮了安全因素?"實驗結(jié)果顯示,通過這種自我修正,AI的表現(xiàn)能夠進一步提升,且修正效果在經(jīng)過幾輪后會趨于穩(wěn)定。

測試顯示,無論是使用哪種基礎(chǔ)模型,通過多次推理時修正,HealthBench-Hard的表現(xiàn)都會穩(wěn)步提升。雖然改進幅度會逐漸減小,但這證明了這種方法的普適性和有效性。這意味著即使是現(xiàn)有的AI模型,也可以通過這套原則獲得更好的醫(yī)療咨詢能力。

六、突破性成果重新定義醫(yī)療AI訓(xùn)練標準

這項研究的意義遠超表面的性能提升數(shù)字。它首次證明了一個重要觀點:對于醫(yī)療AI而言,純粹的規(guī)模擴展不如精心設(shè)計的專業(yè)訓(xùn)練。一個經(jīng)過臨床智慧訓(xùn)練的小模型,可以在醫(yī)療應(yīng)用中超越規(guī)模大十倍的通用模型。

研究團隊的方法解決了醫(yī)療AI領(lǐng)域的一個根本性問題:如何讓AI真正理解臨床情境的復(fù)雜性和細致性。傳統(tǒng)方法就像讓學(xué)生只背教科書,而ClinAlign方法則像讓學(xué)生跟著優(yōu)秀的臨床醫(yī)生實習(xí),學(xué)習(xí)在真實情況下如何恰當(dāng)應(yīng)對。

更重要的是,這套方法具有很強的可擴展性。119條提煉出的醫(yī)療智慧原則可以應(yīng)用到新的醫(yī)療問題上,不需要每次都重新請醫(yī)生標注。這就像有了一套完整的臨床思維框架,可以指導(dǎo)AI處理各種新遇到的情況。

研究還顯示,這種訓(xùn)練方法不僅提升了醫(yī)療專業(yè)能力,也增強了AI的通用交流能力。這表明,深度的專業(yè)訓(xùn)練實際上能夠促進更廣泛的智能表現(xiàn),就像一個優(yōu)秀的醫(yī)生往往在其他需要細致溝通的領(lǐng)域也會表現(xiàn)出色。

從計算資源的角度來看,這個研究也具有重要的實用價值。它證明了通過精巧的訓(xùn)練方法,可以用相對較小的模型達到甚至超越大型模型的專業(yè)表現(xiàn)。這對于資源有限的醫(yī)療機構(gòu)來說,提供了一個現(xiàn)實可行的AI應(yīng)用方案。

研究團隊已經(jīng)承諾將完整的數(shù)據(jù)集和工具開源,這意味著全球的研究者都可以基于這套方法來改進醫(yī)療AI。這種開放合作的精神,將加速整個醫(yī)療AI領(lǐng)域的發(fā)展,最終讓更多患者受益于更智能、更貼心的AI醫(yī)療助手。

這項研究為我們展示了一個令人興奮的未來:AI不再是冷冰冰的機器回答,而是能夠像經(jīng)驗豐富的醫(yī)生一樣,在不同情況下給出恰當(dāng)、安全、有溫度的醫(yī)療建議。當(dāng)技術(shù)與人文關(guān)懷完美結(jié)合時,我們看到了醫(yī)療AI真正的價值所在。

Q&A

Q1:ClinAlign和傳統(tǒng)醫(yī)療AI訓(xùn)練方法有什么不同?

A:傳統(tǒng)方法讓AI像背書一樣學(xué)習(xí)醫(yī)學(xué)知識,ClinAlign則讓真正的醫(yī)生手把手教AI在不同情況下如何恰當(dāng)回應(yīng)。就像從紙上談兵變成了跟著師父實習(xí),AI學(xué)會了不僅要答對,還要答得合適、安全、有溫度。

Q2:為什么小模型訓(xùn)練后能超過大模型性能?

A:因為醫(yī)療咨詢不只是知識問題,更重要的是臨床判斷和溝通技巧。經(jīng)過醫(yī)生驗證的專業(yè)訓(xùn)練讓小模型掌握了關(guān)鍵的臨床智慧,就像一個有經(jīng)驗的??漆t(yī)生比博學(xué)但缺乏臨床經(jīng)驗的醫(yī)學(xué)博士更適合看病一樣。

Q3:普通人什么時候能用上這種更智能的醫(yī)療AI?

A:研究團隊已承諾開源相關(guān)數(shù)據(jù)集和工具,這將加速全球醫(yī)療AI的改進。雖然還需要時間來完善和部署,但這項技術(shù)為開發(fā)更貼心、更安全的AI醫(yī)療助手奠定了重要基礎(chǔ),相信不久的將來我們就能體驗到。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
游客吐槽“杭州西湖景區(qū)停車費30元一小時”,官方回應(yīng):節(jié)假日差別化收費,倡導(dǎo)公交出行,日常收費10元一小時

游客吐槽“杭州西湖景區(qū)停車費30元一小時”,官方回應(yīng):節(jié)假日差別化收費,倡導(dǎo)公交出行,日常收費10元一小時

大象新聞
2026-02-27 15:45:09
淮安人徐亮被查!

淮安人徐亮被查!

淮安網(wǎng)
2026-02-27 14:18:25
春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

阿龍美食記
2026-02-26 19:13:38
央視直播28日新加坡大滿貫,王曼昱對張本美和,王楚欽戰(zhàn)張禹珍

央視直播28日新加坡大滿貫,王曼昱對張本美和,王楚欽戰(zhàn)張禹珍

乒乓球球
2026-02-27 21:56:06
大瓜!黃曉明小22歲新歡曝光,照片流出,網(wǎng)友:這眼光,挺專一的

大瓜!黃曉明小22歲新歡曝光,照片流出,網(wǎng)友:這眼光,挺專一的

烏娛子醬
2026-02-27 10:40:54
少婦當(dāng)眾猥褻年輕男子:脫褲裸露下體,正面照流出,私密細節(jié)披露

少婦當(dāng)眾猥褻年輕男子:脫褲裸露下體,正面照流出,私密細節(jié)披露

博士觀察
2026-02-27 14:51:00
轉(zhuǎn)發(fā)提醒!在伊朗的中國公民盡快撤離

轉(zhuǎn)發(fā)提醒!在伊朗的中國公民盡快撤離

閃電新聞
2026-02-27 19:30:43
老朋友伊朗,快要退出群聊了

老朋友伊朗,快要退出群聊了

基本常識
2026-02-27 23:10:46
新加坡第1冠!雨果愛侶狀態(tài)高昂,3-0橫掃頭號種子首奪冠獲2000分

新加坡第1冠!雨果愛侶狀態(tài)高昂,3-0橫掃頭號種子首奪冠獲2000分

乒談
2026-02-27 21:15:34
澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

水泥土的搞笑
2026-02-27 17:09:36
南博通報里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

南博通報里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

穿透
2026-02-27 11:40:39
紅軍城或已失守,歐爾班開始支持歐盟對烏貸款

紅軍城或已失守,歐爾班開始支持歐盟對烏貸款

史政先鋒
2026-02-27 21:13:14
至少又有2萬移英港人要回流香港?比他們更慘的是潤日華人!許多變賣家產(chǎn)舉家移日的中產(chǎn)家庭被排外右翼“三記悶棍”夢碎日本!

至少又有2萬移英港人要回流香港?比他們更慘的是潤日華人!許多變賣家產(chǎn)舉家移日的中產(chǎn)家庭被排外右翼“三記悶棍”夢碎日本!

澳門月刊
2026-02-27 09:16:32
俄羅斯“居住服役”法令頒布華人蜂擁回國,機票暴漲200%

俄羅斯“居住服役”法令頒布華人蜂擁回國,機票暴漲200%

史政先鋒
2026-02-27 14:48:38
男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

男子高速上語音呼叫“關(guān)閉閱讀燈”,語音助手卻誤將大燈熄滅致車輛撞上護欄,領(lǐng)克致歉:已更新,行駛狀態(tài)下只能手動關(guān)閉大燈

大象新聞
2026-02-27 09:57:17
表姑向我借了85000,17年沒還,我去銀行注銷舊卡時,柜員看了眼卡說:女士,最后一筆轉(zhuǎn)賬留言您要看嗎?

表姑向我借了85000,17年沒還,我去銀行注銷舊卡時,柜員看了眼卡說:女士,最后一筆轉(zhuǎn)賬留言您要看嗎?

黎兜兜
2026-02-27 21:20:19
一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

阿訊說天下
2026-02-26 11:23:19
阿富汗被巴基斯坦暴捶:塔利班軍事依舊簡陋,財政多用于宗教建設(shè)

阿富汗被巴基斯坦暴捶:塔利班軍事依舊簡陋,財政多用于宗教建設(shè)

黃娜老師
2026-02-27 22:32:30
外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

外資撤不走,中國攔不住,如今的中國廣東,制造早已不是代工

甜檸聊史
2026-01-23 14:01:57
晚上九點!中國男籃上訴成功,國際籃協(xié)正式道歉,郭士強被聲討

晚上九點!中國男籃上訴成功,國際籃協(xié)正式道歉,郭士強被聲討

多特體育說
2026-02-27 20:52:20
2026-02-28 04:00:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

特朗普警告伊朗:“有時候不得不打”

頭條要聞

特朗普警告伊朗:“有時候不得不打”

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

旅游
房產(chǎn)
游戲
時尚
軍事航空

旅游要聞

蜜雪冰城主題樂園來了 選址已"出爐"!在河南總部

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

Oi朋友!你聽說過大只切的故事嗎?

舒淇最愛穿的裙子搭配,真的很適合春天!

軍事要聞

美國11架F-22隱形戰(zhàn)機抵達以色列

無障礙瀏覽 進入關(guān)懷版