80萬條數(shù)據(jù)揭示隱患：AI正在污染病歷，你的診療數(shù)據(jù)越來越不靠譜

2026-03-17 13:19:37　來源: 機(jī)器之心Pro

河北舉報

分享至

本研究是由新加坡國立大學(xué)劉鈿渤組博士生何洪宇領(lǐng)銜、包括哈佛大學(xué)、斯坦福大學(xué)、耶魯大學(xué)、谷歌公司、梅奧診所等機(jī)構(gòu)共同完成的，研究團(tuán)隊成員有醫(yī)學(xué) AI、放射學(xué)、臨床醫(yī)學(xué)等各方面的專家，具有很強(qiáng)的跨學(xué)科研究背景和臨床實踐經(jīng)驗。

隨著生成式人工智能在醫(yī)療領(lǐng)域的加速滲透，越來越多的病歷、影像報告及各類臨床文本正逐步納入 AI 參與生成的范疇。這一旨在提升醫(yī)療效率的技術(shù)革新背后，潛藏著威脅診斷安全性的深層隱患。

最近新加坡國立大學(xué)、哈佛大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)聯(lián)合團(tuán)隊最新研究顯示，當(dāng) AI 生成的臨床文本被用作訓(xùn)練新一代 AI 模型時，一些罕見但是重要的病理信息會在數(shù)據(jù)迭代的過程中悄悄地消失，從而使得醫(yī)療 AI 整體診斷可靠性在群體上不斷下降。

研究團(tuán)隊對臨床文本生成、視覺-語言報告、醫(yī)學(xué)圖像合成這三個任務(wù)下的 80 多萬條合成數(shù)據(jù)進(jìn)行了系統(tǒng)的分析（如圖 1 表示），首次證明了在沒有強(qiáng)制性人工驗證的情況下，多代自我訓(xùn)練循環(huán)會使病理多樣性迅速消失，診斷可靠度急劇降低，并且醫(yī)師評估也表明臨床效用的退化。

最后研究團(tuán)隊提出了可以直接融入到目前臨床工作流程中的緩解方法，在 AI 全面進(jìn)入醫(yī)療之前給醫(yī)生提供一條安全的操作路線。

論文標(biāo)題：AI-generated data contamination erodes pathological variability and diagnostic reliability
論文鏈接：https://arxiv.org/abs/2601.12946

圖 1 人工智能生成的數(shù)據(jù)污染造成的病理多樣性喪失、診斷安全性降低的現(xiàn)象以及緩解方法

現(xiàn)實困境：

醫(yī)療 AI 生成普及背后的隱形危機(jī)

人工智能正在改變?nèi)蜥t(yī)療文檔系統(tǒng)，大型語言模型已經(jīng)被廣泛地應(yīng)用到臨床報告、出院小結(jié)、電子健康檔案等方面，AI 輔助診斷已經(jīng)得到廣泛的應(yīng)用。但是其中隱藏的風(fēng)險是，原來依靠人工建立起來的醫(yī)療數(shù)據(jù)庫正在被大量的 AI 生成內(nèi)容所取代，而且不斷保存在診療記錄中，從而成為下一代 AI 訓(xùn)練的數(shù)據(jù)來源，形成了一個「生成-訓(xùn)練-再生成」的自循環(huán)結(jié)構(gòu)。

在其它領(lǐng)域，自我訓(xùn)練循環(huán)被證明會造成「模型退化」，也就是輸出的多樣性以及保真度會降低。而醫(yī)學(xué)領(lǐng)域的特殊性使得該問題的危害更加嚴(yán)重。醫(yī)學(xué)診斷很大程度上依靠罕見病、非典型臨床表現(xiàn)、臨床分布尾部細(xì)微異常等信息的輕微流失都會造成系統(tǒng)性診斷盲區(qū)，增加漏診風(fēng)險，加重醫(yī)療不公，影響疾病監(jiān)測。更嚴(yán)重的是，目前醫(yī)療 AI 評價標(biāo)準(zhǔn)大多只看表面的語言質(zhì)量，而沒有考慮診斷的準(zhǔn)確性，導(dǎo)致這樣的模型和臨床應(yīng)用出現(xiàn)退化很難被常規(guī)監(jiān)測到。

核心發(fā)現(xiàn)：

多種任務(wù)下性能全面退化，

虛假信心掩蓋致命漏洞

研究團(tuán)隊對 216307 份放射學(xué)報告、790 份臨床筆記、1000 份眼科病歷和 9781 張胸部 X 線片進(jìn)行了多任務(wù)實驗，研究表明，AI 生成的數(shù)據(jù)污染造成模型性能退化甚至失效，并不是單一數(shù)據(jù)類型或者臨床任務(wù)造成的，而是貫穿臨床文本生成、視覺-語言放射學(xué)報告、醫(yī)學(xué)圖像合成這三個不同的真實臨床任務(wù)，采用多種代表性模型架構(gòu)開展實驗并且各個任務(wù)都存在類似的退化邏輯，即自我訓(xùn)練循環(huán)造成病理多樣性喪失、診斷可靠度降低，同時又被虛假的預(yù)測信心所掩蓋。為評估研究結(jié)果的臨床相關(guān)性，研究團(tuán)隊通過對人工智能生成輸出進(jìn)行結(jié)構(gòu)化審查和編輯，并納入了醫(yī)師評估環(huán)節(jié)。

圖 2 人工智能生成的數(shù)據(jù)污染導(dǎo)致臨床筆記語言多樣性喪失和臨床知識退化

AI 生成的臨床文本隱患：

詞匯和知識的雙重流失以及敘事的碎片化

研究團(tuán)隊首先用多種臨床文檔和人工智能模型架構(gòu)，研究用合成臨床文本進(jìn)行自我訓(xùn)練會不會造成語言模型性能下降。圖 2 結(jié)果表明經(jīng)過四代自我訓(xùn)練之后，模型就會出現(xiàn)災(zāi)難性的退化。放射學(xué)報告中印象部分的詞匯量由原來的 12078 個減少到現(xiàn)在的 200 個左右，減少了 98.9%；獨特醫(yī)學(xué)術(shù)語減少 66%，報告公式化趨勢明顯。類似的結(jié)論也可以用在更廣泛的臨床文書上，例如 790 份 i2b2 臨床數(shù)據(jù)庫。隨著 AI 模型對于自身產(chǎn)生的合成數(shù)據(jù)的信心越來越大，但它所具有的真實醫(yī)療語言的能力卻降低了到原來的四分之一，這給醫(yī)療人工智能的部署帶來嚴(yán)重的風(fēng)險，虛假的信心會掩蓋患者文書記錄中的重大失誤。

圖 3 人工智能生成的數(shù)據(jù)污染造成基于視覺-語言模型的放射學(xué)報告生成出現(xiàn)語言多樣性的喪失和臨床知識的退化

視覺-語言報告：

圖像錨定失效，虛假安心率激增

人工智能在醫(yī)學(xué)影像生成報告的時候，語言退化仍然會發(fā)生。研究使用了 Swin-Transformer、Llama-2 的視覺語言模型 R2GenGPT，用真實的胸部 X 線片做輸入，只用合成報告來訓(xùn)練。圖 3 結(jié)果說明即使有真實的圖像，模型也會出現(xiàn)嚴(yán)重的退化，報告的唯一性從原來的 96.2% 下降到現(xiàn)在的 0.9%，詞匯量從原來的 8186 個減少到現(xiàn)在的 94 個，減少了 98.9%。

更危險的是虛假的安心率急劇上升，當(dāng)存在危及生命危險的病理情況時，「無急性發(fā)現(xiàn)」的錯誤比例從原來的 13.3% 上升到現(xiàn)在的 40.3%，但是模型本身的置信度很高，因此模型具有臨床危險性的結(jié)果，不能滿足患者的診療需求。

圖 4 人工智能生成的數(shù)據(jù)污染給醫(yī)學(xué)圖像合成造成的視覺質(zhì)量下降、病理表征失真和人口統(tǒng)計學(xué)偏差變大

醫(yī)學(xué)圖像合成：

出現(xiàn)質(zhì)量退化、偏見放大、弱勢人群代表性缺失

除此之外，人工智能生成的合成醫(yī)學(xué)影像也越來越廣泛地被用來進(jìn)行研究、產(chǎn)品研發(fā)等，用以擴(kuò)充訓(xùn)練數(shù)據(jù)集、實現(xiàn)隱私保護(hù)型的數(shù)據(jù)共享。但是當(dāng)這些合成影像被用來訓(xùn)練后續(xù)的人工智能模型的時候，生成出來的影像很難體現(xiàn)真實患者人群的多樣性，為了探究影像生成會不會出現(xiàn)和文本模型一樣的退化模式，研究團(tuán)隊在多輪自我訓(xùn)練循環(huán)中，用胸部 X 光片來訓(xùn)練人工智能影像生成模型。從實驗結(jié)果（圖 4）可知，由于人工智能合成的數(shù)據(jù)污染而產(chǎn)生的視覺退化、病理表征扭曲以及人口統(tǒng)計學(xué)偏倚等都會被加重。

納入醫(yī)生評估環(huán)節(jié)，

提出三種策略解決 AI 生成困境

為了評價研究結(jié)果的臨床相關(guān)性，對人工智能生成出來的輸出做了結(jié)構(gòu)化的審查和編輯，并且加入了醫(yī)師評價的過程證實臨床效用的退化。另外，研究團(tuán)隊對三種應(yīng)對 AI 數(shù)據(jù)污染導(dǎo)致模型退化的策略進(jìn)行了系統(tǒng)的驗證，分別為真實數(shù)據(jù)混合訓(xùn)練為基本方案，當(dāng)真實數(shù)據(jù)占比達(dá)到 75% 時，可以較好地保持病理的多樣性、語言的保真度，從而有效地減少人口統(tǒng)計學(xué)偏差；質(zhì)量感知過濾是在有限真實數(shù)據(jù)的基礎(chǔ)上提高利用效率的一種方式，可以作為增效補(bǔ)充，但是不能代替高比例真實數(shù)據(jù)的作用；單純擴(kuò)增合成數(shù)據(jù)不僅無效，還會加快模型退化、加重性別偏見，數(shù)據(jù)數(shù)量不能彌補(bǔ)質(zhì)量缺陷。

結(jié)論與展望

研究團(tuán)隊認(rèn)為應(yīng)該把數(shù)據(jù)溯源作為醫(yī)療 AI 部署的政策強(qiáng)制要求，實行強(qiáng)制的人工檢驗制度。僅僅依靠自愿監(jiān)督是不夠的，隨著臨床 AI 應(yīng)用規(guī)模的擴(kuò)大，嚴(yán)格的機(jī)械驗證的經(jīng)濟(jì)可行性會越來越低，如果沒有制度性的限制，醫(yī)療系統(tǒng)就會存在污染未來患者數(shù)字生理數(shù)據(jù)的風(fēng)險。如果缺少政策強(qiáng)制的溯源機(jī)制，那么生成式 AI 部署后就會影響到它本身的醫(yī)療數(shù)據(jù)生態(tài)系統(tǒng)，進(jìn)而引發(fā)安全問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.