80萬條數(shù)據(jù)揭示隱患：AI正在污染病歷，你的診療數(shù)據(jù)越來越不靠譜

2026-03-17 13:19:37　來源: 機器之心Pro

河北舉報

分享至

本研究是由新加坡國立大學(xué)劉鈿渤組博士生何洪宇領(lǐng)銜、包括哈佛大學(xué)、斯坦福大學(xué)、耶魯大學(xué)、谷歌公司、梅奧診所等機構(gòu)共同完成的，研究團隊成員有醫(yī)學(xué) AI、放射學(xué)、臨床醫(yī)學(xué)等各方面的專家，具有很強的跨學(xué)科研究背景和臨床實踐經(jīng)驗。

隨著生成式人工智能在醫(yī)療領(lǐng)域的加速滲透，越來越多的病歷、影像報告及各類臨床文本正逐步納入 AI 參與生成的范疇。這一旨在提升醫(yī)療效率的技術(shù)革新背后，潛藏著威脅診斷安全性的深層隱患。

最近新加坡國立大學(xué)、哈佛大學(xué)、斯坦福大學(xué)等機構(gòu)聯(lián)合團隊最新研究顯示，當(dāng) AI 生成的臨床文本被用作訓(xùn)練新一代 AI 模型時，一些罕見但是重要的病理信息會在數(shù)據(jù)迭代的過程中悄悄地消失，從而使得醫(yī)療 AI 整體診斷可靠性在群體上不斷下降。

研究團隊對臨床文本生成、視覺-語言報告、醫(yī)學(xué)圖像合成這三個任務(wù)下的 80 多萬條合成數(shù)據(jù)進行了系統(tǒng)的分析（如圖 1 表示），首次證明了在沒有強制性人工驗證的情況下，多代自我訓(xùn)練循環(huán)會使病理多樣性迅速消失，診斷可靠度急劇降低，并且醫(yī)師評估也表明臨床效用的退化。

最后研究團隊提出了可以直接融入到目前臨床工作流程中的緩解方法，在 AI 全面進入醫(yī)療之前給醫(yī)生提供一條安全的操作路線。

論文標(biāo)題：AI-generated data contamination erodes pathological variability and diagnostic reliability
論文鏈接：https://arxiv.org/abs/2601.12946

圖 1 人工智能生成的數(shù)據(jù)污染造成的病理多樣性喪失、診斷安全性降低的現(xiàn)象以及緩解方法

現(xiàn)實困境：

醫(yī)療 AI 生成普及背后的隱形危機

人工智能正在改變?nèi)蜥t(yī)療文檔系統(tǒng)，大型語言模型已經(jīng)被廣泛地應(yīng)用到臨床報告、出院小結(jié)、電子健康檔案等方面，AI 輔助診斷已經(jīng)得到廣泛的應(yīng)用。但是其中隱藏的風(fēng)險是，原來依靠人工建立起來的醫(yī)療數(shù)據(jù)庫正在被大量的 AI 生成內(nèi)容所取代，而且不斷保存在診療記錄中，從而成為下一代 AI 訓(xùn)練的數(shù)據(jù)來源，形成了一個「生成-訓(xùn)練-再生成」的自循環(huán)結(jié)構(gòu)。

在其它領(lǐng)域，自我訓(xùn)練循環(huán)被證明會造成「模型退化」，也就是輸出的多樣性以及保真度會降低。而醫(yī)學(xué)領(lǐng)域的特殊性使得該問題的危害更加嚴(yán)重。醫(yī)學(xué)診斷很大程度上依靠罕見病、非典型臨床表現(xiàn)、臨床分布尾部細(xì)微異常等信息的輕微流失都會造成系統(tǒng)性診斷盲區(qū)，增加漏診風(fēng)險，加重醫(yī)療不公，影響疾病監(jiān)測。更嚴(yán)重的是，目前醫(yī)療 AI 評價標(biāo)準(zhǔn)大多只看表面的語言質(zhì)量，而沒有考慮診斷的準(zhǔn)確性，導(dǎo)致這樣的模型和臨床應(yīng)用出現(xiàn)退化很難被常規(guī)監(jiān)測到。

核心發(fā)現(xiàn)：

多種任務(wù)下性能全面退化，

虛假信心掩蓋致命漏洞

研究團隊對 216307 份放射學(xué)報告、790 份臨床筆記、1000 份眼科病歷和 9781 張胸部 X 線片進行了多任務(wù)實驗，研究表明，AI 生成的數(shù)據(jù)污染造成模型性能退化甚至失效，并不是單一數(shù)據(jù)類型或者臨床任務(wù)造成的，而是貫穿臨床文本生成、視覺-語言放射學(xué)報告、醫(yī)學(xué)圖像合成這三個不同的真實臨床任務(wù)，采用多種代表性模型架構(gòu)開展實驗并且各個任務(wù)都存在類似的退化邏輯，即自我訓(xùn)練循環(huán)造成病理多樣性喪失、診斷可靠度降低，同時又被虛假的預(yù)測信心所掩蓋。為評估研究結(jié)果的臨床相關(guān)性，研究團隊通過對人工智能生成輸出進行結(jié)構(gòu)化審查和編輯，并納入了醫(yī)師評估環(huán)節(jié)。

圖 2 人工智能生成的數(shù)據(jù)污染導(dǎo)致臨床筆記語言多樣性喪失和臨床知識退化

AI 生成的臨床文本隱患：

詞匯和知識的雙重流失以及敘事的碎片化

研究團隊首先用多種臨床文檔和人工智能模型架構(gòu)，研究用合成臨床文本進行自我訓(xùn)練會不會造成語言模型性能下降。圖 2 結(jié)果表明經(jīng)過四代自我訓(xùn)練之后，模型就會出現(xiàn)災(zāi)難性的退化。放射學(xué)報告中印象部分的詞匯量由原來的 12078 個減少到現(xiàn)在的 200 個左右，減少了 98.9%；獨特醫(yī)學(xué)術(shù)語減少 66%，報告公式化趨勢明顯。類似的結(jié)論也可以用在更廣泛的臨床文書上，例如 790 份 i2b2 臨床數(shù)據(jù)庫。隨著 AI 模型對于自身產(chǎn)生的合成數(shù)據(jù)的信心越來越大，但它所具有的真實醫(yī)療語言的能力卻降低了到原來的四分之一，這給醫(yī)療人工智能的部署帶來嚴(yán)重的風(fēng)險，虛假的信心會掩蓋患者文書記錄中的重大失誤。

圖 3 人工智能生成的數(shù)據(jù)污染造成基于視覺-語言模型的放射學(xué)報告生成出現(xiàn)語言多樣性的喪失和臨床知識的退化

視覺-語言報告：

圖像錨定失效，虛假安心率激增

人工智能在醫(yī)學(xué)影像生成報告的時候，語言退化仍然會發(fā)生。研究使用了 Swin-Transformer、Llama-2 的視覺語言模型 R2GenGPT，用真實的胸部 X 線片做輸入，只用合成報告來訓(xùn)練。圖 3 結(jié)果說明即使有真實的圖像，模型也會出現(xiàn)嚴(yán)重的退化，報告的唯一性從原來的 96.2% 下降到現(xiàn)在的 0.9%，詞匯量從原來的 8186 個減少到現(xiàn)在的 94 個，減少了 98.9%。

更危險的是虛假的安心率急劇上升，當(dāng)存在危及生命危險的病理情況時，「無急性發(fā)現(xiàn)」的錯誤比例從原來的 13.3% 上升到現(xiàn)在的 40.3%，但是模型本身的置信度很高，因此模型具有臨床危險性的結(jié)果，不能滿足患者的診療需求。

圖 4 人工智能生成的數(shù)據(jù)污染給醫(yī)學(xué)圖像合成造成的視覺質(zhì)量下降、病理表征失真和人口統(tǒng)計學(xué)偏差變大

醫(yī)學(xué)圖像合成：

出現(xiàn)質(zhì)量退化、偏見放大、弱勢人群代表性缺失

除此之外，人工智能生成的合成醫(yī)學(xué)影像也越來越廣泛地被用來進行研究、產(chǎn)品研發(fā)等，用以擴充訓(xùn)練數(shù)據(jù)集、實現(xiàn)隱私保護型的數(shù)據(jù)共享。但是當(dāng)這些合成影像被用來訓(xùn)練后續(xù)的人工智能模型的時候，生成出來的影像很難體現(xiàn)真實患者人群的多樣性，為了探究影像生成會不會出現(xiàn)和文本模型一樣的退化模式，研究團隊在多輪自我訓(xùn)練循環(huán)中，用胸部 X 光片來訓(xùn)練人工智能影像生成模型。從實驗結(jié)果（圖 4）可知，由于人工智能合成的數(shù)據(jù)污染而產(chǎn)生的視覺退化、病理表征扭曲以及人口統(tǒng)計學(xué)偏倚等都會被加重。

納入醫(yī)生評估環(huán)節(jié)，

提出三種策略解決 AI 生成困境

為了評價研究結(jié)果的臨床相關(guān)性，對人工智能生成出來的輸出做了結(jié)構(gòu)化的審查和編輯，并且加入了醫(yī)師評價的過程證實臨床效用的退化。另外，研究團隊對三種應(yīng)對 AI 數(shù)據(jù)污染導(dǎo)致模型退化的策略進行了系統(tǒng)的驗證，分別為真實數(shù)據(jù)混合訓(xùn)練為基本方案，當(dāng)真實數(shù)據(jù)占比達(dá)到 75% 時，可以較好地保持病理的多樣性、語言的保真度，從而有效地減少人口統(tǒng)計學(xué)偏差；質(zhì)量感知過濾是在有限真實數(shù)據(jù)的基礎(chǔ)上提高利用效率的一種方式，可以作為增效補充，但是不能代替高比例真實數(shù)據(jù)的作用；單純擴增合成數(shù)據(jù)不僅無效，還會加快模型退化、加重性別偏見，數(shù)據(jù)數(shù)量不能彌補質(zhì)量缺陷。

結(jié)論與展望

研究團隊認(rèn)為應(yīng)該把數(shù)據(jù)溯源作為醫(yī)療 AI 部署的政策強制要求，實行強制的人工檢驗制度。僅僅依靠自愿監(jiān)督是不夠的，隨著臨床 AI 應(yīng)用規(guī)模的擴大，嚴(yán)格的機械驗證的經(jīng)濟可行性會越來越低，如果沒有制度性的限制，醫(yī)療系統(tǒng)就會存在污染未來患者數(shù)字生理數(shù)據(jù)的風(fēng)險。如果缺少政策強制的溯源機制，那么生成式 AI 部署后就會影響到它本身的醫(yī)療數(shù)據(jù)生態(tài)系統(tǒng)，進而引發(fā)安全問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.