国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

柳葉刀子刊:評估AI預測模型性能的幾大類指標總結(區(qū)分度、校準度…)

0
分享至

2025年12月,《Lancet Digital Health》發(fā)表了一篇總結文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,對評估AI預測模型性能的幾大類指標進行了評估。文章討論了五大性能維度的32種性能指標及其圖形化評估方法,這五個維度包括:

1)區(qū)分度(discrimination)

2)校準度(calibration)

3)整體性能(overall performance)

4)分類(classification)

5)臨床效用(clinical utility)

其中,前四個維度反映統(tǒng)計性能,第五個維度則體現(xiàn)決策分析性能。

文章以ADNEX模型為例來講解這些指標及其特性(該模型用于預測女性卵巢腫瘤的惡性概率)。文章建議以下指標和圖表應作為AI預測模型報告中的核心內容:受試者工作特征曲線下面積(AUC-ROC)、校準圖(calibration plot)、基于決策曲線分析的臨床效用指標(如凈收益[net benefit])、按結局類別展示的概率分布圖。

五大性能維度

1、區(qū)分度(discrimination)

區(qū)分度關注模型是否能為實際發(fā)生事件的個體比未發(fā)生事件的個體分配更高的事件概率。區(qū)分度反映的是相對性能,即模型所估計的概率絕對值大小并不重要,關鍵在于這些概率能否有效區(qū)分有事件個體與無事件個體。

2、校準度(calibration)

校準度關注模型估計的概率與實際觀察到的事件發(fā)生率之間的一致性。校準度體現(xiàn)的是絕對性能,用于評估概率估計值是否過高或過低。因此,一個模型可能具有良好的區(qū)分度但校準度較差,反之亦然。

3、整體性能(overall performance)

整體性能綜合了區(qū)分度與校準度,通過量化模型估計的概率與真實結局(0表示無事件,1表示事件)之間的接近程度,來評估模型表現(xiàn)。

4、分類(classification)

第四和第五個性能維度需要設定一個事件風險的閾值,將個體劃分為兩個互斥的組別低風險組(估計風險低于閾值)和高風險組(估計風險等于或高于閾值)。這種分組通常關聯(lián)著某種干預措施(例如手術),即建議對高風險個體實施干預,對低風險個體則不建議干預。因此,該閾值可稱為“決策閾值”。也可以使用多個決策閾值將個體劃分為三個或更多組別,本文聚焦于常見的單閾值情形。

分類性能關注個體被正確歸類為高風險或低風險的程度。該維度基于列聯(lián)表(又稱混淆矩陣),對分類結果(低風險 vs. 高風險)與實際結局(事件 vs. 無事件)進行交叉匯總。當所有發(fā)生事件的個體預測概率均高于決策閾值,所有未發(fā)生事件的個體預測概率均低于該閾值時,分類性能達到完美。分類性能受區(qū)分度和校準度的影響。

5、臨床效用(clinical utility)

臨床效用更進一步,在評估個體被劃分進低風險或高風險組時,明確考慮了誤分類成本(misclassification costs)。"誤分類成本"是一個成熟術語,泛指各類誤分類(包括假陽性與假陰性)所帶來的危害。

臨床效用評估的是基于特定決策閾值所做決策的質量,以及使用該模型是否比不使用模型或使用其他競爭模型能帶來更優(yōu)的臨床決策。因此,決策閾值應具有臨床意義,并與誤分類成本相關聯(lián)。由于臨床效用直接關注決策質量,它是五個性能維度中最重要的一個。

“決策閾值”的定義

大多數用于醫(yī)學的預測性AI模型,主要目標是支持后續(xù)的臨床決策。模型得到的概率估計值可幫助改善健康結局:對低風險個體避免實施獲益有限且負擔較重的干預措施,為高風險個體更合理地選擇干預方案。因此,決策閾值應基于醫(yī)學考量而非統(tǒng)計學依據來確定。

然而,在實踐中,決策閾值常常通過某個統(tǒng)計指標來定(如約登指數,即靈敏度+特異度?1)。采用統(tǒng)計學指標來設定決策閾值,不僅違背決策理論的基本原則,也脫離了臨床醫(yī)生的實際使用需求。

正確的做法是:一旦模型所要支持的具體臨床決策被明確定義后,就應考慮使用該模型輔助決策可能產生的四種后果:

  • 真陽性(實際發(fā)生事件且被歸類為高風險)
  • 真陰性(未發(fā)生事件且被歸類為低風險)
  • 假陰性(實際發(fā)生事件卻被歸類為低風險)
  • 假陽性(未發(fā)生事件卻被歸類為高風險)

這些后果的重要性權重因干預措施的性質與影響、醫(yī)療體系特點,以及醫(yī)生和患者的偏好而有所不同

本文中的案例涉及需要手術切除卵巢腫瘤的患者。臨床使用ADNEX模型來決定應采取高級別手術還是保守手術,通常建議將惡性概率的決策閾值設為0.1(即10%)。這意味著,當ADNEX模型預測某患者的惡性風險為10%時,便建議其接受高級別手術。在此閾值下,每發(fā)現(xiàn)1例真正需要高級別手術的惡性腫瘤患者(真陽性),就需要對另外9名實際為良性腫瘤的患者實施了不必要的高級別手術(即最多接受9例假陽性)。換言之,采用這一閾值隱含的前提是:對惡性腫瘤患者實施高級別手術所帶來的醫(yī)學獲益,至少是良性腫瘤患者接受不必要高級別手術所造成傷害的9倍。

本文討論了32種性能指標(3種區(qū)分度指標、6種校準度指標、9種整體性能指標、11種分類指標、3種臨床效用指標)(見表1),以及相應的可視化評估方法。

表1. 本文所討論的性能指標以及案例研究中ADNEX模型在校準前后的結果






良好性能指標應具備的關鍵特征

本文定義了性能指標應具備的兩項關鍵特征:(1)該指標應為“恰當”(proper)的指標;(2)該指標應明確聚焦于是反映統(tǒng)計價值還是決策分析價值。不具備第一項特征的指標不可信賴,缺乏第二項特征的指標則含義模糊、難以解釋。

第三項理想特征是具有直觀易懂的可解釋性,但本文不詳細討論這一特征,因為可解釋性具有主觀性,且受使用者背景知識和熟悉程度的影響。

在醫(yī)學實踐中,對預測性AI模型的性能評估可清晰區(qū)分為統(tǒng)計性能評估決策分析性能評估兩類。前四個性能維度關注統(tǒng)計性能的不同方面,而臨床效用維度則聚焦于決策分析性能。

統(tǒng)計性能指標對于模型評估至關重要,但不能單獨用于判斷模型是否應投入臨床實踐。例如,僅憑良好的區(qū)分度和校準度就聲稱“該模型可用于輔助卵巢手術決策”是不恰當的。若某性能指標旨在超越單純的統(tǒng)計價值,則必須依據決策分析原則,要納入誤分類成本。

案例研究:卵巢癌診斷模型(ADNEX模型)

本文所使用的案例是對有卵巢腫瘤的女性預期其惡性風險。ADNEX模型由國際卵巢腫瘤分析(IOTA)聯(lián)盟開發(fā),可在術前估計計劃接受手術的卵巢腫瘤患者患惡性腫瘤的概率[1]。該模型可用于指導兩類決策:(1)在腫瘤中心就診的患者選擇高級別手術還是保守手術;(2)在其他機構就診的患者是否應轉診至腫瘤中心。

ADNEX模型基于1999-2012年間來自10個國家(意大利、比利時、瑞典、捷克、波蘭、法國、英國、中國、西班牙、加拿大)的24家二級和三級醫(yī)療機構共5909名患者的數據開發(fā)而成。

隨后,TransIOTA研究利用2015-2019年間來自4個國家(比利時、意大利、捷克和英國)的1家二級和5家三級醫(yī)療機構的894名女性數據,對ADNEX模型區(qū)分良性與惡性腫瘤的能力進行了外部驗證[2]。

出于教學目的,本文使用該數據集計算了所有要討論的性能指標及其95%CI,并展示了所有相關的可視化圖表。

本文評估了原始ADNEX模型的性能,以及經邏輯校準(logistic recalibration)更新后的性能(見前表1)。更新方法為:以結局為因變量,以ADNEX輸出的事件概率的logit值(線性預測因子)為自變量,擬合一個logistic回歸模型。該方法類似于機器學習中的Platt縮放(Platt scaling),常用于改善預測的校準度。邏輯校準本質上是對線性預測因子進行線性變換,因此是一種保序方法(rank-preserving method),即患者按惡性概率排序的結果在校準前后保持不變。

所有R和Python代碼,以及894名參與者的惡性風險估計值和實際結局數據,均已公開于GitHub代碼倉庫,鏈接如下:

https://github.com/benvancalster/PerfMeasuresOverview

參考文獻:

1.BMJ. 2014; 349:g5920

2. Br J Cancer. 2024; 130:934-940

本文整理自:Lancet Digit Health. 2025 Dec 13:100916.

受篇幅限制,本篇文章先介紹到這里,在后面一篇推文中,我們再介紹這篇文章的后半部分,即針對各種性能指標的描述以及相應的可視化方法,敬請期待。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
八萬人打不下一個教堂,義和團:洋人用了臟東西

八萬人打不下一個教堂,義和團:洋人用了臟東西

比利
2026-02-24 17:14:56
疑似黃曉明新戀情曝光,對方又是網紅臉,難怪葉柯新年直播哭了

疑似黃曉明新戀情曝光,對方又是網紅臉,難怪葉柯新年直播哭了

郭蛹包工頭
2026-02-25 19:27:26
一家四口春節(jié)“硬核”出游:從杭州自駕到嘉峪關,2700公里電車充電18次,“真香了”

一家四口春節(jié)“硬核”出游:從杭州自駕到嘉峪關,2700公里電車充電18次,“真香了”

極目新聞
2026-02-24 18:14:46
“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

“母子落魄吃蛋糕”視頻火了,獲贊過百萬:誰不羨慕這樣的父母?

妍妍教育日記
2026-02-25 20:58:43
反轉!福特放棄LG取消450億訂單,轉頭密談比亞迪?韓國巨頭懵了

反轉!福特放棄LG取消450億訂單,轉頭密談比亞迪?韓國巨頭懵了

大衛(wèi)聊科技
2026-02-23 13:41:26
克宮:用核武器武裝烏克蘭計劃違反國際法

克宮:用核武器武裝烏克蘭計劃違反國際法

參考消息
2026-02-24 22:48:05
落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

云舟史策
2026-02-24 22:18:16
中科曙光,業(yè)績炸了

中科曙光,業(yè)績炸了

半導體產業(yè)縱橫
2026-02-25 18:47:38
2026年北京社保最新基數標準,個人一個月需要交多少錢呢

2026年北京社保最新基數標準,個人一個月需要交多少錢呢

才朔HR
2026-02-25 17:28:20
艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
59歲宋祖英現(xiàn)身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

59歲宋祖英現(xiàn)身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

琴聲飛揚
2026-02-12 11:51:25
俞飛鴻竇文濤二十年相伴不結婚,抵押房產賠光四千萬他仍守在身邊

俞飛鴻竇文濤二十年相伴不結婚,抵押房產賠光四千萬他仍守在身邊

動物奇奇怪怪
2026-02-25 19:00:15
上海人來北京,直言不諱:上海維持的 “體面”,在北京根本不存在

上海人來北京,直言不諱:上海維持的 “體面”,在北京根本不存在

今日搞笑分享
2026-02-24 13:16:43
紫牛頭條 | 全家出游老人服務區(qū)內被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

紫牛頭條 | 全家出游老人服務區(qū)內被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

揚子晚報
2026-02-24 23:56:16
當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

夜深愛雜談
2026-02-25 21:23:43
救市!上海樓市,亮劍了

救市!上海樓市,亮劍了

城市財經
2026-02-25 15:37:37
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
安史之亂八年里,叛軍為何死戰(zhàn)不降?不是安祿山想反,他也很無奈

安史之亂八年里,叛軍為何死戰(zhàn)不降?不是安祿山想反,他也很無奈

今日養(yǎng)生之道
2026-02-22 16:18:50
都說不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭開真相

都說不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭開真相

壹知眠羊
2026-02-25 22:18:18
歐冠16強誕生!英超6隊全晉級 意甲剩獨苗 抽簽時間+潛在對陣出爐

歐冠16強誕生!英超6隊全晉級 意甲剩獨苗 抽簽時間+潛在對陣出爐

阿超他的體育圈
2026-02-26 06:47:00
2026-02-26 08:15:00
醫(yī)咖會
醫(yī)咖會
生動有趣的形式傳遞醫(yī)學新進展
2766文章數 10975關注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態(tài)

頭條要聞

日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態(tài)

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經要聞

上海樓市放大招,地產預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

親子
藝術
健康
數碼
房產

親子要聞

產后性生活冷淡?找回“高潮”,是修復夫妻關系的第一步

藝術要聞

這些作品太美了,仙氣飄飄,三位大咖不容錯過!

轉頭就暈的耳石癥,能開車上班嗎?

數碼要聞

音質降噪全升級!三星Buds 4系列正式發(fā)布 179美元起

房產要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

無障礙瀏覽 進入關懷版