
2025年12月,《Lancet Digital Health》发表了一篇文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,对评估AI预测模型性能的几大类指标进行了总结。
在前一篇推文中,我们介绍了几大类指标的概念:1)区分度(discrimination)、2)校准度(calibration)、3)整体性能(overall performance)、4)分类(classification)、5)临床效用(clinical utility)。
详见:柳叶刀子刊:评估AI预测模型性能的几大类指标总结(区分度、校准度…)
接下来仍以ADNEX模型为例(该模型预测女性卵巢肿瘤的恶性概率),具体聊一聊这些指标以及相应的可视化图形。所有R和Python代码,均已公开于GitHub代码仓库,链接如下:
https://github.com/benvancalster/PerfMeasuresOverview
前文提到,性能指标应具备两项关键特征:(1)该指标应为“恰当”(proper)的指标;(2)该指标应明确聚焦于是反映统计价值还是决策分析价值。不具备第一项特征的指标不可信赖,缺乏第二项特征的指标则含义模糊、难以解释。下面在讨论各指标时,会提及到这两项特征。
区分度(Discrimination)
常见的区分度指标是一致性概率(concordance probability)或C统计量(C-statistic)。对于二分类结局,C统计量等于受试者工作特征曲线下面积(AUROC),但当事件发生率远远偏离0.5时,一些研究者建议不要使用AUROC。有观点认为,在罕见事件时,AUROC具有误导性或过于乐观。
作为ROC曲线及AUROC的替代方案,常推荐使用精确率–召回率曲线(PR曲线)及其曲线下面积(AUPRC)。另一种替代AUROC的指标是部分AUROC(pAUROC),关注ROC曲线中特异度或灵敏度达到某个最低可接受水平的部分。AUROC、AUPRC和pAUROC均为“半恰当(semi-proper)”指标。
区分能力对预测性AI模型至关重要,但仅凭AUROC一项指标不足以判定一个模型是否优秀或实用。使用PR曲线或ROC曲线进行可视化展示是可以接受的,但根据本文作者的经验,这些图所提供的信息并不比汇总性指标(如AUROC)或相关的临床效用指标(如净效益net benefit)更有价值。
下图1展示了本案例研究(ADNEX模型)的ROC曲线和PR曲线,基于“灵敏度低于0.8不可接受”这一观点(但该观点未经证实),展示出了pAUROC。
ADNEX模型的AUROC为0.91(95%CI 0.89–0.93),AUPRC为0.89(95%CI 0.86–0.91)。去掉灵敏度低于0.8的部分后,pAUROC为0.14(95%CI 0.13–0.15)。
图1. ADNEX模型的ROC曲线(A)、PR曲线(B)和pAUROC(C)
校准度(Calibration)
统计学和机器学习文献提过多种评估模型校准度的方法,这些方法可分为三个逐级严格的层级:均值校准(mean calibration)、弱校准(weak calibration)、中度校准(moderate calibration),前两个层级主要源自统计学文献。目前,关于第四个层级“强校准(strong calibration)”的量化研究仍在进行中。


确认删除