柳叶刀子刊:评估AI预测模型性能的常见指标和可视化图形

2026-01-06 来源:医咖会

2025年12月,《Lancet Digital Health》发表了一篇文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,对评估AI预测模型性能的几大类指标进行了总结。

在前一篇推文中,我们介绍了几大类指标的概念:1)区分度(discrimination)、2)校准度(calibration)、3)整体性能(overall performance)、4)分类(classification)、5)临床效用(clinical utility)。

详见:柳叶刀子刊:评估AI预测模型性能的几大类指标总结(区分度、校准度…)

接下来仍以ADNEX模型为例(该模型预测女性卵巢肿瘤的恶性概率),具体聊一聊这些指标以及相应的可视化图形。所有R和Python代码,均已公开于GitHub代码仓库,链接如下:

https://github.com/benvancalster/PerfMeasuresOverview

前文提到,性能指标应具备两项关键特征:(1)该指标应为“恰当”(proper)的指标;(2)该指标应明确聚焦于是反映统计价值还是决策分析价值不具备第一项特征的指标不可信赖,缺乏第二项特征的指标则含义模糊、难以解释。下面在讨论各指标时,会提及到这两项特征。

区分度(Discrimination)

常见的区分度指标是一致性概率(concordance probability)或C统计量(C-statistic)。对于二分类结局,C统计量等于受试者工作特征曲线下面积(AUROC),但当事件发生率远远偏离0.5时,一些研究者建议不要使用AUROC。有观点认为,在罕见事件时,AUROC具有误导性或过于乐观。

作为ROC曲线及AUROC的替代方案,常推荐使用精确率–召回率曲线(PR曲线)及其曲线下面积(AUPRC)。另一种替代AUROC的指标是部分AUROC(pAUROC),关注ROC曲线中特异度或灵敏度达到某个最低可接受水平的部分。AUROC、AUPRC和pAUROC均为“半恰当(semi-proper)”指标。

区分能力对预测性AI模型至关重要,但仅凭AUROC一项指标不足以判定一个模型是否优秀或实用。使用PR曲线或ROC曲线进行可视化展示是可以接受的,但根据本文作者的经验,这些图所提供的信息并不比汇总性指标(如AUROC)或相关的临床效用指标(如净效益net benefit)更有价值。

下图1展示了本案例研究(ADNEX模型)的ROC曲线和PR曲线,基于“灵敏度低于0.8不可接受”这一观点(但该观点未经证实),展示出了pAUROC。

ADNEX模型的AUROC为0.91(95%CI 0.89–0.93),AUPRC为0.89(95%CI 0.86–0.91)。去掉灵敏度低于0.8的部分后,pAUROC为0.14(95%CI 0.13–0.15)。

图1. ADNEX模型的ROC曲线(A)、PR曲线(B)和pAUROC(C)

校准度(Calibration)

统计学和机器学习文献提过多种评估模型校准度的方法,这些方法可分为三个逐级严格的层级:均值校准(mean calibration)、弱校准(weak calibration)、中度校准(moderate calibration),前两个层级主要源自统计学文献。目前,关于第四个层级“强校准(strong calibration)”的量化研究仍在进行中。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可享受以下权益
基础课程券2张
200积分
确认
取消
APP下载 领课程券
扫码下载APP
领基础课程券
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈