
2025年12月,《Lancet Digital Health》发表了一篇总结文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,对评估AI预测模型性能的几大类指标进行了评估。文章讨论了五大性能维度的32种性能指标及其图形化评估方法,这五个维度包括:
1)区分度(discrimination)
2)校准度(calibration)
3)整体性能(overall performance)
4)分类(classification)
5)临床效用(clinical utility)
其中,前四个维度反映统计性能,第五个维度则体现决策分析性能。
文章以ADNEX模型为例来讲解这些指标及其特性(该模型用于预测女性卵巢肿瘤的恶性概率)。文章建议以下指标和图表应作为AI预测模型报告中的核心内容:受试者工作特征曲线下面积(AUC-ROC)、校准图(calibration plot)、基于决策曲线分析的临床效用指标(如净收益[net benefit])、按结局类别展示的概率分布图。
五大性能维度
1、区分度(discrimination)
区分度关注模型是否能为实际发生事件的个体比未发生事件的个体分配更高的事件概率。区分度反映的是相对性能,即模型所估计的概率绝对值大小并不重要,关键在于这些概率能否有效区分有事件个体与无事件个体。
2、校准度(calibration)
校准度关注模型估计的概率与实际观察到的事件发生率之间的一致性。校准度体现的是绝对性能,用于评估概率估计值是否过高或过低。因此,一个模型可能具有良好的区分度但校准度较差,反之亦然。
3、整体性能(overall performance)
整体性能综合了区分度与校准度,通过量化模型估计的概率与真实结局(0表示无事件,1表示事件)之间的接近程度,来评估模型表现。
4、分类(classification)
第四和第五个性能维度需要设定一个事件风险的阈值,将个体划分为两个互斥的组别:低风险组(估计风险低于阈值)和高风险组(估计风险等于或高于阈值)。这种分组通常关联着某种干预措施(例如手术),即建议对高风险个体实施干预,对低风险个体则不建议干预。因此,该阈值可称为“决策阈值”。也可以使用多个决策阈值将个体划分为三个或更多组别,本文聚焦于常见的单阈值情形。
分类性能关注个体被正确归类为高风险或低风险的程度。该维度基于列联表(又称混淆矩阵),对分类结果(低风险 vs. 高风险)与实际结局(事件 vs. 无事件)进行交叉汇总。当所有发生事件的个体预测概率均高于决策阈值,所有未发生事件的个体预测概率均低于该阈值时,分类性能达到完美。分类性能受区分度和校准度的影响。
5、临床效用(clinical utility)
临床效用更进一步,在评估个体被划分进低风险或高风险组时,明确考虑了误分类成本(misclassification costs)。"误分类成本"是一个成熟术语,泛指各类误分类(包括假阳性与假阴性)所带来的危害。
临床效用评估的是基于特定决策阈值所做决策的质量,以及使用该模型是否比不使用模型或使用其他竞争模型能带来更优的临床决策。因此,决策阈值应具有临床意义,并与误分类成本相关联。由于临床效用直接关注决策质量,它是五个性能维度中最重要的一个。
“决策阈值”的定义
大多数用于医学的预测性AI模型,主要目标是支持后续的临床决策。模型得到的概率估计值可帮助改善健康结局:对低风险个体避免实施获益有限且负担较重的干预措施,为高风险个体更合理地选择干预方案。因此,决策阈值应基于医学考量而非统计学依据来确定。
然而,在实践中,决策阈值常常通过某个统计指标来定(如约登指数,即灵敏度+特异度−1)。采用统计学指标来设定决策阈值,不仅违背决策理论的基本原则,也脱离了临床医生的实际使用需求。
正确的做法是:一旦模型所要支持的具体临床决策被明确定义后,就应考虑使用该模型辅助决策可能产生的四种后果:
- 真阳性(实际发生事件且被归类为高风险)
- 真阴性(未发生事件且被归类为低风险)
- 假阴性(实际发生事件却被归类为低风险)
- 假阳性(未发生事件却被归类为高风险)
这些后果的重要性权重因干预措施的性质与影响、医疗体系特点,以及医生和患者的偏好而有所不同。
本文中的案例涉及需要手术切除卵巢肿瘤的患者。临床使用ADNEX模型来决定应采取高级别手术还是保守手术,通常建议将恶性概率的决策阈值设为0.1(即10%)。这意味着,当ADNEX模型预测某患者的恶性风险为10%时,便建议其接受高级别手术。在此阈值下,每发现1例真正需要高级别手术的恶性肿瘤患者(真阳性),就需要对另外9名实际为良性肿瘤的患者实施了不必要的高级别手术(即最多接受9例假阳性)。换言之,采用这一阈值隐含的前提是:对恶性肿瘤患者实施高级别手术所带来的医学获益,至少是良性肿瘤患者接受不必要高级别手术所造成伤害的9倍。
本文讨论了32种性能指标(3种区分度指标、6种校准度指标、9种整体性能指标、11种分类指标、3种临床效用指标)(见表1),以及相应的可视化评估方法。
表1. 本文所讨论的性能指标以及案例研究中ADNEX模型在校准前后的结果


确认删除