实例教程:协变量调整后的ROC曲线及AUC的计算
王九谊

王九谊

荷兰乌特勒支大学理学院药物流行病与临床药理学系

擅长:诊断试验,生存分析,预测模型的开发和验证,卫生技术评估
已关注
关注
2019-02-07 来源:医咖会

在很多情况下,协变量会影响诊断指标值的分布情况。例如,我们在上一篇文章中用到的数据,年龄就会影响卵巢储备功能检测指标的分布。(点击查看文章详情:如何联合多个指标提升诊断准确度?教程来了!

所以在评价一个诊断指标的准确度时,需要通过调整来去除协变量造成的影响。通常提到调整,大家首先会想到将协变量加入回归模型中,就可以得到调整后的效应量估计。但是这种方法并不适用于计算调整后的诊断准确度,因为这样得到的准确度是联合了多个指标的诊断得分的准确度(详见上篇文章),而不是真正的调整了协变量影响后的诊断指标自身的准确度。这篇文章,我们就介绍一下,如何计算协变量调整后的ROC曲线和AUC值。

以基础窦卵泡数(AFC)为例,我们根据样本中患者年龄的中位数(34岁)将所有患者分为低年龄组(≤34岁)和高年龄组(>34岁),可以发现低年龄组(实线)的AFC值要高于高年龄组(虚线)的AFC值(实线表示的分布位置比同一颜色的虚线表示的分布位置更偏向x轴的右侧,即更高的AFC值)(图1)。

图1. 卵巢低反应/非低反应组AFC指标分年龄组的分布

(注:x轴是AFC的值,y轴是分布密度函数)

诊断指标值在协变量组间的差异,会对ROC曲线和AUC的估计有什么影响呢?从图2中我们可以看出,基于全部患者的整体ROC曲线,相比于根据协变量分层的ROC曲线,会得到更高的AUC值。

原因就在于,分层变量本身也是具有一定预测能力的变量。如果我们想要得到诊断试验指标本身的诊断准确度,就需要排除分层变量自身的预测能力对诊断试验表现的影响。

图2. 协变量分组ROC曲线和整体ROC曲线

蓝色:年龄≤34岁,AUC=0.7525

红色:年龄>34岁,AUC=0.7837

有问题
找小咖
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
数据库搭建
想提升科研效率和数据质量?扫码添加小E,立即咨询数据采集与管理相关产品和服务!查看详细>>
意见反馈