二分类Logistic回归 (详细版)

SPSS教程回归分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

某研究者想了解年龄、性别、BMI和总胆固醇(TC)预测患心脏病(CVD)的能力,招募了100例研究对象,记录了年龄(age)、性别(gender)、BMI,测量血中总胆固醇水平(TC),并评估研究对象目前是否患有心脏病(CVD)。部分数据如图1。

 

图1 部分数据

二、对问题分析

使用Logistic模型前,需判断是否满足以下7项假设。


假设1:因变量(结局)是二分类变量。


假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。


假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。


假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。


假设5:连续的自变量与因变量的logit转换值之间存在线性关系。


假设6:自变量之间无多重共线性。


假设7:没有明显的离群点、杠杆点和强影响点。


假设1-4取决于研究设计和数据类型,本研究数据满足假设1-4。那么应该如何检验假设5-7,并进行Logistic回归呢?

三、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
四、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
五、撰写结论

本研究采用二分类Logistic回归评估年龄、性别、BMI和总胆固醇水平对研究对象患心脏病的影响。使用Box-Tidwell方法检验连续自变量与因变量logit转换值间是否为线性。线性检验模型时共纳入8项,Bonferroni校正后显著性水平为0.00625。线性检验结果得到所有连续自变量与因变量logit转换值间存在线性关系。5个观测的学生化残差大于标准差的2.5倍,但保留在分析中。

 

最终,得到的Logistic模型具有统计学意义,χ2=37.023,P<0.001。该模型能够正确分类79.0%的研究对象。模型的敏感度为74.4%,特异度为82.5%,阳性预测值为76.2%,阴性预测值为81.0%。模型纳入的四个自变量中,年龄、BMI和TC有统计学意义。年龄每增加1岁,患心脏病的风险增加11.5%。BMI每增加一个单位,患心脏病的风险增加22.6%。TC每增加一个单位,患心脏病的风险增加1.505倍。


扩展阅读


在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。


经过单因素分析后,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。


此外,对于连续变量,如果仅仅是为了调整该变量带来的混杂(不关心该变量的OR值),则可以直接将该变量纳入Logistic回归模型;如果关心该变量对因变量的影响程度(关心该变量的OR值),一般不直接将该连续变量纳入模型,而是建议将连续变量转化为有序多分类变量后纳入模型。这是因为,在Logistic回归中直接纳入连续变量,那么对于该变量的OR值的意义为:该变量每升高一个单位,发生结局事件的风险变化(比如年龄每增加1岁,患心脏病的风险增加1.115倍),这种解释在临床上大多数是没有意义的。

请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题