通知:9月1日因服务器突发状况,部分用户可能登录出现问题。如无法正常登录,请联系小咖(微信号:xys2018ykf)我知道了

二分类Logistic回归 (详细版)

SPSS教程回归分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

研究者想根据年龄、体重、性别和最大摄氧量(VO2max,一项身体健康指标)预测是否患心脏病。为此,研究者招募100名研究对象完成最大摄氧量试验,登记年龄、体重和性别,并评估研究对象目前是否患有心脏病。然后利用Logistic模型判断年龄(age)、体重(weight)、性别(gender)和最大摄氧量(VO2max)能否预测心脏病患病(heart_disease)情况。

 

部分数据如下图,变量caseno为每个研究对象的唯一编码。

二、对问题分析

使用二分类Logistic模型前,需判断是否满足以下7项假设。

假设1:因变量(结局)是二分类变量。

假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。

假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。

假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。

假设5:连续的自变量与因变量的logit转换值之间存在线性关系。

假设6:自变量之间无多重共线性。

假设7:没有明显的离群点、杠杆点和强影响点。

假设1-4取决于研究设计和数据类型,本研究数据满足假设1-4。那么应该如何检验假设5-7,并进行Logistics回归呢?

三、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
四、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
五、撰写结论

本研究采用二分类Logistic回归评估年龄、体重、性别和最大摄氧量对研究对象患心脏病的影响。使用Box-Tidwell方法检验连续自变量与因变量logit转换值间是否为线性。线性检验模型时共纳入8项,Bonferroni校正后显著性水平为0.00625。线性检验结果得到所有连续自变量与因变量logit转换值间存在线性关系。一个观测的学生化残差为标准差的3.349倍,但保留在分析中。

最终,得到的Logistic模型具有统计学意义,χ2=27.402,P<0.0005。该模型能够正确分类71.0%的研究对象。模型的敏感度为45.7%,特异度为84.6%,阳性预测值为61.5%,阴性预测值为74.3%。

模型纳入的五个自变量中,年龄、性别和最大摄氧量有统计学意义。男性患心脏病的风险是女性的7.026倍。年龄每增加1岁,患心脏病的风险增加8.9%。最大摄氧量每增加一个单位,患心脏病的风险降低9.4%。

六、延伸阅读
在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。

经过单因素分析后,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量

此外,对于连续变量,如果仅仅是为了调整该变量带来的混杂(不关心该变量的OR值),则可以直接将改变量纳入Logistic回归模型;如果关心该变量对因变量的影响程度(关心该变量的OR值),一般不直接将该连续变量纳入模型,而是建议将连续变量转化为有序多分类变量后纳入模型。这是因为,在Logistic回归中直接纳入连续变量,那么对于该变量的OR值的意义为:该变量每升高一个单位,发生结局事件的风险变化(比如年龄每增加1岁,患心脏病的风险增加1.089倍)。这种解释在临床上大多数是没有意义的。
请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题