通知:9月1日因服务器突发状况,部分用户可能登录出现问题。如无法正常登录,请联系小咖(微信号:xys2018ykf)我知道了

二分类Logistic回归 (简洁版)

SPSS教程回归分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析? 

 

表1. 肺癌危险因素分析研究的变量与赋值

 

表2. 部分原始数据

二、对问题分析

该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD病史)。要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分析。

在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。

 
本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。

 

表3. 病例组和对照组暴露因素的单因素比较

 

单因素分析中,病例组和对照组之间的差异有统计学意义的自变量包括:性别、COPD病史和是否吸烟。

 

此时,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。

 
本研究中,年龄和BMI与因变量没有统计学关联。但是,临床认为年龄也是肺癌发生的可能危险因素,因此Logistic回归模型中,纳入以下自变量:性别、年龄、COPD病史和是否吸烟。

 

此外,对于连续变量,如果仅仅是为了调整该变量带来的混杂(不关心该变量的OR值),则可以直接将改变量纳入Logistic回归模型;如果关心该变量对因变量的影响程度(关心该变量的OR值),一般不直接将该连续变量纳入模型,而是将连续变量转化为有序多分类变量后纳入模型。 这是因为,在Logistic回归中直接纳入连续变量,那么对于该变量的OR值的意义为:该变量每升高一个单位,发生结局事件的风险变化(比如年龄每增加1岁,患肺癌的风险增加1.02倍)。这种解释在临床上大多数是没有意义的。           

三、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
四、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
五、撰写结论

本研究发现,85例肺癌患者中,吸烟者67例(78.8%);259例非肺癌患者中,吸烟者153例(59.1%),肺癌患者和非肺癌患者中的吸烟率的差异有统计学意义(χ2=10.829, P<0.01)。Logistic回归模型在调整了性别和COPD病史后,吸烟者相对于不吸烟者,发生肺癌的风险增加(OR=3.45, 95% CI: 1.86-6.40)。

 

多变量分析的结果见表4(常作为研究报告或论文中的表2)。

 

表4. 肺癌危险因素的Logistic回归分析

请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题