一、问题与数据
某研究者想了解年龄、性别、BMI和总胆固醇(TC)预测患心脏病(CVD)的能力,招募了100例研究对象,记录了年龄(age)、性别(gender)、BMI,测量血中总胆固醇水平(TC),并评估研究对象目前是否患有心脏病(CVD)。部分数据如图1。
图1 部分数据
二、对问题分析
使用Logistic模型前,需判断是否满足以下7项假设。
假设1:因变量(结局)是二分类变量。
假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。
假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。
假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。
假设5:连续的自变量与因变量的logit转换值之间存在线性关系。
假设6:自变量之间无多重共线性。
假设7:没有明显的离群点、杠杆点和强影响点。
假设1-4取决于研究设计和数据类型,本研究数据满足假设1-4。那么应该如何检验假设5-7,并进行Logistic回归呢?
三、SPSS操作
3.1 检验假设5:连续的自变量与因变量的logit转换值之间存在线性关系
连续的自变量与因变量的logit转换值之间是否存在线性关系,可以通过多种方法检验。这里主要介绍Box-Tidwell方法,即将连续自变量与其自然对数值的交互项纳入回归方程。
本研究中,连续的自变量包括age、BMI、TC。使用Box-Tidwell方法时,需要先计算age、BMI、TC的自然对数值,并命名为ln_age、ln_BMI、ln_TC。
(1)计算连续自变量的自然对数值
以age为例,计算age的自然对数值ln_age的SPSS操作如下。在主界面点击 Transform→Compute Variable,出现Compute Variable对话框。在Target Variable框中输入即将生成自然对数值的变量名称(如输入ln_age表示age的自然对数值)。选择Function group菜单下的Arithmetic,选择Functions and special variables菜单下的Ln,双击Ln将该公式选入Numeric Expression框中,最后双击age将该变量选入“LN()”公式中。点击OK生成新变量ln_age(即age的自然对数值)。如图2。