回归模型中引入连续变量，还有哪些玩法？

龚志忠

首都医科大学附属北京中医医院

擅长：临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价

已关注

关注

个人主页

2018-08-26 来源：医咖会

在前期推送的内容《想将连续变量转化为哑变量纳入回归模型，咋分组？》中，我们向大家介绍了在回归模型中引入连续型变量时，除了以其原始变量的形式纳入到模型中外，有时还需要考虑到实际的分析需求，将其按照一定的分组切点转换为哑变量，例如二分类分组、等分位分组、等距分组、临床界值分组，或者按照自己的“Free Style”进行分组等多种转换形式。

但是在介绍以上的转换形式时，我们主要针对的是将连续型变量转化为分类变量，以哑变量的形式引入模型。

而作为连续型变量，本身就自带七十二变的属性，因此本期内容我们继续来向大家介绍一下，在构建回归模型时，连续型变量还有哪些其他神奇的变化形式。

1、正态转换

首先要提到的就是较为常见的正态转换形式。我们都知道，在构建线性回归时，需要满足一定的前提条件，其中有一项即要求变量需服从正态分布或者近似正态分布，如果不满足正态分布的条件，往往会导致构建的回归模型产生一定的偏倚，因此对于连续型变量在事前进行正态性检验是十分必要的。

我们在前期推送的文章《判断数据正态分布的超多方法》中，介绍了多种正态性检验的方法，包括利用数据分布的参数（偏度值、峰度值）进行判断，利用数据分布的图形（直方图，P-P图，Q-Q图）进行判断，或者借助非参数检验的方法（Shapiro-Wilk检验，Kolmogorov-Smirnov检验）来帮助判断。需要复习的同学可以戳上文连接。

那么，当我们的数据资料分布呈现非正态时，需要怎么办呢？此时，我们可以将原始的连续型变量作某种函数的转换，使偏态资料正态化，从而满足回归模型构建的需要。

根据数据本身分布形态的不同，我们可以采用不同的正态转换函数，例如对原始连续型变量开平方取根号值（Square Root）、取自然对数（Ln X）、取以10为底的对数（Log10 X）、取倒数（1 / X）等等，具体的操作方法详见前期推送的文章《正态转换的多种方法》。