回归模型中引入连续变量,还有哪些玩法?

龚志忠

龚志忠

首都医科大学附属北京中医医院

擅长:临床研究数据统计分析、流行病学方法设计、临床预测模型建模与评价
已关注
关注
2018-08-26 来源:医咖会

在前期推送的内容《想将连续变量转化为哑变量纳入回归模型,咋分组?》中,我们向大家介绍了在回归模型中引入连续型变量时,除了以其原始变量的形式纳入到模型中外,有时还需要考虑到实际的分析需求,将其按照一定的分组切点转换为哑变量,例如二分类分组、等分位分组、等距分组、临床界值分组,或者按照自己的“Free Style”进行分组等多种转换形式。

但是在介绍以上的转换形式时,我们主要针对的是将连续型变量转化为分类变量,以哑变量的形式引入模型。

而作为连续型变量,本身就自带七十二变的属性,因此本期内容我们继续来向大家介绍一下,在构建回归模型时,连续型变量还有哪些其他神奇的变化形式

1、正态转换

首先要提到的就是较为常见的正态转换形式。我们都知道,在构建线性回归时,需要满足一定的前提条件,其中有一项即要求变量需服从正态分布或者近似正态分布,如果不满足正态分布的条件,往往会导致构建的回归模型产生一定的偏倚,因此对于连续型变量在事前进行正态性检验是十分必要的。

我们在前期推送的文章《判断数据正态分布的超多方法》中,介绍了多种正态性检验的方法,包括利用数据分布的参数(偏度值、峰度值)进行判断,利用数据分布的图形(直方图,P-P图,Q-Q图)进行判断,或者借助非参数检验的方法(Shapiro-Wilk检验,Kolmogorov-Smirnov检验)来帮助判断。需要复习的同学可以戳上文连接。

那么,当我们的数据资料分布呈现非正态时,需要怎么办呢?此时,我们可以将原始的连续型变量作某种函数的转换,使偏态资料正态化,从而满足回归模型构建的需要。

根据数据本身分布形态的不同,我们可以采用不同的正态转换函数,例如对原始连续型变量开平方取根号值(Square Root)、取自然对数(Ln X)、取以10为底的对数(Log10 X)、取倒数(1 / X)等等,具体的操作方法详见前期推送的文章《正态转换的多种方法》。

试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
ywt0614
请问非正态的连续型变量,可以为转换为每增加1/4等份吗(类似每变化一个标准差)
2022-09-09 20:40:37 回复
0
ywt0614
请问如何把原始的连续型变量进行标准化处理?有步骤或者教程吗?
2022-09-09 18:04:07 回复
0
medi_27291808769
讲的太好了
2021-11-22 21:13:54 回复
1
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈