什么是哑变量(虚拟变量),应用中应注意什么问题?

2020-07-08 来源:“小白学统计”微信公众号

虚拟变量(dummy variable)也叫哑变量,翻译不同而已。因为dummy的含义有假的、虚拟的、哑的等各种含义,所以国内翻译也不一样。但是他们俩是一回事。

虚拟变量其实算不上一种变量类型(比如连续变量、分类变量等),确切地说,是一种将多分类变量转换为二分变量的一种形式。Dummy这个词意思是虚拟的、假的,所以dummy variable意思就是假的变量,不是真实的变量。那它到底虚拟在什么地方呢?我们通过一个例子来详细解释一下

例:某研究者检测了四种不同类型社区(分别用0、1、2、3表示)的SO2情况。研究者欲分析社区类型是否与SO2水平有关系,或者说,不同社区类型的SO2水平是否不同。

该例子中,因变量SO2水平是一个定量资料,自变量社区类型是一个分类资料,分析方法可以考虑一般线性模型。

首先要强调一点,不管是一般线性模型还是广义线性模型,它们都是“线性”的,也就是说,只要你采用了这些模型,就已经默认了自变量与因变量之间的关系是线性的。所以,对于例中的数据,如果用一般线性模型,其结果如下图所示

图中的意思是,随着社区类型从0到3之间的改变,SO2水平是线性增加的,增加的幅度(斜率)是207.8。也就是说,社区类型从0变为1,SO2增加207.8;社区类型从1变为2,SO2增加207.8;社区类型从2变为3,SO2增加207.8。

但我们会发现,事实并非如此。从0到1时,似乎增加的幅度更大;而从1到2时,似乎增加的幅度没有这么大。也就是说,207.8这个幅度,只是一个平均幅度,是从0到3增加的平均幅度。如果我们想具体了解从0到1、从1到2、从2到3真实的增加值,就需要用到虚拟变量了。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈