数据中的异常值,应该直接删除吗?

2019-05-17 来源:“小白学统计”公众号

文章转载自“小白学统计”公众号,感谢作者授权。

不少人曾问我:我的数据中有异常值,是不是应该删除?要回答这个问题,我们必须从异常值的概念来谈起。可能有的人觉得异常值很好理解,不就是“异常”的值吗?关键是,怎样才算异常呢?

例:在10个数据中(下图黑色点)人为加入红、绿、紫色的3个点,它们都是异常值吗?

异常值其实是一个较为宽泛的概念,它至少包含了三种情形

(1) 离群值(outliner)

离群值是指从因变量y的角度来看属于异常的值,如图中的红色点和绿色点,偏离y的均值较其它点更远。

离群值通常采用学生化残差来判断。

(2) 高杠杆值(high leverage)

高杠杆值是指从自变量x的角度来看属于异常的值,如图中的紫色点和绿色点,在x轴上偏离x的均值较远。

高杠杆值通常采用杠杆值来判断。

(3) 强影响值(influential observation)

强影响值是指对模型影响较大的值,也就是说,如果删除了该值,会导致模型发生很大变化(如系数值改变较大)。

强影响点通常采用COOK'D值、DFBETAS和DFFITS来判断。

下图比较了不同异常值对模型拟合效果的影响。图中黑色实线表示不含这3个异常值的拟合线,绿色、红色、紫色虚线分别表示含绿色点、红色点、紫色点时的拟合线。

不难看出,含有绿色点时,对模型拟合影响几乎不大(与黑色实线几乎重合);含有紫色点时,拟合线被向下拉低,即回归系数远低于黑色实线;含有红色点时,拟合线也被拉低。

如果要判断的话,绿色点虽然从x方向和y方向上都偏离均值,但却不是强影响点;紫色点和红色点才是强影响点,因为单独的任一点便可以导致系数发生很大变化。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈