5种较为简单的缺失值处理方法

2021-11-25 来源:“小白学统计”微信公众号

文章来源:“小白学统计”微信公众号,感谢作者授权。

如果你调查的数据发现有缺失(这几乎是不可避免的),首先建议先做一些分析,比如这些缺失数据和全部数据在性别、年龄等一些指标上有无差异(但愿是没有差异的)。

如果差别不大,那还勉强说的过去,如果差别较大,那就麻烦了。审稿人肯定会说,为什么全部数据中男性占50%,而缺失数据中男性占70%?这是不是说明缺失的主要是男性,那会不会影响你的主要研究结局?等等之类的。当然,理论上,你需要证明在所有的因素中差别都不大,但这一点很难,实际中,很多人都是大概看看在一些主要的基线资料中差别不大就算是心里安慰了。

先说一个原则性问题,处理缺失值最好的方式是什么?答案是:没有最好的方式。或者说,最好的方式只有一个,预防缺失,尽量不要缺失。

听起来像开玩笑,但这是真理。任何的填补技术都是有问题的,就像有人说的,所有的统计方法都是错误的,任何的统计方法都是有条件的,在适当条件下,结论可能比较可信,否则就是错误的。

缺失值的处理有很多种方式,本文先说一些比较简单的。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈