文章来源:“小白学统计”微信公众号,感谢作者授权。
如果你调查的数据发现有缺失(这几乎是不可避免的),首先建议先做一些分析,比如这些缺失数据和全部数据在性别、年龄等一些指标上有无差异(但愿是没有差异的)。
如果差别不大,那还勉强说的过去,如果差别较大,那就麻烦了。审稿人肯定会说,为什么全部数据中男性占50%,而缺失数据中男性占70%?这是不是说明缺失的主要是男性,那会不会影响你的主要研究结局?等等之类的。当然,理论上,你需要证明在所有的因素中差别都不大,但这一点很难,实际中,很多人都是大概看看在一些主要的基线资料中差别不大就算是心里安慰了。
先说一个原则性问题,处理缺失值最好的方式是什么?答案是:没有最好的方式。或者说,最好的方式只有一个,预防缺失,尽量不要缺失。
听起来像开玩笑,但这是真理。任何的填补技术都是有问题的,就像有人说的,所有的统计方法都是错误的,任何的统计方法都是有条件的,在适当条件下,结论可能比较可信,否则就是错误的。
缺失值的处理有很多种方式,本文先说一些比较简单的。
确认删除