如何快速简易判断数据的正态性?

专题合集更多教程

来源:“小白学统计”微信公众号;感谢作者授权。

 

数据的正态性始终是困扰临床医生的一个问题,对于定量资料而言,几乎所有方法的选择都跟正态性有关。很多临床医生都很崩溃:我想直接用t检验行不行啊?可惜,正态性检验就像一个绕不过去的门槛,你恨或愤怒,它都在那里,不声不响,不悲不喜。

 

不少人对正态性检验都有一定疑问,比如看下面这个图:

不少人对正态性检验都有一定疑问,比如看下面这个图:

 

 

你觉得这个是正态分布吗?非常接近,遗憾的是,正态性检验结果显示,不能认为是正态分布(P=0.015)。为什么会这样?明明看起来很接近了,为什么正态性检验还提示说不能认为是正态分布?

 

首先要明确,正态性检验的原假设是“数据服从正态分布”,如果P<0.05,拒绝原假设,即不能认为“数据服从正态分布”。也就是说,它检验的是偏离正态的程度。跟普通检验一样,这种检验也是,数据越多,越容易拒绝原假设。也就是说,同样的均值和标准差,当你有20个数据,可能是P>0.05,而200个数据时,就成了P<0.05。

 

听起来有点不可思议,不是说,样本量越大,越容易将它看做是正态的吗?怎么现在反而颠倒过来了,样本量越大,越不满足正态分布了。

 

因为正态性检验中,看的是你的数据是不是完全正态的,只要有偏离,在样本量小的时候检验不出来,而样本量大的时候,轻微偏离就会检验出来。

 

所以,很多统计学家其实并不是很看重正态性检验,因为,太敏感了。容不得数据有一丁点的偏离,否则就要给你显著性结果。

 

那么我们实际中应该怎么办?其实正常情况下,很多统计学方法,比如t检验、方差分析,虽然说前提条件是满足正态性,但并不是非常苛刻。其实所谓的满足正态,不如说是“只要不是过于偏态”更合适。也就是说,只要数据不是偏态严重,正常情况下是可以用这些方法的。

 

下面给临床医生介绍几种简易的判断正态性的方法(统计专业人士请绕行):

 

1. 根据均值和标准差。首先,分别计算均值和标准差,然后看一下数据中有百分之多少的人在均值±1个标准差、均值±2个标准差、均值±3个标准差之内。如果分别大概是68%、95%、99%左右,说明差不多是正态的。

 

比如,我有10个数:

 

 

均值为0.16,标准差是1.3,那么均值±1个标准差的范围大概是-1.14和1.46,大约有7个位于这一范围(70%)。均值±1个标准差的范围大概是-2.44和2.76,大约有10个位于这一范围(100%)。比较接近68%、95%和99%,差不多可以认为是正态的。

 

2. 计算四分位数间距和标准差,如果四分位数间距/标准差的值大约在1.35左右,可以认为满足正态分布。比如上面的10个数中,四分位数间距是1.9,标准差是1.3,1.9/1.3大约为1.4左右,比较接近1.35,可以认为是正态的。

 

3. 通过几幅图来判断,最常用的图有箱式图、直方图、茎叶图、QQ图等

 

箱式图、直方图和茎叶图的判断方式差不多,如果是正态的,箱式图、直方图和茎叶图应该都是大致对称分布。如下面两幅图:

 

 

箱式图提示,略有偏态,可能有几个异常值,在数值较大的一侧。直方图和茎叶图更明显一些,虽然似乎有点偏,但并不严重,总的来看仍然认为是正态的。

 

QQ图跟你平时聊天的QQ一点关系也没有。它是Quantile-Quantile的缩写,也就是分位数-分位数图。因为这个图中横坐标和纵坐标都利用了分位数,横坐标是正态分位数,纵坐标是实际数据的分位数。所以Q-Q图的思想就是比较理论分位数和实际分位数的差距,如果理论分位数和实际分位数没什么差别的话,图中所有的点应该都在一条直线上;如果差别大,那就会偏离直线比较大。

 

所以QQ图判断原则就是:如果大致呈一条左下至右上的直线,可以认为是正态的。如下图:

 

 

这个QQ图大致像是一条直线,差不多就行,不用太严格。所以可以认为是正态。

 

最后总结一下:对于正态性的判断,尽管有很多种检验方法,但这些方法都过于敏感,尤其大样本时候,轻微偏离一点,就会认为非正态。所以实际中没有必要非得根据这些检验方法来判断是否正态。

 

如果想快速判断,可以简单算四分位数间距和标准差,看一下二者比值是否在1.35左右。如果手头方便,可以随便用任何统计软件,绘制直方图、茎叶图、QQ图等。

 

(如何利用SPSS来做这些图,可点击查看:SPSS教程:判断数据正态分布的超多方法!)

 

可能还有人会说,那我如何在文章中交代呢?如果要写文章,必须提供正态性检验的话,给出一个箱式图是个比较不错的选择,既图示你的数据大小,而且告诉读者大致的数据分布情况。

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题