样本量大于30,就可以认为是正态了吗?
2018-09-30 来源:“小白学统计”公众号

好多学生或临床医生都问过我:样本量大于30或50是不是就不用做正态性检验了?而且一本正经地说,这是统计书上说的,有的则说,这是老师说的。有的说的更专业了:这是根据中心极限定理,当样本量大于30的时候,就接近正态了。凡此种种,我只能说,回去好好看书去,或者,哪个老师跟你这么说的。

统计学中确实有一个中心极限定理这个词。但是这个定理不是教你说,样本量大于30就认为是正态分布了。其实这个定理说的是统计量的分布,而不是原始数据的分布。仔细体会一下上面这句话,最少读3遍。

所谓统计量,那当然就是根据一份抽样数据计算出的一个指标,可能你要说,这怎么会有分布呢?原始数据有分布我还可以理解,就是把原始数据列个频数表,细化了就成了分布了。

可是统计量怎么有分布呢?一份数据不就只能计算一个统计量吗(如均值、标准差)?不错,一份数据是只有一个统计量,可是,如果有多个样本,那就可以有多个统计量,那就有分布了。

比方说,有下面这样一份数据。一共1000个数值,它的分布如下:

这个数据大家一看很清楚,这是一个明显的偏态数据,左边小的值更多一些,右边大的值没有几个。

对于这样一份数据,我可以将它作为一个总体,也就是说,总体数据本身就是偏态的。对于这样的总体,我可以从中抽样,而且可以抽好多次。假定我抽了100次,这样就得到100个样本(注意100个样本不是指100个数据,一个样本是指一次抽样,每个样本中的例数才是样本量)。这100个样本,每次抽样可以抽取2个数,也可以抽取10个数,还可以抽取100个或几百个,都可以。

假定我做100次抽样,每次抽样只抽取2个数,这样每个样本我可以计算一个均值(虽然只有2个数,仍然可以算这2个数的均值),这样就得到100个均值,我把这100个均值画个分布图,它是这样的: