样本量大于30,就可以认为是正态了吗?

2018-09-30 来源:“小白学统计”公众号

好多学生或临床医生都问过我:样本量大于30或50是不是就不用做正态性检验了?而且一本正经地说,这是统计书上说的,有的则说,这是老师说的。有的说的更专业了:这是根据中心极限定理,当样本量大于30的时候,就接近正态了。凡此种种,我只能说,回去好好看书去,或者,哪个老师跟你这么说的。

统计学中确实有一个中心极限定理这个词。但是这个定理不是教你说,样本量大于30就认为是正态分布了。其实这个定理说的是统计量的分布,而不是原始数据的分布。仔细体会一下上面这句话,最少读3遍。

所谓统计量,那当然就是根据一份抽样数据计算出的一个指标,可能你要说,这怎么会有分布呢?原始数据有分布我还可以理解,就是把原始数据列个频数表,细化了就成了分布了。

可是统计量怎么有分布呢?一份数据不就只能计算一个统计量吗(如均值、标准差)?不错,一份数据是只有一个统计量,可是,如果有多个样本,那就可以有多个统计量,那就有分布了。

比方说,有下面这样一份数据。一共1000个数值,它的分布如下:

这个数据大家一看很清楚,这是一个明显的偏态数据,左边小的值更多一些,右边大的值没有几个。

对于这样一份数据,我可以将它作为一个总体,也就是说,总体数据本身就是偏态的。对于这样的总体,我可以从中抽样,而且可以抽好多次。假定我抽了100次,这样就得到100个样本(注意100个样本不是指100个数据,一个样本是指一次抽样,每个样本中的例数才是样本量)。这100个样本,每次抽样可以抽取2个数,也可以抽取10个数,还可以抽取100个或几百个,都可以。

假定我做100次抽样,每次抽样只抽取2个数,这样每个样本我可以计算一个均值(虽然只有2个数,仍然可以算这2个数的均值),这样就得到100个均值,我把这100个均值画个分布图,它是这样的:

评论
请先登录后再发表评论
发表评论
medi_27712877541
呜呜呜,我终于懂了
2022-09-10 09:19:11 回复
0
medi_4oodm7k
最喜欢医咖会这个公众号了,讲的特别清楚
2022-04-19 10:45:01 回复
1
Shen
我竟然看懂了 讲的很清楚
2021-12-02 22:41:37 回复
1
慌慌张张
不要错把冯京当马良,不然审稿人会骂娘
2021-03-24 20:46:58 回复
1
(OwO)
这篇文风好欢乐hhh
2020-11-20 10:20:47 回复
1
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈