如何利用统计图提升文章逼格呢?首先高逼格不在于一定要用高级、复杂的统计图,而在于用最简单的统计图,最直观、明确地展示数据特征!所以呀,选对统计图才是重中之重;究其根本呢,需要理清样本资料的类型并结合分析目的挑选合适的统计图。接下来我们看看拿到数据后该如何根据数据类型一步一步地选择统计图吧!
图1 统计图的选择
- 分类变量
- 数值变量
- 离散型定量变量:取值可连续,如问卷量表评分、运动员的犯规次数
- 连续型定量变量:取值不可连续,如年龄、每加仑汽油可行驶的英里数
如图,首先,我们需要判断变量的类型,是分类变量还是数值变量。如果是分类变量,我们使用直条图(bar chart)、饼图(pie chart)或百分条图(percent bar chart)描述变量的频率分布即可,比较简单,就不再详细解释了(推荐阅读:22篇详细的SPSS作图教程)。今天我们说说数值变量统计图的选择。
对于数值变量,若符合正态分布,一般用均数±标准差表示,统计图可以选择误差条图(error bar chart,如图 2,直条的高度表示均数的大小,须线表示±标准差);而偏态分布则可以使用箱式图(box plot)展示中位数和四分位数间距等(图3)。所以啊,我们通常需要先检验变量的正态性,以便选择合适的统计图!
图2
图3
说到正态性检验,相信大家都知道Shapiro-Wilk或Kolmogorow-Smirnov检验可定量检验数据的正态性;但此类检验较为敏感,很容易得到数据不正态的结论;故可借助统计图协助判定资料是否符合正态分布。对于离散型定量变量(如运动员的犯规次数)可以通过直条图查看频率分布(图4);对于连续型定量变量(如每加仑汽油可行驶英里数),则可以做直方图查看其频数或频率分布(图5),观察数据是否符合正态分布的特征;同时可以与一个具有与待测样本相同均值和标准差的参考正态分布(即钟型曲线)对比来判断数据是否近似正态分布,显然直方图显示该变量不符合正态分布。
确认删除