通知:9月1日因服务器突发状况,部分用户可能登录出现问题。如无法正常登录,请联系小咖(微信号:xys2018ykf)我知道了

单因素方差分析 (详细版)

SPSS教程方差分析
问答

点击绿色“提问”按钮

  • 针对本文提问
  • 查看历史问答

长按鼠标选中正文某句话

  • 对选中的内容进行针对性提问
一、问题与数据

有研究者认为,体力活动较多的人能更好地应对职场的压力。为了验证这一理论,某研究招募了31名受试者,测量了他们每周进行体力活动的时间(分钟),以及应对职场压力的能力。

 

根据体力活动的时间数,受试者被分为4组:久坐组、低、中、高体力活动组,变量名为group。利用Likert量表调查的总得分来评估应对职场压力的能力,分数越高,表明应对职场压力的能力越强,变量名为coping_stress。应对职场压力的能力,可以简写为CWWS得分。

 

研究者想知道,CWWS得分的高低是否取决于体力活动的时间,即coping_stress变量的平均得分是否随着group变量的不同而不同(部分数据如下图)?

二、对问题分析

研究者想分析不同group间的coping_stress得分差异,可以采用单因素方差分析。单因素方差分析适用于2种类型的研究设计:1)判断3个及以上独立的组间均数是否存在差异;2)判断前后变化的差值是否存在差异。使用单因素方差分析时,需要考虑6个假设。

假设1:因变量为连续变量;

假设2:有一个包含2个及以上分类、且组别间相互独立的自变量;

假设3:每组间和组内的观测值相互独立;

假设4:每组内没有明显异常值;

假设5:每组内因变量符合正态分布;

假设6:进行方差齐性检验,观察每组的方差是否相等。

 

那么进行单因素方差分析时,如何考虑和处理这6个假设呢?

三、假设判断

1. 假设1:因变量为连续变量;假设2:有一个包含2个及以上分类、且组别间相独立的自变量;假设3:每组间及组内的观测值相互独立。和研究设计有关,需根据实际情况判断。

 

2. 假设4:每组内没有明显异常值。

 

如果某个组别中的某些因变量取值和其他值相比特别大或者特别小,则称之为异常值。异常值会影响该组的均数和标准差,因此会对最终的统计检验结果产生很大的负面影响。对于小样本研究,异常值的影响尤其显著,必须检查每组内是否存在明显异常值。

 

以下将说明如何在SPSS中利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的几种处理方法。

 

(1) 在主菜单点击Analyze > Descriptive Statistics > Explore...:

 

 

出现下图Explore对话框:

 

 

(2) 把因变量coping_stress送入Dependent List框中,把自变量group送入Factor List框中:

 

 

(3) 点击Plots...,出现Explore: Plots对话框:

 

 

(4) 在Boxplots模块内保留系统默认选项Factor levels together,在Descriptive模块内取消选择Stem-and-leaf,在下方勾选Normality plots with tests(执行 Shapiro-Wilk's检验):

 

 

点击Continue,返回Explore对话框。

 

(5) 在Display模块内点击Plots:

 

 

如果使用偏度和峰度(skewness and kurtosis)进行正态性判断,则保留Display模块内的默认选项Both或者选择Statistics。

 

(6) 点击OK,输出结果。

 

根据如下输出的箱线图,判断每个组别内是否存在异常值。

 

 

SPSS中将距离箱子边缘超过1.5倍箱身长度的数据点定义为异常值,以圆点表示;将距离箱子边缘超过3倍箱身长度的数据点定义为极端值(极端异常值),以星号(*)表示。为容易识别,在Data View窗口异常值均用其所在行数标出。本例数据箱线图无圆点或星号,因此无异常值。假如数据中存在异常值和极端异常值,其箱线图如下:

 

 

箱线图是一种比较简单和流行的异常值检验方法,当然同样存在一些更为复杂的方法,这里不过多介绍。

 

接下来,我们介绍如何处理数据中存在的异常值。

 

导致数据中存在异常值的原因3种

 

(1) 数据录入错误:首先应该考虑异常值是否由于数据录入错误所致。如果是,用正确值进行替换并重新进行检验;

 

(2) 测量误差:如果不是由于数据录入错误,接下来考虑是否因为测量误差导致(如仪器故障或超过量程);

 

(3) 真实的异常值:如果以上两种原因都不是,那最有可能是一种真实的异常数据。这种异常值不好处理,但也没有理由将其当作无效值看待。目前它的处理方法比较有争议,尚没有一种特别推荐的方法。

 

需要注意的是,如果存在多个异常值,应先把最极端的异常值去掉后,重新检查异常值情况。这是因为有时最极端异常值去掉后,其他异常值可能会回归正常。

 

异常值的处理方法分为2种

 

(1) 保留异常值:

1)采用非参数Kruskal-Wallis H检验;

2)用非最极端的值来代替极端异常值(如用第二大的值代替);

3)因变量转换成其他形式;

4)将异常值纳入分析,并坚信其对结果不会产生实质影响。

 

(2) 剔除异常值:

直接删除异常值很简单,但却是没有办法的办法。当我们需要删掉异常值时,应报告异常值大小及其对结果的影响,最好分别报告删除异常值前后的结果。而且,应该考虑有异常值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。

 

3假设5:每组内因变量符合正态分布。

 

正态性检验有很多方法,这里只介绍最常用的一种:Shapiro-Wilk正态性检验(其他还有偏度和峰度值、直方图等)。在假设4的判断中,我们在Explore: Plots对话框中勾选了Normality plots with tests,输出结果中会给出Shapiro-Wilk检验的结果。

 

如果样本量较小(<50),并且对正态Q-Q图或其他图形方法的结果诠释不够有把握,推荐采用Shapiro-Wilk检验。每组自变量都会有一个Shapiro-Wilk正态性检验结果。本例结果见如下Tests of Normality表格。

 

 

如果数据符合正态分布,显著性水平(蓝框中的Sig.)应该大于0.05。Shapiro-Wilk检验的无效假设是数据服从正态分布,备择假设是数据不服从正态分布。因此,如果拒绝无效假设(P<0.05),表示数据不服从正态分布;如果不能拒绝无效假设,则不能认为数据不服从正态分布。本例中每组正态性检验P值均大于0.05,因此不能认为每组因变量不服从正态分布。

 

如果样本量大于50,推荐使用正态Q-Q图等图形方法进行正态判断,因为当样本量较大时,Shapiro-Wilk检验会把稍稍偏离正态分布的数据也标记为有统计学差异,即数据不服从正态分布。

 

如果数据不服从正态分布,可以有如下4种方法进行处理:

 

(1) 数据转换:对转换后呈正态分布的数据进行单因素方差分析。当各组因变量的分布形状相同时,正态转换才有可能成功。对于一些常见的分布,有特定的转换形式,但是对于转换后数据的结果解释可能比较复杂。

 

(2) 使用非参数检验:可以使用Kruskal-Wallis H检验等非参数检验方法,但是要注意Kruskal-Wallis H检验和单因素方差分析的无效假设和备择假设不太一致。

 

(3) 直接进行分析:由于单因素方差分析对于偏离正态分布比较稳健,尤其是在各组样本量相等或近似相等的情况下,而且非正态分布实质上并不影响犯I型错误的概率。因此可以直接进行检验,但是结果中仍需报告对正态分布的偏离。

 

(4) 检验结果的比较:将转换后和未转换的原始数据分别进行单因素方差分析,如果二者结论相同,则再对未转换的原始数据进行分析。

 

4. 假设6:进行方差齐性检验,观察每组的方差是否相等。在第五部分SPSS操作中进行判断。

 
四、SPSS操作
请先登录
这么重要的内容,赶快登录查看吧!
五、结果解释
请先登录
这么重要的内容,赶快登录查看吧!
六、撰写结论

1. 当方差齐,方差分析显示组间差异无统计学意义时:

 

采用单因素方差分析方法,判断不同水平体力活动组间的应对职场压力的能力(CWWS得分)是否有差异。受试者被分为4组:久坐组(7人)、“低”体力活动组(9人)、“中”体力活动组(8人)、“高”体力活动组(7人)。

 

经箱线图判断,数据无异常值;经Shapiro-Wilk检验,各组数据服从正态分布(P>0.05);经Levene's方差齐性检验,各组数据方差齐(P=0.120)。数据以均数±标准差的形式表示。

 

CWWS得分按照从久坐组(4.2±0.8)、“低”体力活动组(5.9±1.7)、“中”体力活动组(7.1±1.6)、“高”体力活动组(7.5±1.2)的顺序增加,但是不同体力活动组间的CWWS得分差异无统计学意义,F(3,27)=1.116, P=0.523。

 

2. 当方差不齐,方差分析显示组间差异无统计学意义时:

 

采用Welch方差分析方法,判断不同水平体力活动组间的应对职场压力的能力(CWWS得分)是否有差异。受试者被分为4组:久坐组(7人)、“低”体力活动组(9人)、“中”体力活动组(8人)、“高”体力活动组(7人)。

 

经箱线图判断,数据无异常值;经Shapiro-Wilk检验,各组数据服从正态分布(P>0.05);经Levene's方差齐性检验,各组数据方差不齐(P=0.002)。数据以均数±标准差的形式表示。

 

CWWS得分按照从久坐组(4.2±0.8)、“低”体力活动组(5.9±1.7)、“中”体力活动组(7.1±1.6)、“高”体力活动组(7.5±1.2)的顺序增加,但是不同体力活动组间的CWWS得分差异无统计学意义,Welch F(3,12.325)=1.316,  P=0.523。

 

3. 当方差齐,方差分析显示组间差异有统计学意义,并进行了两两比较时:

 

采用单因素方差分析方法,判断不同水平体力活动组间的应对职场压力的能力(CWWS得分)是否有差异。受试者被分为4组:久坐组(7人)、“低”体力活动组(9人)、“中”体力活动组(8人)、“高”体力活动组(7人)。

 

经箱线图判断,数据无异常值;经Shapiro-Wilk检验,各组数据服从正态分布(P>0.05);经Levene's方差齐性检验,各组数据方差齐(P=0.120)。数据以均数±标准差的形式表示。

 

不同体力活动组间的CWWS得分差异具有统计学意义,F(3,27)=8.316, P<0.0005,ω2=0.42。CWWS得分按照从久坐组(4.2±0.8)、“低”体力活动组(5.9±1.7)、“中”体力活动组(7.1±1.6)、“高”体力活动组(7.5±1.2)的顺序增加。

 

Tukey检验结果表明,从久坐组到“中”体力活动组,CWWS平均得分增加2.97(95%CI:0.99~4.96),差异具有统计学意义(P=0.002);从久坐组到“高”体力活动组,CWWS平均得分增加3.35(95%CI:1.30~5.40),差异具有统计学意义(P=0.001);其他组间两两比较的结果差异无统计学意义。

 

4. 当方差不齐,方差分析显示组间差异有统计学意义,并进行了两两比较时:

 

采用Welch方差分析方法,判断不同水平体力活动组间的应对职场压力的能力(CWWS得分)是否有差异。受试者被分为4组:久坐组(7人)、“低”体力活动组(9人)、“中”体力活动组(8人)、“高”体力活动组(7人)。

 

经箱线图判断,数据无异常值;经Shapiro-Wilk检验,各组数据服从正态分布(P>0.05);经Levene's方差齐性检验,各组数据方差不齐(P=0.003)。

 

不同体力活动组间的CWWS得分差异具有统计学意义,F(3,14.574)=14.821,P<0.0005。CWWS得分按照从久坐组(4.2±0.8)、“低”体力活动组(5.9±1.7)、“中”体力活动组(7.1±1.6)、“高”体力活动组(7.5±1.2)的顺序增加。

 

Games-Howell检验结果表明,从久坐组到“中”体力活动组,CWWS平均得分增加2.97(95%CI:1.07~4.88),差异具有统计学意义(P=0.003);从久坐组到“高”体力活动组,CWWS平均得分增加3.35(95%CI:1.66~5.05),差异具有统计学意义(P=0.001)。

 

5. 从无效假设和备择假设的角度出发,当单因素方差分析或Welch方差分析显示组间差异有统计学意义时:

 

各组间均数差异有统计学意义(P<0.05)。因此,可以拒绝无效假设,接受备择假设。

 

6. 从无效假设和备择假设的角度出发,当单因素方差分析或Welch方差分析显示组间差异无统计学意义时:

 

各组间均数差异无统计学意义(P>0.05)。因此,不能拒绝无效假设,不能接受备择假设。

七、绘制图表

最后,我们来学习如何在SPSS软件中绘制柱状图,从而更好地展示展示单因素方差分析的结果,使其更适合于学术发表。

 

1. 在SPSS软件中生成柱状图

 

(1) 在菜单栏中,点击Graphs > Chart Builder...:

 

 

出现如下Chart Builder对话框:

 

 

(2) 在Chart Builder对话框的左下角,Choose from:模块中选择“Bar”:

 

 

(3) 在Chart Builder对话框的中下部,出现8个不同的柱状图选项,把左上角的第一个(Simple Bar)拖进上面的主要图表预览窗口,并点击Element Properties:

 

 

(4) 出现下图,图表预览窗口的柱状图横纵轴分别显示“X-Axis?”和“Y-Axis?”:

 

 

(5) 从Variables:模块中把自变量group拖进“X-Axis?”,把因变量coping_stress拖进“Y-Axis?”:

 

 

(6) 在Element Properties对话框中勾选Display error bars,激活–Error Bars Represent– 模块,勾选Confidence intervals,Level (%):设定为95,当然也可以根据需要勾选Standard error或者Standard deviation:

 

 

(7) 点击Apply,进行确认。

 

(8) 如果想改变自变量分组的顺序,在"Edit Properties of: 模块中点击"X-Axis1 (Bar1)"进行设置。

 

(9) 如果想改变因变量的范围或刻度,在"Edit Properties of: 模块中点击"Y-Axis1 (Bar1)"进行设置。

 

(10) 在Chart Builder对话框中点击OK。

 

2. 简单柱状图结果

 

按照上述操作步骤,生成简单柱状图如下:

 

 

图中每个柱子的高度表示各组均值的大小,error bar表示均值的95%CI。SPSS软件会自动生成灰色背景、米黄色柱子的柱状图,但是这种样式的图对于学术文章的发表可能不太适用。我们可以使用SPSS软件的图形编辑工具,得到如下更适用于学术研究的柱状图:

 

请先登录
这么重要的内容,赶快登录查看吧!
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
Next
Previous
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题