通知:9月1日因服务器突发状况,部分用户可能登录出现问题。如无法正常登录,请联系小咖(微信号:xys2018ykf)我知道了

SPSS详细教程:多阶段抽样,其实并不复杂!

专题合集更多教程

在上一期的文章中,我们向大家介绍了随机抽样的相关内容,它主要用在流行病学调查选择研究对象的过程中,目的是为了使所有的研究对象都有相同的机会被抽取。(点击查看:手把手教你SPSS实现随机抽样的两种方法)。

 

当然,对于抽样结构比较复杂的情况时,我们需要综合多种随机抽样的方法,分阶段进行抽样,今天我们就来向大家介绍一下,如何利用SPSS实现复杂的多阶段抽样

 

研究实例

 

假设某城市想要调查了解该地区居民的健康状况,拟从该城市5个不同地理位置辖区内的共49个区县11128个居住小区中进行抽样,数据库格式如下:

 

ID:小区编号,且是唯一识别号

 

District:地区编号,该城市根据地理位置划分为东、西、南、北、中共5个地区

 

town:区县编号,即5个不同地理位置中管辖的区县编号,其中东部9个,西部16个,南部8个,北部9个,中部7个

 

 

抽样要求:

 

1. 覆盖全部5个地理位置辖区

 

2. 从49个区县中随机抽取22个区县,每个地理位置根据其管辖的不同区县数量,来确定抽样量

 

3. 再从被抽中的区县中,随机抽取20%的小区

 

4. 被抽中的小区居民全部参与健康调查

 

对于这个抽样过程,虽然看似很复杂,但是我们可以把它简化,因为它几乎涵盖了上我们在一篇文章中所讲到的各种随机抽样方法,包括简单随机抽样、分层抽样、整群抽样、分阶段抽样等,那么考考大家,到底应该如何进行抽样呢?

 

抽样思路

 

1. 完整抽样框:11128个居住小区

 

2. 第一阶段抽样

 

抽样目标:抽取22个区县(占49个总区县数量的45%)

 

分层抽样:按照5个不同地理位置辖区进行分层

 

按比例分配:由于每个地理位置管辖的区县数量不同,我们按照45%的抽样比例,来计算每个地区的抽样数量,即东部4个,西部7个,南部4个,北部4个,中部3个

 

3. 第二阶段抽样

 

抽样目标:抽取20%小区的全部居民

 

简单随机抽样:从被抽中的每个区县中,随机抽取20%的小区

 

整群抽样:被抽中的小区居民全部参加健康调查

 

 

SPSS操作

 

1. 运行Complex Samples (复杂抽样),进入Sampling Wizard(抽样向导)

Analyze → Complex Samples → Select a Sample

 

 

2. 进入到Sampling Wizard(抽样向导)的Welcome(欢迎)步骤

 

选择Design a sample来创建一个抽样方法文件,并将其命名为sample.csplan,点击Next继续

 

 

3. 复杂抽样第一阶段设计(Stage 1)

 

(1) Design Variables(设计变量)步骤

 

在该步骤中可以对样本进行分层或者分群

 

我们根据上面确定的抽样思路,先把District选入Stratify By框中,将总体按照District进行分层,作为一级抽样单位。然后再将town选入Clusters框中,表示在每一个District中,以town为分群依据,作为二级抽样单位进行抽样。

 

 

(注意:Stratify By和Clusters分别对应了我们前期介绍的分层抽样和整群抽样,但是在SPSS 22.0中文界面中将Clusters翻译成“聚类”,小咖觉得此处翻译的并不是很妥当,不易让人理解。)

 

(2) Method(抽样方法)步骤

 

我们在Method Type下拉选项中选择Simple Random Sampling(简单随机抽样)的方法,并选择Without replacement(WOR)进行不放回的抽样。表示在每一个District分层下,采用简单随机抽样的方法,抽取若干个town作为下一步抽样的基础。

 

 

(3) Sample Size(样本大小)步骤

 

在Units(单元)的下拉选项中有Counts(计数)和Proportions(比例)两种形式,Counts可以直接指定计划抽样的样本量,Proportions可以设置样本含量占总体的比例,可以根据具体情况来选择合适的方法。

 

由于我们采用分层下的等比例抽样,从一共49个区县中抽取22个区县,抽样比例为45%,因此此处我们选择Proportions,并在Value中填写0.45即可。

 

 

当然,我们也可以选择Counts来设置抽样量。由于每一分层下抽样量不一致,因此需要选择Unequal values for strata,并点击Define来手动定义每一层所需抽样的样本量。此处根据等比例计算,分别设置Eastern 4、Central 3、Western 7、Northern 4、Southern 4。

 

 

 

(4) Output Variables(输出变量)步骤

 

此步骤提供了4个变量可以进行保存,分别为Population size(群体大小)、Sample proportion(样本比例)、Sample size(样本大小)和Sample weight(样本权重),可以根据需要进行选择。

 

 

(5) Summary(摘要)步骤

 

此步骤为复杂抽样第一阶段的一个摘要总结,显示了分层变量、整群变量、抽样大小和抽样方法等信息。完成复杂抽样第一阶段的设计后,我们选择Yes,add stage 2 now进入第二阶段的设计。

 

 

4. 复杂抽样第二阶段设计(Stage 2)

 

第二阶段设计的目的就是在第一阶段抽取的town的基础上,再随机抽取一定的样本作为最终的抽样调查对象。第二阶段的设计步骤和第一阶段大致相同。

 

(1) 首先是Design Variables(设计变量)步骤,此时已不用再设置分层和整群的变量,直接点击Next继续。

 

 

(2) Method(抽样方法)步骤,方法同上,选择Simple Random Sampling(简单随机抽样)的方法,并选择Without replacement(WOR)进行不放回的抽样。

 

 

(3) Sample Size(样本大小)步骤

 

此处我们选择Proportions,并在Value中填写0.2,表示在每一个town整群中,从中随机抽取20%比例的社区作为研究对象。

 

 

(4) Summary(摘要)步骤

 

此步骤为复杂抽样第二阶段的一个摘要总结,此时我们可以看到一阶段和二阶段的抽样参数的设置均显示出来了。完成复杂抽样第二阶段的设计后,我们选择No,do not add another stage now,完成复杂抽样的设计。

 

 

5. Draw Sample(抽取样本)步骤

 

第一阶段和第二阶段抽样方法已经设计好了,下面进入到抽取样本的步骤。

 

(1) Selection Options(选择选项)步骤

 

首先Do you want draw a sample(是否抽取样本),我们选择Yes,并默认执行stage All(1,2)中设计的抽样方法。

 

其次What type of seed value do you want to use(使用哪种类型的抽样种子),我们选择Custom values,来自行设定抽样种子,目的是为了能够使抽样的结果可以重现,一般设置抽样的日期作为抽样种子,例如此处我们设定为20180415。

 

 

(2) Output Files(文件输出)步骤

 

选择New dataset,将抽样的样本重新生成一个新的数据文件,并命名为SampleData。

 

 

6. Completion(抽样完成)步骤

 

可以选择Save the design to plan file and draw the sample,表示将抽样设计的方法进行保存,并开始抽样,最后点击Finish。

 

 

7. 抽样结果

 

在新生成的SampleData文件中,我们即可查看抽样的结果,最终从11128居住小区中共抽取946个小区作为调查对象。

 

如果需要使用本文的原始数据进行练习,可以点击页面右上方的“下载资料”直接下载!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题