首页 理论教育抽样调查在应用统计学中的重要性

抽样调查在应用统计学中的重要性

【摘要】:抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而也可起到全面调查的作用。习惯上将概率抽样称为抽样调查。抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。对于抽样调查来说,样本的代表性和抽样调查最终推算的估计值的真实性首先取决于抽样框的质量。滚雪球抽样的优点在于调查费用少,易于实施。

(一)抽样调查的定义

抽样调查是一种非全面调查,是从全部调查研究对象中抽选一部分单位进行调查,并据以对全部调查研究对象做出估计和推断的一种调查方法。抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而也可起到全面调查的作用。抽样调查示意如图2-2所示。

图2-2 抽样调查示意

根据抽选样本的方法,抽样调查可以分为概率抽样和非概率抽样两类。概率抽样是按照概率论和数理统计的原理,从调查研究的总体中根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计和推断,对推断出的可能出现的误差可以从概率意义上加以控制。习惯上将概率抽样称为抽样调查。

(二)抽样调查的特点

抽样调查是从研究对象的总体中抽取一部分个体作为样本进行调查,据此推断总体的数字特征,具有经济性好、实效性强、适应面广、准确性低的优势。

抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。

抽样调查数据之所以能用来推算和代表总体特征,主要是因为抽样调查本身具有其他非全面调查所不具备的特点,主要有以下几点。

(1)调查样本是按随机原则抽取的,在总体中,每一个单位被抽取的机会是均等的。因此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。

(2)抽样调查是以抽取的全部样本单位作为一个“代表团”来代表总体,而不是用随意挑选的个别单位代表总体。

(3)抽样调查所抽选的调查样本数量是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证。

(4)抽样调查的误差在调查前就可以根据调查样本数量和总体中各单位之间的差异程度进行计算,并控制在允许范围以内,调查结果的准确程度较高。

基于以上特点,抽样调查被公认为是非全面调查方法中能够用来推算和代表总体特征的最完善、最有科学根据的调查方法。

(三)抽样调查的适用范围

虽然全面调查能够全面反映事物,但有时全面调查不能进行,此时抽样调查就尤为重要。在以下几种情况下,应采用抽样调查。

(1)调查对象不能进行全面调查的事物,比如血液调查,不能采集全身血液进行调查。

(2)有些总体从理论上讲可以进行全面调查,但实际上不能进行全面调查,比如要调查海水里有多少鱼,鱼的数量是可以全面调查的,但实际没有办法操作。

(3)工业生产过程中的质量控制也适合用抽样调查的方法进行。

(四)抽样调查中的常用名词

区分总体、个体及样本是进行抽样调查的前提条件,了解标志、指标是进行统计分析的必要条件。下面介绍在统计调查中常用的一些基本名词。

1.总体

总体是指所要研究对象的全体,它是根据一定研究目的而规定的所要调查对象的全体所组成的集合。组成总体的各研究对象称为总体单位。

2.个体

个体是指总体中的每一个考察对象。

3.样本

样本是总体的一部分,它是由从总体中按一定程序抽选出来的那部分总体单位所组成的集合。

总体、个体、样本的关系如图2-3所示。

图2-3 总体、个体、样本的关系

4.样本的容量

样本中个体的数量叫样本的容量。

5.抽样框

抽样框是指用来代表总体并从中抽选样本的一个框架,具体表现形式主要有包括总体全部单位的名册、地图等。

抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,对于推断总体具有相当大的作用。

对于抽样调查来说,样本的代表性和抽样调查最终推算的估计值的真实性首先取决于抽样框的质量。

6.标志

总体中各单位具有的共同属性或特征称为标志。每个单位都具有共同表现出来的属性或特征,比如每人都具有性别、年龄、家庭住址、政治面貌等标志。

7.指标

统计指标又称为综合指标,是根据统计研究的目的确定所要研究的统计总体和总体单位,然后对总体各单位数量标志的具体表现进行登记、汇总,最后形成说明总体特征的各种数据资料。

8.抽样比

抽样比是指所抽取的样本单位数与总体单位数之比。

9.抽样误差

在抽样调查中,通常以样本做出估计值,并以此对总体的某个特征进行估计,当二者不一致时,就会产生误差。因为由样本做出的估计值是随着抽选样本的不同而变化的,即使观察完全正确,它和总体指标之间也往往存在差异,这种差异纯粹是由抽样引起的,故称为抽样误差。

(五)抽样调查的步骤

抽样调查的步骤如下。

(1)界定总体:确定采取抽样调查进行数据搜集,应根据调查目的,确定总体范围。

(2)确定抽样框:确定抽样范围,即确定所有抽样单位的名单。

(3)决定抽样方案:确定抽样方法、抽样规模、主要目标量的精确程度等。

(4)实际抽取样本:根据抽样方案进行抽样具体操作。

(5)评估样本质量:对样本的质量、代表性、偏差进行初步检验和衡量。

(六)非概率抽样

非概率抽样,又称为不等概率抽样或非随机抽样,是调研者为了自己方便或根据主观判断抽取样本的方法,主要有偶遇抽样、主观抽样、滚雪球抽样、配额抽样等类型。

1.偶遇抽样

偶遇抽样也称就近抽样、方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的个体作为调查对象,或者仅仅选择那些离得最近的、最容易找到的个体作为调查对象。其优点是方便省力;缺点是样本的代表性差,有很大的偶然性。

2.主观抽样

主观抽样也称目标式抽样、判断式抽样或立意抽样,是调查者根据自己的主观分析来选择和确定调查对象的方法。主观抽样取得的样本,其代表性取决于研究者对总体的了解程度和判断能力。主观抽样的优点是,可以充分发挥研究人员的主观能动性;缺点是抽样结果受研究人员的倾向性影响,一旦主观判断出现偏差,则更易引起抽样偏差。

3.滚雪球抽样

当无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查,向他们询问还有哪些符合条件的人,再去找那些人并询问他们知道的人,如同滚雪球一样。这样可以找到越来越多具有相同性质的群体成员。

滚雪球抽样的优点在于调查费用少,易于实施。其缺点是:样本可能不能很好地代表整个总体,样本之间可能很相似,缺乏代表性;如果被调查者不愿意提供,调查会受阻;如果总体不大,有时用不了几次就会接近饱和状态。

4.配额抽样

配额抽样也称定额抽样,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的方式。

【例2-1】假设某高校有2 000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%,二年级、三年级、四年级学生分别占30%、20%和10%。现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。

依据总体的构成和样本规模,可得到如表2-2所示的配额。

表2-2 人数分配表

(七)概率抽样

概率抽样又称随机抽样,即在抽样时,母体中每一个抽样单位被选入样本的概率相同。随机抽样具有健全的统计理论基础,可用概率理论加以解释,是一种客观而科学的抽样方法。

一般而言,概率抽样调查的基本组织形式分为单阶段抽样和多阶段抽样两大类。单阶段抽样是指只需一次的抽样过程,它有四种类型:简单随机抽样、分层抽样、系统抽样、整群抽样。多阶段抽样是指将总体分层,再逐层抽取样本的过程。多阶段抽样在总体特别大时使用。

1.简单随机抽样

简单随机抽样,又叫纯随机抽样,是最简单、最普遍的抽样组织方法。它是按照随机原则直接从总体的所有单位中抽取若干个单位作为样本,保证总体中每个单位在抽选中都有同等被抽中的机会。

简单随机抽样的具体做法有抽签法、随机数表法和计算机随机函数法。

(1)抽签法。

抽签法又称抓阄法,它是先将调查总体的每个单位进行编号,然后采用随机的方法任意抽取号码,直到抽足样本。

(2)随机数表法。

表2-3是部分随机数字表,可根据选取数量、大小的要求选用。

表2-3 部分随机数字表

续表

(3)计算机随机函数法。

Excel提供了进行简单随机抽样的工具,可利用其中的随机函数进行简单随机抽样。

当然,随机抽样也有不足之处,比如它只适用于总体单位数量有限的情况,否则编号工作繁重;对于复杂的总体,样本的代表性难以保证;不能利用总体的已知信息等。在市场调研范围有限、调查对象情况不明、难以分类或总体单位之间特性差异程度较小时采用此法效果较好。

2.分层抽样

分层抽样又称分类抽样或类型抽样,是先将总体单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。

如某公司要估计某地家用电器的潜在用户,这种商品的消费同居民收入水平相关,因而以家庭年收入为分层基础。假定某地居民有1 000 000户,已确定样本数为1 000户,家庭年收入分为10 000元以下、10 000~30 000元、30 000~60 000元、60 000元以上四层。其中,收入在10 000元以下的家庭有180 000户,收入在10 000~30 000元的家庭有350 000户,收入在30 000~60 000元的家庭有3 000 000户,收入在60 000元以上的家庭有170 000户。

分层比例抽样示意如图2-4所示。

图2-4 分层比例抽样示意

分层的原则是增加层内的同质性和层间的异质性。常见的分层变量有性别、年龄、教育、职业等。分层随机抽样在实际抽样调查中广泛使用,在样本容量相同的情况下,它比纯随机抽样的精度高,而且管理方便、费用少、效度高。

3.系统抽样

系统抽样也称为等距抽样、机械抽样、SYS抽样,它是首先将总体中各单位按一定的顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式,是纯随机抽样的变型。具体操作为:在系统抽样中,先将总体从1~N相继编号,并计算抽样距离K=N/n。式中,N为总体单位总数,n为样本容量。然后在1~K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K,…,直至抽够n个单位为止。

在定量抽样调查中,系统抽样常常代替简单随机抽样。由于该抽样方法简单实用,所以应用普遍。系统抽样得到的样本与简单随机抽样得到的样本相同。

4.整群抽样

整群抽样又称聚类抽样,是将总体中各单位归并成若干个互不交叉、互不重复的集合,称为群,然后以群为抽样单位抽取样本的一种抽样方式。如调查中学生患近视眼的情况,抽某一个班统计;进行产品检验,每隔8h抽1h生产的全部产品进行检验等。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

整群抽样优点是实施方便、节省经费;缺点是由于不同群之间的差异较大,所以其引起的抽样误差往往大于简单随机抽样的误差。

整群抽样示意如图2-5所示。

图2-5 整群抽样示意

5.多阶段抽样

多阶段抽样是将总体分成若干小的群体,但并不在每一小的群体中抽取一个样本,而是将这些小群体作为第一阶抽样单元,将它们看作个体进行抽样,然后再对抽中的第一阶抽样单元中的个体抽样,此为二阶抽样,以此类推,这样的抽样当然可以不止二阶而是多阶的。当总体中个体样本数量太大,或由于其他技术上的原因无法对个体进行编号时,可以采用多阶抽样,先按第一阶单元编号,抽取若干个,再在抽到的第一阶单元内编号,抽取下一级单元。多阶抽样会使现场观测的样本单元比较集中,有利于节省调查费用。

此外,还有重复抽样和不重复抽样。重复抽样指的是每次从总体中抽取一个样本单位,检验后重新放回总体,参与下次抽样。不重复抽样则是指每次从总体中抽取一个样本单位,检验后不再放回总体,这样下次抽样时不会再次抽到已经抽中过的样本单位,因此每个样品单位在各次抽样中被抽中的概率是不同的。