第3章 抽样和估计

3.1 统计抽样

3.1.1 抽样的基本概念

抽样是统计分析的一种基本方法,在科学、医学、社会学、政治、商业中有着十分广泛的应用。抽样就是通过对局部的研究来了解全局,抽样的原理是建立在局部和全局总有某种相似性的基础上,因而局部在某种程度上可以代表全局。

与抽样有关的基本概念包括:

1.总体和样本

研究对象的全部称为总体,可重复获取的总体中的一部分称为样本。例如,在进行人口的抽样调查时,所研究的国家或地区的全部人口就是总体,所获取的一部分人口资料就是样本。在研究某一产品的合格率时,出厂的全部产品是总体,某一日期或某一批次的产品就是样本。

2.抽样

根据一定的规则取得总体的一定数量的样本,通过对样本的统计分析来推测总体的统计特性,这样的方法称为抽样。

用抽样得到的样本来研究总体的统计特性是可能的,也是必要的。

首先,统计学理论对总体特性和样本特性的关系进行了十分深入的研究,通过样本的统计资料来推测总体的统计特性,统计学有完整的理论和方法。根据这些理论和方法来进行抽样,抽取的样本就可以具有一定的代表性,这些样本的统计特性可以接近总体的特性。

其次,通过样本来研究总体也是必要的。因为在很多情况下,总体的数量通常都很大,直接研究全部总体往往不可能,或者需要花费过多的时间和代价,没有必要。如果研究是有破坏性的,如测试灯泡的寿命,抽样研究的方法更是必不可少。

3.抽样目标

抽样目标就是需要通过抽样来估计的总体的参数。一次抽样的目标可以是一个,也可以是多个。例如,在竞选的民意抽样调查中,抽样目标就是候选人的得票比例。在产品抽样中,抽样目标可以设定为产品的合格率、市场占有率等。在人口抽样统计中,抽样目标可以设定为各年龄段人口的比例、人口的平均受教育年限、人口的性别比等。在电视节目收视率抽样调查中,抽样目标可以是某一段时间内收看电视人数的比例、某一个电视频道的平均收视率、某一个节目的平均收视率等。

4.抽样误差

尽管用抽样方法来研究总体是可能和必要的,但是通过抽样推测的总体统计特性和真实的总体特性之间还是有误差的。误差分为抽样误差和非抽样误差。

抽样误差是由于总体和样本数的差别引起的,无论抽样方法多么完善,抽样误差总是无法避免的。

非抽样误差是由于抽样方法不当、数据收集和处理过程中人为错误产生的误差。不同的抽样方法,产生的非抽样误差是不同的。在实际抽样过程中,应该在人力、财力、时间允许的范围内,设计尽量完善的抽样体系和方法,完善抽样调查的过程管理,尽量减少非抽样误差。

5.抽样单元

为了进行抽样,需要把总体划分成互相不重叠的部分,每个部分称为抽样的单元。在比较复杂的抽样中,抽样单元又需要划分成若干二级单元,二级单元还可以划分成若干三级单元等。抽样中不可再分,或者没有必要再分的单元称为基本单元。例如,在全国人口抽样调查中,一级单元为省,二级单元为市,三级单元为县等。人口抽样调查的基本单元应该是户。

6.抽样框

全部抽样单元的一份详细资料称为抽样框。资料内容包括抽样单元名称、编码、隶属关系、主要属性等相关信息。例如,全国人口抽样调查的抽样框应包括一级单元——各省名称、编码、地图,二级单元——各省所属市县名称、编码、地图,等等。直到最基层单元——每户的人口花名册。一家饮料生产企业的产品市场占有率抽样调查的抽样框,应包括该厂和其他同类生产厂的厂名、商标、相关产品系列目录、产品名称、产品编码、生产地、销售地等资料。

7.抽样方法

抽样方法有两大类,即主观抽样和随机抽样。

采用主观抽样方法,某一个单元是否被抽中是由抽样组织者直接确定或者按组织者指定的规则来确定的。例如,在产品市场占有率调查中,可根据专家意见抽取某一个有代表性的产品。在民意抽样调查中,通过拨打电话、访谈等方式抽样调查。在产品合格率抽样中,可以每隔一定时间抽取一件产品进行检测等。

采用随机抽样方法,某一个单元是否被抽中是由随机的方法来确定的。例如,用随机数发生器确定调查对象的电话号码,用抽签的方式确定被抽检产品的品种、批次和编号等。

对于随机抽样,还有一个被抽中的样本是否放回的问题。由于抽样是随机的,如果抽样后样本被放回,该样本就有可能再一次被抽中。放回和不放回两种策略,每一个样本被抽中的概率是不一样的。究竟采用哪一种方法,要根据抽样的具体要求,在抽样方案设计中事先确定。不过,如果样本数n小于总体数量N的5%,放回与不放回的差别就不会很明显。如果样本数n大于总体数量N的5%,抽样的结果应该加以校正。校正的方法参见本章3.2节。

8.抽样方案设计

抽样方案设计是抽样调查的第一步。抽样方案设计就是根据抽样调查确定的总体、目标和样本要求,设计一份有效的抽样计划,以尽可能产生对于总体有代表性的样本,从而得出有意义的抽样调查结论。

抽样方案设计是进行一次抽样的指导性文件,应包括抽样总体、抽样样本、抽样目标、抽样单元、抽样框、抽样方法等内容。

目前,越来越多的抽样调查由业主委托专业的调查机构来进行。业主需要明确提出抽样的总体、样本和抽样目标要求,在此基础上,受委托的专业调查机构负责设计抽样方案,在获得业主认可后进行抽样调查,并最终向业主递交抽样调查报告。

3.1.2 Excel抽样工具

例3.1 打开光盘文件“例3.1研究所员工资料抽样”。抽样的总体是该研究所,其中每一行表示每个员工的资料作为一个基本单元,单击菜单“工具”|“数据分析”|“抽样”。相应的界面如图3.1所示。

图3.1 抽样示例

填写“抽样”窗口中的选项,如图3.2所示。

图3.2 抽样窗口

其中,“输入区域”是抽样总体中每一个基本单元的编号,在本例中“输入区域”为A列“序号”。注意抽样的输入区域(不包括“标志”)必须是数字,如果“输入区域”包含非数字单元格,将出现“输入—输出区域包含非数值型数据”的错误提示。如果作为总体的Excel文件不包含数字列,为了进行抽样,必须事先增加一列数字列。为了保证抽取的样本和总体有唯一的对应关系,“输入区域”中的数值不能重复。

“抽样方法”如果选“周期”,则必须指定周期的“间隔”。当总体的数量确定以后,间隔就决定了样本的个数。在“例3.1研究所员工资料抽样”文件中,总体即员工数量为115人,如果“间隔”为10,则抽取的样本数为11个;如果“间隔”为5,则抽取的样本数为23个。

“输出选项”如果选择“输出区域”,则在当前Excel表中输出抽样结果,这时需要指定输出区域左上角的单元格位置,即定位。在本例中,输出区域的定位为“$L$2”。单击“确定”,得到抽取的样本的编号,如图3.3所示。

图3.3 间隔为5的周期抽样结果

如果“抽样方法”选择“随机”,就需要输入“样本数”,如图3.4所示。

图3.4 抽样窗口

抽样的结果如图3.5所示。

图3.5 样本数为15的随机抽样结果

如果选择随机抽样,Excel抽样工具提供的是“放回”的随机抽样,即同一个样本可能被抽到一次以上。从图3.5可以看到,100号员工和104号员工都被抽到两次。如果是周期抽样,就不存在“放回”与否的问题,每个样本最多只会被抽到一次。

3.1.3 用函数VLOOKUP查找并显示被抽取样本的属性

用Excel抽样工具抽样的结果,只有被抽取的样本编号,其他属性并不显示。要查找并显示样本的其他属性,需要用到Excel函数VLOOKUP。

■ 函数VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)有四个参数,各参数的含义如下:

lookup_value已抽取的样本的编号。

table_array总体中需要被查找的属性(包括编号)。

col_index_num总体中需要被查找属性的列序号。

range_lookup逻辑值,指明函数查找时是精确匹配还是近似匹配。

range_lookup=“TRUE”或省略,函数将查找样本编号的近似匹配值,也就是说,如果在总体中找不到样本编号的精确值,则用小于样本编号的最大数值查找并显示。

range_lookup=“FALSE”,函数将查找并显示样本编号的精确匹配值。如果在总体中找不到这个编号,则返回错误值。

例3.2 在“例3.1研究所员工资料抽样”文件中,样本数为15的随机抽样的样本编号如图3.5所示。为了得到这15个样本的其他属性,如“姓名”、“性别”、“专业”、“部门”、“职称”、“学历”,在单元格L3、M3、N3、O3、P3、Q3、R3中分别输入VLOOKUP函数,如图3.6所示。然后,将第2行中的这7个函数分别复制到3—24行中,就得到如图3.6所示的15个样本的其他属性。见光盘文件“例3.2用VLOOKUP抽取样本属性”。

图3.6 用VLOOKUP查找和显示数据