1.1.1 如何运用统计学

根据新闻报道,1.113亿美国人看到纽约巨人队取得了超级碗橄榄球比赛的冠军,这就解释了,为什么一条30秒的商业广告的价格为300多万美元。那么是谁统计了这几亿人的数据?

统计学起源于一些国家事务,如人口普查数据和税金数据的采集。这就是为什么统计(statistics)这个词的词根是国家(state)。

答案是没有人统计这些数据。1.113亿美国人观看超级碗橄榄球比赛的这个数据来自于一家名为尼尔森媒介研究(Nielsen Media Research)的调查公司的统计研究结果。这家公司仅仅通过监控5000个住户的收视习惯,就编制出了著名的尼尔森收视率。

如果你是统计学的初学者,那么会认为尼尔森所得的结论更像是一个延伸。只研究几千个数据怎么能得出关于上亿人的结论?然而,统计科学表示,只要统计研究设计精准,这个结论就相当准确。下面我们以超级碗的尼尔森收视率为例,研究一些关键问题来论证通常情况下的统计研究如何进行。

1.统计研究的目标是什么

尼尔森的研究目标是确定美国观看超级碗橄榄球比赛的总人数。用统计学的专用术语表示,尼尔森所研究的所有美国人是一个总体;尼尔森所希望确定的数据,即观看超级碗橄榄球比赛的总人数,是这个总体的一个主要特征,在统计学中,这个总体特征被称为总体参数。

我们通常认为总体表示一群人,其实它可以是任意一个群体——人、动物或者事物。例如,在一个有关汽车安全的研究中,总体可以是在路上行驶的所有车辆。同样,总体参数这个术语,可以解释为总体的任何一个特性。在上例中,总体参数可以是某一时间段内所有行驶车辆的数量、行驶车辆的事故率或者行驶车辆的载重范围等。

总体:在统计研究中,总体是所研究的人或事物的完整集合。

总体参数:总体中对某变量的概括性描述。

例1 总体和总体参数

根据下列情况,描述研究的总体,并确定感兴趣的总体参数。

a.你在农夫保险公司工作,公司要求你确定在没有侧面撞击安全气囊的车祸事故中,对受害者赔付的平均金额。

b.你被麦当劳录用,确定每周用于炸薯条的土豆用量。

c.你是美国基因泰克公司下属的一个商业记者,正在调查一个新的治疗办法对儿童白血病是否有成效。

答案 a.总体包括所有的没有侧面撞击安全气囊的车祸事故中已经拿到保障金的受害者。相关的总体参数是对受害者赔付的平均金额(在之后的章节中,“average”将会被一个更准确的术语“mean”代替)。

b.总体包括每周运输过来的用于炸薯条的土豆重量。相关的总体参数是土豆的平均重量,以及其重量的差异(例如,大多数每周用量是接近还是远高于平均值)。

c.总体包含所有患白血病的儿童。其中重要的总体参数是没有用新治疗办法就痊愈的儿童百分比以及使用新治疗办法后痊愈的儿童百分比。

2.实际研究的内容是什么

如果尼尔森的研究是无所不能的,它就能通过调查每个美国人来确定观看超级碗橄榄球比赛的人数。但现实中没有人能做到这样的全面调查,所以他们尝试研究相关的小集体来估计观看比赛的人数。尼尔森尝试通过监控美国人的一个较小样本群体,来研究所有观看比赛的美国人这个总体。尼尔森在大约5000个家庭中安放了记录装置,所以这些家庭的人们就成为尼尔森所研究的美国人样本。

亚瑟·C.尼尔森(Arthur C.Nielsen)在1923年建立公司并发明市场调查。1942年,他推出了尼尔森广播指数为广播节目定级,并在20世纪60年代把该方法扩展到电视节目领域。该公司现在也监测其他媒介(互联网、智能手机等),并不断地改变方法来适应新的媒介技术。

尼尔森从5000个家庭中收集的个体测量值组成了原始数据。它收集了很多原始数据,比如每个家庭在什么时候收看电视,收看多久,播放什么节目,谁在看等。尼尔森把这些原始数据组合成一系列描述某个样本特征的数据,比如样本中观看个别节目的观众百分比或者样本中观看超级碗橄榄球比赛的总人数。这些数据被称作样本统计量。

样本是总体的一个子集,它的数据是进行实际测量而获得的。

原始数据是对样本进行实际测量或观测所收集的数据。

样本统计量是描述从原始数据中筛选总结的样本特征的数据。

美国劳工部定义,一些没有工作的人并不是失业。例如,家庭主妇或者家庭主夫都不计入失业人群,除非他们在很积极地尝试寻找工作。那些试图寻找工作最后却因挫折而放弃了的人也不算在失业人群中。

例2 失业调查

美国劳工部把城市劳动力定义为那些已就业或正在积极寻找就业机会的人。每个月,劳工部会报告失业率,其是指在全部城市劳动力中积极寻找工作的人的比率。为确定失业率,劳工部调查了60000个家庭,在失业率报告中,对以下术语进行描述:

a.总体 b.样本 c.原始数据 d.样本统计量 e.总体参数

答案 a.总体是美国劳工部想要研究的构成城市劳动力的群体。

b.样本是指60000个家庭调查中的所有人。

c.原始数据是指调查中收集到的所有信息。

d.样本统计量是对样本中原始数据的总结。在本例中,相关样本统计量是指积极寻找工作的人所占的百分比(劳工部同样也计算其他样本统计量,如青年、男性、女性和退伍军人的失业率)。

e.总体参数是指与样本统计量对应的总体特征。在本例中,相关总体参数是实际失业率。需要注意的是,劳工部并没有实际测算总体参数,只是从样本中收集数据来估计总体参数。

3.样本统计量如何与总体参数相关联

假设尼尔森调查发现5000个家庭的样本中,有31%的人观看超级碗橄榄球比赛。“31%”是样本统计量,它是对样本的描述。但尼尔森真正想了解的是相应的总体参数,是观看超级碗比赛的人占所有美国人的百分比。

尼尔森的调查者没有办法准确了解总体参数的数值,因为他们只研究了一个样本。然而,他们希望所做的工作可以保证样本统计量是总体参数很好的估计值。换句话说,他们希望得出结论,因为样本中31%的人观看超级碗,所以总体中也会有近31%的人观看。统计学的一个主要目标就是帮助调查者评估这类推论的有效性。

思考时刻

假设尼尔森的结论是30%的美国人观看超级碗橄榄球比赛。这表示有多少人观看比赛?(美国的总人口接近3.1亿。)

统计科学提供了一种方法,使得调查者能够确定样本统计量可以很好地估计总体参数。例如,调查或投票结果经常涉及误差幅度的概念。通过加减误差幅度,可以得到样本统计量的区间(即置信区间),它很可能包含总体参数。在大多数情况下,误差幅度被定义为该范围包含总体参数的置信度为95%。我们将在第八章讨论有关“可能”和“95%置信度”的精确定义。《纽约时报》(The New York Times)上有一个十分有用的解释(如图1-1所示)。在尼尔森案例中,误差幅度是1%。因此,如果样本中31%的人观看超级碗橄榄球比赛,那么总体中有30%~32%的人观看超级碗比赛的这个结论有95%的置信度。

图1-1 民意调查中的误差幅度

统计学最重要的一个标志性发现是,可以从非常小的样本中得到有意义的结果。然而,样本容量越大越好(当可行的时候),因为通常情况下,样本容量越大,误差幅度就越小。例如,在一个设计良好的投票选举中,在95%的置信区间内,当样本容量为400时,误差幅度通常为5%;当样本容量为1000时,误差幅度下降到3%;而当样本容量为10000时,误差幅度为1%(参考第八章,了解怎样计算误差幅度)。

统计研究中的误差幅度描述了一个很可能包含总体参数的值域或置信区间。置信区间可以通过样本统计量加减误差幅度获得。也就是说,很可能包含总体参数的值的范围是:从(样本统计量–误差幅度)到(样本统计量+误差幅度)。

误差幅度通常给定95%的置信区间,这意味着在研究中有95%的样本会得出此区间将包含实际的总体参数(5%的样本不会)。

例3 政治性丑闻

皮尤人口和压力研究中心共计采访了1002个美国成年人,调查政治性丑闻在最近的官方选举中有所增加的原因。57%的被采访者声称,其增加的原因是丑闻都暴露在媒体更强有力的监督下,而19%的人则认为增加的原因是道德水准的下降。投票的误差幅度为3%。请描述这次调查的总体和样本,并对57%的样本统计量作解释。我们如何推断出总体的百分比?即总体人群中“相信政治性丑闻的增加是由于媒体愈加强有力的曝光性”这部分人群的百分比。

答案 总体是所有成年的美国人,样本是1002个被采访的美国成年人。样本统计量的57%是样本中实际回答“政治性丑闻的增加是由于媒体愈加强有力的曝光性”的百分比。根据57%的样本统计量和3%的误差幅度,可以确定取值范围:从57%–3%=54%到57%+3%=60%。这个范围很可能包含总体参数(95%的置信区间)。

思考时刻

例3所描述的调查中,被采访者只在两个可能的答案——媒体高曝光率和日益下降的道德准则——中做选择。如果被采访者可以自己给出答案,你认为结果会改变吗?请解释。

统计学家通常把这个学科分为两个主要的分支:描述统计,即通过图表和样本统计量对原始数据进行处理;推断统计,即利用样本数据来推断总体特征。本书中,第二至第五章介绍描述统计,第六至第十章介绍推断统计。