3.3 点估计

3.3.1 点估计、有偏估计和无偏估计

通过样本的统计参数来推测总体的统计参数,称为估计。样本统计参数的值称为估计量。估计分为点估计和区间估计两种类型。点估计是指直接将样本的统计指标作为总体相应指标的估计值,而不考虑这种估计的误差。区间估计是在点估计的基础上,进一步考虑估计的误差范围,以及真实的总体参数落入这个范围的概率。

设总体数量为N,样本数为n。最常用的点估计如表3.1所示。

表3.1 常用总体参数的点估计

由于样本是随机抽取的,因此估计量也是一个随机变量。我们希望,估计量的均值等于总体参数。如果估计量的均值等于总体相应的统计参数,则这样的估计称为无偏估计,否则称为有偏估计。无偏和有偏估计如图3.10所示。

图3.10 无偏估计和有偏估计的示意图

只有估计是无偏的,样本数增加时,样本的估计量才会逐渐靠近总体被估计的参数,这样的估计才有意义。统计学理论可以证明,用表3.1中的公式计算的样本均值、样本方差和样本标准差三个估计量都是无偏的。

3.3.2 统计量的自由度

在表3.1中,总体方差和总体标准差的计算公式中的分母都用了总体数量N,而样本方差和样本标准差的计算公式中的分母都用了n-1。其原因如下:

样本均值的计算公式是{L-End} n,均值{L-End} 的信息包含在n个样本数据x1, x2, …, xn中。也就是说,样本均值{L-End} 和样本的n个数据并不是完全独立的。如果已知样本均值{L-End} n-1个样本数据,第n个样本数据的值就完全确定了。这时,完全独立的样本数据只有n-1个。完全独立的样本数据称为样本的自由度(degree of freedom,通常缩写为d.f.或df)。统计量的自由度是统计学中经常要用到的概念。由于样本方差和标准差的计算公式中需要用到样本均值{L-End} ,这时n个样本数据只有n-1个是完全独立的,因此样本方差和标准差的计算公式中分母要用n-1。

推而广之,如果要用n个样本数据分别独立地估计k个样本参数,那么,样本的自由度为n-k

统计学理论可以证明,由于表3.1中总体均值、方差和标准差的估计公式中考虑了样本的自由度,因而,这三个参数的估计是无偏的。如果样本方差和标准差估计量的分母不是n-1而是n,这两个估计将是有偏的。

正因为样本方差、样本标准差的计算公式和总体方差、总体标准差的计算公式是不同的,因此在Excel中计算样本方差、样本标准差的函数分别是VAR和STDEV,而计算总体方差和总体标准差的函数分别是VARP和STDEVP,在这里,字母P表示总体。