2.2 离散型随机变量及概率分布_数据、模型与决策：基于Excel的建模和商务应用-QQ阅读男生都市网

书名：数据、模型与决策：基于Excel的建模和商务应用
作者名：蒋绍忠
本章字数：3003字
更新时间：2020-07-09 17:09:55

2.2 离散型随机变量及概率分布

2.2.1 离散型随机变量的概率和累积概率

例2.1—例2.3描述了三个离散型随机变量的频数。其中，例2.1中两颗骰子的点数之和的频数是理论频数。实际投掷两颗骰子得到的点数之和的实际频数并不完全等于理论频数。事实上，投掷的次数即样本数N越大，实际频数就越接近理论频数。其他两个例子中的离散型随机变量的频数也是这样。于是，我们有以下定义：

定义2.1 当样本数无限增大时，离散型随机变量的相对频数称为离散型随机变量的概率。

我们将离散型随机变量X等于某一个数值xi的概率记为P（X=xi），则以上定义可以写成：

由以上定义可知，当样本数足够大时，离散型随机变量的相对频数就非常接近随机变量的概率。

定义2.2 离散型随机变量X小于或等于某一个数值xi的概率称为随机变量的累积概率，记为F（x）。其表达式为：

例2.1中两颗骰子的点数之和分别等于2,3,4, …,11,12的理论频数即这个随机变量的概率可以通过理论推算出来，但我们并不知道例2.2中每小时到达银行的顾客人数的概率，以及例2.3中天气分别为晴天、多云、阴天和下雨的概率。对于很多离散型随机变量而言，它们的概率分布需要在理论研究和大量数据分析的基础上，才能得知取各种可能值的概率服从何种分布。

例如，在一定的假设前提下，通过理论分析可以推导出，在单位时间内有k名顾客到达银行这一事件发生的概率为：

式中，λ为单位时间内到达银行的顾客人数的均值。

如果一个离散型随机变量X的值等于整数k（k=0,1,2,3, …）的概率由公式（2.6）表示，则称这个随机变量服从泊松（Poisson）分布。

根据公式（2.6），计算一个均值λ=12（人/小时）的泊松分布随机变量X的概率P（X=k）, k从0到44的概率如表2.6所示。

表2.6 服从泊松分布的顾客到达人数的概率

图2.5为服从泊松分布的顾客到达人数的概率柱形图。可以看出，它的形状和图2.2中的相对频数图非常相似。

图2.5 顾客到达人数（λ=12）的泊松分布概率

关于离散型随机变量的泊松分布，在2.2.4节还要详细讨论。

2.2.2 贝努利分布

如果一个随机变量只有两种结果，而且这两种结果发生的概率是不变的，则称这个随机变量服从贝努利分布。例如，随机变量x是风险投资的结果，它只有成功（x=1）和失败（x=0）两种可能，则x的概率分布为：

式中，0≤p≤1表示投资成功的概率。

例2.5 原告向法院提出一项诉讼请求。原告的律师认为，原告的这项诉讼胜诉的概率为0.75，败诉的概率为0.25。如果我们用随机变量x表示诉讼结果，则x的概率分布为：

例2.6 一项风险投资，结果只有成功和失败两种可能。成功的概率为0.3，失败的概率为0.7。如果我们用随机变量x表示风险投资的结果，那么，x=1表示投资成功，x=0表示投资失败。于是，x的概率分布为：

2.2.3 二项分布

前面介绍风险投资时，假设投资是一次性的，成功的概率为p，失败的概率为1-p。假如投资不是进行一次而是进行n次（n为一个有限的整数），那么，这n次风险投资中有x次（x≤n, x为整数）成功，有n-x次失败的概率为：

式中，{L-End} 表示从n个对象中选取x（0≤x≤n）个不同对象的组合数。组合数的计算公式为：

二项分布有三个参数，分别是成功次数（x）、总数（n）和成功的概率（p），因此二项分布可以简记为B（x, n, p）。

例2.7 单发子弹命中目标的概率为0.8。发射5发子弹，其中x（0≤x≤5）发命中目标的概率为：

如果x=2，则5发子弹2发命中目标的概率为：

例2.8 一件产品的不合格率为0.03。抽检100件产品，其中x（0≤x≤100）件不合格的概率为：

抽检的100件产品中有5件不合格的概率为：

用手工计算这个数字有一定困难，我们可以用Excel中的二项分布函数进行计算。介绍如下：

■ BINOMDIST（number_s, trials, probability_s, cumulative）

number_s表示试验成功的次数。

trials表示独立试验的次数。

probability_s表示每次试验中成功的概率。

cumulative表示某个逻辑值，用于确定函数的形式。如果cumulative为TRUE，函数BINOMDIST返回累积分布函数，即至多number_s次成功的概率；如果cumulative为FALSE，返回概率密度函数，即number_s次成功的概率。

对于上面的例子，用Excel函数计算如下：

BINOMDIST（5,100,0.03, FALSE）=0.1013

即抽检100件产品，其中恰有5件不合格的概率约为0.10。

服从二项分布的随机变量的均值为np，方差为np（1-p），标准差为{L-End} 。这一结果在3.4.2节比例置信区间中要用到。

2.2.4 泊松分布

在2.2.1节中，我们指出每小时到达银行的顾客人数服从泊松分布。为了直观起见，我们还是以每小时到达的顾客人数为例。假定到达顾客的人数具备以下特性：

（1）单位时间内到达的顾客人数的均值与时间无关。这个特性称为随机变量的平稳性。

（2）任何两个到达的顾客之间都是相互独立的，即没有两个或两个以上的顾客是有预约地一起到达的，即使有，也是极个别的。这个特性称为普通性。

（3）前面到达的顾客人数的多少，不会影响后面到达的顾客人数。这个特性称为无后效性。

（4）所有可能的时段内到达的顾客总数是有限的。这个特性称为有限性。

根据这些假设条件，通过数学推导蒋绍忠：《管理运筹学教程》，浙江大学出版社2005年版。，可以得出有k个顾客到达的概率为：

式中，λ为单位时间到达的顾客数量的均值。

泊松分布是一种很常见的离散型随机变量的分布。除了2.2.1节提到的银行顾客到达的数量以外，高速公路收费站车辆到达的数量、流水线上出现不合格品的数量、文字输入中每页出现错别字的个数、消防队每个月接到的火警数量、投诉接待中心每周接到的投诉次数、家用电器维修中心每天接到的报修故障电器次数、手机每天收到的短信数量等随机变量，都符合以上四个条件，因而它们都服从泊松分布。

泊松分布只有一个参数λ。服从泊松分布的随机变量的均值为λ，方差也等于λ。

图2.6为λ=6和λ=15的服从泊松分布随机变量的概率分布图。