- 大话机器学习:原理|算法|建模|代码30讲
- 叶新江编著
- 1643字
- 2024-12-27 21:57:40
2.3 伯努利分布及二项分布
伯努利分布(Bernoulli Distribution)和二项分布(Binomial Distribution)的研究对于解决二分类问题是很有意义的。
伯努利分布是以其发明者瑞典数学家Jacques Bernoulli的名字命名的。其内容就是假如有一个1元硬币,经过独立的重复实验,也就是每一次投掷硬币,看它的结果是国徽面还是数字面(假设是人民币),并且后面一次的投掷和前一次投掷没有任何关系,也就是不能投了国徽面后下一次就需要根据这个面作为一个附件的条件来投下一次。这样投掷无数次后,可得到总体上投国徽面和数字面的概率。如果国徽面的概率是p的话,那么数字面就是1-p如图2-4所示。这个方法可以推广到所有只有两个结果的场景下,只要0、1结果的概率加起来是1,那么用一个数学公式来表示的两个事件的概率函数就是伯努利分布函数。
图2-4
下面正式定义一下伯努利分布的数学表达:如果随机试验仅有两个可能的结果,这两个结果可以用0和1表示,此时随机变量X将是一个0或1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。
设p是随机变量X等于1的概率,可以表示为P(X=1)=p,P(X=0)=1-p。用一个公式来表示就是:
P(X=i)=pi×(1-p)1-i, i=0,1
可以看到,如果i=0,那么P(X=0)=p0×(1-p)1-0=1-p;
如果i=1,那么P(X=1)=p1×(1-p)1-1=p。
知道了二元结果的概率分布,现在接下来还是以投掷硬币作为例子,如图2-5所示。如果想知道在投了n次后,出现国徽面的次数等于x的概率会是多少呢?这个就是二项分布。二项分布建立在伯努利分布的基础上,伯努利分布是某个二值事件结果的概率,二项分布是某个二值事件中的一个出现多少次的分布。
图2-5
正式定义:二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。
以例子说明:假设投掷一枚硬币,出现国徽面(正面)和数字面(反面)的概率各为0.5,那么投掷1次,出现正面的概率肯定是0.5。投掷2次、3次呢?投掷2次出现的结果有4个:正正、正反、反正、反反。因为p=0.5,所以每个结果出现的概率是0.5×0.5=1/4=0.25,而出现正面2次的只有都是“正正”这种情况,占总比的1/4=0.25,出现正面1次的概率是“正反、反正”,占比是2/4=0.5,出现正面是0次只有“反反”这种情况,因此占比是1/4=0.25。
投掷3次出现的结果有8个,正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反。统计正面出现3次、2次、1次、0次的概率分别是1/8=0.125、3/8=0.375、3/8=0.375、1/8=0.125。
用一个公式来表示概率分布:
其中,b表示二项分布的概率;n表示试验次数;x表示出现某个结果的次数,P(X=1)=p,P(X=0)=q,p+q=1。大家可以发现,二项分布函数和伯努利分布函数形式还是挺相似的。实际上如果只考虑前面x次出现正面的结果,那么其概率就是前面x次每次是正面概率乘以后面n-x次都失败概率的乘积,从而是pxqn-x,而把所有出现x次正面的情况考虑进去,就需要乘以一个排列组合函数,也就是,表示在n次试验中出现x次结果的可能的次数(不考虑顺序)。如10次试验,出现0次正面的次数有1次,出现1次正面的次数有10次……出现5次正面的次数有252次,等等。其计算也有一个通式:
简化一下:
从二项分布的概率分布函数可知,概率分布只与试验次数n和成功概率p有关,p越接近0.5,二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p逐渐接近0.5,二项分布逐渐对称,且近似于均值为n×p、方差为n×p×(1-p)的正态分布,所以为了简化计算,在n×p>5时,一般就用正态分布去近似计算二项分布。不同的p和n情况下的二项式分布曲线如图2-6所示。
图2-6
最左边是p=0.3,n=20的概率密度函数曲线图形,期望值是n×p=6,中间的曲线是p=0.7,n=20,也就是期望值是14,右边的曲线是p=0.5,n=40,其期望值是20。可以发现几条曲线和正态分布挺相似。
二项分布是针对二分类事件次数的概率分布,如果把二分类扩展到多分类,那么就从二项分布扩展到了多项分布。多分类在机器学习里面是一个常见问题。