0.1 数学基础
0.1.1 导数
导数,也称微商,在自然科学、计算机科学、工程学科等领域均有着重要的应用。导数研究的是函数在某一点附近的局部性质,用以刻画曲线或曲面的弯曲程度。下面,将简单介绍导数的基本概念、计算方法及一些简单应用,以便后续章节使用。大学的微积分课程中将对导数进行详细阐述。
0.1.1.1 导数的定义
在日常生活及科学研究中,我们经常会遇到需要表示某种量变化快慢的问题。例如,汽车行进过程中位置变化的快慢;吹气球时,气球的半径随吹入气体的量变化的快慢;登山过程中,山的高度随位置变化的快慢(即陡峭程度),等等。那么,我们如何来描述这些变化的快慢呢?
可以看到,上述问题中均涉及两个量:一个是我们关心的正在变化的量(汽车的位置、气球的半径、山的高度等),称作因变量,通常记为y;另一个是引起这个变化的原因(汽车行驶的时间、吹入气体的量、相对于山的位置等),称为自变量,记为x。这两个量之间存在函数关系,不妨写成y=f(x)。
如图0.1所示,两个不同的自变量x1和x2,分别对应不同的因变量y1和y2。不难想到,要表示y=f(x)在x1和x2之间变化的快慢,只需将因变量的变化(Δy=y2-y1=f(x2)-f(x1))除以自变量的变化(Δx=x2-x1),即
上式称为函数y=f(x)从x1到x2的平均变化率,也可写成如下形式:
容易看出,平均变化率在函数图像中的意义为x1和x2对应的点P1和P2之间连线(函数的割线)的斜率。
图0.1 函数斜率的逼近
例0.1:平均变化率计算
对于一个一次线性函数y=f(x)=ax+b,我们计算它在x=x0的平均变化率为
在这个例子中,线性函数的平均变化率即是它的斜率。
上面所定义的平均变化率是在Δx内对应函数y=f(x)的变化速率。当Δx越取越小,不断逼近0,x1和x2也会越来越近,直至几乎变为同一点。在这种情况下,原先定义的平均变化率也渐渐变为了y=f(x)在(x1,y1)这一点处瞬间所具有的变化速度,称为瞬间变化率,记做
极限符号表示x趋于c时函数f(x)的值。计算表明,在Δx趋于0时,上式的值趋于一个定值,即为函数在这一点处的导数。
例如,在车辆行驶过程中,速度仪表盘上的读数代表了行驶距离关于时间的函数s(t)在这一时刻的导数,即我们常说的(瞬时)速率。
例0.2:瞬时变化率计算
考虑一个二次函数y=f(x)=x2在x=1附近的变化率,有
而当Δx趋于0时,不难看出,这个式子的值趋于一个定值2,即
基于上述介绍,可将导数按如下方式定义:
定义[导数]:假设函数y=f(x)在某区间上的导数存在,则在此区间上某点(x1,f(x1))处的导数定义为
此区间上所有点的导数构成以x为自变量的函数,称为导函数(有时也简称为导数),记为。寻找已知的函数在某点的导数或其导函数的过程称为求导。
不难看出,当Δx趋于0时,点x1+Δx与x1无限接近,原本的割线变为了函数图像的切线。因此导数的几何意义为函数y=f(x)的图像在点(x1,f(x1))处切线的斜率。
下面是一些常见的导数公式(读者可以尝试证明其正确性):
C'=0(C为常数);
(xμ)'=μxμ-1;
(ax)'=ax lna;
(ex)'=ex;
;
;
(sinx)'=cosx;
(cosx)'=-sinx。
导数计算的一些主要性质如下(读者可以尝试证明其正确性):
两函数和差:(u±v)'=u'±v',
两函数积:(uv)'=u'v+uv',
两函数商:,
复合函数:或(链式法则)。
0.1.1.2 高阶导数与偏导数
导数f'(x)本身也可以视作是自变量x的函数,因此可以在导数的基础上再次求导,得到高阶导数。例如二阶导数:y'=f'(x)的导数为y=f(x)的二阶导数,记作y″,或。
举个例子,用物体的位移对时间进行求导可以得到速度,速度是位移的一阶导数;而速度可以对时间再求一次导数,得到加速度,这是一个用来衡量物体运动速度变化的物理量,因此加速度就是速度的一阶导数。同时,加速度也可以看做是对位移求导之后再进行求导得到,所以加速度也是位移的二阶导数。同理,可以再对加速度进行求导,得到所谓的加加速度。以此类推,可以通过不断地求导得到函数的高阶导数,y=f(x)的n阶导数记为y(n),或者。
设函数y=f(x)在x0处的值为f(x0)。当x0增加一个小量Δx时(即Δx≪1,这里符号“≪”的意思是远小于),f(x0+Δx)与f(x0)的关系可近似表达为
特别地,当x0=0时,有
更一般地,有
这个展开式叫做泰勒展开,!是阶乘符号,一个整数的阶乘代表所有小于及等于该数的正整数的积,即n!=n(n-1)(n-2)…2×1。这里可以尝试给等式右边对Δx求一次或两次导数,然后令Δx=0,看看是什么结果?下面是一些常用的展开公式(x≪1),大多数情况下仅需一阶展开。
(1)
(2)
(3)
(4)
上述讨论的函数y=f(x)均默认为只有一个变量x的一元函数。此时该函数的变化率即为它的导数。而对于变量大于1个的多元函数y=f(x1,x2,…),研究它的变化率同样是一个有意义的问题,例如植物的生长与所处环境的温度、湿度、光照强度均有关系。该如何刻画生长速度与不同因素的关系呢?下面我们将引入偏导数。
在数学中,一个多变量函数的偏导数,是它关于其中一个变量的导数,而保持其他变量不变。偏导数的作用与价值在向量分析和微分几何以及机器学习领域中受到广泛认可。具体来说,函数z(x,y)关于变量x的偏导数写作或∂z/∂x。此时将变量y视为常数,而只对变量x进行求导,函数z(x,y)对x作偏微分可以在几何上理解:z(x,y)可以视为三维空间的曲面,给定y值,作一个垂直于y轴的平面,此平面与z(x,y)的曲面相交得到的曲线的斜率就是该偏微分值。如函数z=x2+3xy+2y2关于变量x和y的偏导数分别为
0.1.1.3 导数与函数极值
若一个函数y=f(x)在x0处的导数f'(x0)=0,则函数图像在该处的切线平行于x轴。不难看出,很多时候该点处的函数值是附近区间中最大或最小的函数值(存在例外情况,见图0.2(c)),此时我们称y=f(x)在x0处有极大值或者极小值。
可通过二阶导数的正负判断极大值或极小值(如图0.2所示):若f″(x0)>0,则为极小值;若f″(x0)<0,则为极大值;若f″(x0)=0,则二者皆可能,也可能二者皆非,需分析更高阶的导数。
图0.2 不同取值的导数和函数极值的关系
0.1.2 概率论基础
概率论是研究随机现象的数量规律的数学分支,是统计学、统计推断和统计机器学习的基础。在本节中,将简单地介绍概率论的一些基本概念,并提及一些数学分析中的基本知识。
0.1.2.1 事件与概率
概率论研究的基本对象是随机的、偶然的自然现象或社会现象,它与必然现象是相对的。然而,随机现象本身的数量也有规律可循。其中一个著名的实验为Galton钉板实验,如图0.3所示。这个实验中假设小球质量均匀,钉子光滑,因此小球从上端落下后碰到哪一个钉子具有很强的随机性。如果进行一次实验后,小球会落到下方某一个球槽中,那么进行n次实验后,不同球槽中出现的小球数量就会形成一个分布,我们将这个分布称为频率。当实验的次数n趋于无穷大时,频率的值便会趋于稳定。我们称该极限为频率的稳定值。
图0.3 Galton钉板实验
我们相信,每次实验中小球落在每一个球槽中的可能性大小是客观存在的,因此可以对其进行度量。我们将存在客观可能性的实验过程叫做随机实验(stochastic experiment),并将前述频率的稳定值作为可能性的度量指标,称为概率。
为了更准确地对随机实验和概率进行描述,我们引入(随机)事件的概念。所谓事件,可以粗略理解为随机实验的结果。在Galton钉板实验中,小球落在第i个球槽中就是一个事件,抛一枚硬币结果朝上也是一个事件。随机实验里最基本的不能再分解的结果叫做基本事件。所有基本事件构成的合集记为Ω。一个事件就是一些基本事件的合集,即Ω的一个子集。我们可以定义出所有可能事件构成的事件体F和事件的运算(并、交、逆)。严格的事件定义需要依赖集合论(σ-代数)中的概念,但在日常生活中,我们定义的事件集合基本满足其要求,因此不对其进行详细介绍。对于同一事件体中的事件A与B,定义A∪B或者A+B为A与B的和事件,而A∩B或者AB为积事件,并定义∅为不可能事件,Ω为必然事件。如果AB=∅,则称A事件与B事件互斥,或不相容。
概率的严格定义是事件体F上定义的一个非负的、和为1的(规范的)、可列可加的实值(测度)函数;而模糊定义可以参见高中教科书。记P(A)为事件A的概率。可列可加性是测度的基本要求。我们将观测的对象Ω、事件体F和概率P构成的三元体(Ω,F,P)称为概率空间。对于一般事件的概率计算,可以直接利用集合论的结论进行。
在日常生活中,以下两种基本事件等可能的概型最为常见:古典概型和几何概型。在古典概型中,基本事件是个数有限且等可能的概率模型,也是后面讨论的重点。我们还能碰到一些情况,这时候基本事件是连续分布的,事件空间Ω是一个连续空间。此时可以将Ω与一个几何区域的面积联系起来,这样的概型称为几何概型。例如,在Galton钉板实验中,每一次小球碰钉子后都有向左和向右落下两种可能的结果,概率各为1/2,因而是古典概型。而如果钉板有n层,那么总的Galton钉板实验不是古典概型(由于其不是等概率),但是其为n次连续古典概型实验的结果。
在古典概型中,记空间为Ω={ω1,ω2,…,ωN},其中每个ωi为一个基本事件,其概率为P(ωi)=1/N。而F由Ω的所有子集构成。如果A事件中包含nA个基本事件,那么P(A)=nA/N。下面以摸红色和绿色小球为例,说明古典概型的作用。
考虑一个箱子里有a个红球,b个绿球。那么对于摸到每个球概率构成一个古典概型。具体来说,假设进行n次古典概型实验,可以引出以下两种常见的概型。
(1)二项式概型(独立重复古典概型实验)
如果每次进行实验之后放回摸出的小球,那么两轮之间的结果相互独立。摸出k次红球的概率可以通过简单的排列组合方法得出:
称k满足的分布为二项分布。这种放回式摸小球的概型为二项概型。这里是组合数,定义为从n个元素中取出k个元素,k个元素的组合数量,即=n!/[k!(n-k)!]。
(2)超几何概型
如果每次进行实验之后,不放回摸出的小球,那么后一轮摸小球的结果会有所变化。此时,摸出k次红球的概率可以通过古典概型计算得出:
称k满足的分布为超几何分布H(k;n,a,a+b)。这种不放回式摸小球的概型为超几何概型。
0.1.2.2 随机变量与概率分布
随机变量是可以随机取不同值的变量,可以是离散或连续的。此处为了简化讨论,仅考虑离散型变量(连续型变量的讨论将在附录中给出,感兴趣的同学可自行查阅)。概率分布描述随机变量取每个可能值的可能性大小,离散型变量的概率分布可用概率质量函数来描述。概率质量函数可以同时描述多个随机变量,这种多变量的概率分布称为联合概率分布。例如P(X=x,Y=y)表示X=x,Y=y同时发生的概率,可简写为P(x,y)。
为了丰富对样本空间Ω的描述方法,可以引入实值函数对概率分布进行描述。设(Ω,F,P)为概率空间,X为Ω上的实值函数,满足对任意的x∈R,
P(X≤x):=P({ω:X(ω)≤x})
其中,{ω:X(ω)≤x}∈F,那么可以说X为空间(Ω,F)上的随机变量,并且称
FX(x):=P(X≤x),x∈R
为X的分布函数。由以上定义可见,如果随机变量给定,那么分布函数是存在并且唯一的。
概率和分布函数具有以下关系:
P(a<X≤b)=FX(b)-FX(a),P(X>x)=1-FX(x),
P(X<x)=FX(x-0),P(X=x)=FX(x)-FX(x-0)
其中,为x的左极限。
接下来,介绍条件概率与条件分布的概念。设A,B∈F,且P(A)>0,记
为已知A事件发生的条件下,B事件发生的条件概率。而P(AB)=P(A)P(B|A)称为条件概率的乘法公式,其可以拓展为以下的一般形式
P(A1A2…An)=P(A1)P(A2|A1)…P(An|A1A2…An-1)
如果有一组有限多个或者可列无穷个事件{Ai,i=1,2,…},满足Ai∈F,P(Ai)≥0,i=1,2,…,且∪iAi=Ω,并有{Ai}两两相斥,称其为Ω的完备事件群。由概率的可加性和条件概率的乘法公式,可以得到以下的全概率公式
该公式提供了在已知A事件情况下B事件发生概率的计算方法。
由条件概率定义、乘法公式和全概率公式,可以得到
这个公式叫做逆概率公式或者贝叶斯公式,它是统计学习和统计推断的基础。下面我们看一个例子。
例0.3:已知在所有男子与女子中分别有5%与0.25%的人患有色盲症。假设男女比例为1:1。现在随机抽查一人,发现其患有色盲症,计算其为男子的概率。
设变量A表示性别(0/1分别对应男/女),B表示是否色盲(0/1为否/是色盲)。由条件有
P(B=1|A=0)=0.05,P(B=1|A=1)=0.0025
因为男女比例为1:1,在随机抽查的条件下,有P(A=0)=P(A=1)=1/2。这时,由贝叶斯公式得到
例0.4(三门问题):有三扇关闭了的门,其中一扇的后面有辆跑车,而另外两扇门后面则各藏有一只山羊。参赛者需要从中选择一扇门,如果参赛者选中后面有车的那扇门就可以赢得这辆跑车。参赛者随机选定了一扇门,但未去开启它的时候,节目主持人会开启剩下两扇门的一扇,这扇门后是一只山羊。这时候参赛者是否应该保持他原来的选择,还是转而选择剩下的那一道门?
这个问题乍一看似乎没有换门的必要。现在用贝叶斯公式来看看结论是否如此。不妨假设参赛者选1号门,而主持人打开了2号门。记随机变量A=i为第i扇门后面有汽车,由于随机性,有P(A=i)=1/3,i=1,2,3。
现在再定义随机变量B为主持人是否打开2号门:如果主持人打开2号门,则B=1;否则B=0。这里注意到如果2号门的背后有跑车,主持人是不能打开该门的。根据A和B的定义得到
P(B=1|A=1)=0.5
P(B=1|A=2)=0
P(B=1|A=3)=1
这里第一个式子是因为A=1(参赛者已经选对了),因此主持人可能选2号门或者3号门,且选2号门的可能性是1/2;第二种情况不可能发生,因为主持人不能打开正确的门;而在第三种情况下,主持人只能打开2号门,所以B=1一定成立。于是有全概率公式
那么
所以参赛者应该改变想法选3号门。
接下来,介绍事件的独立性与条件变量的独立性。对于事件A与事件B,若P(AB)=P(A)P(B),则称它们相互独立。拓展到多个事件的情况,称事件Ai,i=1,2,…,n相互独立,如果对其中任意k个事件均满足
对于随机向量(X1,X2,…,Xn),其不同变量分量相互独立,当且仅当其联合分布函数FX(x1,x2,…,xn)满足
0.1.2.3 期望、方差与协方差
我们希望通过一些简单的方法来刻画随机变量的特点。常见的随机变量的数字特征包括:数学期望、方差和协方差。
数学期望反映随机变量的平均取值。离散随机变量X的数学期望定义为
这里pk是变量X=xk的概率。
方差反映随机变量的涨落大小,其定义为
D(X)=Var(X)=E(X-E(X))2
协方差反映随机变量之间的关联强度,其定义为
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]
0.1.3 矩阵
矩阵理论是一门研究矩阵在数学上的应用的科目。矩阵理论原本是线性代数的一个分支,但由于其陆续在图论、代数、组合数学和统计上得到应用,渐渐发展成为一门独立的学科。本章将主要介绍矩阵的一些简单运算和分析手段。
具体来说,矩阵(matrix)是指将数字或其他定义了某些数学运算的数学算式(代数符号、表达式等)按行(row)和列(column)排布的数组。其中,构成矩阵的数字(或数学符号、表达式等)被称为矩阵的元素(entry),横向的元素构成行,纵向的元素构成列(1)。矩阵的大小由行、列的数量决定,例如下面的矩阵为一个2×3的矩阵:
特别的,如果一个矩阵只有一行,则称之为行向量(row vector);只有一列元素的矩阵则称为列向量(column vector)。上面的矩阵既可以看作是由三个2×1的列向量构成,也可以看作是由两个1×3的行向量构成。当矩阵行列数相同时,又称该矩阵为方阵(square matrix)。一个n×n的矩阵又被称为n维方阵。
在表示上,通常用大写字母表示矩阵,小写字母表示矩阵元素。对矩阵元素可以用下角标区分它们的位置。例如一个m×n的矩阵可以表示为
对于两个同样大小的矩阵,可以定义矩阵的加法(addition)。两个矩阵的加法定义为相同位置的元素相加。下面给出一个矩阵相加的例子:
矩阵与一个数域中的数字还可以定义数乘(scalar multiplication)。矩阵与一个数字的数乘定义为矩阵中的每一个元素乘以该数字。下面给出一个矩阵数乘的例子:
矩阵的另一基本运算是转置(transpose)。一个m×n的矩阵转置后变为n×m的矩阵,其中,原本处于第i行第j列的元素,在转置操作后,变成新矩阵的第j行第i列的元素。对一个矩阵A,转置操作通常记为AT。下面给出一个矩阵转置的例子:
容易看出,矩阵进行两次转置操作后,仍然为原矩阵,即(AT)T=A。
矩阵之间也可以定义矩阵乘法(matrix multiplication)运算。如果矩阵A为m×n大小矩阵,矩阵B为n×p大小矩阵,那么矩阵AB为m×p大小矩阵,其中元素为
矩阵乘法满足结合律
(AB)C=A(BC)=ABC
和左右分配律
(A+B)C=AB+BC
C(A+B)=CA+CB
这里注意,矩阵的乘法一般没有交换律,即使乘法对AB和BA都有定义,通常
AB≠BA
这一点可以从下面的简单例子看出来:
因此,矩阵乘法中需要明确相乘的顺序。我们称AB为B右乘A,或A左乘B。
向量的内积也可以用矩阵乘法表示。例如,两个n维实向量r,v的内积,可以看作是行向量rT与列向量v的矩阵乘法,即
例0.5:矩阵乘法的一个实际应用
假设有一个施工项目,第一个月需要采购a1吨水泥,b1吨木材;第二个月需要采购a2吨水泥,b2吨木材。现在有两个进货渠道,第一家的水泥单价为m1元/吨,木材单价为n1元/吨;第二家的水泥单价为m2元/吨,木材单价为n2元/吨。如果同一个月的建筑材料都从同一家采购,那么在两个月内的所有消费可能性可以用下面的矩阵表示:
等式左侧第一个矩阵的每一行列出了一家供应商两种建材的单价,第二个矩阵的每一列列出了一个月内对两种建材的需求量,而两个矩阵乘法运算的结果则列出了所有的消费可能性,即,第i行第j列元素表示了在第j个月从第i家供应商进货的成本。
对于任一m×n矩阵A,当其右乘一个n×p大小的所有元素均为0的矩阵0,结果总为一个m×p大小的所有元素均为0的矩阵。我们称元素均为0的矩阵为零矩阵(zero matrix)。类似的,当一矩阵左乘零矩阵时,结果为零矩阵。
对于任一m×n矩阵A,当其右乘一个n×n大小的,形如下面的矩阵I
结果仍为A。我们称I为n阶单位矩阵(identity matrix)。类似的,当A左乘一个m×m大小的单位矩阵时,结果同样为A。
对于n维方阵A,定义其逆矩阵(inverse matrix)B,B为另一个n维方阵,满足
AB=BA=I
值得注意的是,逆矩阵不一定总存在(附录中给出了方阵存在逆矩阵的一个充要条件)。但如果存在,则称B为方阵A的逆矩阵,记为A-1。