1.3 一元线性回归算法剖析

一元线性回归算法,指的是根据平面上有限个离散的点,找出与这些点距离之和最小的直线。

有初中以上数学水平的读者可以很容易地回忆起来,在平面直角坐标系上,表示一条直线的方程是一次函数:

一次函数在平面直角坐标系上的图像如图1-2所示。

图1-2

可以看出,一次函数在平面直角坐标系上的图像为一条直线。如果在平面直角坐标系上有若干离散的点,那么我们也可以找出这些点所在的直线并得到对应的方程,或得到与这些点距离之和最小的直线对应的方程,如图1-3所示。

图1-3

在图1-3中展示的直线,就是在平面直角坐标系中,与各离散点的距离之和最小的直线。

一元线性回归算法使用的核心算法为最小二乘法(Least Squares Method),下面对最小二乘法进行详细解释。

在平面直角坐标系上,假设有n个点,分别为

可以解得

我们用机器学习算法相关术语来描述这一算法。

• 训练样本:平面直角坐标系上的n个点。

• 模型:描述平面直角坐标系上直线的一次方程。

• 模型的权重参数:一次方程中的参数ab

• 训练:根据样本计算出权重参数的过程。

• 基于模型和权重的推理:得到公式(1)中参数ab的值后,根据x计算出y的值的过程。

如果我们将一元线性回归算法推广到多元非线性函数,那么实际上就是用线性多项式函数无限逼近无理函数(非整数次幂函数)和超越函数(指数/对数函数、三角/反三角函数和双曲/反双曲函数)。而基于深度学习算法计算出的结果,就是多项式中各项的系数,也就是模型的权重参数。