1.3 监督学习

如果样本带有预先设定的标签(就像我们在前文的例子中看到的那样),就说我们正在进行监督学习(supervised learning),这种监督来自标签,它们控制着图1.8中的比较步骤,并告诉算法是否预测了正确的标签。

监督学习有两种类型——分类(classification)和回归(regression)。分类是指遍历一个给定的类别集合,之后找到最适合描述特定输入的类别;回归是指通过一组测量值来预测一些其他的值(通常是下一个值,但也可能是在集合开始之前或中间的某个地方的数值)。

下面让我们依次来看一下。

1.3.1 分类

假设有一组日常用品的照片,照片中有苹果削皮器、烤箱、钢琴等,我们想根据照片所展示的东西来对其进行分类,那么就把对这些照片进行分类归类的过程称为分类归类

在这种方法中,我们通过向计算机提供一个列表开始训练,该列表列出了我们希望计算机学习的所有标签(或类、类别)。通常,这个列表只是简单组合了训练集中所有样本的所有标签,去掉了重复项。

然后我们用大量照片和它们的标签来训练系统,直到确定它能很好地预测出每张照片的正确标签。

至此,我们就可以给系统一些以前从未见过的新照片了。我们希望它能正确地标记它在训练过程中看到的物品的图像,如果出现无法识别的形状或者这个形状在训练集所包含的类别之外,系统就会尝试从它所知道的类别中选出最接近的类别,如图1.10所示。

图1.10 在进行分类时,我们用一组图像训练一个分类器,每个图像都有一个相关的标签。当训练完成后,我们就可以给它一些新的图像,之后它会尝试再去为每个图像选择最好的标签。图中展示的这个分类器没有受过金属勺子或耳机类别的训练,所以它展示了所能找到的最接近的匹配类别

在图1.10中,我们使用一个经过训练的分类器来识别之前从未见过的4个图像[Simonyan14],值得称赞的是,它发现了开瓶器,尽管这个物体被刻意做成一艘船的形状。然而,该系统并没有经过与金属勺或耳机相关的类别训练,因此在这两种情况下,它所找到的都只是最接近的匹配。为了正确地识别这些对象,我们就需要在训练过程中向系统展示更多的相关物品的示例。

另一种看待这种情况发生的方式是:系统只能理解它所学到的东西。传统的分类器总是尽力为每个输入找到最接近的匹配,但是它们只能从所知道的类别中选择。

1.3.2 回归

假设我们对测量值进行了收集,但是收集结果并不完整,而我们又希望能够估计缺失的值。例如,我们在持续跟踪当地体育馆举办的一系列音乐会的到场观众人数,以便根据音乐会的总门票收入,按照一定比例给乐队支付报酬。

然而,我们计算时漏掉了某个晚上的到场观众人数,为了制订预算,我们就要知道明天的观众到场率是多少。测量结果如图1.11a所示,而我们对缺失值的估计如图1.11b所示。

(a)                                             (b)

图1.11 在回归中,我们需要使用一组输入和输出值,这里的输入值是5月5日到13日的音乐会日期,而输出值是到场观众人数。(a)实测数据,缺少5月8日的值;(b)红点是对5月8日缺失点的值的估计,而黄点是对5月13日到场观众人数的预测

我们把这种填充和预测数据的过程称为回归问题。“回归”这个名字可能会让人产生误解,因为“回归”的意思是回到以前的状态,但是在这里似乎没有任何回归的动作。

这一不常见的词来自发表于1886年的一篇论文,一位科学家在研究儿童的身高(参见“参考资料”部分的[Galton86])时发现,虽然有些孩子长得高,有些孩子长得矮,但随着时间的推移,人们的身高会趋于平均。他将此描述为“回归至平庸”,意思是测量趋向于从极端走向平均值。

虽然通常来说“回归至平庸”这个短语会被认为是来源于Galton的,但在发表得更早的一篇关于达尔文《物种起源》[Darwin59]的不太起眼的文章中,也有一个非常相似的评论。一位名叫Fleeming Jenkin的评论家认为:物种多样性会被“让一切回归平庸的普适力量”所“湮灭”。

如今,“平庸”一词带有一些负面的含义,所以现在这个概念通常称为“趋均数回归”。其中“均数”是一种平均值,而“回归”一词仍然用来表示使用数据的统计属性来估计缺失值或预测未来值的概念。

因此,“回归”问题就是我们有一个取决于输入的值(如到场观众人数是某月某日的函数),之后需要为新的输入预测一个新的值。

最著名的回归是线性回归(linear regression)。“线性”指的是这种技术会尝试用直线匹配输入数据,如图1.12所示。

图1.12 用数学形状表示数据点。(a)线性回归是将直线与数据相匹配,但只有一条线无法与数据很好地匹配,其优点是非常简单;(b)更复杂的线性回归将同一组数据与曲线相匹配,这样可以更好地匹配数据,但是其形式更复杂,在计算时需要做更多的工作(从而需要更多的时间)

直线很吸引人,因为它很简单,但在这个例子中可以看到,它无法很好地描述数据——数据是会上下起伏的,这是直线无法捕捉到的。诚然,这不是世界上最糟糕的匹配,但的确也不是一个很好的匹配。

我们可以使用一些更复杂的回归形式来创建更复杂的曲线类型,如图1.12b所示。这些方法可以实现更好的数据拟合,但要耗费更长的计算时间。随着曲线变得越来越复杂,我们往往需要更多的数据支撑。