第2章 机器学习
引言
机器学习是人工智能领域的一个重要组成部分,其基本想法是利用数据进行学习,而不是人工定义一些概念或结构。在这一章里,我们将学习机器学习的核心框架,即监督学习(supervised learning)。监督学习的应用非常广泛,目前也有很好的解决方案。从监督学习出发,我们会介绍各种不同类别的数据集,包括训练数据集、测试数据集等。正确地区分不同类别的数据集,是理解监督学习的关键。
在理解各类数据集的基础上,我们进一步介绍机器学习的相关概念,包括损失函数、优化、泛化等。其中,泛化是机器学习领域独有的概念,也是判断一个机器学习算法好坏的核心标准之一。接下来将介绍如何创建数据集,好的数据集是应用各种机器学习算法的重要基础。在学术界,有很多公开的数据集可以下载使用。但是在现实生活中,针对不同的应用,人们往往需要从头开始创建数据集。因此,了解创建数据集的核心想法非常重要。
除监督学习以外,机器学习中还包含其他的框架,例如无监督学习(unsupervsied learning)和半监督学习(semi-supervised learning)。这些都是非常有趣和重要的内容。但由于篇幅的限制,在本章中我们只重点介绍无监督学习中的K平均(K-means)算法。