3.1 选择分类算法

每种算法都是基于某些假设的而且都有各自的特点,为特定问题选择合适的分类算法需要实践经验。David·H. Wolpert提出的天下没有免费午餐的定理,明确说明不存在适合所有可能场景的分类算法[1]。在实践中,因为样本特征的数量、数据中的噪声以及是否线性可分等各种情况有所不同,所以我们建议至少要比较几种不同学习算法的性能,以选择适合特定问题的最佳模型。

分类器的计算性能以及预测能力,最终在很大程度上取决于可供学习的基础数据。可以把监督机器学习算法训练的五个主要步骤概括如下:

1)选择特征并收集训练样本。

2)选择度量性能的指标。

3)选择分类器并优化算法。

4)评估模型的性能。

5)调整算法。

本书所采用的方法是逐步构建机器学习知识,本章将主要聚焦在不同算法的主要概念上面,并回顾诸如特征选择、预处理、性能指标和超参数调优等主题,我们将在本书的后半部分对此进行更为详细的讨论。