2.6 阅读材料

自助采样法在机器学习中有重要用途,[Efron and Tibshirani,1993]对此进行了详细的讨论。

ROC曲线在二十世纪八十年代后期被引入机器学习[Spackman,1989],AUC则是从九十年代中期起在机器学习领域广为使用[Bradley,1997],但利用ROC曲线下面积来评价模型期望性能的做法在医疗检测中早已有之[Hanleyand McNeil,1983]。[Hand and Till,2001]将ROC曲线从二分类任务推广到多分类任务。[Fawcett,2006]综述了ROC曲线的用途。

(2.3.4 代价敏感错误率与代价曲线)仅讨论了基于类别的误分类代价。

[Drummond and Holte,2006] 发明了代价曲线。需说明的是,机器学习过程涉及许多类型的代价,除了误分类代价,还有测试代价、标记代价、属性代价等,即便仅考虑误分类代价,仍可进一步划分为基于类别的误分类代价以及基于样本的误分类代价。代价敏感学习(cost-sensitive learning)[Elkan,2001;Zhou and Liu,2006]专门研究非均等代价下的学习。

[Dietterich,1998]指出了常规k折交叉验证法存在的风险,并提出了5×2交叉验证法。[Demsar,2006]讨论了对多个算法进行比较检验的方法。

[Geman et al.,1992]针对回归任务给出了偏差–方差–协方差分解(biasvariance-covariance decomposition),后来被简称为偏差–方差分解。虽然偏差和方差确实反映了各类学习任务内在的误差决定因素,但式(2.42)这样优美的形式仅在基于均方误差的回归任务中得以推导出。对分类任务,由于0/1损失函数的跳变性,理论上推导出偏差–方差分解很困难。已有多种方法可通过实验对偏差和方差进行估计[Kong and Dietterich, 1995; Kohavi and Wolpert,1996; Breiman, 1996; Friedman, 1997; Domingos, 2000].