1.7 阅读材料

WEKA是著名的免费机器学习算法程序库,由新西兰Waikato大学研究人员基于JAVA开发:http://www.cs.waikato.ac.nz/ml/weka/.

[Mitchell,1997]是第一本机器学习专门性教材,[Duda et al.,2001;Alpaydin,2004;Flach,2012]都是出色的入门读物。[Hastie et al.,2009]是很好的进阶读物,[Bishop,2006]也很有参考价值,尤其适合于贝叶斯学习偏好者。[Shalev-Shwartz and Ben-David,2014]则适合于理论偏好者。[Witten et al.,2011]是基于WEKA撰写的入门读物,有助于初学者通过WEKA实践快速掌握常用机器学习算法。

深度学习参见(5.6 深度学习)。

本书1.5和1.6节主要取材于[周志华,2007].《机器学习:一种人工智能途径》[Michalski et al.,1983]汇集了20位学者撰写的16篇文章,是机器学习早期最重要的文献。该书出版后产生了很大反响,Morgan Kaufmann出版社后来分别于1986年和1990年出版了该书的续篇,编为第二卷和第三卷。《人工智能手册》系列是图灵奖得主E. A. Feigenbaum 与不同学者合作编写而成,该书第三卷[Cohen and Feigenbaum,1983]对机器学习进行了讨论,是机器学习早期的重要文献。[Dietterich,1997]对机器学习领域的发展进行了评述和展望。早期的很多文献在今天仍值得重视,一些闪光的思想在相关技术进步后可能焕发新的活力,例如近来流行的“迁移学习”(transfer learning)[Pan and Yang,2010],恰似“类比学习”(learning by analogy)在统计学习技术大发展后的升级版;红极一时的“深度学习”(deep learning)在思想上并未显著超越二十世纪八十年代中后期神经网络学习的研究。

规则学习参见(第15章 规则学习)。

机器学习中关于概念学习的研究开始很早,从中产生的不少思想对整个领域都有深远影响。例如作为主流学习技术之一的决策树学习,就起源于关于概念形成的树结构研究[Hunt and Hovland,1963]。[Winston,1970]在著名的“积木世界”研究中,将概念学习与基于泛化和特化的搜索过程联系起来。[Simon and Lea,1974]较早提出了“学习”是在假设空间中搜索的观点。[Mitchell,1977]稍后提出了版本空间的概念。概念学习中有很多关于规则学习的内容。

集成学习参见(第8章 集成学习)。

奥卡姆剃刀原则主张选择与经验观察一致的最简单假设,它在自然科学如物理学、天文学等领域中是一个广为沿用的基础性原则,例如哥白尼坚持“日心说”的理由之一就是它比托勒密的“地心说”更简单且符合天文观测。奥卡姆剃刀在机器学习领域也有很多追随者[Blumer et al.,1996]。但机器学习中什么是“更简单的”这个问题一直困扰着研究者们,因此,对奥卡姆剃刀在机器学习领域的作用一直存在着争议[Webb,1996;Domingos,1999]。需注意的是,奥卡姆剃刀并非科学研究中唯一可行的假设选择原则,例如古希腊哲学家伊壁鸠鲁(公元前341年–前270年)提出的“多释原则”(principle of multiple explanations),主张保留与经验观察一致的所有假设[Asmis,1984],这与集成学习(ensemble learning)方面的研究更加吻合。

机器学习领域最重要的国际学术会议是国际机器学习会议(ICML)、国际神经信息处理系统会议(NIPS)和国际学习理论会议(COLT),重要的区域性会议主要有欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML);最重要的国际学术期刊是Journal of Machine Learning ResearchMachine Learning。人工智能领域的重要会议如IJCAI、AAAI以及重要期刊如Artificial IntelligenceJournal of Artificial Intelligence Research,数据挖掘领域的重要会议如KDD、ICDM以及重要期刊如ACM Transactions on Knowledge Discovery from DataData Mining and Knowledge Discovery,计算机视觉与模式识别领域的重要会议如CVPR以及重要期刊如IEEE Transactions on PatternAnalysis and Machine Intelligence,神经网络领域的重要期刊如Neural ComputationIEEE Transactions on Neural Networks and Learning Systems等也经常发表机器学习方面的论文。此外,统计学领域的重要期刊如Annals of Statistics等也常有关于统计学习方面的理论文章发表。

国内不少书籍包含机器学习方面的内容,例如[陆汝钤,1996]。[李航,2012]是以统计学习为主题的读物。国内机器学习领域最主要的活动是两年一次的中国机器学习大会(CCML)以及每年举行的“机器学习及其应用”研讨会(MLA);很多学术刊物都经常刊登有关机器学习的论文。