- 细说机器学习:从理论到实践
- 凌峰编著
- 2536字
- 2024-12-27 23:13:40
1.2 应用领域
从算法上来分类,机器学习算法主要分为监督学习、无监督学习、强化学习3类,半监督学习可以认为是监督学习与无监督学习的结合。
监督学习通过训练样本学习得到一个模型,然后用这个模型进行推理。例如,如果要识别各种车辆的图像,则需要用人工标注(即标好了每张图像所属的类别,如猫、狗、老虎)的样本进行训练,得到一个模型,接下来就可以用这个模型对未知类型的车辆进行判断,这称为预测。
如果只是预测一个类别值,则称为分类问题;如果要预测出一个实数,则称为回归问题,如根据车的颜色、形状、品牌等特征来预测这个车的类型。
无监督学习则没有训练过程,给定一些样本数据,让机器学习算法直接对这些数据进行分析,得到数据的某些知识。其典型代表是聚类,例如收集了1 000 000幅图片,要完成对这些图片的归类,并没有事先定义好的类别,也没有已经训练好的分类模型。聚类算法需要自己完成对这1 000 000幅图片的归类,保证同一类图片是同一个主题的,不同类型的图片是不一样的。
无监督学习的另一类典型算法是数据降维,它将一个高维向量变换到低维空间中,并且要保持数据的一些内在信息和结构。
强化学习是一类特殊的机器学习算法,算法要根据当前的环境状态确定一个动作来执行,然后进入下一个状态,如此反复,目标是让得到的收益最大化。
例如围棋游戏就是典型的强化学习问题,在每个时刻,都要根据当前的棋局决定在什么地方落棋,然后进入下一个状态,反复地放置棋子,直到赢得或者输掉比赛。这里的目标是尽可能赢得比赛,以获得最大化的奖励。
综上所述,这些机器学习算法要完成的任务是:
(1)分类算法:是什么?即根据一个样本预测出它所属的类别。
(2)回归算法:是多少?即根据一个样本预测出一个数量值。
(3)聚类算法:怎么分?保证同一个类的样本相似,不同类的样本之间尽量不同。
(4)强化学习:怎么做?即根据当前的状态决定执行什么动作,最后得到最大的回报。
机器学习应用广泛,无论是在军事领域还是民用领域,都有机器学习算法施展的机会,主要包括以下几个方面。
1.数据分析与挖掘
数据挖掘和数据分析通常被相提并论,并在许多场合被认为是可以相互替代的术语。关于数据挖掘,已有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的、模式的过程”,无论是数据分析还是数据挖掘,都是帮助人们收集、分析数据,使之成为信息,并做出判断,因此可以将这两项合称为数据分析与挖掘。
数据分析与挖掘技术是机器学习算法和数据存取技术的结合,利用机器学习提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现数据的高效读写。
机器学习在数据分析与挖掘领域拥有无可取代的地位,2012年Hadoop进军机器学习领域就是一个很好的例子。
2.模式识别
模式识别起源于工程领域,而机器学习起源于计算机科学,这两个不同学科的结合带来了模式识别领域的调整和发展。模式识别研究主要集中在两个方面:
(1)研究生物体(包括人)是如何感知对象的,属于认识科学的范畴。
(2)在给定的任务下,如何用计算机实现模式识别的理论和方法,这些是机器学习的长项,也是机器学习研究的内容之一。
模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切。
3.生物信息学
随着基因组和其他测序项目的不断发展,生物信息学研究的重点正逐步从积累数据转移到如何解释这些数据。机器学习的强大学习能力和推理能力已经被用在生物信息学中。
在未来,生物学的新发现将极大地依赖于在多个维度和不同尺度下对多样化的数据进行组合和关联的分析能力,而不再仅仅依赖于对传统领域的继续关注。序列数据将与结构和功能数据、基因表达数据、生化反应通路数据、表现型和临床数据等一系列数据相互集成。
如此大量的数据,在生物信息的存储、获取、处理、浏览及可视化等方面,都对理论算法和软件的发展提出了迫切的需求。
另外,由于基因组数据本身的复杂性,也对理论算法和软件的发展提出了迫切的需求,而机器学习方法(例如神经网络、遗传算法、决策树和支持向量机等)正适合处理这种数据量大、含有噪声并且缺乏统一理论的领域。例如目前有大量关于新冠肺炎的机器学习论文发表。
4.其他领域
国内外的IT巨头正在深入研究和应用机器学习,这些巨头把目标定位于全面模仿人类大脑,试图创造出拥有人类智慧的机器大脑。
2012年,Google在人工智能领域发布了一个划时代的产品——人脑模拟软件,这个软件具备自我学习功能。模拟脑细胞的相互交流,可以通过看YouTube视频学习识别猫、人以及其他事物。
当有数据被送达这个神经网络的时候,不同神经元之间的关系就会发生改变,而这也使得神经网络能够得到对某些特定数据的反应机制,据悉这个网络已经学到了一些东西,Google将有望在多个领域使用这一新技术,最先获益的可能是语音识别。
另外,还有一些深入日常生活的具体应用。
(1)虚拟助手。Siri、Alexa、Google Now都是虚拟助手。顾名思义,当使用语音发出指令后,它们会协助查找信息。对于响应,虚拟助手会查找信息、回忆相关查询,或向其他资源(如电话应用程序)发送命令以收集信息。甚至可以指导助手执行某些任务,例如“设置整点的闹钟”等。
(2)交通预测。生活中经常使用GPS导航服务,当这样做时,当前的位置和速度会被保存在中央服务器上来进行流量管理,之后使用这些数据构建当前流量的映射。
通过机器学习可以解决配备GPS的汽车数量较少的问题,在这种情况下,机器学习有助于根据估计找到拥挤的区域。
(3)过滤垃圾邮件和恶意软件。电子邮件客户端使用了许多垃圾邮件过滤方法,为了确保这些垃圾邮件过滤器能够不断更新,它们使用了机器学习技术。
多层感知器和决策树归纳等是由机器学习提供支持的一些垃圾邮件过滤技术。每天检测到超过400 000个恶意软件,其代码与之前版本有90%~98%相似。
由机器学习驱动的系统安全程序可理解编码模式可以轻松检测到2%~10%变异的新恶意软件,并提供针对它们的保护。
(4)快速揭示细胞内部结构。借由高功率显微镜和机器学习,科学家们可查看各种新冠肺炎病毒的变种,并使用机器学习方法模拟病毒变异和传播规律,为人类健康做出贡献。