4 大数据预处理

4.1 大数据预处理的作用及分类

机器学习是人工智能得以实现的重要方法,它最早来源于人工智能领域,希望能够通过教会机器像人类一样思考,从而使其具有像人类一样的智能。机器学习的主要思想是对现实世界收集到的数据进行分析,找到其中的规律,进而对现实世界做出正确的决策或者给出预测。

机器学习主要由以下步骤组成:

①获取数据:从现实世界收集数据。

②数据预处理:对收集的数据进行处理,纠正或清除不合理数据、缺失值等。

③特征工程:选择与学习模型最相关的特征,以降低学习成本,提高学习效率。

④数据建模:使用不同的机器学习算法,建立学习模型,并给出学习结果。

⑤学习结果验证:对学习结果进行验证,分析模型的准确率,根据验证结果调整模型,以得到最优的学习模型。

机器学习通常使用算法对现有数据进行建模,然后训练模型得到学习结果。模型的不同,决定了学习效果的好坏。整个过程需要建立在较为完整的数据集的基础上。如果数据集存在问题,那么机器学习的效果就会受到严重的影响(Garcia and Luengoand Herrera, 2016)。然而,在现实环境中,采集到的数据集通常都会存在各种各样的问题,如大量数据存在缺失值或由于来源不同,采用的标准各自不同,当这些数据集组合时,会造成标准不统一;一些人为的原因或者特殊情况也会造成噪声数据的存在。以上这些都会造成数据集无法直接应用于算法,要解决这些问题,就需要在建模之前进行数据预处理(孔钦、叶长青、孙赟,2018)

作为机器学习的一个重要步骤,数据预处理属于知识发现的一个重要环节,可以通过去除无效数据、调整数据组织结构等方式对数据集进行整理,使之适合机器学习算法(孔钦等,2018)。在整个机器学习的过程中,通常建模及算法学习的过程只占总时间的10%,而用于数据预处理的过程则占总时间的60%~70%,因此如何有效、快速、准确地进行数据预处理至关重要。

数据预处理分为数据清洗、数据集成、数据变换和数据归约几种方式,接下来将分别介绍这几种方式。