4.2.1 缺失值处理_人工智能视域下机器学习在教育研究中的应用-QQ阅读男生武侠网

书名：人工智能视域下机器学习在教育研究中的应用
作者名：郑娅峰
本章字数：744字
更新时间：2022-07-27 10:29:40

4.2.1　缺失值处理

由于数据收集过程中存在缺陷或错误，可能造成数据集中部分字段缺失，这种情况会导致缺失值的存在。缺失值处理有以下两种方法：

（1）直接丢弃

这是最简单的处理方法，可以丢弃包含缺失值的记录，或者丢弃缺失值所在的字段。当包含缺失值的记录数量较少时，一般会使用第一种方法，这样对最终的分析结果的影响不大；而第二种方法适用于缺失值较为集中的情况。

（2）进行替换

如果缺失值较多，丢弃缺失值往往会造成数据集分布特点的改变，因此常使用一些方法，如统计学方法或者算法预测（孔钦等，2018），对缺失值进行预测插补。本书展示了一个电信行业客户信息的数据集案例，该案例来自SPSS Modeler自带案例集，可自行安装软件后进入Demos文件夹找到telco.sav文件打开。

telco数据集中共有41个字段、1000个记录，用来记录电信用户基本信息、电信服务信息，以此预测某客户是否会流失（属性“churn”）。其中部分字段为空。该数据集中的缺失值主要集中在字段“logtoll”“logequi”“logcard”“logwire”。由于缺失值较集中，如果这些字段在未来的数据分析中不重要，可以选择将这些字段直接丢弃；而如果字段较为重要，则需要根据现有数据对这些缺失字段进行插补。

缺失值插补的方式有两种：统计学方式和算法预测。

统计学方式指的是根据该字段的其他非缺失值预测，使用固定值、中位数、均值等方法进行插补。其中对于连续值，可以通过求该字段已有数据的中位数、均值、众数或使用固定值进行插补；但是对于非连续值，只能使用固定值或者已有数据的众数进行插补。

另一种缺失值的插补方式是使用算法根据聚类或分类的结果，对缺失位置进行预测。分类算法属于有监督的学习方式，首先使用算法建立模型，将包含缺失值的数据进行分类，然后根据同一类别其他数据该字段的值，对缺失记录进行预测，常用的算法有决策树、神经网络、贝叶斯网络、k最近邻算法等。