1.2 数据挖掘存在的问题

尽管数据挖掘有很多优点,但其也面临着许多问题,这也为数据挖掘的发展提供了更大的空间。

(1)数据挖掘的基本问题是数据的数量和维度。如何进行维度约减,选择哪些特征或变量,是首先要解决的问题。

(2)面对海量数据,现有的统计方法遇到了问题,一个直接的对策是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的问题。

(3)既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这种趋势做应有的考虑和评价。

(4)各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及可靠性问题。

(5)当前互联网发展迅速,如何进行互联网的数据挖掘,以及文本、图像等非标准数据的挖掘,引起了人们的广泛关注。

(6)数据挖掘中数据的私有性和安全性问题。

(7)数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。

数据挖掘要求对期望解决问题的领域有深刻的认识,理解数据,并且了解其过程,才能对数据挖掘的结果做出合理的解释。