二、数据挖掘技术

大数据分析的理论核心是数据挖掘算法。各种数据挖掘的算法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法才能深入数据内部,挖掘出公认的价值。另一个方面,是因为有这些数据挖掘的算法才能更快速地处理大数据,如果一个算法需花费几年时间才能得出结论,就失去了大数据的价值。
常见的数据挖掘算法有分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘(Web/图形图像/视频/音频)等。针对大数据挖掘算法运行的挑战,突破MapReduce技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统。