二、总体架构

云计算数据管理总体架构包括数据组织与管理层、数据集成与管理层、分布式并行处理层和数据分析层,最终实现对非确定性数据的管理与集成,为用户提供高效查询等服务。

1.数据组织与管理层

采用分布式的存储技术可用于大型的、分布式的、对大量数据进行访问的应用,类似存储数据的文件系统(Google file system,GFS),运行于各种类似的普通硬件上,提供容错功能,为用户提供高可靠、高并发和高性能的数据并行存取访问。

2.数据集成与管理层

针对数据非确定性、分布异构性和动态变化等特点,采用分布式数据管理技术,通过采用BigTable、Hbase等分布式数据库技术对大数据集进行处理、分析,为用户提供高效服务。

3.分布式并行处理层

为高效利用分布式环境下的数据挖掘和处理,采用基于云计算的并行编程模式(如MapReduce),将任务自动分成多个子任务,通过映射和化简两步实现任务在大规模计算节点中的调度与分配。后台复杂的并行执行和任务调度对用户和编程人员透明。

4.数据分析层

云计算数据管理最终需要对数据进行分析和挖掘以提供给应用使用,通过采用不同数据挖掘引擎的布局和多引擎的调度策略和基于浅层语义分析和深层语义分析技术,在不确定知识条件下进行高效的数据挖掘,从大量的结构化关系数据库、半结构化文本、图形和图像数据中提取潜在的、事先未知的、有用的、可被人理解的数据。