2.6 小结

本章介绍了Spark数据处理的基本机制。Apache Spark是一个在Hadoop上运行并处理不同类型数据的集群计算框架,对于许多问题来说,是一站式解决方案,因为Spark拥有丰富的数据处理资源,最重要的是,它比Hadoop的MapReduce快10~20倍。Spark通过其基于内存的本质获得了这种计算速度,数据被缓存并存在于存储器(RAM)中,并执行内存中的所有计算。另外,通过本章的学习,理解RDD的基本概念,掌握Spark程序的基本结构以及基础编程、编译和运行过程。