- Spark大数据处理与分析
- 雷擎编著
- 189字
- 2021-03-27 00:15:39
2.6 小结
本章介绍了Spark数据处理的基本机制。Apache Spark是一个在Hadoop上运行并处理不同类型数据的集群计算框架,对于许多问题来说,是一站式解决方案,因为Spark拥有丰富的数据处理资源,最重要的是,它比Hadoop的MapReduce快10~20倍。Spark通过其基于内存的本质获得了这种计算速度,数据被缓存并存在于存储器(RAM)中,并执行内存中的所有计算。另外,通过本章的学习,理解RDD的基本概念,掌握Spark程序的基本结构以及基础编程、编译和运行过程。