- Spark海量数据处理:技术详解与平台实战
- 范东来
- 334字
- 2020-08-27 13:38:53
第1章 序篇
Spark从2009年问世以来,就以星火燎原之势迅速席卷业界。我还记得在2011年左右,在搜索引擎中输入“Spark”的关键字,置顶结果是雪佛兰的Spark汽车,而如今,Spark已经成了事实上的大数据处理的工业标准、技术栈和行业领先解决方案,不得不令人感叹技术的日新月异。
目前Spark项目被托管在GitHub上,从GitHub上的统计来看,Spark无论是从Contributor还是从commit数量上来说,都可以说是最活跃的开源项目之一,如图1-1和图1-2所示。
图1-1 Spark Contributor人数日益增加
图1-2 Spark活跃度
Spark诞生于学界,成长于社区,它利用了开源社区的力量与文化,集中了世界上的一群天才们,夜以继日地为Spark做出贡献,这也是Spark发展迅速的原因之一。本章将介绍Spark的背景、生态圈以及思想,为本书后面的学习打下基础。
本章包含以下内容:
● Spark与BDAS;
● Databricks;
● 如何用GitHub为Spark贡献代码;
● 函数式编程思想。