第1章序篇_Spark海量数据处理：技术详解与平台实战-QQ阅读男生武侠网

第1章序篇

Spark从2009年问世以来，就以星火燎原之势迅速席卷业界。我还记得在2011年左右，在搜索引擎中输入“Spark”的关键字，置顶结果是雪佛兰的Spark汽车，而如今，Spark已经成了事实上的大数据处理的工业标准、技术栈和行业领先解决方案，不得不令人感叹技术的日新月异。

目前Spark项目被托管在GitHub上，从GitHub上的统计来看，Spark无论是从Contributor还是从commit数量上来说，都可以说是最活跃的开源项目之一，如图1-1和图1-2所示。

图1-1 Spark Contributor人数日益增加

图1-2 Spark活跃度

Spark诞生于学界，成长于社区，它利用了开源社区的力量与文化，集中了世界上的一群天才们，夜以继日地为Spark做出贡献，这也是Spark发展迅速的原因之一。本章将介绍Spark的背景、生态圈以及思想，为本书后面的学习打下基础。

本章包含以下内容：

● Spark与BDAS；

● Databricks；

● 如何用GitHub为Spark贡献代码；

● 函数式编程思想。