序

在数字经济时代，数据是最重要的资源要素；同时，新的衍生数据又在源源不断地产生，企业面临的一个基本问题就是如何管理和利用这些数据，这对传统的数据处理方法与分析框架提出了新的诉求和挑战，也是全球业界与学界最为关心的问题。为了满足大数据时代对信息的快速处理的需求，一个分布式的开源计算框架Apache Spark应运而生。

经过十年的发展，Spark已经发展成为目前大数据处理的标杆，在整个业界得到了广泛的使用。对大数据工程师来说，用Spark构建数据管道无疑是很好的选择，而对数据科学家来说，Spark也是高效的数据探索工具。

作者是我在业界的同事，他是一名大数据架构师，在工作中运用Spark和相关数据处理框架很好地完成了工作任务和创新项目，使公司大数据处理系统高效稳定地运转并驱动整个公司的业务发展。在与数据爱恨纠缠的工作过程中，作者积累了大量的实践经验，我很高兴并支持他将在实践中取得的经验系统性地总结出来，并写成本书。我相信本书会为学习Spark的读者带来很大的帮助。

袁先智博士中山大学和苏州大学特聘教授，International Journal of Financial Engineering主编，成都数联铭品科技有限公司资深副总裁与首席风险官