- Spark海量数据处理:技术详解与平台实战
- 范东来
- 516字
- 2020-08-27 13:38:53
1.2 Databricks
在2013年,Spark还只是一个Apache孵化器项目,Spark核心开发团队成立了一家名为Databricks的公司,专注于基于Spark为行业提供高质量的解决方案。Databricks创始人团队中很多都是Spark项目的Committer,在一定程度上,该公司可以影响Spark的发展方向。Databricks与基于Hadoop做商业化的Cloudera和Hontworks有异曲同工之妙,后者班底也是Hadoop的开发团队,如图1-5所示,该图为Databricks的标志。
图1-5 Databricks
Databricks核心平台产品统一分析平台(Unified Analytics Platform)的最大特点就是“易用”,无论是做数据探索还是数据处理都有不错的交互体验,而且涵盖了整个数据科学工程的方方面面,将工程师和科学家从烦琐的工作中解放出来,这与Cloudera的CDH和Hontworks的HDP相比,无疑更受用户的喜爱。
Databricks每年都会组织召开Spark Summit,该会议已经成为Spark开发者和用户的技术盛会。在会上,可以获得Spark较新发展动向、特性以及大量行业应用分享,喜爱大数据与Spark的读者不妨多多关注。Spark Summit是系列会议,第一次是2013年12月在旧金山举行的,之后每年都会举办一次主会议(Spark Summit)和几次分会议(如Spark Summit Europe、Spark Summit East、Spark Summit China等)。2018年6月,Spark Summit改为“Spark+AI Summit”,如图1-6所示,体现了大数据与人工智能的结合。
图1-6 2018年6月Spark Summit
值得一提的是,Databricks这家初创公司在商业化的道路上也走得非常成功。2019年2月5日,Databricks宣布融资2.5亿美元,公司估值27.5亿美元,投资方不乏微软这类业界巨头。