封面
版权信息
序
前言
本书特点
面向读者
阅读方法
勘误和支持
致谢
资源与支持
配套资源
提交勘误
与我们联系
关于异步社区和异步图书
第一部分 基础篇
第1章 序篇
1.1 Spark与BDAS
1.2 Databricks
1.3 如何通过GitHub向Spark贡献代码
1.4 如何选择Spark编程语言
1.5 函数式编程思想
1.6 小结
第2章 Spark编程
2.1 Spark架构
2.2 Spark 2.x与Spark 3.x
2.3 部署Spark
2.4 RDD与算子
2.5 Spark Shuffle
2.6 共享变量
2.7 Spark的多语言支持
2.8 Spark性能调优
2.9 使用Jupyter Notebook基于Spark探索数据:蒙特卡罗方法预测股票价格
2.10 小结
第3章 Spark统一编程接口:DataFrame、Dataset和Spark SQL
3.1 Catalyst优化器
3.2 DataFrame API
3.3 Dataset API
3.4 Spark SQL
3.5 Google Dremel与列式存储
3.6 使用Spark SQL进行数据探索
3.7 小结
第4章 Spark流处理:Spark Streaming与Structured Streaming
4.1 一个Spark Streaming流处理的例子
4.2 消息送达保证
4.3 Google MillWheel系统和Google Dataflow模型
4.4 Spark Streaming
4.5 Structured Streaming
4.6 流处理技术对比
4.7 小结
第5章 Spark图计算:GraphX
5.1 图模式
5.2 生成图
5.3 图算子
5.4 Pregel API
5.5 SQL on Graph
5.6 n度邻居顶点算法
5.7 小结
第6章 Spark机器学习:MLlib
6.1 机器学习
6.2 Spark MLlib与Spark ML
6.3 数据预处理
6.4 分类算法应用
6.5 聚类算法应用
6.6 推荐系统应用
6.7 训练之后
6.8 流式机器学习
6.9 小结
第7章 Spark深度学习:Deeplearning4j
7.1 常见的深度学习框架
7.2 Deeplearning4j
7.3 卷积神经网络
7.4 循环神经网络
7.5 自动编码器
7.6 使用GPU
7.7 小结
第8章 分布式存储:Alluxio
8.1 Alluxio架构
8.2 快速上手Alluxio
8.3 与上层框架集成
8.4 与底层存储系统集成
8.5 如何访问Alluxio
8.6 Alluxio应用案例
8.7 小结
第二部分 应用篇
第9章 企业数据湖与Lambda架构
9.1 数据湖
9.2 Lambda架构
9.3 基于Lambda架构的数据湖分层设计
9.4 Lambda架构的应用
9.5 构建Lambda架构的技术
9.6 小结
第10章 大数据企业动态背景调查平台
10.1 企业背景调查
10.2 基于大数据的企业动态背景调查
10.3 数据采集与数据字典
10.4 企业背景调查平台需求
10.5 企业关联图谱的模式
10.6 传统数据仓库架构
10.7 小结
第11章 平台设计
11.1 平台架构
11.2 物理拓扑
11.3 服务层图数据库设计
11.4 项目规划
11.5 小结
第12章 数据管道层
12.1 安装并配置canal
12.2 实现Kafka生产者
12.3 安装并配置Flume
12.4 小结
第13章 速度层
13.1 速度层输入
13.2 Cypher基础
13.3 生成Cypher语句
13.4 整合Structured Streaming
13.5 小结
第14章 批处理层
14.1 自融风险监测
14.2 生成主数据集
14.3 用GraphX计算企业自融风险值
14.4 导入HBase
14.5 调度中心
14.6 小结
第15章 服务层与查询层
15.1 不仅仅是合并
15.2 接口开发
15.3 小结
第三部分 总结篇
第16章 总结和展望
16.1 统一的大数据处理接口
16.2 Kappa架构
16.3 大数据处理技术
16.4 Spark未来发展方向
Spark海量数据处理技术详解与平台实战
更新时间:2020-02-14 17:56:05