封面
版权信息
前言
第一篇 数据大图和数据平台大图
第1章 数据大图
1.1 数据流程
1.2 数据技术
1.3 数据相关从业者和角色
1.4 本章小结
第2章 数据平台大图
2.1 离线数据平台的架构、技术和设计
2.2 实时数据平台的架构、技术和设计
2.3 数据管理
2.4 本章小结
第二篇 离线数据开发:大数据开发的主战场
第3章 Hadoop原理实践
3.1 开启大数据时代的Hadoop
3.2 HDFS和MapReduce优缺点分析
3.3 HDFS和MapReduce基本架构
3.4 MapReduce内部原理实践
3.5 本章小结
第4章 Hive原理实践
4.1 离线大数据处理的主要技术:Hive
4.2 Hive SQL
4.3 Hive SQL执行原理图解
4.4 Hive函数
4.5 其他SQL on Hadoop技术
4.6 本章小结
第5章 Hive优化实践
5.1 离线数据处理的主要挑战:数据倾斜
5.2 Hive优化
5.3 join无关的优化
5.4 大表join小表优化
5.5 大表join大表优化
5.6 本章小结
第6章 维度建模技术实践
6.1 大数据建模的主要技术:维度建模
6.2 维度表设计
6.3 深入事实表
6.4 大数据的维度建模实践
6.5 本章小结
第7章 Hadoop数据仓库开发实战
7.1 业务需求
7.2 Hadoop数据仓库架构设计
7.3 Hadoop数据仓库规范设计
7.4 FutureRetailer数据仓库构建实践
7.5 数据平台新架构——数据湖
7.6 本章小结
第三篇 实时数据开发:大数据开发的未来
第8章 Storm流计算开发
8.1 流计算技术的鼻祖:Storm技术
8.2 Storm实时开发示例
8.3 Storm高级原语Trident
8.4 Storm关键技术
8.5 本章小结
第9章 Spark Streaming流计算开发
9.1 Spark生态和核心概念
9.2 Spark生态的流计算技术:Spark Streaming
9.3 Spark Streaming的实时开发示例
9.4 Spark Streaming调优实践
9.5 Spark Streaming关键技术
9.6 本章小结
第10章 Flink流计算开发
10.1 流计算技术新贵:Flink
10.2 Flink API
10.3 Flink实时开发示例
10.4 Flink关键技术详解
10.5 本章小结
第11章 Beam技术
11.1 意图一统流计算的Beam
11.2 Beam技术核心:Beam Model
11.3 Beam SDK
11.4 Beam窗口详解
11.5 本章小结
第12章 Stream SQL实时开发实战
12.1 流计算SQL原理和架构
12.2 流计算SQL:未来主要的实时开发技术
12.3 Stream SQL
12.4 Stream SQL的实时开发实战
12.5 撤回机制
12.6 本章小结
参考文献
更新时间:2019-01-04 11:21:50