封面
版权页
O'Reilly Media,Inc.介绍
文前
本书赞誉
译者序
前言
第1章 为什么数据质量值得关注
1.1 什么是数据质量
1.2 构筑当下
1.2.1 了解“数据宕机的增加”
1.2.2 促成当前形势的其他行业趋势
1.3 总结
第2章 对可靠数据系统的构建模块进行组装
2.1 了解事务型数据和分析型数据之间的差异
2.2 是什么让它们有所不同
2.3 数据仓库与数据湖
2.3.1 数据仓库:模式级别的表类型
2.3.2 数据湖:文件级别的操作
2.3.3 什么是湖仓一体
- APP免费
2.3.4 在仓库和湖之间同步数据
- APP免费
2.4 收集数据质量指标
- APP免费
2.4.1 什么是数据质量指标
- APP免费
2.4.2 如何提取数据质量指标
- APP免费
2.4.3 使用查询日志了解数据仓库中的数据质量
- APP免费
2.4.4 使用查询日志了解数据湖中的数据质量
- APP免费
2.5 设计数据目录
- APP免费
2.6 构建数据目录
- APP免费
2.7 总结
- APP免费
第3章 收集、清洗、转换和测试数据
- APP免费
3.1 收集数据
- APP免费
3.1.1 应用程序日志数据
- APP免费
3.1.2 API响应
- APP免费
3.1.3 传感器数据
- APP免费
3.2 清洗数据
- APP免费
3.3 批处理与流处理
- APP免费
3.4 流处理的数据质量
- APP免费
3.5 数据标准化
- APP免费
3.5.1 处理异构数据源
- APP免费
3.5.2 模式检查和类型强制转换
- APP免费
3.5.3 数据中的句法歧义与语义歧义
- APP免费
3.5.4 管理AWS Kinesis和Apache Kafka之间的事务型数据转换
- APP免费
3.6 运行分析型数据转换
- APP免费
3.6.1 确保ETL期间的数据质量
- APP免费
3.6.2 确保转换期间的数据质量
- APP免费
3.7 警报和测试
- APP免费
3.7.1 dbt单元测试
- APP免费
3.7.2 Great Expectations单元测试
- APP免费
3.7.3 Deequ单元测试
- APP免费
3.8 使用Apache Airflow管理数据质量
- APP免费
3.8.1 调度程序的SLA
- APP免费
3.8.2 在Apache Airflow中安装断路器
- APP免费
3.8.3 SQL检查运算符
- APP免费
3.9 总结
- APP免费
第4章 数据管道的监控和异常检测
- APP免费
4.1 了解已知的未知和未知的未知
- APP免费
4.2 构建异常检测的算法
- APP免费
4.2.1 新鲜度监控
- APP免费
4.2.2 了解分布
- APP免费
4.3 为模式和沿袭构建监控器
- APP免费
4.3.1 模式变更和沿袭的异常检测
- APP免费
4.3.2 对沿袭进行可视化
- APP免费
4.3.3 调查数据异常
- APP免费
4.4 使用Python和机器学习扩展异常检测
- APP免费
4.4.1 利用机器学习改进数据监控警报
- APP免费
4.4.2 假阳性和假阴性的解释
- APP免费
4.4.3 提高精确率和召回率
- APP免费
4.4.4 通过数据监控检测新鲜度事件
- APP免费
4.4.5 F分数
- APP免费
4.4.6 模型的准确率重要吗
- APP免费
4.5 深入探究:其他有用的异常检测方法
- APP免费
4.6 为数据仓库和数据湖分别设计数据质量监控器
- APP免费
4.7 总结
- APP免费
第5章 为数据可靠性进行架构设计
- APP免费
5.1 在摄取数据时评估并维护高数据可靠性
- APP免费
5.2 度量和维护管道中的数据质量
- APP免费
5.3 了解下游的数据质量
- APP免费
5.4 构建数据平台
- APP免费
5.4.1 数据摄取
- APP免费
5.4.2 数据存储和处理
- APP免费
5.4.3 数据转换和建模
- APP免费
5.4.4 商业智能和分析
- APP免费
5.4.5 数据发现和治理
- APP免费
5.5 建立对数据的信任
- APP免费
5.5.1 数据可观测性
- APP免费
5.5.2 评估数据质量的投资回报率
- APP免费
5.5.3 如何为数据设置SLA、SLO和SLI
- APP免费
5.6 案例分析:Blinkist
- APP免费
5.7 总结
- APP免费
第6章 解决大规模数据质量问题
- APP免费
6.1 在软件研发过程中解决数据质量问题
- APP免费
6.2 数据事件管理
- APP免费
6.2.1 事件检测
- APP免费
6.2.2 响应
- APP免费
6.2.3 根因分析
- APP免费
6.2.4 解决
- APP免费
6.2.5 不做指责的复盘
- APP免费
6.3 事件应对与缓解策略
- APP免费
6.3.1 建立事件管理的标准程序
- APP免费
6.3.2 为什么数据事件指挥官如此重要
- APP免费
6.4 案例分析:PagerDuty公司的数据事件管理
- APP免费
6.4.1 PagerDuty的数据运营概况
- APP免费
6.4.2 PagerDuty的数据挑战
- APP免费
6.4.3 使用DevOps的最佳实践来规模化数据事件管理
- APP免费
6.5 总结
- APP免费
第7章 构建端到端的数据沿袭
- APP免费
7.1 为现代数据系统构建端到端字段级别的沿袭
- APP免费
7.1.1 数据沿袭的基本要求
- APP免费
7.1.2 数据沿袭的设计
- APP免费
7.1.3 解析数据
- APP免费
7.1.4 构建用户界面
- APP免费
7.2 案例分析:在福克斯公司构建数据可靠性
- APP免费
7.2.1 在与利益相关方打交道时,运用“可控自由”原则
- APP免费
7.2.2 投资于去中心化数据团队
- APP免费
7.2.3 避免追逐闪亮的新科技,而应该选择解决问题的技术
- APP免费
7.2.4 为实现自助式分析,要致力于建立数据信任
- APP免费
7.3 总结
- APP免费
第8章 推广和普及数据质量
- APP免费
8.1 将“数据”视为产品
- APP免费
8.2 将数据视为产品的经验
- APP免费
8.2.1 Convoy案例分析:数据即服务或输出
- APP免费
8.2.2 Uber案例分析:数据产品经理的崛起
- APP免费
8.2.3 采用“数据即产品”的方法
- APP免费
8.3 在数据平台中建立信任
- APP免费
8.3.1 确保产品目标与业务目标保持一致
- APP免费
8.3.2 寻求适合的利益相关方的反馈与认可
- APP免费
8.3.3 优先考虑长期增长和可持续性,而非短期收益
- APP免费
8.3.4 为数据及其评估标准设定基准指标
- APP免费
8.3.5 了解何时构建、何时购买
- APP免费
8.4 分配数据质量所有权
- APP免费
8.4.1 首席数据官
- APP免费
8.4.2 商业智能分析师
- APP免费
8.4.3 分析工程师
- APP免费
8.4.4 数据科学家
- APP免费
8.4.5 数据治理主管
- APP免费
8.4.6 数据工程师
- APP免费
8.4.7 数据产品经理
- APP免费
8.4.8 谁来负责数据可靠性
- APP免费
8.5 为数据质量创建责任制
- APP免费
8.6 平衡数据可访问性与数据信任
- APP免费
8.7 对数据进行认证
- APP免费
8.8 实施数据认证流程的七个步骤
- APP免费
8.9 案例分析:Toast寻找适合其数据团队结构的过程
- APP免费
8.9.1 起初:一个艰难满足数据需求的小团队
- APP免费
8.9.2 以分散式数据运营支持超级增长
- APP免费
8.9.3 重组、再集中化并重新聚焦于数据信任
- APP免费
8.9.4 在扩张数据团队时需要考虑的因素
- APP免费
8.10 提高数据素养
- APP免费
8.11 优先考虑数据治理和合规性
- APP免费
8.11.1 优先考虑数据目录
- APP免费
8.11.2 数据目录之外:实施数据治理
- APP免费
8.12 构建数据质量策略
- APP免费
8.12.1 让领导层对数据质量最终负责
- APP免费
8.12.2 设定数据质量的KPI
- APP免费
8.12.3 带头实施数据治理计划
- APP免费
8.12.4 自动化数据沿袭与数据治理工具
- APP免费
8.12.5 创建沟通计划
- APP免费
8.13 总结
- APP免费
第9章 现实世界中的数据质量:对话和案例分析
- APP免费
9.1 为更高的数据质量构建数据网格
- APP免费
9.1.1 面向领域的数据所有者和数据管道
- APP免费
9.1.2 自助式服务功能
- APP免费
9.1.3 互操作性与通信标准化
- APP免费
9.2 为什么要实施数据网格
- APP免费
9.2.1 选不选网格
- APP免费
9.2.2 计算你的数据网格分数
- APP免费
9.3 与Zhamak Dehghani的对话:数据质量在数据网格中的作用
- APP免费
9.3.1 你可以从单一解决方案构建数据网格吗
- APP免费
9.3.2 数据网格是数据虚拟化的另一种表达吗
- APP免费
9.3.3 每个数据产品团队是否管理自己独立的数据存储
- APP免费
9.3.4 自助式数据平台与分散式数据网格是一回事吗
- APP免费
9.3.5 数据网格适用于所有的数据团队吗
- APP免费
9.3.6 团队中的某个人会“拥有”数据网格吗
- APP免费
9.3.7 数据网格是否会引起数据工程师和数据分析师之间的摩擦
- APP免费
9.4 案例分析:Kolibri Games的数据栈之旅
- APP免费
9.4.1 最初的数据需求
- APP免费
9.4.2 追求绩效营销
- APP免费
9.4.3 2018年:专业化和集中化
- APP免费
9.4.4 开始以数据为导向
- APP免费
9.4.5 开始数据驱动
- APP免费
9.4.6 构建数据网格
- APP免费
9.4.7 五年数据演变的五个关键思考
- APP免费
9.5 让元数据为业务服务
- APP免费
9.6 通过数据发现释放元数据的价值
- APP免费
9.6.1 数据仓库和数据湖的考量
- APP免费
9.6.2 数据目录可能淹没在数据湖甚至数据网格中
- APP免费
9.6.3 从传统的数据目录过渡到现代的数据发现
- APP免费
9.7 决定何时开始处理公司的数据质量问题
- APP免费
9.7.1 在最近迁移到云端
- APP免费
9.7.2 数据栈随着更多的数据源、更多的表和更高的复杂性而扩展
- APP免费
9.7.3 你的数据团队正在扩充
- APP免费
9.7.4 你的团队至少花费了30%的时间来解决数据质量问题
- APP免费
9.7.5 你的团队拥有比一年前更多的数据消费者
- APP免费
9.7.6 你的公司正在转向自助式服务分析模型
- APP免费
9.7.7 数据是客户价值主张的关键部分
- APP免费
9.7.8 数据质量源于信任
- APP免费
9.8 总结
- APP免费
第10章 开创可靠数据系统的未来
- APP免费
10.1 要积极主动,而不是消极被动
- APP免费
10.2 对数据质量和数据可靠性未来的预测
- APP免费
10.2.1 数据仓库和数据湖将融为一体
- APP免费
10.2.2 数据团队中的新角色
- APP免费
10.2.3 自动化的兴起
- APP免费
10.2.4 更多的分布式环境与数据领域的兴起
- APP免费
10.3 何去何从
- APP免费
作者介绍
- APP免费
封面介绍
- APP免费
推荐阅读
- APP免费
封底
更新时间:2024-08-19 16:21:20