搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
数据质量管理(数据可靠性与数据质量问题解决之道)
0.00     定价 ¥ 109.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787111754114
  • 作      者:
    作者:(美)巴尔·摩西//利奥·加维什//莫莉·沃尔维克|责编:王春华//冯润峰|译者:李晗玥//陈天皓//步凡
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2024-05-01
收藏
畅销推荐
内容介绍
本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测。深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤。讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
展开
目录
前言
第1章 为什么数据质量值得关注
1.1 什么是数据质量
1.2 构筑当下
1.2.1 了解“数据宕机的增加”
1.2.2 促成当前形势的其他行业趋势
1.3 总结
第2章 对可靠数据系统的构建模块进行组装
2.1 了解事务型数据和分析型数据之间的差异
2.2 是什么让它们有所不同
2.3 数据仓库与数据湖
2.3.1 数据仓库:模式级别的表类型
2.3.2 数据湖:文件级别的操作
2.3.3 什么是湖仓一体
2.3.4 在仓库和湖之间同步数据
2.4 收集数据质量指标
2.4.1 什么是数据质量指标
2.4.2 如何提取数据质量指标
2.4.3 使用查询日志了解数据仓库中的数据质量
2.4.4 使用查询日志了解数据湖中的数据质量
2.5 设计数据目录
2.6 构建数据目录
2.7 总结
第3章 收集、清洗、转换和测试数据
3.1 收集数据
3.1.1 应用程序日志数据
3.1.2 API响应
3.1.3 传感器数据
3.2 清洗数据
3.3 批处理与流处理
3.4 流处理的数据质量
3.5 数据标准化
3.5.1 处理异构数据源
3.5.2 模式检查和类型强制转换
3.5.3 数据中的句法歧义与语义歧义
3.5.4 管理AWS Kinesis和Apache Kafka之间的事务型数据转换
3.6 运行分析型数据转换
3.6.1 确保ETL期间的数据质量
3.6.2 确保转换期间的数据质量
3.7 警报和测试
3.7.1 dbt单元测试
3.7.2 Great Expectations单元测试
3.7.3 Deequ单元测试
3.8 使用 Apache Airflow 管理数据质量
3.8.1 调度程序的SLA
3.8.2 在Apache Airflow中安装断路器
3.8.3 SQL检查运算符
3.9 总结
第4章 数据管道的监控和异常检测
4.1 了解已知的未知和未知的未知
4.2 构建异常检测的算法
4.2.1 新鲜度监控
4.2.2 了解分布
4.3 为模式和沿袭构建监控器
4.3.1 模式变更和沿袭的异常检测
4.3.2 对沿袭进行可视化
4.3.3 调查数据异常
4.4 使用Python和机器学习扩展异常检测
4.4.1 利用机器学习改进数据监控警报
4.4.2 假阳性和假阴性的解释
4.4.3 提高精确率和召回率
4.4.4 通过数据监控检测新鲜度事件
4.4.5 F分数
4.4.6 模型的准确率重要吗
4.5 深入探究:其他有用的异常检测方法
4.6 为数据仓库和数据湖分别设计数据质量监控器
4.7 总结
第5章 为数据可靠性进行架构设计
5.1 在摄取数据时评估并维护高数据可靠性
5.2 度量和维护管道中的数据质量
5.3 了解下游的数据质量
5.4 构建数据平台
5.4.1 数据摄取
5.4.2 数据存储和处理
5.4.3 数据转换和建模
5.4.4 商业智能和分析
5.4.5 数据发现和治理
5.5 建立对数据的信任
5.5.1 数据可观测性
5.5.2 评估数据质量的投资回报率
5.5.3 如何为数据设置SLA、SLO和SLI
5.6 案例分析:Blinkist
5.7 总结
第6章 解决大规模数据质量问题
6.1 在软件研发过程中解决数据质量问题
6.2 数据事件管理
6.2.1 事件检测
6.2.2 响应
6.2.3 根因分析
6.2.4 解决
6.2.5 不做指责的复盘
6.3 事件应对与缓解策略
6.3.1 建立事件管理的标准程序
6.3.2 为什么数据事件指挥官如此重要
6.4 案例分析:PagerDuty公司的数据事件管理
6.4.1 PagerDuty的数据运营概况
6.4.2 PagerDuty的数据挑战
6.4.3 使用DevOps的最佳实践来规模化数据事件管理
6.5 总结
第7章 构建端到端的数据沿袭
7.1 为现代数据系统构建端到端字段级别的沿袭
7.1.1 数据沿袭的基本要求
7.1.2 数据沿袭的设计
7.1.3 解析数据
7.1.4 构建用户界面
7.2 案例分析:在福克斯公司构建数据可靠性
7.2.1 在与利益相关方打交道时,运用“可控自由”原则
7.2.2 投资于去中心化数据团队
7.2.3 避免追逐闪亮的新科技,而应该选择解决问题的技术
7.2.4 为实现自助式分析,要致力于建立数据信任
7.3 总结
第8章 推广和普及数据质量
8.1 将“数据”视为产品
8.2 将数据视为产品的经验
8.2.1 Convoy案例分析:数据即服务或输出
8.2.2 Uber案例分析:数据产品经理的崛起
8.2.3 采用“数据即产品”的方法
8.3 在数据平台中建立信任
8.3.1 确保产品目标与业务目标保持一致
8.3.2 寻求适合的利益相关方的反馈与认可
8.3.3 优先考虑长期增长和可持续性,而非短期收益
8.3.4 为数据及其评估标准设定基准指标
8.3.5 了解何时构建、何时购买
8.4 分配数据质量所有权
8.4.1 首席数据官
8.4.2 商业智能分析师
8.4.3 分析工程师
8.4.4 数据科学家
8.4.5 数据治理主管
8.4.6 数据工程
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证