序
前言
第1章 数据质量监控势在必行
1.1 高质量的数据是新时代的黄金
1.1.1 数据驱动型公司是当今的颠覆者
1.1.2 数据分析的普及
1.1.3 人工智能和机器学习是竞争优势之源
1.1.4 公司正在投资现代数据栈
1.2 数据越多,问题越多
1.2.1 数据工厂中的问题
1.2.2 数据迁移
1.2.3 第三方数据源
1.2.4 公司的成长与变化
1.2.5 外界因素
1.3 为什么我们需要数据质量监控
1.3.1 数据疤痕
1.3.2 数据冲击
1.4 自动化数据质量监控:一个全新的领域
第2章 数据质量监控策略与自动化的角色
2.1 监控需求
2.2 数据可观测性:必要但不充分
2.3 传统的数据质量监控方法
2.3.1 人工数据质量检测
2.3.2 基于规则的测试
2.3.3 指标监控
2.4 使用无监督机器学习实现自动化数据质量监控
2.4.1 什么是无监督机器学习
2.4.2 类比:车道偏离警告
2.4.3 自动化的局限性
2.5 数据质量监控的四大支柱方法
第3章 对自动化数据质量监控的商业影响进行评估
3.1 对数据进行评估
3.1.1 数量
3.1.2 种类
3.1.3 速度
3.1.4 真实性
3.1.5 特殊情况
3.2 评估你的行业
3.2.1 监管压力
3.2.2 人工智能/机器学习的风险
3.2.3 数据即产品
3.3 评估你的数据成熟度
3.4 评估对利益相关方的好处
3.4.1 工程师
3.4.2 数据团队领导者
3.4.3 科学家
3.4.4 消费者
3.5 进行投资回报率分析
3.5.1 定量指标
3.5.2 定性指标
3.6 总结
第4章 利用机器学习使数据质量监控自动化
4.1 要求
4.1.1 敏感性
4.1.2 特异性
4.1.3 透明度
4.1.4 可扩展性
4.1.5 非必要需求
4.1.6 数据质量监控不等同于异常检测
4.2 机器学习方法和算法
4.2.1 数据抽样
4.2.2 特征编码
4.2.3 模型开发
4.2.4 模型可解释性
4.3 整体思路的伪代码实现
4.4 其他应用
4.5 总结
第5章 构建一个适用于真实数据的模型
5.1 数据挑战及应对措施
5.1.1 季节性
5.1.2 基于时间的特征
5.1.3 混乱程度
5.1.4 就地更新表格
5.1.5 列之间的相关性
5.2 模型测试
5.2.1 引入合成异常
5.2.2 基准测试
5.2.3 模型改进
5.3 总结
第6章 实施警报机制同时避免警报疲劳
6.1 如何通过通知促进数据问题响应
6.1.1 分类处理
6.1.2 路由
6.1.3 解决方案
6.1.4 文档记录
6.2 在没有通知的情况下采取行动
6.3 一个通知的解析
6.3.1 可视化
6.3.2 操作
6.3.3 文本描述
6.3.4 检查的创建者/最后编辑者
6.4 发送通知
6.4.1 通知的受众
6.4.2 通知的渠道
6.4.3 通知的时机
6.5 避免警报疲劳
6.5.1 合理安排检查顺序
6.5.2 使用机器学习对警报进行聚类
6.5.3 抑制通知
6.6 自动化根因分析
6.7 总结
第7章 集成监控与数据工具和系统
7.1 监控数据堆栈
7.2 数据仓库
7.2.1 与数据仓库集成
7.2.2 安全性
7.2.3 多仓库之间的数据协调
7.3 数据编排器
7.4 数据目录
7.5 数据使用者
7.5.1 BI和分析工具
7.5.2 MLOps
7.6 总结
第8章 大规模运营解决方案
8.1 自建还是购买
8.2 配置
8.2.1 确定最重要的表格
8.2.2 决定监控表格中的哪些数据
8.2.3 大规模配置
8.3 启用
8.3.1 用户角色和权限
8.3.2 培训、支持与推广
8.4 持续改善数据质量
8.4.1 数据健康计划
8.4.2 衡量指标
8.5 从混乱到清晰
附录 数据质量问题的类型
展开