前言
致谢
引言
第1章 数据平台介绍
1.1 从数据仓库向数据平台转变背后的趋势
1.2 数据仓库与数据的多样性、规模和速度
1.2.1 多样性
1.2.2 规模
1.2.3 速度
1.2.4 所有的V同时出现
1.3 数据湖
1.4 云来了
1.5 云、数据湖、数据仓库:云数据平台的出现
1.6 云数据平台的构建块
1.6.1 摄取层
1.6.2 存储层
1.6.3 处理层
1.6.4 服务层
1.7 云数据平台如何处理这三个V
1.7.1 多样性
1.7.2 规模
1.7.3 速度
1.7.4 另外两个V
1.8 常见用例
第2章 为什么是数据平台而不仅仅是数据仓库
2.1 云数据平台和云数据仓库的实践
2.1.1 近距离观察数据源
2.1.2 云数据仓库—纯架构示例
2.1.3 云数据平台架构示例
2.2 摄取数据
2.2.1 将数据直接摄取到AzureSynapse
2.2.2 将数据摄取到Azure数据平台
2.2.3 管理上游数据源的变化
2.3 处理数据
2.3.1 处理数据仓库中的数据
2.3.2 处理数据平台上的数据
2.4 访问数据
2.5 云成本方面的考虑
2.6 练习答案
第3章 不断壮大并利用三巨头:Amazon、MicrosoftAzure和Google
3.1 云数据平台分层架构
3.1.1 数据摄取层
3.1.2 快存储和慢存储
3.1.3 处理层
3.1.4 技术元数据层
3.1.5 服务层和数据消费者
3.1.6 编排层和ETL覆盖层
3.2 数据平台架构中层的重要性
3.3 将云数据平台层映射到特定工具
3.3.1 AWS
3.3.2 GoogleCloud
3.3.3 Azure
3.4 开源和商业替代方案
3.4.1 批量数据摄取
3.4.2 流数据摄取和实时分析
3.4.3 编排层
3.5 练习答案
第4章 将数据导入平台
4.1 数据库、文件、API和流
4.1.1 关系型数据库
4.1.2 文件
4.1.3 通过API的SaaS数据
4.1.4 流
4.2 从关系型数据库中摄取数据
4.2.1 使用SQL接口从RDBMS摄取数据
4.2.2 全表摄取
4.2.3 增量表摄取
4.2.4 变更数据捕获
4.2.5 CDC供应商概述
4.2.6 数据类型转换
4.2.7 从NoSQL数据库摄取数据
4.2.8 为RDBMS或NoSQL摄取管道捕获重要的元数据
4.3 从文件中摄取数据
4.3.1 跟踪已摄取的文件
4.3.2 捕获文件摄取元数据
4.4 从流中摄取数据
4.4.1 批量摄取和流摄取的区别
4.4.2 捕获流管道元数据
4.5 从SaaS应用程序摄取数据
4.5.1 没有标准的API设计方法
4.5.2 没有标准的方法来处理全数据导出和增量数据导出
4.5.3 结果数据通常是高度嵌套的JSON
4.6 将数据摄取到云中需要考虑的网络和安全问题
4.7 练习答案
第5章 组织和处理数据
5.1 在数据平台中作为单独的层进行处理
5.2 数据处理阶段
5.3 组织你的云存储
5.4 通用数据处理步骤
5.4.1 文件格式转换
5.4.2 重复数据清除
5.4.3 数据质量检查
5.5 可配置的管道
5.6 练习答案
第6章 实时数据处理和分析
6.1 实时摄取与实时处理
6.2 实时数据处理用例
6.2.1 零售用例:实时摄取
6.2.2 线上游戏用例:实时摄取和实时处理
6.2.3 实时摄取与实时处理的总结
6.3 什么时候应该使用实时摄取或实时处理
6.4 为实时使用组织数据
6.4.1 对快存储的解剖
6.4.2 快存储是如何扩展的
6.4.3 在实时存储中组织数据
6.5 通用的实时数据转换
6.5.1 实时系统中数据重复的原因
6.5.2 实时系统中的数据重复清除
6.5.3 在实时管道中转换消息格式
6.5.4 实时数据质量检查
6.5.5 将批量数据与实时数据相结合
6.6 用于实时数据处理的云服务
6.6.1 AWS实时处理服务
6.6.2 GoogleCloud实时处理服务
6.6.3 Azure实时处理服务
6.7 练习答案
第7章 元数据层架构
7.1 元数据是什么
7.1.1 业务元数据
7.1.2 数据平台内部元数据或管道元数据
7.2 利用管道元数据
7.3 元数据模型
7.4 元数据层实现选项
7.4.1 元数据层作为配置文件的集合
7.4.2 元数据数据库
7.4.3 元数据API
7.5 现有的解决方案概述
7.5.1 云元数据服务
7.5.2 开源元数据层实现
7.6 练习答案
第8章 模式管理
8.1 为什么要进行模式管理
8.1.1 传统数据仓库架构中的模式变化
8.1.2 读时模式方法
8.2 模式管理方法
8.2.1 模式即契约
8.2.2 数据平台中的模式管理
8.2.3 监控模式变化
8.3 模式注册表实现
8.3.1 ApacheAvro模式
8.3.2 现有的模式注册表实现
8.3.3 模式注册表作为元数据层的一部分
8.4 模式演化场景
8.4.1 模式兼容性规则
8.4.2 模式演化和数据转换管道
展开