引言
第一章 向数据湖仓演进
1.技术的演进
2.组织内的全部数据
3.商业价值在哪里?
4.数据湖
5.当前数据架构的挑战
6.数据湖仓的出现
第二章 数据科学家和终端用户
1.数据湖
2.分析基础设施
3.不同的受众
4.分析工具不同
5.分析目的不同
6.分析方法不同
7.数据类型不同
第三章 数据湖仓中的不同类型数据
1.数据的类型
2.不同数据的容量
3.跨越不同类型数据的关联数据
4.基于访问概率对数据进行分片
5.模拟和物联网环境中的关联数据
6.分析基础设施
第四章 开放的湖仓环境
1.开放系统的演进
2.与时俱进的创新
3.建立在开放、标准文件格式之上的非结构化湖仓
4.开源数据湖仓软件
5.数据湖仓提供超越SQL的开放API
6.数据湖仓支持开放数据共享
7.数据湖仓支持开放数据探索
8.数据湖仓通过开放数据目录简化数据发现
9.利用云原生架构的数据湖仓
10.向开放的数据湖仓演进
第五章 机器学习和数据湖仓
1.机器学习
2.机器学习需要湖仓提供什么?
3.从数据中挖掘出新价值
4.解决这个难题
5.非结构化数据问题
6.开源的重要性
7.发挥云的弹性优势
8.为数据平台设计“MLOps”
9.案例:运用机器学习对胸透x光片进行分类
10.数据湖仓的非结构化组件的演进
第六章 数据湖仓中的分析基础设施
1.元数据
2.数据模型
3.数据质量
4.ETL
5.文本ETL
6.分类标准
7.数据体量
8.数据血缘
9.KPT
10.数据的粒度
11.事务
12.键
13.处理计划
14.汇总数据
15.最低要求
第七章 数据湖仓中的数据融合
1.湖仓和数据湖仓
2.数据的源头
3.不同类型的分析
4.通用标识符
5.结构化标识符
6.重复数据
7.文本环境中的标识符
8.文本数据和结构化数据的融合
9.匹配的重要性
第八章 跨数据湖仓架构的分析类型
1.已知查询
2.启发式分析
第九章 数据湖仓仓务管理
1.数据集成和互操作
2.数据湖仓的主数据及参考数据
3.数据湖仓的隐私、保密和数据保护
4.数据湖仓中面向未来的数据
5.面向未来的数据的五个阶段
6.数据湖仓的例行维护
第十章 可视化
1.将数据转化为信息
2.什么是数据可视化?为什么它很重要?
3.数据可视化、数据分析和数据解释之间的差异
4.数据可视化的优势
第十一章 数据湖仓架构中的数据血缘
1.计算链
2.数据选取
3.算法差异
4.文本数据血缘
5.其他非结构化环境的数据血缘
6.数据血缘
第十二章 数据湖仓架构中的访问概率
1.数据的高效排列
2.数据的访问概率
3.数据湖仓中不同的数据类型
4.数据量的相对差异
5.数据分片的优势
6.使用大容量存储
7.附加索引
第十三章 跨越鸿沟
1.合并数据
2.不同种类的数据
3.不同的业务需求
4.跨越鸿沟
第十四章 数据湖仓中的海量数据
1.海量数据的分布
2.高性能、大容量的数据存储
3.附加索引和摘要
4.周期性的数据过滤
5.数据标记法
6.分离文本和数据库
7.归档存储
8.监测活动
9.并行处理
第十五章 数据治理与数据湖仓
1.数据治理的目的
2.数据生命周期管理
3.数据质量管理
4.元数据管理的重要性
5.随着时间推移的数据治理
6.数据治理的类型
7.贯穿数据湖仓的数据治理
8.数据治理的注意事项
第十六章 现代数据仓库
1.应用程序的普及
2.信息孤岛
3.复杂网络环境
4.数据仓库
5.数据仓库的定义
6.历史数据
7.关系模型
8.数据的本地形式
9.集成数据的需要
10.时过境迁
11.当今世界
12.不同体量的数据
13.数据与业务的关系
14.将数据纳入数据仓库
15.现代数据仓库
16.什么时候我们不再需要数据仓库?
17.数据湖
18.以数据仓库作为基础
19.数据堆栈
展开