信阅平台

作者简介

胡博，国际数据管理协会（DAMA）中国理事，国家重点研发计划课题负责人。发表过学术论文20余篇，在云平台、数据中台等方面授权国家发明专利12项；是中国计算机学会高级会员、中国计算机协会服务计算专委会执行委员、SCI期刊IJWSR 执行主编、华中农业大学、深圳大学、武汉科技大学和海南师范大学硕士生导师。

展开

内容介绍

数据湖仓是一个现代化的开放式架构，可用于存储、了解和分析所有数据。数据湖仓一体不仅具备数据仓库的强大功能和丰富性，而且还拥有当今热门的开源数据技术的广度和灵活性。本书主要围绕数据湖仓的所有新增要素进行展开叙述，主要内容包括数据分析和机器学习所用的分析基础设施的介绍，包括大家广为熟悉的或有些陌生或略带新鲜感的概念，比如元数据、数据血缘、数据体量的度量、数据创建的历史记录、数据转换描述、数据湖仓的架构及其能力、数据分析规划等，图文并茂，生动有趣，适合数据管理人员、数据相关项目的解决方案提供者、业务部门数据分析和报表统计人员、信息科技部门数据平台开发、运维及安全管理人员等读书阅读和使用。

展开

引言
第一章向数据湖仓演进
1.技术的演进
2.组织内的全部数据
3.商业价值在哪里？
4.数据湖
5.当前数据架构的挑战
6.数据湖仓的出现
第二章数据科学家和终端用户
1.数据湖
2.分析基础设施
3.不同的受众
4.分析工具不同
5.分析目的不同
6.分析方法不同
7.数据类型不同
第三章数据湖仓中的不同类型数据
1.数据的类型
2.不同数据的容量
3.跨越不同类型数据的关联数据
4.基于访问概率对数据进行分片
5.模拟和物联网环境中的关联数据
6.分析基础设施
第四章开放的湖仓环境
1.开放系统的演进
2.与时俱进的创新
3.建立在开放、标准文件格式之上的非结构化湖仓
4.开源数据湖仓软件
5.数据湖仓提供超越SQL的开放API
6.数据湖仓支持开放数据共享
7.数据湖仓支持开放数据探索
8.数据湖仓通过开放数据目录简化数据发现
9.利用云原生架构的数据湖仓
10.向开放的数据湖仓演进
第五章机器学习和数据湖仓
1.机器学习
2.机器学习需要湖仓提供什么？
3.从数据中挖掘出新价值
4.解决这个难题
5.非结构化数据问题
6.开源的重要性
7.发挥云的弹性优势
8.为数据平台设计“MLOps”
9.案例：运用机器学习对胸透x光片进行分类
10.数据湖仓的非结构化组件的演进
第六章数据湖仓中的分析基础设施
1.元数据
2.数据模型
3.数据质量
4.ETL
5.文本ETL
6.分类标准
7.数据体量
8.数据血缘
9.KPT
10.数据的粒度
11.事务
12.键
13.处理计划
14.汇总数据
15.最低要求
第七章数据湖仓中的数据融合
1.湖仓和数据湖仓
2.数据的源头
3.不同类型的分析
4.通用标识符
5.结构化标识符
6.重复数据
7.文本环境中的标识符
8.文本数据和结构化数据的融合
9.匹配的重要性
第八章跨数据湖仓架构的分析类型
1.已知查询
2.启发式分析
第九章数据湖仓仓务管理
1.数据集成和互操作
2.数据湖仓的主数据及参考数据
3.数据湖仓的隐私、保密和数据保护
4.数据湖仓中面向未来的数据
5.面向未来的数据的五个阶段
6.数据湖仓的例行维护
第十章可视化
1.将数据转化为信息
2.什么是数据可视化？为什么它很重要？
3.数据可视化、数据分析和数据解释之间的差异
4.数据可视化的优势
第十一章数据湖仓架构中的数据血缘
1.计算链
2.数据选取
3.算法差异
4.文本数据血缘
5.其他非结构化环境的数据血缘
6.数据血缘
第十二章数据湖仓架构中的访问概率
1.数据的高效排列
2.数据的访问概率
3.数据湖仓中不同的数据类型
4.数据量的相对差异
5.数据分片的优势
6.使用大容量存储
7.附加索引
第十三章跨越鸿沟
1.合并数据
2.不同种类的数据
3.不同的业务需求
4.跨越鸿沟
第十四章数据湖仓中的海量数据
1.海量数据的分布
2.高性能、大容量的数据存储
3.附加索引和摘要
4.周期性的数据过滤
5.数据标记法
6.分离文本和数据库
7.归档存储
8.监测活动
9.并行处理
第十五章数据治理与数据湖仓
1.数据治理的目的
2.数据生命周期管理
3.数据质量管理
4.元数据管理的重要性
5.随着时间推移的数据治理
6.数据治理的类型
7.贯穿数据湖仓的数据治理
8.数据治理的注意事项
第十六章现代数据仓库
1.应用程序的普及
2.信息孤岛
3.复杂网络环境
4.数据仓库
5.数据仓库的定义
6.历史数据
7.关系模型
8.数据的本地形式
9.集成数据的需要
10.时过境迁
11.当今世界
12.不同体量的数据
13.数据与业务的关系
14.将数据纳入数据仓库
15.现代数据仓库
16.什么时候我们不再需要数据仓库？
17.数据湖
18.以数据仓库作为基础
19.数据堆栈

展开