搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
云数据平台(设计实现与管理)/云计算与虚拟化技术丛书
0.00     定价 ¥ 139.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787111712046
  • 作      者:
    作者:(加)丹尼尔·兹布里夫斯基//琳达·帕特纳|责编:赵亮宇|译者:刘红泉
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2022-08-01
收藏
畅销推荐
内容介绍
本书介绍如何设计既可伸缩又足够灵活的云数据平台,以应对不可避免的技术变化。你将了解云数据平台设计的核心组件,以及Spark和Kafka流等关键技术。你还将探索如何设置流程来管理基于云的数据、确保数据的安全,并使用高级分析和BI工具对数据进行分析。 本书旨在帮助企业通过现代云数据平台使用所有数据的业务集成视图,并利用先进的分析实践来驱动预测和数据服务。本书总结了不同的数据消费者如何使用平台中的数据,并讨论了影响云数据平台项目成功的常见业务问题。
展开
目录
前言
致谢
引言
第1章 数据平台介绍
1.1 从数据仓库向数据平台转变背后的趋势
1.2 数据仓库与数据的多样性、规模和速度
1.2.1 多样性
1.2.2 规模
1.2.3 速度
1.2.4 所有的V同时出现
1.3 数据湖
1.4 云来了
1.5 云、数据湖、数据仓库:云数据平台的出现
1.6 云数据平台的构建块
1.6.1 摄取层
1.6.2 存储层
1.6.3 处理层
1.6.4 服务层
1.7 云数据平台如何处理这三个V
1.7.1 多样性
1.7.2 规模
1.7.3 速度
1.7.4 另外两个V
1.8 常见用例
第2章 为什么是数据平台而不仅仅是数据仓库
2.1 云数据平台和云数据仓库的实践
2.1.1 近距离观察数据源
2.1.2 云数据仓库—纯架构示例
2.1.3 云数据平台架构示例
2.2 摄取数据
2.2.1 将数据直接摄取到AzureSynapse
2.2.2 将数据摄取到Azure数据平台
2.2.3 管理上游数据源的变化
2.3 处理数据
2.3.1 处理数据仓库中的数据
2.3.2 处理数据平台上的数据
2.4 访问数据
2.5 云成本方面的考虑
2.6 练习答案
第3章 不断壮大并利用三巨头:Amazon、MicrosoftAzure和Google
3.1 云数据平台分层架构
3.1.1 数据摄取层
3.1.2 快存储和慢存储
3.1.3 处理层
3.1.4 技术元数据层
3.1.5 服务层和数据消费者
3.1.6 编排层和ETL覆盖层
3.2 数据平台架构中层的重要性
3.3 将云数据平台层映射到特定工具
3.3.1 AWS
3.3.2 GoogleCloud
3.3.3 Azure
3.4 开源和商业替代方案
3.4.1 批量数据摄取
3.4.2 流数据摄取和实时分析
3.4.3 编排层
3.5 练习答案
第4章 将数据导入平台
4.1 数据库、文件、API和流
4.1.1 关系型数据库
4.1.2 文件
4.1.3 通过API的SaaS数据
4.1.4 流
4.2 从关系型数据库中摄取数据
4.2.1 使用SQL接口从RDBMS摄取数据
4.2.2 全表摄取
4.2.3 增量表摄取
4.2.4 变更数据捕获
4.2.5 CDC供应商概述
4.2.6 数据类型转换
4.2.7 从NoSQL数据库摄取数据
4.2.8 为RDBMS或NoSQL摄取管道捕获重要的元数据
4.3 从文件中摄取数据
4.3.1 跟踪已摄取的文件
4.3.2 捕获文件摄取元数据
4.4 从流中摄取数据
4.4.1 批量摄取和流摄取的区别
4.4.2 捕获流管道元数据
4.5 从SaaS应用程序摄取数据
4.5.1 没有标准的API设计方法
4.5.2 没有标准的方法来处理全数据导出和增量数据导出
4.5.3 结果数据通常是高度嵌套的JSON
4.6 将数据摄取到云中需要考虑的网络和安全问题
4.7 练习答案
第5章 组织和处理数据
5.1 在数据平台中作为单独的层进行处理
5.2 数据处理阶段
5.3 组织你的云存储
5.4 通用数据处理步骤
5.4.1 文件格式转换
5.4.2 重复数据清除
5.4.3 数据质量检查
5.5 可配置的管道
5.6 练习答案
第6章 实时数据处理和分析
6.1 实时摄取与实时处理
6.2 实时数据处理用例
6.2.1 零售用例:实时摄取
6.2.2 线上游戏用例:实时摄取和实时处理
6.2.3 实时摄取与实时处理的总结
6.3 什么时候应该使用实时摄取或实时处理
6.4 为实时使用组织数据
6.4.1 对快存储的解剖
6.4.2 快存储是如何扩展的
6.4.3 在实时存储中组织数据
6.5 通用的实时数据转换
6.5.1 实时系统中数据重复的原因
6.5.2 实时系统中的数据重复清除
6.5.3 在实时管道中转换消息格式
6.5.4 实时数据质量检查
6.5.5 将批量数据与实时数据相结合
6.6 用于实时数据处理的云服务
6.6.1 AWS实时处理服务
6.6.2 GoogleCloud实时处理服务
6.6.3 Azure实时处理服务
6.7 练习答案
第7章 元数据层架构
7.1 元数据是什么
7.1.1 业务元数据
7.1.2 数据平台内部元数据或管道元数据
7.2 利用管道元数据
7.3 元数据模型
7.4 元数据层实现选项
7.4.1 元数据层作为配置文件的集合
7.4.2 元数据数据库
7.4.3 元数据API
7.5 现有的解决方案概述
7.5.1 云元数据服务
7.5.2 开源元数据层实现
7.6 练习答案
第8章 模式管理
8.1 为什么要进行模式管理
8.1.1 传统数据仓库架构中的模式变化
8.1.2 读时模式方法
8.2 模式管理方法
8.2.1 模式即契约
8.2.2 数据平台中的模式管理
8.2.3 监控模式变化
8.3 模式注册表实现
8.3.1 ApacheAvro模式
8.3.2 现有的模式注册表实现
8.3.3 模式注册表作为元数据层的一部分
8.4 模式演化场景
8.4.1 模式兼容性规则
8.4.2 模式演化和数据转换管道
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证