搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
Greenplum构建实时数据仓库实践/大数据技术丛书
0.00     定价 ¥ 89.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购24本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302611653
  • 作      者:
    作者:王雪迎|责编:夏毓彦
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2022-08-01
收藏
内容介绍
Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。 本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。
展开
目录
第1章 数据仓库简介
1.1 什么是数据仓库
1.1.1 数据仓库的定义
1.1.2 建立数据仓库的原因
1.2 操作型系统与分析型系统
1.2.1 操作型系统
1.2.2 分析型系统
1.2.3 操作型系统和分析型系统的对比
1.3 抽取-转换-装载
1.3.1 数据抽取
1.3.2 数据转换
1.3.3 数据装载
1.3.4 开发ETL系统的方法
1.4 数据仓库架构
1.4.1 基本架构
1.4.2 主要数据仓库架构
1.4.3 操作型数据存储
1.5 实时数据仓库
1.5.1 流式处理
1.5.2 实时计算
1.5.3 实时数据仓库解决方案
1.6 小结
第2章 数据仓库设计基础
2.1 关系数据模型
2.1.1 关系数据模型中的结构
2.1.2 关系完整性
2.1.3 关系数据库语言
2.1.4 规范化
2.1.5 关系数据模型与数据仓库
2.2 维度数据模型
2.2.1 维度数据模型建模过程
2.2.2 维度规范化
2.2.3 维度数据模型的特点
2.2.4 星型模式
2.2.5 雪花模式
2.3 Data Vault模型
2.3.1 Data Vault模型简介
2.3.2 Data Vault模型的组成部分
2.3.3 Data Vault模型的特点
2.3.4 Data Vault模型的构建
2.3.5 Data Vault模型实例
2.4 数据集市
2.5 数据仓库实施步骤
2.6 小结
第3章 Greenplum与数据仓库
3.1 Greenplum简介
3.1.1 历史与现状
3.1.2 MPP——一切皆并行
3.2 Greenplum系统架构
3.2.1 Greenplum与PostgreSQL
3.2.2 Master
3.2.3 Segment
3.2.4 Interconnect
3.3 Greenplum功能特性
3.3.1 存储模式
3.3.2 事务与并发控制
3.3.3 并行查询
3.3.4 并行数据装载
3.3.5 冗余与故障转移
3.3.6 数据库统计
3.4 为什么选择Greenplum
3.4.1 Greenplum还是SQL-on-Hadoop
3.4.2 适合DBA的解决方案
3.4.3 Greenplum的局限
3.5 小结
第4章 Greenplum安装部署
4.1 平台需求
4.1.1 操作系统
4.1.2 硬件和网络
4.1.3 文件系统
4.2 容量评估
4.2.1 可用磁盘空间
4.2.2 用户数据容量
4.2.3 元数据和日志空间
4.2.4 RAID划分最佳实践
4.3 操作系统配置
4.3.1 安装操作系统
4.3.2 禁用SELinux和防火墙
4.3.3 操作系统推荐配置
4.3.4 时钟同步
4.3.5 创建Greenplum管理员账号
4.3.6 安装JDK(可选)
4.4 安装Greenplum软件
4.4.1 安装软件包
4.4.2 配置免密SSH
4.4.3 确认软件安装
4.5 初始化Greenplum数据库系统
4.5.1 创建数据存储区
4.5.2 验证系统
4.5.3 初始化数据库
4.5.4 设置Greenplum环境变量
4.6 允许客户端连接
4.7 修改Greenplum配置参数
4.8 后续步骤
4.8.1 创建临时表空间
4.8.2 创建数据库用户
4.9 Greenplum升级
4.9.1 升级条件
4.9.2 升级步骤
4.10 小结
第5章 实时数据同步
5.1 数据抽取方式
5.1.1 基于源数据的CDC
5.1.2 基于触发器的CDC
5.1.3 基于快照的CDC
5.1.4 基于日志的CDC
5.2 MySQL数据复制
5.2.1 复制的用途
5.2.2 二进制日志binlog
5.2.3 复制的步骤
5.3 使用Kafka
5.3.1 Kafka基本概念
5.3.2 Kafka消费者与分区
5.4 选择主题分区数
5.4.1 使用单分区
5.4.2 如何选定分区数量
5.5 Maxwell+Kafka+Bireme
5.5.1 总体架构
5.5.2 Maxwell安装配置
5.5.3 Bireme安装配置
5.5.4 如何保证数据的顺序消费
5.5.5 实时CDC
5.6 Canal Server+Kafka+Canal ClientAdapter
5.6.1 总体架构
5.6.2 Canal Server安装配置
5.6.3 Canal ClientAdapter安装配置
5.6.4 配置HA模式
5.6.5 实时CDC
5.6.6 消费延迟监控
5.7 小结
第6章 实时数据装载
6.1 建立数据仓库示例模型
6.1.1 业务场景
6.1.2 建立数据库表
6.1.3 生成日期维度数据
6.2 初始装载
6.2.1 数据源映射
6.2.2 确定SCD处理方法
6.2.3 实现代理键
6.2.4 执行初始装载
6.3 实时装载
6.3.1 识别数据源与装载类型
6.3.2 配置增量数据同步
6.3.3 在Greenplum中创建规则
6.3.4 启动实时装载
6.3.5 测试
6.4 动态分区滚动
6.5 小结
第7章 维度表技术
7.1 增加列
7.2 维度子集
7.3 角色扮演维度
7.4 层次维度
7.4.1 固定深度的层次
7.4.2 多路径的层次
7.4.3 参差不齐的层次
7.5 退化维度
7.6 杂项维度
7.7 维度合并
7.8 分段维度
7.9 小结
第8章 事实表技术
8
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证