搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
流式数据网格
0.00     定价 ¥ 78.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787519899745
  • 作      者:
    作者:(美)休伯特·杜莱//斯蒂芬·穆尼|责编:刘炽|译者:张敬会//秦正一//阳沁珂
  • 出 版 社 :
    中国电力出版社
  • 出版日期:
    2025-06-01
收藏
内容介绍
数据湖和数据仓库随着数据量的增长和数据流动的加快,变得越来越脆弱、成本高昂且难以维护。数据网格可以帮助你的组织去中心化数据,将数据所有权归还给生产数据的工程师。本书提供了一个关于流式和实时数据服务的数据网格模式的简洁而全面的概述。 本书作者探讨了流式和批处理数据网格之间的巨大差异。数据工程师、架构师、数据产品所有者,以及DevOps和MLOps角色的人员将学习实施流式数据网格的步骤,从定义数据域到构建良好的数据产品。在本书的学习过程中,你将创建一个完整的自助式数据平台,并设计出一个数据治理系统,使你的数据网格能够无缝运行。 通过这本书,你将学习以下知识: 使用Kafka设计一个流式数据网格。 学习如何识别数据域。 使用自助工具构建你的第一个数据产品。 将数据治理应用于你创建的数据产品中。 了解同步和异步数据服务之间的差异。 实现支持去中心化数据的自助服务。
展开
目录
前言
第1章 数据网格简介
1.1 数据划分
1.2 数据网格的支柱
1.2.1 数据所有权
1.2.2 数据即产品
1.2.3 联合计算数据治理
1.2.4 自助服务数据平台
1.2.5 数据网格图解
1.3 其他类似的架构模式
1.3.1 数据编织
1.3.2 数据网关和数据服务
1.3.3 数据民主化
1.3.4 数据虚拟化
1.4 聚焦实现
1.4.1 Apache Kafka
1.4.2 AsyncAPI
第2章 流式数据网格介绍
2.1 流处理的优势
2.1.1 流式处理支持实时用例
2.1.2 流处理带来的数据优化优势
2.1.3 反向ETL
2.2 Kappa架构
2.2.1 Lambda架构简介
2.2.2 Kappa架构简介
2.3 总结
第3章 领域所有权
3.1 识别领域
3.1.1 可识别领域
3.1.2 地理区域
3.1.3 混合架构
3.1.4 多云环境
3.2 避免模糊领域边界
3.3 领域驱动设计
3.3.1 领域模型
3.3.2 领域逻辑
3.3.3 限界上下文
3.3.4 通用语言
3.4 数据网格领域角色
3.4.1 数据产品工程师
3.4.2 数据产品负责人或数据管理者
3.5 值得考虑的流式数据网格工具和平台
3.6 领域内成本分摊
3.7 总结
第4章 流式数据产品
4.1 明确数据产品需求
4.2 识别数据产品衍生品
4.3 用Kafka Connect摄取数据产品衍生品
4.3.1 可消费性
4.3.2 同步数据源
4.3.3 异步数据源与变更数据捕获
4.3.4 Debezium连接器
4.4 将数据衍生品转化为数据产品
4.4.1 数据标准化
4.4.2 保护敏感信息
4.4.3 SQL
4.4.4 提取、转换和加载
4.5 使用AsyncAPI发布数据产品
4.5.1 注册流式数据产品
4.5.2 构建异步API YAML文档
4.5.3 分配数据标签
4.5.4 版本控制
4.5.5 监控
4.6 总结
第5章 联邦式计算数据治理
5.1 在流式数据网格中的数据治理
5.1.1 数据血缘图
5.1.2 使用流数据目录来组织数据产品
5.2 元数据(Metadata)
5.2.1 模式(schemas)
5.2.2 数据血缘(Lineage)
5.2.3 安全性
5.2.4 可扩展性
5.3 从AsyncAPI生成数据产品页面
5.3.1 Apicurio注册表
5.3.2 访问工作流
5.4 集中式与去中心化
5.4.1 集中式工程师
5.4.2 去中心化工程师
5.5 总结
第6章 自助式数据基础设施
6.1 流式数据网格CLI
6.2 与资源相关的命令
6.2.1 与集群相关的命令
6.2.2 与主题相关的命令
6.2.3 domain命令
6.2.4 connect命令
6.2.5 streaming命令
6.2.6 发布流数据产品
6.3 与数据治理相关的服务
6.3.1 安全服务
6.3.2 标准服务
6.3.3 血缘服务
6.4 SaaS服务和API
6.5 总结
第7章 构建流式数据网格
7.1 基础设施
7.2 两种架构解决方案
7.2.1 专用基础设施
7.2.2 多租户基础设施
7.3 流式数据网格中心架构
7.3.1 领域代理(又称边车)
7.3.2 数据平面
7.3.3 控制平面
7.4 总结
第8章 构建一个去中心化的数据团队
8.1 传统的数据仓库结构
8.2 介绍去中心化团队结构
8.2.1 赋权人员
8.2.2 工作流程
8.2.3 促进协作
8.2.4 数据驱动自动化
8.3 数据领域的新角色
8.3.1 数据平面中的新角色
8.3.2 数据科学和商业智能中的新角色
第9章 特征存储
9.1 将数据工程与数据科学分离
9.2 在线和离线数据存储
9.3 Apache Feast简介
9.4 总结
第10章 流式数据网格的实践
10.1 流式数据网格示例
10.2 部署本地流式数据网格
10.2.1 安装连接器
10.2.2 部署clickstream数据连接器并自动创建表
10.2.3 部署Debezium Postgres CDC连接器
10.2.4 流数据的丰富化
10.2.5 发布数据产品
10.3 消费流式数据产品
10.4 全托管的SaaS服务
10.5 总结和注意事项
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证