数据湖和数据仓库随着数据量的增长和数据流动的加快,变得越来越脆弱、成本高昂且难以维护。数据网格可以帮助你的组织去中心化数据,将数据所有权归还给生产数据的工程师。本书提供了一个关于流式和实时数据服务的数据网格模式的简洁而全面的概述。
本书作者探讨了流式和批处理数据网格之间的巨大差异。数据工程师、架构师、数据产品所有者,以及DevOps和MLOps角色的人员将学习实施流式数据网格的步骤,从定义数据域到构建良好的数据产品。在本书的学习过程中,你将创建一个完整的自助式数据平台,并设计出一个数据治理系统,使你的数据网格能够无缝运行。
通过这本书,你将学习以下知识:
使用Kafka设计一个流式数据网格。
学习如何识别数据域。
使用自助工具构建你的第一个数据产品。
将数据治理应用于你创建的数据产品中。
了解同步和异步数据服务之间的差异。
实现支持去中心化数据的自助服务。
展开