搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
数据星河(构建现代化数据仓库之路)
0.00     定价 ¥ 59.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302686668
  • 作      者:
    编者:程志远//左岩//翟文麟|责编:赵佳霓
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2025.05
收藏
编辑推荐
  《数据星河:构建现代化数据仓库之路》以数据仓库建设为脉络,系统地介绍了数据仓库的构建、管理与应用等知识,涵盖了从基础理论到实际应用的全过程。内容翔实,结构清晰,不仅为数据仓库领域的新手提供了易于理解和操作的入门指南,也有利于有经验的开发者进一步地巩固知识,是一本不可多得的入门学习书。
  ——陈志远 中国太平洋保险集团数智研究院数据架构专家
  《数据星河:构建现代化数据仓库之路》是全面覆盖数据仓库构建与管理的实用宝典,专为不同层次的数据仓库从业者与学习者量身定制。作者凭借其深厚的行业经验,巧妙地融合了理论与实践,带领读者从数据仓库的基础概念出发,逐步深入到具体的技术细节与实战应用。《数据星河:构建现代化数据仓库之路》对数据安全、数据质量格外重视,体现了作者对现代数据仓库建设中核心问题的敏锐洞察,而数据资产与服务的章节则为企业如何最大化数据价值提供了操作性极强的指导。数据仓库评价篇的设置,更是为读者提供了自我检查与优化数据仓库项目的方法论。
  ——杨兵 网易大数据产品负责人
  《数据星河:构建现代化数据仓库之路》不仅系统地介绍了数据仓库的构建理念和实践方法,还通过丰富的案例和代码示例,帮助读者深入理解和掌握数据仓库的建设与管理,还有与AIGC结合的对未来发展的探讨。无论是新手还是资深专家都能从中获得宝贵的知识和启发,是一本掌握数据仓库建设技能的难得佳作,。
  ——伍翀 Apache Flink PMC Member & Committer
  随着数据的积累和增长,如何高效、规范地管理数据资产、发挥数据指导决策的关键作用,是当前数据生产者和使用者都需要关注的核心问题。《数据星河:构建现代化数据仓库之路》由浅入深,由理论到实践,详细地阐述了数据仓库的理论基础和实践路线,回答了数据资产管理、建设、质量等实用性的问题,并结合作者实际的工作场景给出了自己在数据领域的思考和沉淀,希望能带给读者更多的启发。
  ——汪伟 蚂蚁集团数据研发专家
  《数据星河:构建现代化数据仓库之路》不仅全面地讲解了数据仓库的搭建思路和具体实施技巧,更通过翔实的实例和代码演示,帮助读者深刻把握数据仓库的构筑与维护工作,同时对数据仓库与AIGC技术融合的前景进行了探索分析。既有适合初学者的基础知识解读,亦有供资深行家深挖的专业讨论,对追求精进数据仓库技术的读者而言,《数据星河:构建现代化数据仓库之路》颇具价值,实乃佳作。
  ——田超 Apache SeaTunnel PMC Member & Committer
  《数据星河:构建现代化数据仓库之路》是一部全面探讨数据仓库建设与管理的优秀著作,结合丰富的实战经验,深入浅出地为读者展示了数据仓库建设领域的全貌。《数据星河:构建现代化数据仓库之路》既适合初学者入门学习,也可为资深从业者提供深刻的见解与指导,值得一提的是《数据星河:构建现代化数据仓库之路》通过数据仓库与AIGC技术结合的探讨,不仅展示了当前技术的应用场景,还对未来的发展进行了前瞻性分析。这部分内容无疑为从事数据仓库工作的专业人士提供了新的思路与启发,是追求技术精进的读者不可错过的佳作。
  ——王宏磊 语兴数据全域运营官
展开
作者简介

程志远,前阿里巴巴数据技术及产品部下数据研发工程师,现某大型互联网公司数据仓库工程师,数据仓库全局版图规划者,全链路数据保障提出者及建设者,主导过2021阿里巴巴某业务线双十一实时链路建设,能够对多场景业务线提供解决架构方案。

左岩,中国电信股份有限公司技术专家,有着多年的数据领域从业经验,擅长实时数据、数据治理、数据分析等方面的设计与实施。Apache Flink、Apache Doris、Flink CDC 、StarRocks、Fluss等开源项目Contributor,对于流式计算、实时数仓等技术有深入的研究。

翟文麟,曾担任美团点评、京东等互联网大厂资深数据研发工程师。负责部门数据架构制定与规划,参与集团数据治理与数据应用的规划和制定。从业务角度出发,将数据转化为资产,最终实现技术价值。


展开
内容介绍

本书以数据仓库建设内容为主线,以理论基础为核心,引导读者渐进式地学习数据仓库建设版图中所需知识。通过认识数据基建、数据质量、数据安全、实时技术、数据治理、数据资产、数据服务、数据应用等8个模块及常见遇到项目,使读者能够了解日常数据仓库开发流程及数据仓库工作具体内容,从而快速上手数据仓库建设工作。

本书共14章,分为基础篇、基建篇、应用篇、评价篇、展望篇。基础篇(第1章和第2章)介绍数据仓库框架和数据模型建设知识点;基建篇(第3~8章)详细讲述数据仓库中每个板块建设,由简入深剖析搭建背景及搭建中细节;应用篇(第9~11章)通过实战讲解,快速上手数据仓库常见项目;评价篇(第12章和第13章)结合数据仓库基建和项目,阐述完整数据仓库需要具备的条件,并补充评价体系指标;展望篇(第14章)结合当前AIGC应用衍生出数据仓库未来发展探索;本书示例代码丰富,实际性和系统性较强,并配有视频讲解,助力读者透彻理解书中的重点、难点。

本书适合初学者入门,也适合工作多年数据仓库开发者借鉴学习,亦可作为高等院校和培训机构相关专业的教学参考书。


展开
精彩书摘
  基础篇
  第1章 认识数据仓库
  1.1 大数据在如今社会中的运用
  如今的社会,早已经被大数据所充斥。在大数据起步那段时间,也称得上是大数据的启蒙时代,当时大家并不懂得什么是大数据,也不知道大数据到底能干什么,但大数据经过多年的发展,现在已经融人人们的日常生活了。大数据在当前社会中的运用主要有以下几点。
  1.网络购物
  用户在平时购物时,经常会发现搜索过的东西,后续会源源不断地被推荐给用户(不管是推荐页,还是消息推送),并且会将同品类的商品推荐给用户。例如,搜索了一台索尼PS5游戏机,那么电商会推荐游戏光盘,以及同类型的Switch和Xbox游戏机。这就是一个非常典型的电商推荐场景,不管是对于商户还是用户都是一个双赢的局面。
  2.视频网站
  最典型的案例,如抖音、快手、Bilibili,相信在读的读者基本使用过此类网站及应用。网站及应用会通过大数据根据用户历史搜索和观看内容推测出用户喜欢哪一类的视频,并且不断地精准推送(当然其中也包含一部分心理学的东西,如蔡格尼克记忆效应等)。
  3.金融行业
  金融行业是非常重要的一个分支,例如用户信用卡的使用,以及贷款的风控等。举个实际的例子,用户申请信用卡会给用户多少额度,利率多少,这些都是根据大数据的风控模型计算出来的。又例如防止信用卡盗刷,用户要在一段时间里判断出这一笔消费是否为盗刷,并且进行阻断,这也是大数据风控的功劳。
  4.客运物流
  这个场景不难理解,举个最典型的例子,京东物流和顺丰速运。买家在京东购买自营商品,能够在第2天送达,甚至上午下单下午送达。这背后不仅包含了快递员辛苦的汗水,更是复杂的大数据模型和大量的底层数据所支撑起来的成果。
  5.卫生医疗
  一款药物/医疗器械,从研发到上市,要进过非常多的实验和测试,同时需要保证这些实验和测试精准。为了更好更快地进行药物研发,就需要依靠大数据的支撑。同时医院等公共场所也在通过数据支撑对人流等数据进行分析以实现高效管理。
  6.广告业务
  当前网络流量庞大,但每家公司都想做到精准营销并找到属于自己流量池,最终转换为有效用户,这背后也需要用户标签及画像数据作为支撑。
  7.人工智能
  最近AI领域热度非常高,主要集中在大模型领域,主要有OpenAI的ChatGPT和百度研发的文心一言等,其使用了Transformer神经网络架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使交互式AI也具备专业性,这背后也是海量数据的投入。
  8.未来业务发展
  随着互联网数据仓库建设已经足够完善,从2023年开始陆续有其他传统行业或者未进行数字化转型的部门都将开始数字化建设,相对于其他业务,其中人力资源业务财务业务目前缺口较大,业务复杂,缺少对此业务深刻理解的数据分析及数据仓库人员。
  1.2 大数据相关岗位介绍
  1.2.1 数据仓库岗位介绍
  这个岗位也是本书介绍的重点,可能很多人不清楚数据仓库具体是做什么内容的,为了方便理解,读者可将数据仓库理解为大型餐厅中的仓库及配菜。
  ……
展开
目录
基础篇
第1章 认识数据仓库 003
1.1 大数据在如今社会中的运用 003
1.2 大数据相关岗位介绍 004
1.2.1 数据仓库岗位介绍 004
1.2.2 数据平台岗位介绍 005
1.2.3 数据分析岗位介绍 005
1.2.4 数据产品岗位介绍 005
1.2.5 数据挖掘岗位介绍 006
1.3 大数据在企业中的组织架构 006
1.3.1 数据中台 006
1.3.2 业务线数据 006
1.4 数据仓库岗在大数据生态中的定位 006
1.4.1 数据仓库概念 006
1.4.2 数据仓库定位 007
1.5 数据仓库发展史 007
1.5.1 数仓1.0传统数据仓库时代 007
1.5.2 数仓2.0Hadoop生态时代 007
1.5.3 数仓3.0云端及数据平台时代 008
1.5.4 数仓4.0湖仓一体时代 008
1.6 数据仓库建设内容简介 009
1.6.1 数据仓库建设版图 010
1.6.2 数据基建简介 010
1.6.3 数据资产简介 011
1.6.4 数据服务简介 011
1.6.5 数据应用简介 011
1.7 数据仓库架构介绍 012
1.7.1 Lambda架构 012
1.7.2 HSAP架构 012
1.7.3 流批一体架构 013
1.7.4 Doris架构 013
1.8 数据仓库所使用的技术栈 015
第2章 数据仓库模型建设 017
2.1 OLTP与OLAP 017
2.1.1 什么是OLTP 017
2.1.2 什么是OLAP 017
2.1.3 OLTP与OLAP的区别 019
2.2 数据仓库分层 019
2.2.1 数据仓库分层原理 019
2.2.2 数据仓库分层内容 020
2.3 数据仓库模型介绍 021
2.4 数据仓库模型建设方法 021
2.4.1 三范式建模与维度建模介绍 021
2.4.2 三范式建模与维度建模区别 022
2.5 数据模型建设的具体流程 023
2.5.1 数据模型设计的基本原则 023
2.5.2 数据模型设计过程 023
2.5.3 数据模型建设五要素 023
2.6 数据域与主题域 025
2.7 事实表设计 026
2.7.1 事实表类型 026
2.7.2 三类事实表区别 026
2.7.3 全量和增量 027
2.7.4 拉链表 027
2.7.5 完整的数据模型内容案例 028
2.8 数据标准介绍 029
2.8.1 数据模型命名规范 029
2.8.2 数据模型命名词根 030
2.8.3 字段命名规范 031
2.8.4 字段类型规范 031
2.8.5 数据模型元数据规范 031
2.8.6 数据模型分区生命周期 032
2.9 数据模型发展周期 032
2.10 数据模型分层新式方法 033

基建篇
第3章 元数据 037
3.1 元数据定义及分类 037
3.1.1 元数据定义 037
3.1.2 元数据分类 037
3.2 元数据模型 038
3.2.1 确定元数据对象 039
3.2.2 确定元数据属性 039
3.2.3 确定元数据关系 040
3.2.4 创建元数据模型 041
3.3 元数据管理 043
3.3.1 元数据采集与收集 043
3.3.2 元数据存储 045
3.3.3 元数据维护 049
3.3.4 元数据使用 050
3.4 元数据管理工具 051
3.5 数据血缘 053
3.5.1 数据血缘功能 053
3.5.2 数据血缘类型 053
第4章 数据指标体系 056
4.1 数据指标概念 056
4.2 数据指标分类 057
4.2.1 按用途分类 057
4.2.2 按计算方法分类 058
4.2.3 按时间范围分类 059
4.3 数据指标设计 063
4.3.1 明确目标 063
4.3.2 选择方法 063
4.3.3 确保一致性 064
4.3.4 词根分类 065
4.4 数据指标的应用场景 065
4.4.1 数据明细报表 066
4.4.2 数据可视化图 066
4.4.3 数据挖掘 066
4.4.4 指标监控 067
4.5 数据指标中心建设 067
4.5.1 数据指标中心建设的目的 068
4.5.2 数据指标中心解决的痛点问题 068
4.5.3 数据指标中心建设流程 068
第5章 数据质量 070
5.1 数据质量背景 070
5.1.1 数据质量概念 070
5.1.2 数据质量存在的痛点问题 070
5.2 数据质量保障措施 071
5.2.1 制定数据模型及指标的上线变更规范 071
5.2.2 数据质量监控 072
5.2.3 数据基线及SLA 074
5.2.4 容灾备份快速恢复能力 075
5.2.5 数据问题上报平台 075
5.2.6 源头数据质量长期监测跟踪体系 076
5.3 推动上下游开展数据质量建设活动 077
5.3.1 数据仓库发展期 077
5.3.2 数据仓库成熟期 077
5.4 数据质量思考 078
第6章 数据安全 079
6.1 数据安全背景 079
6.2 数据安全实施难点 079
6.2.1 数据安全要做什么 079
6.2.2 数据安全现状梳理 080
6.2.3 数据安全保障方向 080
6.3 数据安全保障流程 080
6.3.1 角色权限管理 080
6.3.2 数据使用权限管理 082
6.3.3 数据模型分级 083
6.3.4 数据展示 084
6.3.5 数据风险预期管理 085
6.3.6 数据脱敏 086
6.4 数据安全实施阶段 087
6.4. 1早期数据安全实施 087
6.4.2 成熟期数据安全实施 088
6.5 数据安全思考 088
第7章 数据治理 090
7.1 数据治理背景 090
7.1.1 合规治理 090
7.1.2 资源治理 091
7.2 数据仓库发展阶段 091
7.3 数据治理内容 092
7.3.1 数据模型合规治理 092
7.3.2 数据质量合规治理 094
7.3.3 数据安全合规治理 096
7.3.4 存储资源治理 097
7.3.5 计算资源治理 099
7.3.6 小文件治理 102
7.4 推动上下游开展数据治理活动方法 105
7.5 数据治理思考与沉淀 105
第8章 实时技术 106
8.1 实时数据仓库搭建背景 106
8.2 实时架构及组件 107
8.2.1 实时数据仓库架构 107
8.2.2 实时数据仓库组件 109
8.3 实时开发流程 109
8.4 实时链路优化 117
8.5 实时技术产出量化 119.

应用篇
第9章 数据资产 123
9.1 数据资产介绍 123
9.2 风险名单数据资产(消费金融业务) 123
9.2.1 项目背景 123
9.2.2 项目流程介绍 123
9.2.3 项目流程 124
9.2.4 项目难点 126
9.2.5 项目思考 126
9.3 各场景下用户画像体系建设 127
9.3.1 用户画像介绍 127
9.3.2 项目背景 127
9.3.3 项目流程介绍 128
9.3.4 项目流程 128
9.3.5 项目难点 141
9.3.6 项目思考 141
第10章 数据服务 143
10.1 数据服务介绍 143
10.1.1 数据服务概念 143
10.1.2 当前数据应用时存在的痛点问题 143
10.2 数据服务建设内容 144
10.2.1 指标中心 144
10.2.2 标签画像管理平台 146
10.2.3 数据资产门户 147
10.2.4 数据质量中心 149
10.2.5 数据安全中心 150
10.2.6 数据模型设计中心 150
10.2.7 One-ID 152
10.2.8 数据治理360 152
10.3 数据服务建设周期 154
10.3.1 探索期 154
10.3.2 扩张期 154
第11章 数据应用 155
11.1 数据应用介绍 155
11.2 神策明星榜数据(视频行业业务) 155
11.2.1 项目背景 155
11.2.2 项目流程介绍 155
11.2.3 项目流程 156
11.2.4 项目难点 177
11.2.5 项目思考 177
11.3 员工离职动因专项分析(人力资源业务) 177
11.3.1 项目背景 177
11.3.2 业务视角分析 178
11.3.3 项目流程 179
11.3.4 项目思考 182
11.4 征信系统专题分析 182
11.4.1 项目背景 182
11.4.2 项目流程 182
11.4.3 项目产出 182
11.4.4 项目思考 192

评价篇
第12章 评价数据仓库的好坏 195
12.1 数据质量层面评估 195
12.1.1 数据质量问题产生的原因 195
12.1.2 数据质量评估方法 195
12.2 数据模型层面评估 197
12.2.1 数据模型问题产生的原因 197
12.2.2 数据模型评估方法 197
12.3 数据安全层面评估 198
12.3.1 数据安全问题产生的原因 198
12.3.2 数据安全评估方法 198
12.4 数据成本及性能层面评估 199
12.4.1 数据成本过高及性能过低的原因 199
12.4.2 数据成本及性能层面评估方法 199
第13章 数据价值 201
13.1 抽象的数据能力架构 201
13.1.1 数据传输能力 201
13.1.2 数据计算能力 202
13.1.3 数据资产能力 202
13.1.4 数据算法能力 203
13.2 数据能力对数据价值的呈现 204
13.3 数据价值对业务的帮助 205
13.3.1 用户增长/经营性分析 205
13.3.2 数据质量/产出稳定 206
13.3.3 查数/用数提效 206
13.3.4 降低部门支出 206

展望篇
第14章 AIGC对数据发展的影响 209
14.1 数据与AI的关系 209
14.2 网易ChatBI介绍 209
14.3 网易ChatBI功能 210
14.3.1 需求理解能力 210
14.3.2 提供用户所需内容的预测能力 210
14.3.3 多轮对话能力 211
14.3.4 图表绘制能力 211
14.3.5 多端互通能力 211
14.3.6 过程可验证能力 212
14.3.7 用户可干预能力 212
14.4 数据产品未来规划 214
14.4.1 网易ChatBI产品未来规划 214
14.4.2 其他数据产品未来规划 214
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证