信阅平台

产品特色

编辑推荐

展开

作者简介

Marco Tranquillin是资深顾问，帮机构用云计算实现技术转型。Valliappa Lakshmanan是知名高管，与管理层其他同仁和数据科学团队一起用数据和AI创造价值。Firat Tekiner是创新型产品经理，为全球大型机构开发并交付数据产品和AI系统。

展开

内容介绍

本书的主要内容有：设计现代化和安全的云原生或混合式数据分析和机器学习平台。整合数据到妥善治理、可扩展和有弹性的数据平台，以数据加速创新。实现企业数据访问的民主化，治理业务团队抽取洞察力的方式，并构建AI/ML能力。赋予业务团队用流处理流水线实时决策的能力。构建MLOps平台，采用预测分析和规范性分析方法。

展开

精彩书评

展开

精彩书摘

展开

前言 1

第1 章数据平台现代化概览 . 11

1.1 数据生命周期 .12

1.1.1 智慧之旅 .12

1.1.2 水管类比 .13

1.1.3 采集 14

1.1.4 存储 15

1.1.5 处理和转换 17

1.1.6 分析和可视化 18

1.1.7 激活 19

1.2 传统方法的局限性 20

1.2.1 反模式：用ETL 打破数据孤岛 20

1.2.2 反模式：集中控制 .24

1.2.3 反模式：数据集市和Hadoop 25

1.3 创建统一的分析平台 27

1.3.1 从内部平台改为云平台 27

1.3.2 数据集市和数据湖的缺点 28

1.3.3 融合数据仓库和数据湖 29

1.4 混合云 34

1.4.1 混合的必要性 34

1.4.2 混合云的挑战 35

1.4.3 混合方案为什么可行.37

1.4.4 边缘计算 .38

1.5 采用AI 39

1.5.1 机器学习 .39

1.5.2 采用机器学习 40

1.6 AI 为什么要上云 42

1.6.1 云基础设施 42

1.6.2 普及机器学习 43

1.6.3 实时 45

1.6.4 MLOps .46

1.7 核心原则47

1.8 小结 .49

第2 章数据创新战略步骤 .51

2.1 步骤1：战略规划.52

2.1.1 战略目标 .53

2.1.2 识别干系人 55

2.1.3 变更管理 .55

2.2 步骤2：采用云方法，降低总拥有成本 57

2.2.1 为什么云的成本更低.57

2.2.2 上云能省多少钱 59

2.2.3 上云时机 .59

2.3 步骤3：打破孤岛.60

2.3.1 统一数据访问 61

2.3.2 选择存储 .62

2.3.3 构建语义层 63

2.4 步骤4：在上下文更快决策 .65

2.4.1 从批处理到流处理 .65

2.4.2 上下文信息 66

2.4.3 成本管理 .66

2.5 步骤5：用AI 方案包跨越式发展 67

2.5.1 预测分析 .68

2.5.2 理解和生成非结构化数据 69

2.5.3 个性化 70

2.5.4 解决方案包 70

2.6 步骤6：运营由AI 驱动的工作流 71

2.6.1 找到自动决策和AI 辅助的最佳平衡点 71

2.6.2 营造数据文化 72

2.6.3 充实数据科学团队 .73

2.7 步骤7：将数据作为产品来管理 74

2.7.1 将产品管理原则应用于数据 .74

2.7.2 理解并维护企业的数据流地图 .74

2.7.3 识别关键指标 75

2.7.4 共识标准、承诺的路线图和愿景性待办事项 76

2.7.5 为现有客户构建产品.77

2.7.6 管理变更，勇于担责.78

2.7.7 客户访谈，发现数据需求 78

2.7.8 充分利用白板和原型.79

2.7.9 只构建立即就能投入使用的产品 79

2.7.10 标准化常用实体和KPI .80

2.7.11 数据平台提供自助服务 .80

2.8 小结 .80

第3 章为数据团队而设计 .83

3.1 数据处理机构分类 83

3.2 数据分析驱动型机构 86

3.2.1 愿景 87

3.2.2 角色 88

3.2.3 技术框架 .90

3.3 数据工程驱动型机构 92

3.3.1 愿景 92

3.3.2 角色 94

3.3.3 技术框架 .96

3.4 数据科学驱动型机构 99

3.4.1 愿景 .100

3.4.2 角色 .102

3.4.3 技术框架 103

3.5 小结 104

第4 章迁移框架 . 105

4.1 数据工作流现代化 .105

4.1.1 全局观 105

4.1.2 工作流现代化 .106

4.1.3 工作流自身的改造 108

4.2 四步走迁移框架 .109

4.2.1 准备和发现 . 110

4.2.2 评估和规划 . 110

4.2.3 执行 . 113

4.2.4 优化 . 115

4.3 评估迁移方案的总成本 116

4.3.1 审计现有基础设施 116

4.3.2 索取信息、建议和报价 . 117

4.3.3 概念验证和最小可行产品 118

4.4 建立安全和数据治理机制 . 119

4.4.1 框架 . 119

4.4.2 成果 .121

4.4.3 数据生命周期的治理工作 122

4.5 架构、流水线和数据迁移 .124

4.5.1 架构迁移 124

4.5.2 流水线迁移 .125

4.5.3 数据迁移 127

4.5.4 迁移阶段 132

4.6 小结 134

第5 章构建数据湖 137

5.1 数据湖和云完美结合 137

5.1.1 数据湖本地部署的难点 .137

5.1.2 云数据湖的优点 138

5.2 设计和实现 139

5.2.1 批处理和流处理 139

5.2.2 数据目录 141

5.2.3 Hadoop 生态 143

5.2.4 云数据湖参考架构 144

5.3 集成数据湖：真正的超级力量 149

5.3.1 用API 扩展数据湖 149

5.3.2 数据湖演化：Apache Iceberg、Apache Hudi 和 Delta Lake 149

5.3.3 用笔记本作交互分析151

5.4 数据处理和报表民主化 153

5.4.1 建立对数据的信任 154

5.4.2 数据摄取仍是IT 部门的工作 .156

5.5 数据湖机器学习 .158

5.5.1 用原始数据训练 158

5.5.2 数据湖中作预测 159

5.6 小结 160

第6 章用企业数据仓库创新 163

6.1 现代化数据平台 .163

6.1.1 机构目标 163

6.1.2 技术难点 165

6.1.3 技术趋势和工具 166

6.2 中心辐射架构 168

6.2.1 数据摄取 171

6.2.2 商业智能 176

6.2.3 转换 .179

6.2.4 机构结构 184

6.3 数据仓库赋能数据科学家 .186

6.3.1 查询接口 186

6.3.2 Storage API .187

6.3.3 不移动数据的机器学习 .188

6.4 小结 193

第7 章湖仓一体融合架构 195

7.1 需要唯一架构 195

7.1.1 用户角色 195

7.1.2 反模式：各系统分离196

7.1.3 反模式：数据重复 196

7.2 融合架构.199

7.2.1 两种形式 199

7.2.2 云存储上的湖仓一体200

7.2.3 SQL 优先湖仓一体 205

7.2.4 融合的好处 .210

7.3 小结 212

第8 章流式架构 . 213

8.1 流处理的价值 213

8.1.1 行业应用场景 .213

8.1.2 流处理应用场景 214

8.2 流式摄取.215

8.2.1 流式ETL 216

8.2.2 流式ELT 218

8.2.3 流式插入 219

8.2.4 边缘设备（IoT）流处理 220

8.2.5 流数据存储 .221

8.3 实时看板.222

8.3.1 实时查询 222

8.3.2 物化视图 223

8.4 流式分析.223

8.4.1 时间序列分析 .224

8.4.2 点击流分析 .225

8.4.3 异常检测 227

8.4.4 弹性流处理 .227

8.5 机器学习实现持续智能 228

8.5.1 用流数据训练模型 229

8.5.2 流式机器学习推断 232

8.5.3 自动操作 232

8.6 小结 233

第9 章利用混合和边缘架构扩展数据平台 237

9.1 为什么采用多云 .237

9.1.1 单云更简洁、成本效益更高 237

9.1.2 多云不可避免 .238

9.1.3 多云可以成为一种策略 .239

9.2 多云架构模式 241

9.2.1 统一管理 241

9.2.2 一次编写，到处运行242

9.2.3 从本地平台突击上云243

9.2.4 从本地传递上云 245

9.2.5 流式数据集成 .246

9.3 采用多云策略 248

9.3.1 框架 .248

9.3.2 时间尺度 249

9.3.3 定义多云策略的目标架构 250

9.4 为什么采用边缘计算 252

9.4.1 带宽、时延和不稳定连接 252

9.4.2 应用场景 253

9.4.3 边缘计算的优势 255

9.4.4 挑战 .256

9.5 边缘计算架构模式 .256

9.5.1 智能设备 257

9.5.2 智能网关 257

9.5.3 机器学习激活 .258

9.6 采用边缘计算 260

9.6.1 初始背景 260

9.6.2 项目 .260

9.6.3 最终成果和下一步计划 .263

9.7 小结 264

第10 章 AI 应用架构 . 267

10.1 这是AI 和机器学习问题吗 268

10.1.1 AI 的子领域268

10.1.2 生成式AI 269

10.1.3 适合用机器学习解决的问题 273

10.2 购买、改造或构建 274

10.2.1 对数据的考量 274

10.2.2 何时购买 275

10.2.3 你可以买什么 276

10.2.4 如何改造已有模型 279

10.3 AI 架构 .281

10.3.1 理解非结构化数据 282

10.3.2 生成非结构化数据 284

10.3.3 预测结果 286

10.3.4 预测数值 287

10.3.5 异常检测 289

10.3.6 个性化 .290

10.3.7 自动化 .291

10.4 负责任的AI 293

10.4.1 AI 原则 294

10.4.2 机器学习的公平性 296

10.4.3 可解释性 296

10.5 小结 297

第11 章构建机器学习平台 301

11.1 机器学习活动 301

11.2 开发机器学习模型 303

11.2.1 标注环境 303

11.2.2 开发环境 303

11.2.3 用户环境 304

11.2.4 准备数据 306

11.2.5 训练机器学习模型 307

11.3 部署机器学习模型 309

11.3.1 端点部署 309

11.3.2 评估模型 310

11.3.3 混合和多云 311

11.3.4 训练—服务偏差 . 311

11.4 自动化 316

11.4.1 自动化训练和部署 316

11.4.2 用流水线编排 317

11.4.3 持续评估和训练 .319

11.5 选择机器学习框架 320

11.5.1 团队技能 321

11.5.2 任务考量 322

11.5.3 以用户为中心 322

11.6 小结 323

第12 章数据平台现代化：典型案例 325

12.1 新时代新技术 325

12.1.1 亟待改革 326

12.1.2 不只是技术问题 .327

12.2 旅程伊始 329

12.2.1 当前环境 329

12.2.2 目标环境 331

12.2.3 概念验证的应用场景 333

12.3 云供应商提交的RFP 响应文件 334

12.3.1 目标环境 334

12.3.2 迁移方法 338

12.4 RFP 评估过程 345

12.4.1 概念验证的范围 .345

12.4.2 执行概念验证 346

12.4.3 最终决策 347

12.5 结语 348

12.6 小结 349

展开