信阅平台

编辑推荐

1.系统讲解先进的数据消冗去重技术，开拓眼界，提升科技认知。
2.由存储系统数据消冗领域研究与应用落地国内的先进团队之一编写，内容丰富实用，知识点系统可靠。
3.介绍世界前沿的研究和技术成果：众多全球top级大厂采用，多项技术被全球多个开源大项目采纳。
4.剖析大规模存储系统的数据消冗技术面临的核心科学问题与挑战，给出解决方案。

展开

作者简介

夏文
哈尔滨工业大学（深圳）副教授、博士生导师，研究方向为存储系统、数据消冗等，在FAST、USENIX ATC、IEEE TC 等会议和期刊发表论文70余篇，30 项专利获授权。主持国家级、省市级科研项目十余项；曾获教育部自然科学奖一等奖等奖项；研究成果被Ceph、Zstd 等多个开源项目采纳。

冯丹
华中科技大学计算机科学与技术学院教授、博士生导师、院长，信息存储系统教育部重点实验室主任，数据存储系统与技术教育部工程研究中心主任，国家杰出青年科学基金获得者。主要从事计算机体系结构、大数据存储系统等方面的研究。研究成果获多项国际、国家级和省部级奖项。

华宇
华中科技大学教授，研究方向为高性能存储系统与体系结构等。部分研究成果发表在OSDI、ASPLOS、MICRO、FAST、HPCA 等国际会议上。担任ACM APSys 2019、ICDCS 2021等国际会议程序共同主席、副主席。研究成果获教育部自然科学奖一等奖、湖北省科技进步奖一等奖等。

邹翔宇
哈尔滨工业大学（深圳）博士研究生，研究领域包括数据消冗、有损压缩等。在FAST、USENIX ATC、TPDS、TOS 等会议和期刊上发表论文十余篇。论文曾入选“阿里云- 中国计算机学会存储专委会优秀论文”，两次获哈尔滨工业大学计算学部学生优秀论文奖，获博士研究生国家奖学金。

展开

内容介绍

近年来，云计算、物联网、区块链和边缘计算等多种新型应用产生了海量的、有价值的数据，而且呈现出持续增长的趋势。如何有效地存储和管理如此庞大数据是现代工业界和学术界共同关注的重点和难点问题。本书系统地介绍了数据消冗技术，该技术能够通过有效地检测和排除数据中的冗余部分，达到减轻存储系统的负担和降低成本的目标，从而应对海量数据增长带来的挑战。本书结合作者近十余年在与存储系统领域相关的国际学术会议和期刊上发表的前沿成果，一方面对单个数据消冗技术问题进行深入的理论剖析，另一方面针对多种常见应用场景的数据消冗需求提供丰富的系统级解决方案和技术思路。

展开

第 1 章绪论 1
1．1 数据增长与数据消冗 1
1．2 大规模存储系统冗余负载分析 2
1．3 数据消冗技术的应用与挑战 4
1．4 本章小结 6
参考文献 6
第 2 章从传统压缩到大规模数据消冗 10
2．1 传统压缩技术 10
2．2 数据去重技术 13
2．3 差量压缩技术 16
2．4 本章小结 19
参考文献 19
第3 章数据消冗前沿技术概述 23
3．1 数据分块 23
3．2 计算加速 28
3．3 指纹索引 29
3．4 数据恢复 32
3．5 垃圾回收 33
3．6 安全性 36
3．7 可靠性 38
3．8 差量压缩 39
3．9 开源社区实践 41
3．10 本章小结 43
参考文献 43
第4 章极速基于内容分块算法 53
4．1 技术背景 53
4．1．1 FSC 算法 54
4．1．2 CDC 算法 55
4．2 典型的CDC 算法 56
4．2．1 基于拉宾指纹的CDC 算法 56
4．2．2 非对称极值CDC 算法 57
4．3 FastCDC 算法的技术框架 59
4．3．1 基于齿轮哈希的CDC 算法 59
4．3．2 分块判断优化 61
4．3．3 收敛分块策略 62
4．3．4 循环展开优化 65
4．4 性能分析 66
4．4．1 实验设置 66
4．4．2 分块判断优化评估 67
4．4．3 收敛分块策略评估 69
4．4．4 综合评估 70
4．5 本章小结 73
参考文献 73
第5 章流水线化和并行化数据去重技术 75
5．1 数据去重技术面临的计算挑战 75
5．1．1 数据去重技术的计算瓶颈与研究背景 75
5．1．2 数据去重流程的独立性与依赖性 78
5．2 流水线化和并行化数据去重技术的设计与实现 79
5．2．1 设计原理 80
5．2．2 主要功能模块 81
5．2．3 数据去重子任务的流水线化 82
5．2．4 指纹计算的并行化 83
5．2．5 分块的并行化 84
5．2．6 并行化过程中的同步和异步问题 87
5．3 性能分析 88
5．3．1 实验设置 88
5．3．2 关键参数测试 89
5．3．3 整体性能测试 93
5．3．4 其他CDC 算法的适配性测试 94
5．4 本章小结 95
参考文献 96
第6 章高效的数据去重指纹索引技术 99
6．1 数据去重指纹索引的规模与挑战 99
6．2 基于局部性的数据去重指纹索引策略相关研究 100
6．2．1 备份数据流的局部性 100
6．2．2 典型相关系统介绍 100
6．3 基于相似性的数据去重指纹索引策略相关研究 103
6．3．1 备份数据流的相似性 103
6．3．2 典型相关系统介绍 104
6．4 基于局部性和相似性的数据去重指纹索引策略设计与实现 106
6．4．1 小文件与大文件的去重策略问题 106
6．4．2 局部性与相似性的互补设计 108
6．4．3 基于互补设计的指纹索引技术原理与理论剖析 109
6．4．4 基于互补设计的指纹索引技术设计与实现 110
6．5 性能分析 117
6．5．1 测试环境 117
6．5．2 相似性与局部性测试分析 118
6．5．3 与其他数据去重指纹索引算法性能比较 121
6．6 本章小结 125
参考文献 125
第7 章面向相似去重的快速差量压缩技术 128
7．1 相似数据差量压缩的技术背景 128
7．2 快速差量压缩技术的设计原理 130
7．3 受数据去重启发的快速差量压缩技术 131
7．3．1 主要设计思路与模块介绍 131
7．3．2 Gear-CDC 算法 134
7．3．3 基于重复数据相邻区域的贪心检测算法 135
7．3．4 差量编码与解码操作 135
7．3．5 差量编码的总体流程 136
7．4 性能分析 137
7．4．1 测试环境 137
7．4．2 Gear-CDC 算法性能测试 138
7．4．3 应用案例一测试：数据去重后的相似数据差量压缩 142
7．4．4 应用案例二测试：文件更新后的差量压缩 146
7．5 本章小结 147
参考文献 148
第8 章基于数据去重感知的相似数据检测和差量压缩技术 150
8．1 相似数据消冗技术概述 150
8．1．1 相似数据消冗技术的原理与发展趋势 150
8．1．2 基于超级特征值的相似数据检测技术分析 152
8．1．3 基于数据去重感知的相似数据检测技术的提出 153
8．2 基于数据去重感知的相似数据检测和差量压缩技术的设计与实现 154
8．2．1 设计原理与结构 154
8．2．2 基于数据去重感知的相似数据检测 156
8．2．3 基于超级特征值的相似数据检测 157
8．2．4 差量压缩与存储管理 158
8．2．5 整体流程 159
8．3 性能分析 160
8．3．1 测试环境 160
8．3．2 基于超级特征值的相似数据检测的验证学习 161
8．3．3 基于数据去重感知的相似数据检测和差量压缩性能 165
8．3．4 可扩展性测试 167
8．3．5 恢复性能测试 169
8．4 本章小结 170
参考文献 171
第9 章受数据去重启发的轻量级差量同步技术 174
9．1 差量同步与数据去重技术 174
9．1．1 差量同步与数据去重技术简介 174
9．1．2 本章的主要内容 183
9．2 基于内容分块的差量同步算法 184
9．2．1 CDC 算法回顾与选择 184
9．2．2 用CDC 算法代替FSC 算法 189
9．2．3 CDC 算法中的弱指纹复用策略 190
9．2．4 改进CDC 算法后的差量同步算法简述 195
9．3 面向差量同步的协议优化 196
9．3．1 强弱指纹比较过程分离 196
9．3．2 合并连续相同数据块 198
9．3．3 关于元数据规模 200
9．3．4 最终版本 203
9．4 性能分析 204
9．4．1 测试环境 205
9．4．2 整体性能测试 206
9．4．3 三种代表性差量同步技术对比 208
9．4．4 高带宽大文件场景下的性能对比 212
9．5 本章小结 212
参考文献 213
第 10 章面向人工智能模型的差量压缩技术 217
10．1 人工智能模型压缩技术现状 217
10．1．1 基于轻量化设计的模型压缩 218
10．1．2 基于剪枝技术的模型压缩 221
10．1．3 基于量化技术的模型压缩 223
10．2 基于局部敏感性的网络浮点参数量化压缩技术 225
10．2．1 网络浮点参数压缩的难点 225
10．2．2 神经网络浮点参数的分布 226
10．2．3 局部敏感量化方案设计 228
10．2．4 量化压缩后模型的版本相似性 230
10．3 利用版本间相似性的神经网络差量压缩方案 233
10．3．1 现有神经网络差量压缩方案的不足与改进思路 233
10．3．2 基于量化的神经网络差量压缩方案 234
10．3．3 基于误差反馈的神经网络量化训练更新算法 235
10．3．4 神经网络的量化及差量压缩方案 237
10．3．5 压缩时间复杂度分析 241
10．4 资源受限场景应用分析 241
10．4．1 场景一：减少人工智能模型快照的存储开销 242
10．4．2 场景二：减少人工智能模型传输的通信开销 242
10．5 性能分析 245
10．5．1 测试环境、数据集与对比方法 245
10．5．2 网络浮点参数量化比特数的选择 245
10．5．3 压缩后网络模型精度测试 247
10．5．4 网络模型压缩性能测试 249
10．6 本章小结 253
参考文献 254
第 11 章面向时序数据库的有损压缩技术 260
11．1 时序数据特性和有损浮点数压缩编码器 260
11．1．1 数据库浮点数压缩现状 260
11．1．2 有损浮点数压缩算法简介 261
11．1．3 时序数据库场景简介 262
11．1．4 有损浮点数压缩算法在时序数据库中的应用 262
11．2 典型的有损浮点数压缩算法 263
11．3 在线化设计与实现 268
11．3．1 特殊值编码器在线化方案 268
11．3．2 哈夫曼编码器在线化方案 270
11．3．3 无损编码器在线化方案 271
11．3．4 自适应算术编码方案 272
11．3．5 对比测试 277
11．4 预测器的改进 280
11．4．1 预测器方案介绍 280
11．4．2 对比测试 282
11．5 数据库中的性能测试 283
11．5．1 测试环境与方案 284
11．5．2 测试结果 285
11．6 本章小结 287
参考文献 287
第 12 章面向非易失性内存场景的数据消冗技术 290
12．1 NVM 文件系统与数据消冗技术 290
12．1．1 NVM 的发展及其结构与特性 291
12．1．2 NVM 文件系统研究现状 292
12．1．3 面向NVM 的数据消冗技术研究现状 295
12．1．4 本章的主要内容 300
12．2 NVM 文件系统在数据消冗方面的性能与一致性挑战 300
12．2．1 面向NVM 的高吞吐率数据消冗技术难点分析 301
12．2．2 面向NVM 的数据消冗一致性技术难点分析 304
12．3 支持数据消冗的NVM 文件系统设计与实现 306
12．3．1 轻量级的数据消冗框架设计 306
12．3．2 高效的冗余检测优化策略 307
12．3．3 NVM 友好的去重元数据管理 309
12．3．4 高性能的NVM 去重索引构建 310
12．3．5 轻量级一致性的设计与恢复 312
12．4 性能分析 316
12．4．1 测试环境 316
12．4．2 整体测试 317
12．4．3 高吞吐率设计的有效性测试 324
12．4．4 一致性设计的有效性测试 327
12．4．5 恢复时间测试 329
12．4．6 交织模式的影响 330
12．5 本章小结 332
参考文献 333
第 13 章面向图像存储的细粒度数据去重技术 336
13．1 图像去重的研究现状 336
13．2 图像去重的特性与挑战 337
13．2．1 图像场景的特性 338
13．2．2 图像去重的挑战 339
13．3 细粒度图像去重框架 341
13．4 基于特征位图的相似性检测器 342
13．4．1 相似性检测器的框架 342
13．4．2 生成二维特征 343
13．4．3 基于特征位图的指纹算法 345
13．4．4 基于特征位图的相似性检测器的优点 348
13．5 与图像编码兼容的差量压缩器 349
13．5．1 差量压缩器的框架 349
13．5．2 差量压缩器的细节 350
13．5．3 针对连续重复块的优化 352
13．5．4 与图像编码兼容的差量压缩器的优点 353
13．6 性能分析 353
13．6．1 系统原型的实现和具体配置 354
13．6．2 测试环境与数据集介绍 354
13．6．3 关键性能测试指标 355
13．6．4 针对相似性检测器的测试 355
13．6．5 针对差量压缩器的测试 360
13．6．6 与粗粒度图像去重技术对比 361
13．7 本章小结 362
参考文献 363
第 14 章总结与展望 365
14．1 面向存储系统的通用数据消冗技术 365
14．2 针对特定场景的专用数据消冗技术 367
附录主要术语表 369

展开