第 1 章绪论 1
1.1 数据增长与数据消冗 1
1.2 大规模存储系统冗余负载分析 2
1.3 数据消冗技术的应用与挑战 4
1.4 本章小结 6
参考文献 6
第 2 章从传统压缩到大规模数据消冗 10
2.1 传统压缩技术 10
2.2 数据去重技术 13
2.3 差量压缩技术 16
2.4 本章小结 19
参考文献 19
第3 章数据消冗前沿技术概述 23
3.1 数据分块 23
3.2 计算加速 28
3.3 指纹索引 29
3.4 数据恢复 32
3.5 垃圾回收 33
3.6 安全性 36
3.7 可靠性 38
3.8 差量压缩 39
3.9 开源社区实践 41
3.10 本章小结 43
参考文献 43
第4 章极速基于内容分块算法 53
4.1 技术背景 53
4.1.1 FSC 算法 54
4.1.2 CDC 算法 55
4.2 典型的CDC 算法 56
4.2.1 基于拉宾指纹的CDC 算法 56
4.2.2 非对称极值CDC 算法 57
4.3 FastCDC 算法的技术框架 59
4.3.1 基于齿轮哈希的CDC 算法 59
4.3.2 分块判断优化 61
4.3.3 收敛分块策略 62
4.3.4 循环展开优化 65
4.4 性能分析 66
4.4.1 实验设置 66
4.4.2 分块判断优化评估 67
4.4.3 收敛分块策略评估 69
4.4.4 综合评估 70
4.5 本章小结 73
参考文献 73
第5 章流水线化和并行化数据去重技术 75
5.1 数据去重技术面临的计算挑战 75
5.1.1 数据去重技术的计算瓶颈与研究背景 75
5.1.2 数据去重流程的独立性与依赖性 78
5.2 流水线化和并行化数据去重技术的设计与实现 79
5.2.1 设计原理 80
5.2.2 主要功能模块 81
5.2.3 数据去重子任务的流水线化 82
5.2.4 指纹计算的并行化 83
5.2.5 分块的并行化 84
5.2.6 并行化过程中的同步和异步问题 87
5.3 性能分析 88
5.3.1 实验设置 88
5.3.2 关键参数测试 89
5.3.3 整体性能测试 93
5.3.4 其他CDC 算法的适配性测试 94
5.4 本章小结 95
参考文献 96
第6 章高效的数据去重指纹索引技术 99
6.1 数据去重指纹索引的规模与挑战 99
6.2 基于局部性的数据去重指纹索引策略相关研究 100
6.2.1 备份数据流的局部性 100
6.2.2 典型相关系统介绍 100
6.3 基于相似性的数据去重指纹索引策略相关研究 103
6.3.1 备份数据流的相似性 103
6.3.2 典型相关系统介绍 104
6.4 基于局部性和相似性的数据去重指纹索引策略设计与实现 106
6.4.1 小文件与大文件的去重策略问题 106
6.4.2 局部性与相似性的互补设计 108
6.4.3 基于互补设计的指纹索引技术原理与理论剖析 109
6.4.4 基于互补设计的指纹索引技术设计与实现 110
6.5 性能分析 117
6.5.1 测试环境 117
6.5.2 相似性与局部性测试分析 118
6.5.3 与其他数据去重指纹索引算法性能比较 121
6.6 本章小结 125
参考文献 125
第7 章面向相似去重的快速差量压缩技术 128
7.1 相似数据差量压缩的技术背景 128
7.2 快速差量压缩技术的设计原理 130
7.3 受数据去重启发的快速差量压缩技术 131
7.3.1 主要设计思路与模块介绍 131
7.3.2 Gear-CDC 算法 134
7.3.3 基于重复数据相邻区域的贪心检测算法 135
7.3.4 差量编码与解码操作 135
7.3.5 差量编码的总体流程 136
7.4 性能分析 137
7.4.1 测试环境 137
7.4.2 Gear-CDC 算法性能测试 138
7.4.3 应用案例一测试:数据去重后的相似数据差量压缩 142
7.4.4 应用案例二测试:文件更新后的差量压缩 146
7.5 本章小结 147
参考文献 148
第8 章基于数据去重感知的相似数据检测和差量压缩技术 150
8.1 相似数据消冗技术概述 150
8.1.1 相似数据消冗技术的原理与发展趋势 150
8.1.2 基于超级特征值的相似数据检测技术分析 152
8.1.3 基于数据去重感知的相似数据检测技术的提出 153
8.2 基于数据去重感知的相似数据检测和差量压缩技术的设计与实现 154
8.2.1 设计原理与结构 154
8.2.2 基于数据去重感知的相似数据检测 156
8.2.3 基于超级特征值的相似数据检测 157
8.2.4 差量压缩与存储管理 158
8.2.5 整体流程 159
8.3 性能分析 160
8.3.1 测试环境 160
8.3.2 基于超级特征值的相似数据检测的验证学习 161
8.3.3 基于数据去重感知的相似数据检测和差量压缩性能 165
8.3.4 可扩展性测试 167
8.3.5 恢复性能测试 169
8.4 本章小结 170
参考文献 171
第9 章受数据去重启发的轻量级差量同步技术 174
9.1 差量同步与数据去重技术 174
9.1.1 差量同步与数据去重技术简介 174
9.1.2 本章的主要内容 183
9.2 基于内容分块的差量同步算法 184
9.2.1 CDC 算法回顾与选择 184
9.2.2 用CDC 算法代替FSC 算法 189
9.2.3 CDC 算法中的弱指纹复用策略 190
9.2.4 改进CDC 算法后的差量同步算法简述 195
9.3 面向差量同步的协议优化 196
9.3.1 强弱指纹比较过程分离 196
9.3.2 合并连续相同数据块 198
9.3.3 关于元数据规模 200
9.3.4 最终版本 203
9.4 性能分析 204
9.4.1 测试环境 205
9.4.2 整体性能测试 206
9.4.3 三种代表性差量同步技术对比 208
9.4.4 高带宽大文件场景下的性能对比 212
9.5 本章小结 212
参考文献 213
第 10 章面向人工智能模型的差量压缩技术 217
10.1 人工智能模型压缩技术现状 217
10.1.1 基于轻量化设计的模型压缩 218
10.1.2 基于剪枝技术的模型压缩 221
10.1.3 基于量化技术的模型压缩 223
10.2 基于局部敏感性的网络浮点参数量化压缩技术 225
10.2.1 网络浮点参数压缩的难点 225
10.2.2 神经网络浮点参数的分布 226
10.2.3 局部敏感量化方案设计 228
10.2.4 量化压缩后模型的版本相似性 230
10.3 利用版本间相似性的神经网络差量压缩方案 233
10.3.1 现有神经网络差量压缩方案的不足与改进思路 233
10.3.2 基于量化的神经网络差量压缩方案 234
10.3.3 基于误差反馈的神经网络量化训练更新算法 235
10.3.4 神经网络的量化及差量压缩方案 237
10.3.5 压缩时间复杂度分析 241
10.4 资源受限场景应用分析 241
10.4.1 场景一:减少人工智能模型快照的存储开销 242
10.4.2 场景二:减少人工智能模型传输的通信开销 242
10.5 性能分析 245
10.5.1 测试环境、数据集与对比方法 245
10.5.2 网络浮点参数量化比特数的选择 245
10.5.3 压缩后网络模型精度测试 247
10.5.4 网络模型压缩性能测试 249
10.6 本章小结 253
参考文献 254
第 11 章面向时序数据库的有损压缩技术 260
11.1 时序数据特性和有损浮点数压缩编码器 260
11.1.1 数据库浮点数压缩现状 260
11.1.2 有损浮点数压缩算法简介 261
11.1.3 时序数据库场景简介 262
11.1.4 有损浮点数压缩算法在时序数据库中的应用 262
11.2 典型的有损浮点数压缩算法 263
11.3 在线化设计与实现 268
11.3.1 特殊值编码器在线化方案 268
11.3.2 哈夫曼编码器在线化方案 270
11.3.3 无损编码器在线化方案 271
11.3.4 自适应算术编码方案 272
11.3.5 对比测试 277
11.4 预测器的改进 280
11.4.1 预测器方案介绍 280
11.4.2 对比测试 282
11.5 数据库中的性能测试 283
11.5.1 测试环境与方案 284
11.5.2 测试结果 285
11.6 本章小结 287
参考文献 287
第 12 章面向非易失性内存场景的数据消冗技术 290
12.1 NVM 文件系统与数据消冗技术 290
12.1.1 NVM 的发展及其结构与特性 291
12.1.2 NVM 文件系统研究现状 292
12.1.3 面向NVM 的数据消冗技术研究现状 295
12.1.4 本章的主要内容 300
12.2 NVM 文件系统在数据消冗方面的性能与一致性挑战 300
12.2.1 面向NVM 的高吞吐率数据消冗技术难点分析 301
12.2.2 面向NVM 的数据消冗一致性技术难点分析 304
12.3 支持数据消冗的NVM 文件系统设计与实现 306
12.3.1 轻量级的数据消冗框架设计 306
12.3.2 高效的冗余检测优化策略 307
12.3.3 NVM 友好的去重元数据管理 309
12.3.4 高性能的NVM 去重索引构建 310
12.3.5 轻量级一致性的设计与恢复 312
12.4 性能分析 316
12.4.1 测试环境 316
12.4.2 整体测试 317
12.4.3 高吞吐率设计的有效性测试 324
12.4.4 一致性设计的有效性测试 327
12.4.5 恢复时间测试 329
12.4.6 交织模式的影响 330
12.5 本章小结 332
参考文献 333
第 13 章面向图像存储的细粒度数据去重技术 336
13.1 图像去重的研究现状 336
13.2 图像去重的特性与挑战 337
13.2.1 图像场景的特性 338
13.2.2 图像去重的挑战 339
13.3 细粒度图像去重框架 341
13.4 基于特征位图的相似性检测器 342
13.4.1 相似性检测器的框架 342
13.4.2 生成二维特征 343
13.4.3 基于特征位图的指纹算法 345
13.4.4 基于特征位图的相似性检测器的优点 348
13.5 与图像编码兼容的差量压缩器 349
13.5.1 差量压缩器的框架 349
13.5.2 差量压缩器的细节 350
13.5.3 针对连续重复块的优化 352
13.5.4 与图像编码兼容的差量压缩器的优点 353
13.6 性能分析 353
13.6.1 系统原型的实现和具体配置 354
13.6.2 测试环境与数据集介绍 354
13.6.3 关键性能测试指标 355
13.6.4 针对相似性检测器的测试 355
13.6.5 针对差量压缩器的测试 360
13.6.6 与粗粒度图像去重技术对比 361
13.7 本章小结 362
参考文献 363
第 14 章总结与展望 365
14.1 面向存储系统的通用数据消冗技术 365
14.2 针对特定场景的专用数据消冗技术 367
附录主要术语表 369
展开