《海量数据库解决方案》是一本全面反映过去10年迅速发展的商用DBMS新数据库应用技术、强化数据库技术灵活运用原理及系统化具体应用准则的高水平的经典书籍。
《海量数据库解决方案》曾在韩国和日本同时出版发行。在日本的数据库专业出版社(株)——翔泳社出版局出版发行本书的同时,也将韩国先进的数据库技术传播到了日本。此次在发行中文版的同时,也希望本书中所涵盖的技术能够对中国的广大读者有所帮助。本书中所涉及的普遍性原理适合于任何DBMS,只要对语法稍加调整便可在所有DBMS中得到有效使用。为了便于读者对关系数据库的概念、优化器的灵活运用原理、适用于多样化实际业务中的明确应用准则有一个充分的理解,在本书中通过举例对这些内容进行了详细说明。
所谓的表和索引分离型的存储结构其实就是堆表,即用来存储数据的表和为了快速查找特定数据而使用的索引完全作为不同的对象来存储。事实上,在以前的关系型数据库中,大部分的键(Key)和数据都有着非常密切的关系。当我们从存储的数据中查找某个特定范围中的数据时必须要依赖于键,否则无法正常查找所需要的数据。因此,键必然会对数据的存储产生一定的影响。
在以前的数据库中查找数据时,只需要查找到键就一定能够在相应的位置查到与其对应的数据,因此从某个角度来看,查找键就是查找数据。也正因为如此,一度的经验是把键存储在数据的旁边。其实即使我们把数据和键分别存储在不同的位置,也同样能够通过查找键来定位到数据所在的位置,所以完全没有必要把键和数据存储在一起。从代价的角度来分析,由于需要执行两次查找,即键的查找和数据的查找,所以与以前的方法相比必然会存在额外的代价。
使用键和数据分离的方法在存储数据时不会受到索引的任何影响,从这一角度来看,又在很大程度上减少了代价的支出。如果使用这种方法来存储数据,则意味着数据与存储方式之间将不再有任何的关联,而数据完全可以被无条件地存储。这就好像往抽屉里放东西一样,如果并
不需要我们去追究将要放入的物品是什么,而只需要将其挨着放入就可以了的话,应该再没有比这更为简单的方法了。
……
第1部分 影响数据读取的因素
第1章 数据的存储结构和特征
1.1 表和索引分离型
1.1.1 堆表的结构
1.1.2 聚簇因子(Cluster Factor)
1.1.3 影响读取的因素
1.1.3.1 大范围数据读取的处理方案
1.1.3.2 提高聚簇因子的手段
1.2 索引组织表(Index-Organized Table)
1.2.1 堆表和索引组织表的比较
1.2.2 索引组织表的结构和特征
1.2.3 逻辑ROWID和物理猜(Physical Guess)
1.2.4 溢出区(Overflow Area)
1.2.5 索引组织表的创建
1.3 聚簇表
1.3.1 聚簇表的概念
1.3.2 单表聚簇
1.3.3 复合表聚簇
1.3.4 聚簇表的代价
1.3.5 哈希聚簇
第2章 索引的类型和特征
2.1 B-Tree 索引
2.1.1 B-Tree 索引的结构
2.1.2 B-Tree 索引的应用
2.1.3 反向键索引
2.2 位图索引
2.2.1 位图索引的形成背景
2.2.2 位图索引的结构和特征
2.2.3 位图索引的读取
2.3 基于自定义的函数索引
2.3.1 基于自定义的函数索引的概念和结构
2.3.2 基于自定义函数索引的约束
2.3.3 基于自定义函数索引的灵活运用
第3章 SQL的执行计划(Explain Plan)
3.1 SQL和优化器
3.1.1 优化器的作用和人的作用
3.1.2 优化器的类型
3.1.2.1 基于规则的优化器
3.1.2.2 基于成本的优化器
3.1.2.3 优化器目标的选择
3.1.2.4 执行计划的固定化方案
3.1.2.5 优化器的局限
3.1.3 优化器的最优化步骤
3.1.4 查询语句的转换
3.1.4.1 传递性规则
3.1.4.2 视图合并(View Merging)
3.1.4.3 查看用户定义的绑定变量
3.1.5 开发者的作用
3.2 执行计划的类型
3.2.1 扫描的基本类型
3.2.1.1 全表扫描
3.2.1.2 ROWID扫描
3.2.1.3 索引扫描
3.2.1.4 B-Tree聚簇读取(Cluster Access)
3.2.1.5 哈希聚簇读取(Hash Cluster Access)
3.2.1.6 采样表扫描(Sample Table Scan)
3.2.2 表连接的执行计划
3.2.2.1 嵌套循环连接(Nested Loops Join)
3.2.2.2 排序合并连接(Sort Merge Join)
3.2.2.3 哈希连接(Hash Join)
3.2.2.4 半连接(Semi Join)
3.2.2.5 笛卡儿连接
3.2.2.6 外连接(Outer Join)
3.2.2.7 索引连接
3.2.3 其他运算方式的执行计划
3.2.3.1 IN-List迭代执行计划
3.2.3.2 连锁执行计划
3.2.3.3 远程执行计划
3.2.3.4 排序操作执行计划
3.2.3.5 集合操作执行计划
3.2.3.6 COUNT(STOPKEY)执行计划
3.2.4 位图(Bitmap)执行计划
3.2.4.1 各种条件运算符的位图执行计划
3.2.4.2 子查询执行计划
3.2.4.3 与B-Tree索引相结合的执行计划
3.2.5 其他特殊处理的执行计划
3.2.5.1 递归展开(Recursive Implosion)执行计划
3.2.5.2 修改子查询执行计划
3.2.5.3 特殊类型的执行计划
3.3 执行计划的控制
3.3.1 提示的活用准则
3.3.2 使用提示实现最优化目标
3.3.3 使用提示改变表连接顺序
3.3.4 表连接方式选择过程中提示的使用
3.3.5 并行操作中提示的使用
3.3.6 数据读取方法选择中提示的使用
3.3.7 查询转换(Query Transformation)过程中提示的使用
3.3.8 其他提示
第4章 构建索引的战略方案
4.1 索引的选定准则
4.1.1 不同类型表的索引应用准则
4.1.2 离散度和损益分界点
4.1.3 索引合并和组合索引的比较
4.1.4 组合索引的特征
4.1.5 组合索引中列序的决定准则
4.1.6 索引选定步骤
4.2 决定聚簇类型的准则
4.2.1 全局性聚簇
4.2.2 局部性聚簇
4.2.3 单表聚簇
4.2.4 单位聚簇大小的决定
4.2.5 确保聚簇被使用的措施
第2部分 最优化数据读取方案
第5章 局部范围扫描(Partial range scan)
5.1 局部范围扫描的概念
5.2 局部范围扫描的应用原则
5.2.1 局部范围扫描的条件
5.2.2 不同优化器模式下的局部范围扫描
5.3 提高局部范围扫描执行速度的原理
5.4 向局部范围扫描引导的方法
5.4.1 利用访问路径实现对Sort的代替
5.4.2 只使用索引的局部范围扫描
5.4.3 MIN、MAX 的处理
5.4.4 FILTER型局部范围扫描
5.4.5 ROWNUM的灵活运用
5.4.6 利用嵌套视图的局部范围扫描
5.4.7 利用函数的局部范围扫描
5.4.8 利用查询语句二元化特性的局部范围扫描
5.4.9 Web留言板中的局部范围扫描
第6章 表连接的最优化方案
6.1 JOIN和LOOP QUERY的比较
6.1.1 全部范围扫描方式下的比较
6.1.2 局部范围扫描方式下的比较
6.2 连接条件状态对表连接的影响
6.2.1 连接条件正常
6.2.2 连接条件一边异常
6.2.3 连接条件两边异常
6.3 各种表连接方式的特征及活用方案
6.3.1 嵌套循环连接
6.3.1.1 嵌套循环连接的基本概念
6.3.1.2 嵌套循环连接顺序的决定
6.3.2 排序合并连接
6.3.3 嵌套循环连接和排序合并连接的比较
6.3.4 哈希连接(Hash Join)
6.3.4.1 IN-MEMORY哈希连接
6.3.4.2 延迟哈希连接
6.3.5 半连接(Semi Join)
6.3.5.1 半连接的概念和特征
6.3.5.2 半连接的执行计划
6.3.6 星型(Star)连接
6.3.7 星变形(Star Transformation)连接
6.3.8 位图连接索引