存储I/O设计
对于任何程序的运行来说,最慢、最花费时间的操作实际上是从磁盘中检索数据。这主要缘于磁盘 I/O 访问中存在的物理机械过程(磁头旋转和寻道)。尽管磁盘存储技术在最近几年取得了极大的进步,但磁盘的旋转速度却没有太大的提高。您必须清楚这样一个事实:在一定条件下,RAM 访问仅需要大概 540个 CPU时钟周期,而磁盘访问则需要花费大概20 000 000个CPU 时钟周期。很明显,系统中访问数据最薄弱的环节就是磁盘 I/O 存储系统,从性能调整的角度来说,就是确保磁盘数据布局不会成为更严重的瓶颈。糟糕的数据布局将会给 I/O 性能带来更大的影响。在对系统进行任何优化活动之前,首先应该了解您的存储 I/O 系统的物理体系结构,因为如果您所设计的存储 I/O 系统非常糟糕,并且其中包含慢速磁盘,或者适配器的使用非常低效,那么其他的任何优化工作都无法提供帮助。
数据库的作用就是实现对数据的管理和查询。任何一个数据库系统,必然存在对数据的大量读、写操作。所以I/O问题也往往是导致数据库性能问题的重要原因。要控制好数据库的整体I/O性能,在规划数据库架构时就需要做好存储I/O系统的设计和配置。例如,将对I/O要求不同的文件放置在不同的存储设备上;规划表空间容器的分布、均衡I/O负担、使用并行I/O访问等。在一个应用系统的逻辑部署和物理部署图中,存储和操作系统位于应用系统体系结构的最底层。而数据库是部署在操作系统和存储层之上的,所以我们在做数据库的物理设计和逻辑设计之前,必须先做好存储I/O设计。存储I/O设计中最大的一个原则就是将I/O访问的分布最大限度地平衡在所有可以利用的物理设备上。
本章主要内容包括:
? 存储基本概念
? 存储架构
? 存储相关性能调整案例
? 存储设计性能相关问题
? 存储I/O设计总结
2.1 存储基本概念
关于存储的概念太多,许多已经超出了本书的讨论范围。本章主要讲解最常见的几个概念,它们是我们进行存储I/O设计所必须掌握的。
2.1.1 硬盘
硬盘处于整个存储系统的最底层,核心的业务数据通常都存放在硬盘上。我们从硬盘上读取一次I/O要花费的时间如下:
硬盘上一次I/O时间=磁盘寻道时间+磁头旋转到特定扇区时间+传输时间+延迟
图2-1所示的硬盘I/O传输图中标识了磁头在不同位置的寻道时间。衡量一个磁盘的I/O能力有如下几个指标:
图2-1 磁盘I/O传输图
● 硬盘的转速(Rotational Speed):也就是硬盘电机主轴的转速,转速是决定硬盘内部传输率的关键因素之一,它的快慢在很大程度上影响了硬盘的速度。同时,转速的快慢也是区分硬盘档次的重要标志之一。硬盘的主轴马达带动盘片高速旋转,产生浮力使磁头飘浮在盘片上方。要将所要存取资料的扇区带到磁头下方,转速越快,等待时间也就越短。因此,转速在很大程度上决定了硬盘的速度。目前市场上常见的硬盘转速一般有5400rpm、7200rpm和15000rpm。理论上,转速越快越好,因为较高的转速可缩短硬盘的平均寻道时间和实际读写时间。但是转速越快发热量越大,不利于散热。现在的主流硬盘转速一般为15000rpm以上。
● 平均寻道时间(Average Seek Time):指硬盘在盘面上移动读写头至指定磁道寻找相应目标数据所用的时间,它描述硬盘读取数据的能力,单位为毫秒。当单碟片容量增大时,磁头的寻道动作和移动距离减少,从而使平均寻道时间减少,加快硬盘速度。
● 平均延迟时间(Average Latency Time):指当磁头移动到数据所在的磁道后,然后等待所要的数据块继续转动到磁头下所用的时间。
● 平均访问时间(Average Access Time):指磁头找到指定数据的平均时间,通常是平均寻道时间和平均延迟时间之和。平均访问时间最能够代表硬盘找到某一数据所用的时间,越短的平均访问时间越好。
为什么要讲硬盘呢?因为DB2数据库在工作时,一条SQL语句在经过优化器编译时,优化器会读取统计信息、数据库配置参数和相关硬件信息来为该条SQL语句生成最优的执行计划。其中的硬件信息包括表空间的transrate和overhead。这两个参数的计算就是由硬盘的相关属性来决定的。它们计算公式如下:
transrate=(1/传送速率)*1000/1024000*4096(假设用4KB页大小)
overhead=平均寻道时间+(((1/磁盘转速)*60*1000)/2)
而平均寻道时间、磁盘旋转速度和传送速率是由硬盘本身决定的。所以我们必须做合理的存储I/O设计以使优化器更好地工作。
2.1.2 磁盘阵列技术
RAID的全称是独立磁盘冗余阵列(Redundant Array of Independent Disks)。它通过将多个相对比较便宜的磁盘组合起来,并相互连接,同时都连到一个或多个计算机上,以组成一个磁盘组,从而使其性能和容量达到或超过一个价格更昂贵的大型磁盘。20年来,RAID 推出了一系列级别,包括RAID 0、RAID 1、RAID 2、RAID 3、RAID4、RAID 5,以及各种组合如 RAID 1+0等,其中应用最广泛的是RAID5和RAID10。
RAID 1+0
RAID-0能提供更好的性能,RAID-1能提供最佳的数据保护。如果把两者结合在一起,就能同时提供高性能和数据保护,但这也会同时提高磁盘阵列造价。
RAID-5
RAID-5不做全磁盘镜像,但它会对每一个写操作做奇偶校验计算并写入奇偶校验数据。奇偶校验磁盘避免了像RAID-1那样完全重复写数据。当一个磁盘失效,校验数据被用来重建数据,从而保证系统不会崩溃。为避免磁盘瓶颈,奇偶校验和数据都会被分布到阵列中的各个磁盘。尽管读的效率提高了,但是RAID-5需要为每个写操作做奇偶校验,因此它的写的效率很差。
2.1.3 存储的Cache
高端存储系统中除了要有高性能、高扩展性的结构外,Cache的设计将直接影响到存储系统的性能表现和可靠性。
Cache的主要作用是什么呢?作为缓存,Cache的作用具体体现在读与写两个不同的方面:作为写,一般存储阵列只要求数据写到Cache就算完成了写操作,当写Cache的数据积累到一定程度,阵列才把数据刷到磁盘,这样可以实现批量的写入。所以,阵列的写是非常快速的。至于Cache数据的保护,一般都依赖于镜像与电池(或者是UPS)。
Cache在读数据方面的作用同样不可忽视,因为如果所要读取的数据能在Cache中命中的话,将大大减少磁盘寻道所需要的时间。因为磁盘从开始寻道到找到数据,一般都在6ms以上,而这个时间,对于那些密集型I/O的应用可能不是太理想。但是,如果能在Cache保存的数据中命中,一般响应时间则可以缩短在1ms以内。存储的Cache大小对整个I/O性能的影响是非常大的。
2.1.4 IOPS
IOPS,即I/O Per Second,也就是每秒进行读写(I/O)操作的次数,它是衡量存储性能的一个重要指标。
2.1.5 网络存储技术
FC SAN(Storage Area Network,存储区域网)是一个高速的子网,这个子网中的设备可以从您的主网卸载流量。通常,SAN由RAID阵列连接光纤通道(Fibre Channel)组成,SAN同服务器和客户机的数据通信是通过SCSI命令而非TCP/IP来实现的,数据处理是“块级”(block level)。
SAN通过特定的互联方式连接若干台存储服务器而组成一个单独的数据网络,提供企业级的数据存储服务,如图2-2所示。 SAN是一种特殊的高速网络,连接网络服务器和诸如大磁盘阵列或备份磁带库的存储设备,SAN置于LAN之下,而不涉及LAN。利用SAN,不仅可以提供大容量的存储数据,而且地域上可以分散,缓解了大量数据传输对局域网的影响。SAN的结构允许任何服务器连接到任何存储阵列,不管数据存放在哪里,服务器都可直接存取所需的数据。
图2-2 SAN存储示意图
NAS是Network Attached Storage(网络附加存储)的简称。在NAS存储结构中,存储系统不再通过I/O总线附属于某个服务器或客户机,而是直接通过网络接口与网络直接相连,由用户通过网络访问。它是连接到一个计算机网络的文件层的数据存储,可以为不同网络的客户端提供数据存储服务。NAS的硬件与传统的专用文件服务器相似,它们的不同点在于软件端。NAS中的操作系统和其他软件只提供数据存储、数据访问功能,以及对这些功能的管理。与传统以服务器为中心的存储系统相比,数据不再通过服务器内存转发,而是直接在客户机和存储设备间传送,服务器仅起控制管理的作用。
展开