《数据缺失下流域模拟方法研究》主要针对流域模拟过程中的数据缺失问题,研究了基于模拟的流域数据反演方法和基于统计的缺失数据多重插补方法的原理及适用范围,提出了贝叶斯框架下这两类方法嵌套与统一的本质。 在此基础上, 针对滇池流域主要入湖河流TN?TP 负荷估算问题, 分别开展缺失数据下流域降雨模拟?水文模拟和负荷估算, 得到了不同时间尺度下滇池流域主要河流入湖径流量和TN?TP 污染负荷量的期望值及其不确定性范围, 实现了模拟与统计方法在数据缺失下流域模拟过程中的嵌套与统一。
1绪论
1.1研究背景与目的
湖泊水质改善和水生态恢复的一个重要内容就是控制入湖河流污染负荷输入量,入湖河流污染负荷输入量(简称入湖污染负荷量)在不同的时间和空间上具有不同的特性[1]:在时间上、一般雨季的入湖污染负荷量要大于旱季、雨季的入湖污染负荷主要表现为非点源污染负荷、包括农业非点源与城市非点源等。而旱季的入湖污染负荷则主要表现为点源污染负荷、包括生活点源与工业点源等,在空间上、一般人口与工业密集的区域内的河流为典型的点源污染型河流、而以村落和农田为主要土地利用方式的区域内的河流则为典型的非点源污染型河流,不同类型的河流表现出来的污染物类型也不尽相同、对于点源污染型河流、BOD(生化需氧量)?COD(化学需氧量)等有机型污染物一般占主导地位、而对于非点源型河流、N?P等营养型污染物则一般占主导地位、这与其所排放污染物的类型是十分相关的,随着城市污水处理厂的建设与水质排放标准的提升BOD?COD等有机型污染物得到了较好的控制、而N?P等营养型污染物的地位则开始凸显,产生这种现象的原因一方面是由于BOD?COD等有机型污染物较易控制而N?P等营养型污染物较难控制、另一方面是由于BOD?COD等有机型污染物在降解的过程中产生了无机型N?P等营养型污染物,此时、入湖河流的污染类型就悄无声息地由有机好氧型污染向植物营养型污染转变,对于湖泊而言、N?P等营养物质的输入恰恰加重了湖泊的富营养化水平、导致湖泊蓝藻水华暴发与有毒藻类的滋生、同时也使得在白天有光照时藻类发生光合作用的条件下湖体的溶解氧呈现出过饱和的状态、而在夜间没有光照时藻类发生呼吸作用的条件下湖体出现低氧问题,这一现象的出现对于湖泊水生生态系统中高等的水生动植物具有毁灭性的打击、从而也导致了湖泊水生生态系统的退化、即从“清水数据缺失下流域模拟方法研究
草型”稳态向“浊水藻型”稳态的方向演替,可见、对于湖泊的治理、必须依据“清水产流”机制、从入湖河流污染负荷控制上进行突破,另外从管理层面上看、湖泊的治理一般以流域为控制单元、分源头控制?途径削减和末端治理三个层面进行,源头控制是治本性方法、需要综合考虑流域社会经济的发展与定位、依据可持续发展的理念、制定流域社会经济发展与水污染控制规划并加以实施,目前我国所倡导的城市环境总体规划正是这一理念的总体体现,途径削减是减缓性方法、主要通过各种工程措施、如污水处理厂建设?截污管道修建?河道整治?河滨带修复?湖滨人工或自然湿地建设与恢复等、用来降低入湖污染负荷量以减轻湖泊治理的负担,末端治理则是治标性方法、主要是通过直接控制湖体污染物浓度的工程措施、如底泥疏浚?清水冲洗?藻类抽吸?耐污性植物种植?人工浮床等、来降低湖泊富营养化程度,这三个控制层面中。源头控制与途径削减是在流域陆地上进行的、而末端治理则是在湖体中进行的。陆地与湖体的连接部分就是入湖河流与湖滨带,因此、入湖河流污染负荷控制起到了承上启下的作用、对于流域陆地污染负荷控制而言、入湖河流污染负荷量是其控制成效的检验、而对于湖体污染物浓度控制而言、入湖河流污染负荷量是其控制成效的保障,
那么、入湖河流污染负荷量估算就成为湖泊治理过程中的一个重要问题、在这个问题上N?P等营养型污染物的估算尤为重要,这主要包括两方面的原因:一方面、在管理上需要得到一个定量的数值来评估流域N?P负荷的削减效果及湖泊水质和富营养化状态改善的潜力。另一方面、它也是进行复杂的分布式流域模拟模型参数估值的重要基础、同时也是湖体水质水动力模拟模型的输入条件对于入湖河流污染负荷量估算、如果不考虑流域的气象条件?地形地貌?土地利用方式?河网分布?污染物排放类型?农业施肥状况?人口与经济结构等诸多因素、单看其计算公式似乎很简单、只需要有入湖河流的流量与某种污染物浓度的观测数据、就可以通过二者的乘积计算出该污染物的瞬时入湖污染负荷量,如果假定瞬时入湖污染负荷量能够近似代表当天的入湖污染负荷量、那么对每天的入湖污染负荷量进行逐月或者逐年累加就可以得到一个月或者一年的入湖污染负荷量,事实上、并非所有的入湖河流都有流量或者污染物浓度的观测、而即便有的入湖河流既有流量的观测值也有污染物浓度的观测值、其观测频率也不一定相同,例如、流量的观测可能1天1次、而污染物浓度的观测可能1周甚至1月1次,另外、流量和污染物浓度的观测可能在时间上不连续或者在空间上不匹配。并且存在部分乃至大量的数据缺失,在这种情况下、入湖污染负荷的估算是十分困难的,此时、只有通过一定的缺失数据处理方法来弥补数据上的不足、提高入湖污染负荷量的计算精度,为此、本书在对流域模拟模型进行抽象的基础上、提出了基于模拟和统计的流域模拟缺失数据处理方法体系,依据该方法体系、本书以滇池流域入湖污染负荷量估算为研究案例、构建一套以降雨模拟?水文模拟和负荷估算为主线、以缺失数据多重插补为补充的滇池入湖污染负荷量估算模型体系、以实现对缺失数据的插补?对模型未知参数的估计?对模型输出结果的不确定性分析(uncertaintyanalysis、UA),最终为流域水质管理提供决策依据、为分布式流域模拟模型参数校准提供数据基础、为湖体水质水动力模拟模型提供输入条件。
1.2国内外研究进展
湖泊流域入湖污染负荷的估算往往与流域模拟模型是密不可分的、其原因主要是入湖污染负荷量的大小往往受控于人类活动强度及自然降雨径流事件、而我们所观测到的水量和水质数据、仅仅只是这些因素所导致的结果,尽管这些数据是我们用来估算入湖污染负荷量的础、但是它们只是一个个时空断面上的离散数值、而且还往往受到诸如实验设备的检出限(detectionlimits)?监测时的自然条件?监测过程中的人为因素等外界干扰而使得数据可靠性和完整性都不能完全保证,所以、通过流域模拟模型来弥补数据缺失的问题是水研究领域的一个重要手段,然而、当数据缺失到已经无法支持流域模拟模型时、基于统计分析的缺失数据处理方法也应该为我们的研究提出一些方法支持,为此、本书主要对流域模拟模型和缺失数据分析的研究进展进行简要论述、并以此作为本书的背景和基础,
1.2.1流域模拟模型研究进展
流域模拟模型一般包括3个串接的部分、即流域降雨模拟模型?流域水文模拟模型?流玙渥穇T崼_域水质模拟模型,由于本书只关注于入湖污染负荷的估算问题、所以流域水质模型只论述其中的负荷估算模型,以下分别对这3类模型的研究进展作简要论述,
1.2.1.1流域降雨模拟模型
流域降雨模拟一般分为两个阶段:降雨事件模拟与发生降雨事件时的降雨量模拟,降雨事件预报模型一般有3种类型:Markov链模型?时段长度(spell ̄数据缺失下流域模拟方法研究4length)模型和GeneralizedLinearModels(GLM)模型,Gabriel和Neumann在1962年开发了[2]第一个采用Markov链转移概率进行日降雨事件预报的模型、该模型根据已观测的降雨事件的时间序列估算在给定前一天发生降雨事件或者不发生降雨事件时当天发生降雨的概率、然后依据这个概率随机抽取服从U(0、1)分布的随机数、如果该随机数大于这个概率则判断为下雨、小于则判断为天晴。
这样依次就可以生成模拟的降雨事件时间序列[3 ̄6],时段长度模型则是针对发生连续多天天晴或者连续多天下雨的事件的时段长度、采用截断的几何分布、或者截断的负二项分布、或者两种分布的混合来拟合旱期时段长度和雨期时段长度。
根据拟合的分布交替地生成旱期时段长度和雨期时段长度的随机数、以此来生成模拟的降雨事件时间序列[7],自Coe和Stern在1982年和1984年采用GLM模型进行降雨事件模拟以来[3。5]、GLM模型被广泛地应用于各种气象模拟中[8 ̄11],上面所述的Markov链模型也可以看成是GLM模型的一个特例,在建立了降雨事件模拟模型并实现了对降雨事件模拟之后、我们更关心发生降雨事件时降雨量的大小、因为极端降雨事件的发生可能带来严重的自然灾害。或者导致大量的污染物进入水体从而降低水体水质,关于降雨量的估计、目前存在两种不同的观点、一种认为所有发生降雨事件时的降雨量之间是独立同分布(independentidenticaldistribution、i.i.d.)的、另一种认为它们之间存在一定的相关性、因而需要对前一天是否发生降雨事件来分别地进行降雨量估计[12],Wilks和Wilby指出[13]、第二种观点虽然更加合理、但是在日尺度上计算的结果与第一种观点差异不大、然而其复杂性和计算量却增大了许多、所以采用第一种方法计算也无可厚非,一般日降雨量是高度右偏的、所以可以采用指数分布?Gamma分布或者混合指数分布来对其进行拟合[13]、同样也可以采用GLM来建立降雨量和其他影响因子之间的非线性关系,
此外、还有一种多状态的Markov链模型来对降雨事件和降雨量进行同时估计[13]、其主要思路是将连续的雨量数据通过划分区间段从而形成不同的雨量状态、每一个区间段都表示一种雨量状态、这样通过一个多状态的Markov链模型就可以直接地对降雨事件与降雨量进行估计,相比GLM模型、多状态的Markov链模型的主要劣势为有大量的待估参数、因而也需要大量的数据样本进行参数估值,
国内关于降雨量预测的研究主要集中在两个方面:基于改进的多阶段Markov链降雨量预测模型[14 ̄16]及基于人工神经网络与遗传算法的降雨量预测模型[17 ̄19],前者一般可以对日尺度的降雨量进行预测、但预测的结果仅仅只是降雨量的一个区间,后者则一般是对月尺度或者年尺度的降雨量进行预测、当然在月和年尺度的条件下、一般降雨量都是一个连续的数值、处理上难度要低于日尺度下半连续数值,
1.2.1.2流域水文模拟模型
用于表征机理过程的水文模型主要包括:集总式概念性水文模型lumpedconceptualhydrologicmodel)?布式概念性水文模型(distributedconceptualhydrologicmodel)或半分布式水文模型(semi ̄distributedhydrologicmodel)和基于物理过程的分布式水文模型(distributedhydrologicmodel),这些模型研究的发展历程如下,
1)流域集总式概念性水文模型将整个流域看作一个水力学特征均匀分布的单元体、对流域表面任何一点上的降雨、其下渗?渗漏等纵向水流运动都是相同且平行的、只考虑水流在单元体内的垂向运动,第一个流域水文模型是SWMI(StanfordwatershedmodelI)、它出现于1960年、利用日降雨量、通过简单的下渗曲线函数?单位线和退水函数推求日平均流量过程线,Crawford和Linsley将其改进为SWMIV(StanfordwatershedmodelIV)[20]、该模型在流域水量平衡的基础上、用准物理关系描述水量交换、并通过对各个水文循环成分进行模拟来反映调蓄和演变过程、从而全面反映流域对降雨的响应,此后、Fleming于1975年在Stanford流域模型中加入了融雪模拟模块、将其功能进一步的拓展和改进[21],除了SWM模型外、在这个时期还出现了其他一些集总式水文模型、比较常见的有:日本的Sugawara开发的TANK模型(将复杂的降雨—径流过程转化为流域蓄水与出流关系进行模拟)[22]、美国陆军兵工团水工中心LeoR.Beard等开发的HEC ̄1模型[23]、美国气象局Sittner等开发的API连续模拟流域水文模型[24]、美国国家环境保护局Metcalf和Eddy开发的SWMM模型[25]、美国气象局水文办公室萨克拉门托预报中心Burnash?Ferral和McGuire开发的Sacramento模型[26]、中国河海大学赵人俊教授开发的新安江模型[27]、以及Jackman等开发的流域集总
……