第1章增长*线问题
1.1问题的来源
在生理学、医学和社会科学的研究过程中,对生物在一段时间内的增长研究往往具有实际需求与现实意义。增长*线(growthcurve)是生物体在一段时间内随着时间变化的增长过程的定量刻画,增长*线问题(growth curve problem)泛指研究生物体在一段时间内随着时间变化的增长*线及其所涉及的相关科学问题。在统计学中,这种问题通常涉及建立数学模型来描述增长过程,并通过分析观察、测量数据用统计推断的技术手段了解增长*线的模式、形态、趋势和变化。增长*线问题在生物学、医学和社会科学等领域都有广泛的应用,例如,研究社会普遍感兴趣的植物的生长、动物的重量、儿童的发育、儿童的行为等特征或目标随时间变化的规律。
增长*线问题早就引起了统计学家的重视并从不同角度开展了科学研究。Wishart(1938)对一项营养实验的结果进行统计分析,该实验对三组生猪的生长进行了测试,它们的食物配给中蛋白质含量分别设置了三个不同的水平,这些生猪从断奶后不久开始实验,一直进行到体重达到200lb(1lb=0.453592kg)后送往熏肉工厂。Box(1950)对材料的磨损*线问题进行了统计分析,并对相关假设开展了统计推断。
在涉及增长问题研究的实验中,对个体的增长观察有时可以连续地在时间轴上获得一条*线,或者技术上能做但经济成本昂贵,通常更实际可行的方式是在有限数量的指定时间点获得对个体的重复观测数据。从这些重复观测数据中,可以研究两个有趣的问题:一个是构建一个贴切、拟合度高的统计模型来描述个体生物在一段时间内的增长变化过程。另一个是比较不同条件下的增长特征,如饮食和环境等。如果我们成功地获得了一个合适的增长模型,那么第二个问题就对适用于不同情形的各个统计模型进行比较选优(不限于此)。尽管还是存在不能完全解释增长过程的不足,但我们可以比较增长的各种物理上可定义和有意义的量,如在一段时间内的总增长量、平均增长速率(average growth rate)、增长速率(growth rate)的变化。对此,Rao(1958)研究了比较增长*线的相应统计方法。Leech和Healy(1959)也从注重平均增长比率的角度研究了增长*线问题。Rao(1959)进一步对随机误差服从多元正态分布的重复观测数据提出了一种用于估计增长*线及
其构建参数置信区间的解决方法。Elston和Grizzle(1962)对随机误差服从一般分布的重复观测数据进行了增长*线估计及其参数置信区间的构建。同类的还包括Healy(1961)和Bock(1963)等的相关研究。
这些针对增长*线问题的研究所采用的不同方法除了多元统计分析外主要还涉及重复观测数据所属领域的专业化知识,并未形成一套研究增长*线问题的统计分析模型、方法及理论。
1.2增长*线模型的提出
增长*线问题的研究涉及对同一对象的同一个响应变量进行重复观测,因此重复观测数据通常是存在相关性的(Crowder and Hand,1990),早期研究的这些对象通常是动物,除了在更简单的情形下,对象一般被分成两个或更多群组,不同的群组可能代表不同的处理方式,并且需要对不同处理方式进行比较。对于增长*线问题的研究会涉及多元统计分析中的多元线性模型这个统计分析工具。
一般多元髙斯-马尔可夫(Gauss-Markov)模型(约定通称多元线性模型,multivariatelinear model)定义为
(1.1)
其中,表示阶的观察(observation)矩阵(对n个个体的p个响应变量的观察),X表示nxm阶的设计矩阵(design matrix)或预测变量矩阵(predictor matrix)(n>m)’e表示mxp阶的未知回归系数矩阵,S是nxp阶的随机误差矩阵且它的行是一个样本(即各行是*立同分布的),它的总体(population)服从一个均值为零、协方差为的一般连续型分布。在协方差的估计中,为了保证其估计以概率1正定,是常备的条件,这里表示X的秩。
多元线性模型的均值(观察矩阵y的期望)与协方差的结构分别为
(1.2)
其中,E(y)表示随机矩阵r的期望,Cov(y)表示随机矩阵r的协方差,而运算符号表示克罗内克积。
在增长*线问题中,即使我们仅关心一个响应变量(或目标),但是p个顺序时间点的观察测量被视为这个响应变量在P个不同时间点的复制(即V次重复),这个响应变量实际上被视为一个P维存在相关关系的响应向量。于是,不管是关注实际问题的一个响应变量还是多个响应变量,只要涉及增长*线问题,它就不是一元而是属于多元统计问题的范畴了。
本书定义的多元线性模型包括多元线性回归模型(multivariate linear regressionmodel)和多元方差分析模型(multivariate analysis of variance,MANOVA)两方面。
多元线性回归模型(针对协变量)和多元方差分析模型(针对因子变量)都是用于分析多个响应变量和一个或多个预测(解释)变量之间关系的统计技术。然而,它们之间也有一些区别。
(1)焦点。多元线性回归模型侧重于使用线性回归技术对多个协变量(covari-ate)或连续变量和响应变量之间的关系进行建模。多元方差分析模型侧重于比较多个响应变量的均值向量在由一个或多个因子变量(factor)或离散变量定义的不同水平上的差异。
(2)分析类型。多元线性回归模型通常涉及估计回归系数的参数,以描述变量之间的线性关系。多元方差分析模型涉及测试多个响应变量的均值向量在不同水平之间是否显著不同。
(3)结果。在多元线性回归模型中,结果通常是一组回归系数,表示自变量对每个响应变量的影响。在多元方差分析模型中,结果是一项统计检验结果,指出在不同水平之间是否存在响应变量的均值向量有显著差异。
(4)解释。在多元线性回归模型中,解释涉及了理解协变量对每个响应变量的影响。在多元方差分析模型中,解释涉及了理解在不同水平之间是否存在整体的多变量响应差异,而不指明哪些变量导致了这些差异。
总之,虽然多元线性回归模型专注于估计连续变量与响应变量之间的关系,而多元方差分析模型专注于测试不同水平之间的均值向量差异。不同的环境下,这两种技术都可以提供关于多个响应变量和水平之间关系的见解。进一步深入的了解请读者参考多元统计分析的著名教科书(Rao,1973;Arnold,1981;Muirhead,1982;张堯庭和方开泰,1982;Eaton,1983;Anderson,2003;Kollo and von Rosen,2005)o本书统一地用术语多元线性模型更符合增长*线模型研究发展的实际,这样既蕴含了多元线性回归模型方法与理论在增长*线模型研究中的发展也概括了多元方差分析模型方法与理论在增长*线模型研究中的延拓。
在多元线性模型(1.1)下许多实际问题需要检验形如
(1.3)
的复合双线性假设以及它的置信区间,其中C和£>为已知常数矩阵且DT表示矩阵D的转置。从形如式(1.3)的复合双线性假设检验中,Potthoff和Roy(1964)获得了启发和灵感,他们发现若允许在多元线性模型的均值结构式(1.2)中附加一个已知后置矩阵(post matrix),后续研究称为剖面矩阵(profile matrix),那么许多种类的增长*线问题都能被统一地刻画进一个统计模型。由此在多元线性模型(1.1)的基础上Potthoff和Roy(1964)进行了重要意义的推广,*创性地提出了增长*线模型(growth curvemodel,GCM)
(1.4)
其中,Y为nxp阶的观测矩阵(对n个个体针对响应变量进行的p个时间点的重复测量),X为nxm阶的处理设计矩阵(treatment design matrix),Z为pxq阶的剖面矩阵(p>办0为mxg阶未知的一阶参数矩阵以及S为nxp阶的随机误差矩阵且它的n行是服从一个均值为零、协方差矩阵为S的一般连续型分布g总体的样本。对于重复测量数据,如果增长*线模型是合适的,由于g 在早期文献中,常用广义多元方差分析(generalized multivariate analysis ofvariance,GMANOVA)称增长*线模型(1.4)。用MANOVA代替多元线性模型(1.1)。但从实际涉及的统计内容来讲,研究内容和方法既包括多元线性回归模型也涉及多元方差分析。用增长*线模型和多元线性模型能更准确地描述相应问题及其研究内容的范围。
Potfhoff和Roy(1964)建立的增长*线模型(1.4)特别适用于许多种类的增长*线问题以及相关的统计推断问题。在增长*线模型建立之前,研究增长*线问题的不同方法都涉及了数据所属领域的专业知识,一个问题基本上有一种处理方法。增长*线模型(1.4)提供了具有足够普遍适用性的对增长*线问题进行分析的新的统计工具。这些统计工具的理论源泉还是多元线性模型占主导地位的多元正态理论,不同的是,增长*线模型的均值(重复观测矩阵F的期望)结构为
(1.5)
而不是式(1.2)中的期望结构。在增长*线模型的均值结构(1.5)中,后置矩阵或剖面矩阵Z的出现导致对未知参数矩阵0的估计及其统计推断相比于多元线性模型的均值结构(1.2)的复杂程度增大,如增长*线模型的参数估计将失去多元线性模型参数估计的有些优良性质。
Potfhoff和Roy(1964)提供的部分示例展示了增长*线模型(1.4)和形如式(1.3)的复合双线性假设检验是如何用于研究增长*线的相关问题的。
(1)从*简单的情形开始。假设有n只动物,它们都处于相同的处理条件下,每只动物在时间点,进行重量测量。每一只动物的p个观察时间点的重量值并不是*立的,而是假定它们服从具有未知协方差矩阵S的多元正态分布(或一般连续型分布)。每只动物的增长*线被假定为时间t的一个次多项式(这导致了增长*线模型后置矩阵或剖面矩阵的形成),因此在时间点t时对任何动物的重量测量的期望值将是一个多项式函数对照增长*线模型(1.4)的表达式,这里的设计矩阵为,未知参数矩阵为,后置矩阵或剖面矩阵为
然后,我们可以研究估计参数矩阵0,检验参数矩阵&的复合双线性假设以及获得增长*线的置信区间等统计推断问题。
(2)情形1的推广。假设有个动物群组,第群组由只动物组成,每群组接受不同的处理条件。所有群组的动物在相同的时间点上进行重复测量,并假定它们的重复测量之间具有相同的协方差矩阵S。而第j群组动物的增长*线设定为
这时,增长*线模型(1.4)里的设计矩阵可表示为
未知参数矩阵设为
后置矩阵或剖面矩阵取石。
下面考虑假设检验问题。如果复合双线性假设(1.3)是假设m个群组具有相同的增长*线,则取
如果复合双线性假设(1.3)是假设m条增长*线中除常数,之外的多项式系数都相等,那么取
如果复合双线性假设(1.3)是假设m条增长*线的多项式次数实际上都小于等于,那么取。除了上述三个假设检验之外,根据关心的
第1章增长*线问题
不同检验问题可以设置许多其他的假设形式。
(3)推广情形2到有两种处理所产生的两种效应的场景。假设有3种饮食和2种温度,饮食和温度之间没有相互作用,受到第种饮食和第种温度饲养的动物的增长*线(期望值)可以用一个形如
(1.6)
的多项式函数来表示。
记有只动物受到第种饮食和第种温度组合的影响。
展开