第1章 绪论
1.1 纵向数据
1.1.1 纵向数据介绍及例子
纵向数据(longitudinal data)是指对同一组受试个体或者受试单元在不同时间点上重复观测若干次,得到的由截面和时间序列融合在一起的数据(Diggle et al.,2002).
纵向数据在实际中的例子很多,广泛应用于医学、生物学、社会学、经济学和金融学等诸多领域,反映了个体间的差异和个体内部的变化,纵向数据综合了截面数据和时间序列数据的特点和优点,同时随着计算机性能的飞速发展,使得纵向数据的统计分析研究越来越受到人们的重视.例如,如果要研究/『L童阅读能力随时间变化趋势的问题,可以随机抽取一些儿童,在不同年龄段对其阅读能力进行测试,这样得到的数据就是纵向数据.这些儿童的阅读能力,随着年龄的增长均有提高,但是每个儿童在进行观测时的初始阅读能力却不一样,有些儿童在年龄较小时的阅读能力反而比有些年龄较大的儿童阅读能力要强.也就是说,纵向数据模型既考虑了个体间的差异(初始的阅读能力不同),也考虑了个体内部的变化(阅读能力随着年龄的增长而提高).这个例子也反映了纵向数据最大的特点:对不同个体观测所得到的数据是独立的,但是对同一个体观测所得到酌数据往往具有相关性.如果对此研究采用截面数据的方法进行分析,就忽略了儿童的初始阅读能力,从而使得分析出的结果违背了实际情况.所以,纵向数据是同一个体按时间顺序观测得到的,它将截面数据和时间序列数据结合在一起,能很好地分析出个体随时间变化的趋势,反映了个体间的差异和个体内部的变化.对比仅利用截面数据或者时间序列数据模型,纵向数据模型有不可替代的作用,有很高的应用价值.同时随着计算机性能的飞速发展,纵向数据的统计分析研究也越来越受到人们的重视.
首先介绍如下四个纵向数据的例子,在本书中将会对这几个例子进行分析.
例1.1.1 f多中心艾滋病群组研究) Kaslow等(1987)公布了一组来自于多中心艾滋病群组研究的数据.该研究是计划在1984~1991年,对283位HIV(humanimmunodeficiency virus)呈阳性的同性恋患者每半年进行一次定期检查,记录他们看病的医院地址和感染的情况.但是由于部分患者没有定期来检查或者因病情发作而不到半年就需要检查一次,每位患者重复测量的次数不同.每位患者在这8年内至少检查过1次,最多检查过14次.对于这组数据,响应变量是HIV感染后患者血液内所含CD4细胞的比例,协变量是患者的年龄、吸烟状况、HIV感染前CD4细胞的比例及其交互作用.大家感兴趣的问题是,如何识别出真正对HIV感染后血液内CD4细胞比例的变化有影响的协变量,以及进一步了解它们分别产生了怎样不同的影响,
例1.1.2 f多发性硬化症临床试验) 多发性硬化症临床试验的数据集最初被Petkau等(2004),Petkau和White (2003)分析过,并且在Song (2007)的专著中也被多次分析,该实际数据集涉及一个纵向的临床试验,用来评价复发缓解多发性硬化症(MS)中的干扰素,8-lb(IFNB)的中和抗体的影响,它是一种可破坏包围神经的髓鞘的疾病.该数据集是来自英国哥伦比亚大学承担的Betaseron临床试验的磁共振成像(MRI)研究的子课题,涉及50个复发缓解多发性硬化症患者,每个患者每隔6周来大学进行一次治疗.对于17个预定的治疗访问周期,该数据集对每个患者包含3个响应变量,分别是:①主动扫描(active scan),是一个二元响应变量,如果上次进行基线扫描后本次治疗进行了扫描.记录为l,否则为0:②病情恶化情况(exacerbation),也是一个二元响应变量,即指进行MRI扫描检查是否出现病情加重的情况,病情加重用l表示,否则用0来表示;③疾病负担(burden ofdisease),一个正的连续型响应变量,表示每次扫描后所有切片上MS病变的总面积f单位:lTlⅡ12).本数据记录了7个协变量或解释变量:治疗(IYt)、时间(T,单位:周)、时间的平方、年龄(Age)、性别(Gender)、患病的持续年限(Dur,单位:年)和一个额外的基线协变量扩大残疾状态等级(EDSS)评分.50个患者被随机分成3个治疗组,具体分配为17个患者服用安慰剂(placebo)进行治疗、17个患者服用低剂量(low dosage)药剂治疗,还有16个患者服用高剂量(high dosage)药剂治疗.该数据集中不仅存在缺失数据,而且为非平衡纵向数据.MS临床试验的主要目的是研究药物治疗对减轻疾病症状的影响.
例1.1.3 f癫痫病发作数据) 这是一个临床随机对照试验,通过将一种新研发的抗癫痫的药物与能降低癫痫病发作频率的安慰剂进行比较,来考察该新研发药物的疗效,见参考文献Thall和Vail (1990).Wang等(2005b).研究者将新药和安慰剂随机的分给59位患者服用,其中28个患者服用安慰剂,31个患者服用新研发的抗癫痫药物.在接下来的8周内,每两周对患者进行一次定期检查,记录在这两周内癫痫发作的次数(表1.1.1中Yl,Y2,Y3,Y4).同时,在进入试验之初,研究者会记录每位患者的基本情况,包括年龄(Age)、进入试验初期未服药前癫痫的发作次数(表1.1.1中Base)、试验中服用的药物f表1.1.1中rlyt,其中0表示服用安慰剂,l表示服用新药)等,对于这组数据,响应变量是患者每两周的发病次数,协变量是基于患者的基本情况得到的各种指标,包括年龄的对数和基准癫痫病数(除以4后取对数).对于该数据的研究,大家非常关心的一个科学问题是药物是否有助于减1.1纵向数据.3.少癫痫发作率.对该问题的研究可参考文献Thall和Vail (1990),Wang等(2005b),Bai等(2009),Pang和Xue (2012),Yang等(2014c).
例1.1.4(荷尔蒙纵向数据) 纵向荷尔蒙数据是收集了34个健康妇女在一个月经周期的尿样,每隔一天试验尿的孕激素,在34个参与者中,每个妇女按时提供llv28次观测,共得到492个观测值,平均每个妇女进行14.5次观测.He等(2002)与薛留根和朱力行(2007)对该荷尔蒙纵向数据利用部分线性模型进行拟合,他们考虑响应变量为孕激素值的对数,两个协变量分别为年龄(Age)和体重指数(BMI)。
从上面4个例子中,可以看出纵向数据是同一个体在不同时刻的多次重复观察而得到的数据集,对于每个个体,都得到一个变量集.但是,它又不同于一般意义上的多元统计数据.在多元统计分析中,每一个个体也得到一个变量,但是这个变量是同一个体多个指标的一次观察得到的向量,并无重复的含义.因此纵向数据一个显著的特点是“个体间独立、个体内相关”,有的文献中也称为“组间独立、组内相关”,对于这些纵向数据分析最大的挑战就是需要考虑同一观测个体的不同次观测之间的相关性。
对比截面数据的研究,Song (2007)指出纵向数据的研究具有以下3个方面的挑战:
(1)由于纵向数据的概率机制非常复杂,并很难表示出来,所以纵向数据分析是一个非常具有挑战的问题.在大部分情况下,纵向数据的极大似然推断要么不存在,要么太复杂而使得数值计算很难实施.为了解决这个困难,Liang和Zeger (1986)提出了分析纵向数据非常流行的广义估计方程(generalized estimating equations,GEE)方法,GEE方法不要求指定数据的概率模型,是姒似然方法的一种推广(详见第2章的讨论),且GEE方法仅仅要求指定数据的一阶矩和二阶矩,并把纵向数据中的组内相关参数作为讨厌参数;
(2)纵向数据中常存在缺失数据,这也使得纵向数据分析变得非常困难.主要原因是纵向数据中的缺失模式比截面数据中的更加复杂.例如,在截面数据中,每个个体只有一个样本点,如果这个数据点缺失,在数据分析时把这个个体删掉就可以了.但对于纵向数据,在一个时间点上的数据缺失并不意味着整个个体就完全没有信息,因为在其他时间点上仍然有测量数据被记录.进一步,对于纵向数据中缺失情况时遇到的缺失机制的表示和组内相关结构等问题,给统计分析也提出了许多新的机遇和挑战:
(3)当纵向数据时间序列的长度很大时,纵向数据的建模模式或回归分析等成为统计分析的一个主要任务,在目前文献中,大部分纵向数据的文献都是集中在重复测量的次数有限的情形,而当重复次数趋于无穷大时,在这种情况下,如果纵向数据的组内相关结构不再是讨厌参数时,发展相应的统计推断方法也成为纵向数据分析的一个具有挑战的任务。
1.1.2 纵向数据的表示
考虑来自n个个体的数据,其中第/(i=1, ,札)个个体有m{次观测,总的观测次数为Ⅳ- y-rn;.设K,和(Xzj,tij)分别表示对第i个个体进行 i=]第歹次观测0=l, ,m{)所得到的响应变量和协变量的观测值,这里Xij= (Xij.1, ,Xij,p)T∈n~p,t。,表示观测时间.在更一般的集合中,t。,不一定表示时间,但一定是模型中非参数部分依赖于时间的协变量.所有的观测数据构成一个纵向数据集,表示为
1.2半参数模型
半参数回归模型是20世纪80年代发展起来的一种重要统计模型,此模型介于参数回归模型和非参数回归模型之间.在不少实际问题中,要考察对象Y(响应变量)同影响y的因素X(解释变量或协变量)之间的关系.传统的线性模型当假设模型成立时,其推断有较高的精度,但当参数假定与实际背离时,其拟合情况就很差.若用非参数模型去处理,则有可能会丢失有经验或历史资料得到的信息,因而采用两者的混合,即采用半参数回归模型.这种模型既有参数分量,又含有非参数分量.在理论上,处理这种模型的方法融合了参数回归模型申常用的方法和较近发展起来的非参数方法,但并非这两类方法的简单叠加.总之,可以认为其复杂性和难度都超过了单一性质的回归模型.在应用上,这种模型可描述许多实际问题,比单纯的参数模型和非参数模型有更大的适应性.例如,在生物学、医学、传染病学、经济学、金融学和遥感等领域有着广泛的应用.半参数回归模型发展至今,在解决实际问题中,实际工作者和学者们提出了许多类型的半参数回归模型,下面就涉及的几种半参数模型进行简要介绍。
1.2.1 非参数模型
假设y为响应变量,X为影响y的协变量,则非参数回归模型的形式为 y=9(X)+£, (1.2.1)
其中g(z)=E(Y IX=z)为未知的回归函数,£为模型误差,且满足E(EIX)=0.非参数回归模型的优点是回归函数9(.)的任意形式,而且模型的假设少,可以很好地拟合实际数据.但非参数回归模型的缺点是当X∈IRp,且X的维数p较高时,对非参数模型进行估计和统计推断会遇到所谓的“维数灾祸”问题.在第8章讨论了面板数据非参数固定效应模型的同时置信带的构造问题.非参数回归模型经常考虑p=l或p=2的情形,即一元或者二元回归模型.对于协变量更高维的情形,即p≥3时,且协变量为X= (Xl, ,Xp)r,考虑如下的线性模型Y -po+X1r8i+一-+Xppp+£.
这时回归函数变为g(x)=E(Y IX=z)=Po+xitoi+ +Xpt8p,即模型退化为经典的线性回归模型.如果响应变量y为非高斯分布,如泊松(Poisson)分布、伽马(Gamma)分布、=项(binomial)分布、指数(exponential)分布等,可以考虑广义线性模型,关于广义线性模型,第2章给了较为详细的介绍,并给出了纵向数据广义线性模型的一些估计方法的介绍。
在实际应用中,为了保留参数模型的优点及非参数回归模型数据适应性的优点,同时避免“维数灾祸”问题,统计学者提出并发展了很多半参数回归模型,如部分线性模型、单指标模型、部分线性单指标模型和变系数模型等,这些模型已经广泛应用到了生物医学和计量经济学等领域中。
……
展开