对数线性模型于20世纪60年代末期至70年代早期得以发展并流行。包括对数线性模型在内的分类数据分析的课程目前是社会科学专业研究生教育的一项重要内容。全书结合大量示例,清晰展示了如何运用图论理解复杂对数线性模型表明的关联结构。本书描述的图论有助于构想和解释多向列表中的复杂对数线性模型。对于想要深入理解对数线性模型结构的学生和在研究中应用这些模型的研究者,这一专著都是有价值的。
本书展示了如何运用数学资源中的图论来理解复杂对数线性模型表明的关联结构。作者首先回顾了二向与多向列联表的关系模式,以及这些表的对数线性模型。在介绍了图论中的一些关键概念后,作者紧接着将这些思想应用到对数线性模型的两个图形典型中:关联图和生成多重图。利用丰富示例以及清晰解释,作者展示了对数线性模型的两个图形典型如何说明模型的结构,揭示了他们的一些特征,如条件性独立、可分解性、可压缩性等。
一般来讲,用LLM分析一组分类变量之间的关系要分两步:
1. 确定对数据拟合“最好”的模型
2. 分析并解析最佳拟合模型的结果
这两步中的第一步,确定无疑不是一件容易的工作,但是,有大量的文献用于引导模型拟合的程序和方法,包括传统的LLM-拟合过程以及更专业的程序,如条件检验、靴攀法、贝叶斯法,等等。对于给定的列联表寻找最佳拟合的LLM可以使用统计方法和软件,如分段法(Goodman,1971a) 以及两段法(Benedetti & Brown,1978;Brown,1976) 。也可参看Agresti(2002,第9章),Wickens(1989,第5章)和Lawal(2003,第7章)。这本书没有涵盖寻找最佳拟合的LLM的过程。但是,读者可以参看前面引用的相关文献。这本书中的每个例子,对于给定数据都会提供最佳拟合的LLM(或者至少有一个拟合不错的LLM),偶尔会有一些讨论。
这本书关心的是两步中的后一步。在获得最佳拟合的LLM之后,关键是要准确详实地进行分析和解释。在这本书里,“分析”一个给定的LLM是指确立所有变量之间的关系并且把这些关系转化为对数据的结论;“解释”一个给定的LLM是指确定变量之间的所有关系并将这些关系转化为关于数据的结论。
用数学图论的工具使得在这方面的总体统计分析可靠、系统、全面、简洁。第一个图形程序,也就是关联图,已经囊括于很多标准的分类数据教科书之中(比如,Agresti,2002;Andersen,1997;Wickens,1989)。第二个图形程序,也就是多重图,相对较新,在教科书中还没有介绍。
我们假定读者已经熟悉了LLM的应用,熟知来自于标准抽样设计产生的多向列联表中的数据( 参看第3章第4节“抽样设计”部分),以及选择最佳拟合LLM的过程。这本书专注于对最佳拟合LLM结果的分析和解析,用来自心理学、政治学和社会学的大量实例进行解释说明。这本书中展现了许多现实生活中的例子,数据来源是莱特州立大学统计咨询中心的研究项目(已取得客户同意)。
这本书作为“入门”指南,着重点是对最佳拟合LLM的关联图和多重图的实际应用,从而全面并可靠地分析和解释它。建议读者阅读方法背后的理论文献,包括定理、证明、推导以及计算方法。掌握了这本书的内容,读者将能够解释一个非常复杂的LLM,通过
1. 确定模型的重要属性,从而加深对模型的理解;
2. 以清晰易懂的方式解释因子之间的关系;
3. 确立方法来简化列联表(如,使用压缩条件)。
最后,这些目标可以很容易地通过关联图和/或多重图来实现。在寻找最佳拟合模型时需要计算机软件和可能很复杂的模型选择策略和技术,但是一旦找到了最佳拟合模型,就可以用图形来分析和解释,而不需要任何的软件、复杂的推导或者繁重的计算。
对于大多数包含四个变量的LLM(或者有可能是五个变量,取决于模型的复杂程度),变量间的关系可以简单地通过仔细查看LLM本身或者生成类来确定(参看第3章)。
但是,对于更复杂的LLM,整理包含在模型中的所有信息会非常有挑战性,对资深的LLM分析人员也不例外。这本书中的程序对那些基于庞大多元列联表的复杂LLM尤其有帮助。
先看一个启发性的例子,考虑10个分类变量编码为0,1,2,……,9。目的是了解这十个变量之间的关系。假设10维列联表的最佳拟合LLM的生成的类(也叫最小充分构形)是[67][013][125][178][1347][1457][1479]。哪些因子间是相互独立的?哪些因子间是条件性独立的?你可以保证你确认了所有独立性和条件独立性吗?哪些因子可以被分解而不改变其他因子之间的关系?你可以保证在分解之后所有的关系都保持不变吗?这个模型的重要属性是什么?即使对于LLM专家来讲,仅仅依靠生成类也是很难详细可靠地回答这些问题的。这本书中展现的程序可以让研究者不借助统计软件或繁重的计算,以一种清晰、全面、系统、循序渐进的方式详尽可靠地回答这些问题。因此,研究者可以清楚地了解因子之间的关联,更重要的是,知道如何准确详实地解释数据。这一10个变量的模型将会在接下来的章节中作为示例加以分析。
……
关于作者
丛书编辑介绍
第1章 介绍
第2章 关联结构
第1节 离散变量的统计独立
第2节 比值比:二向表
第3节 比值比:三维列表
第4节 模型拟合:三维表
第5节 多向表
第3章 对数线性模型回顾
第1节 二向列联表
第2节 三维列联表
第3节 三维表LLM之间的关系
第4节 LLM和列联表属性
第5节 多向表
第4章 对数线性模型的关联图
第1节 基本图论法则
第2节 三向表的关联图
第3节 多维表的关联图
第4节 可分解的LLM
第5节 总结
第5章 可压缩性条件和关联图
第1节 三维列联表的可压缩性
第2节 压缩性定理和关联图
第3节 结论
第6章 生成多重图
第1节 构建多重图
第2节 三维表格的多重图
第3节 多维表的多重图
第4节 最大生成树
第5节 可分解性
第6节 分解可分解LLM的联合概率
第7节 可分解LLMs的基本条件独立
第7章 不可分解对数线性模型的基本条件独立
第1节 边割集
第2节 不可分解LLM的FCI
第3节 使用多重图 的压缩条件
第4节 FCI:总结
第8章 结论及附加实例
第1节 关联图和多重图的比较
第2节 附加实例
第3节 最后要点
数据集
参考文献
译名对照表