定性变量包含定类变量和定序变量。顾名思义,定类变量包含不同的类别,例如性别、党派;而定序变量是连续的,如情感、意识等。但是定类变量和定序变量不能量化。例如,比较两个家庭的夫妻关系,我们只能说一个家庭的夫妻关系比另一个家庭的夫妻关系好,而不能说“好多少”。在社会科学的一些领域,定类变量和定序变量占有很大的比重,一向是统计学要处理的。
20世纪40年代,数理统计学家和应用统计学家经过不懈的努力,撰写了大量的论文,至1980年完善了数学思想,创立了很多关于定序变量和定类变量的统计与检验方法。例如,通过定序变量的层次赋值方法,学者应用尼尔森相关系数,量度列联表的定序变量的关联,并将适用于定序变量和定类变量的对数概率比回归模型和对数线性回归模型引入社会统计学,取代了有问题的概率线性回归模型。时至今日,30多年过去了,当时针对列联表的量度和检测方法以及对数概率比和对数线性回归已经成为社会统计学的基础,不掌握这方面的知识,不仅不能正确地分析和量度定性变量,而且会阻碍我们学习更先进的统计方法。
本书的重点是介绍定类和定序变量的统计方法。一般来讲,当一个变量既可以作为定类变量也可以作为定序变量处理时,应该选择后者,因为应用定序变量的连续性质及其层次赋值的方法,具有很多特殊的优点:
对于同一变量,定序方法比定类方法更灵敏,可以检测出定类量度否定的变量之间的关联;
定序数据和定距数据具有相同的连续性,因此适用于定距数据的统计量,如相关、均值和斜率也适用于定序数据;
有很多简单的模型适用于定序变量,并且很容易对参数进行解释,这是定类变量所不及的;
在量度含有相同数目变量的模型的拟合优度方面,定序变量的参数往往少于定类变量的参数,所以更简单,易于计算。
从另一方面讲,在社会调查数据中,既有定序数据,也有定类数据。例如在列联表中,应变量是定序变量,解释变量是定类变量。更有甚者,研究人员为了方便或其他目的会将定序变量改成定类变量。因此,在介绍处理定序数据的统计方法时,本书也要涉及处理定类数据的统计方法。
本书的宗旨是尽可能地应用简单的数学知识解释相关的统计学原理,以利于从事社会科学研究的读者掌握并应用定性数据的量度方法。尽管如此,书中仍有大量的数学内容。实际上,这些数学内容并不高深,只要具有髙中数学水平就能看懂。在阅读过程中,读者要注意以下几点:首先,数学符号本身不是数学,但是在学习的过程中,常常不是数学知识而是纷杂的符号及其角标令读者望而却步。本书中也有很多数学符号,这是无法回避的。读者只有在理解和记住这些符号后,才能学习那些并不深奥的数学知识。其次,概率比(θ)不仅是对二维列联表和多维列联表的变量关联的量度,而且是对对数概率比模型和对数线性回归模型的关联参数的量度。可以说,概率比是贯穿全书的最重要的概念和量度。最后,列联表和模型对定性数据进行统计量度的目的在于测量定序数据的“线性趋势”,例如列联表的累积概率和概率比描述的概率分布就是为此服务的。在学习对数概率比和对数线性模型时,读者要具备普通线性回归和方差分析的知识,并结合列联表的分析方法,才能理解模型的设定及其参数的意义。
在撰写本书的过程中,陈婴婴、夏传玲、赵峰和张亮杰同志为本书提供了丰富的社会调查数据。此外,社会科学文献出版社的同志为本书的出版付出了大量精力。对以上诸位同志,我要表示衷心的感谢。
书中如有不当之处,敬请读者批评指正。
……
展开