定类变量
由一组类别组成的,表示一个潜在特性的不同表现的定类尺度。理想状态下,就某个属性而言,分配到某个类别的个体都具有某种同一性。把民主党派和共和党派相混合在“独立党派人士”分类中,将向我们传达关于他们政治行为的错误信息。另外,分类也必须是互斥的(每个个案只能属于一个类别)和完整的。
定类变量的分类可以由调查者根据其需要按任何顺序排列。正如我们看到的,对表1各列的重新排序不会丢失任何信息。相反,定序变量的分类具有某种隐含的次序:他们量度的不仅有性质上的而且有分量上的差异。比如社会地位变量的类别为(低,中,高),那么它就不能再按别的顺序来组织,如(中,低,高),否则就有可能丢失某些信息。定类变量和定序变量都属于类别变量,它们之间的差异在于定序变量的尺度包含了组间的次序关系,而定类变量则不具有这种性质。
定类变量量表可以量度真实的离散现象,比如种族或性别,但是在大多数情况它们大概表现了某种量度误差,因为其代表的潜特质或多或少表示某种定量的特质。例如,态度通常不是简单地进行正面地或反面的回答,人们总是保持他们不同程度的赞同倾向。因此,态度可以被认为是一个连续的集合,从坚定的同意到不确定,再到坚定的反对。在态度这个问题上,不能因为量度的难度而把这个潜含的丰富信息模糊化。
特别要注意,类别的数量和性质对于做出正确推理是至关重要的。在社会学和政治学的研究中,一个最大的错误就是将回答混合成很少几个类别。或许是为了方便起见,或许是因为人人如此,对数据进行二分(即把人们归类为成非此即彼)的做法从来都是错误的,不管使用了何种统计技术,粗劣的量度数据肯定会产生错误严重的结论。
因变量与自变量
大多数社会科学家认为一个人的党派认同,通常在其青年期逐渐形成,部分地决定他或她的政治偏好。在这种意义上讲,1980年的选举将由选民的政党派别决定。一个变量,依赖于另一个变量,或者由另一个变量所引起,或者暂时跟随另一个变量的变化而变化,我们称其为“因变量”。顺其自然的,这个原因变量被称为“自变量”。自变量在某一水平上的变化将引起因变量相应的变化,但是反过来,因变量的改变不会对自变量产生影响。
本书描述的一些方法只有当研究者对因变量有清楚的定义时,才可以适用。虽然其他的方法没有对因果依赖关系做出假定,但也应该仔细思考变量间存在的因果关系。把一个变量人为指定为因变量或是自变量,在某些场合是适当的,没有任何公式不允许这么做——但是由此产生的结果却很有可能是错误的。
当然,这些决定只是表现了我们对数据的假设,因为不太可能证明一个变量是另一个变量的原因。
类别的数目
既然定类变量通常被编组成二维或多维的表格(分别如表1和表22),在这种方式下,每个单元格包含了尽可能多的个案。其后果是:包含许多个零的交叉类别表看起来不那么可靠和有足够的表达力,这是很容易理解的。合并某些类别以提高单元格的频次尽管能够解决这个问题,但是毫无疑问也产生了其他一些问题。这有两个原因:
第一,该定类变量的变异,部分地依赖于该变量的类别数目;在其他变量保持不变的情况下,该变量的类别越多,变异越大。这里,“变异”指个案间的量度差异。如果全部样本都属于一个类别,那么就不存在离差或变异;另一方面,如果它们或多或少分布在几个类别中,那么该变量就存在较大的变异。把人们按党派分成民主党派,共和党派,以及独立党派,比起更为精确的“坚定的民主党派”,是一种较为简单的类别方式,但是存在较少的变异。在回归分析中,变异的数量,特别是自变量的变异数量,部分地影响相关量度值。
第二,合并或减少类别的数目会严重影响观察到的相互关系。例如,假定一个研究者有三个变量,各分成五个类别。为了简化结果的表达,他决定把每个变量都合并成两个类别。然而,在使用相同的变量,样本和同样的统计方法的情况下,从二分数据(dichotomized data)得来的统计分析的结果,将不同于从没有经过合并的变量得到的分析结果。具体研究中,往往会在2×2×2的交叉分类表中发现相关关系,而在5×5×5的交叉分类表中并不存在这种关系。
该教训也相当简单:尽可能的保持原有的类别,在没有充分的理由时,在没有经过证明重新分类不会影响实质性结论时,不要将变量变成二分或者三分变量。
……
展开