变量
在前面的段落中,我们提到人与人在很多方面都存在着差异:性别、年龄、身高、头发及眼睛颜色、政治偏好、治疗效果以及期望寿命等方面。统计学将以上因素称为变量简而言之,变量就是现在正被观察或测量的东西。
变量有两种类型:自变量和因变量。实例是理解这两个概念最简单的方法,回到刚才长粉刺的青少年的例子上。我们想知道粉刺的数量是否会随青少年使用茄子精油而发生改变。这里结局(粉刺)是因变量,可以认为它因治疗而发生改变施加的干预措施是治疗方法(茄子精油),称其为自变量因变量是我们所关心的结局,它因干预措施的效果而发生改变自变量是某种干预或是人为控制的某种措施听起来是不是很简单?但这样的定义太过简练,不够确切。一旦脱离实验的范畴,因变量和自变量之间的区别就变得不明显了。例如,如果我们想观察一个小孩随年龄增长其词汇量的增加状况,那么词汇的记忆量就是因变量而年龄则是自变量。从而认为词汇的记忆量取决于年龄,尽管年龄并不是某种干预,也不是人为施加的某种措施。广义上说,如果一个变量因另一变量的变化而发生改变的话,那么我们就称这个因自变量的改变而发生改变的变量为因变量。
自变量和因变量都可以取若干值中的某一特定值:对于性别而言,取值为男或女;而头发颜色则可以是棕色、黑色、金色、红色、灰色、人工染色或秃顶;像身高这类变量的取值可以从早产儿的25~40cm一直到篮球运动员和本统计书的合著者身高的200cm数据的类型离散型和连续型数据 尽管我们说性别和身高都是变量,但是他们在取值的类型和数量上还是有着明显的差别。一种区分变量类型的方法是判断这些变量的取值是离散型(discrete)的还是连续型(continuous)的离散型的变量只能取一些有限的数值。举之前的例子,这样的变量有性别、头发和眼睛的颜色、政治偏好、一个人接受的治疗次数等等。另一个离散型变量的例子是“总数”,如一个人总的人院次数,龋齿、缺牙和填补牙齿的数目、一个家庭中孩子们的数目。由于儿童数量是离散型变量,因此人口统计学家可以明确地指出不可能有2.13个孩子的家庭。
离散型数据的取值只能是整数
而连续型变量的取值却不尽相同。乍一看可能像身高这样取值单位离散的变量应该属于离散型变量:某人身高172cm,某个比他高一点的人是173cm,某个矮一些的人则是171cm。事实上,这是十分局限的,这种局限性是由我们的测量尺造成的。如果用一个有更精确刻度的测量尺进行测量的话,就可以精确到二分之一厘米。事实上,还可以用精确到千分之一毫米的激光去测量每一个人的身高。身高、体重、血压、血清大黄浓度、时间以及其他很多变量的取值都是连续的,而取值间的分界则是我们为了适应需要而主观制定的。这就导致了我们对测量值的认识十分机械,当精确到毫米汞柱时两个人的血压可能相同,但如果我们的测量精确到十分之一毫米汞柱时,这两人的血压可能就会显现出差异。如果数值仍然相同,那么我们可以采用更精确的测量尺度直到两人的血压值分出差别为止连续型数据可以取一个固定范围的任何数值。
展开