与经典物理学中考虑的那种变量之间的函数或确定性依赖关系不同,回归分析中考虑的是一种所谓的统计关系。在变量之间的统计关系式中,主要处理的是随机变量,即有着概率分布的变量。统计关系与确定性关系的含义是有区别的。例如,农作物收成对气温、降雨、阳光以及施肥的依赖关系是统计性质的。这个性质的意义在于:这些解释变量固然重要,但并不能依此准确地预测农作物的收成。
虽然回归分析研究一个变量对另一(些)变量的依赖关系,但它并不一定意味着因果关系。一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系。对因果关系的把握,必须来自统计学以外,最终来自这种或那种理论。
在前面所述的农作物收成一例中,没有任何统计上的理由可以认为降雨量不依赖农作物收成。把农作物收成看做是依赖于降雨量等的因变量,是出于非统计上的考虑。常识提示我们不能把这种关系颠倒过来,因为我们不能用改变农作物收成的办法来控制降雨量。
与回归分析密切联系而在概念上迥异的,是以测度两个变量之间的线性关联力度为其主要目的的相关分析。例如,我们也许有兴趣去求吸烟与肺癌、统计学考分与数学考分、中学成绩与大学成绩等之间的相关系数。而在回归分析中,我们并不主要对这种度量感兴趣。我们感兴趣的是试图根据其他变量的设定值来估计或预测某一变量的平均值。例如,我们也许更想知道能否从一个学生的已知数学考分,去预测他的统计学平均考分。
回归和相关还存在以下的区别。在回归分析中,对因变量和解释变量的处理方法存在着不对称性。因变量被当做是统计的、随机的,而解释变量则被看做(在重复抽样中)取有固定值。但在相关分析中,我们对称地对待任何两个变量,因变量和解释变量之间不加区别。同时,两个变量都被看做是随机的。但是,本教材要阐述的回归理论的大部分均以下述假定为条件:因变量是随机的,而解释变量是固定的或非随机的。
……
展开