第2节 对各组群分别进行回归
我们已知年纪较大的黑人工作者与白人工作者的期望收入有差异,现在,需要通过控制职业、教育年限、工作任期来研究该现象,进而一步步扩展模型设定,把有关白人与黑人中的额外变量的差异效应检验也包括在内。该步骤可能会引起读者的疑问,在允许自变量在每个组群中有所不同的情况下,为什么我们会用模型6对整个样本进行估计,而不是对每个组群分别进行回归估计呢?为什么不把样本分成黑人和白人两组,用期望收入对职业虚拟变量、教育年限和工作任期对每个组群分别进行回归?事实上,若是检验假设和标准OLS假设都可以通过恰当的统计过程得到满足,那么,这些方法都是等价的。
为了构建一个含有交互项的全样本模型,我们要注意以下六点:
第一,当没有乘积项或交互项时,自变量的系数告诉我们的是一个“平均效应”,而当其他自变量也包含在规范里时,则为“平均偏效应”。
第二,当把乘积项加入到模型设定中时,我们可以通过比较两个模型的R2值来确定是否要用各组群的平均效应来提高模型拟合度。如果R2的增量是由于加入了乘积项后而变得足够大,我们就可以拒绝零假设(各组群的效应是相同的)。
第三,当我们用模型6对全样本进行估计时,从OCC2到OCC6的回归系数的t检验可以测量白人工作者的职业净效应,而BLACK的回归系数的t检验则可以解释非洲裔美国人在高级白领中的期望收入净效应。
第四,为了检验一个自变量的效应是否对黑人工作者显著,我们必须构建两回归系数的加和的t检验。
第五,为了检验两个自变量的效应是不是显著不同,例如,检验操作工人是不是和服务业工作者不同,我们必须构建两回归系数差异的t检验。
……
展开