第1章首都大学生成长跟踪调查的
设计与执行情况
作为第1章,本章将主要介绍首都大学生成长跟踪调查的抽样设计、问卷内容、调查执行与数据清理等方面的情况,以便大家对后文所用数据资料有一个更加清楚的基本认识。
第1节抽样设计与追踪情况
本调查的被访样本是通过分层多阶段的抽样方式,从首都高校学籍数据库随机取得的,直接抽取到学生个人(具体的抽样方法见《中国大学生成长报告2012》)。首轮的调查中,项目组直接派调查员到各个学校,由学生工作部门协作通知被抽中学生到指定场所,集中现场填写问卷。这在同类调查研究中是非常难得的。当前关于大学生的调查并不少,有的调查样本规模甚至达到数十万级别,但多数调查都难以保证样本的随机性,将抽样名单明确到学生个人。一些调查通过学校行政系统或者学生网络系统发放,对具体填答对象和填答过程缺乏控制。一些调查限于各方面的原因,采用了设计效应更大的整群抽样,表面上看样本规模很大,实际有效的样本规模并不大。还有一些调查直接将问卷放到互联网上供人自由填写。这些研究设计都相对缺乏对于抽样过程的实际控制,既难以明确实际的抽样总体,也难以评估样本的平均代表性。在这一点上,本调查有相对最为完备的抽样框和详细的学生名单,保证了抽样过程的可控性和随机性,从而能够较好地排除各种人为因素和潜在选择性因素带来的偏差。
本调查采用跟踪调查(longitudinal survey)设计,凡初次参与了调查的学生都被邀请参与后续年份的调查。这种调查设计,有利于记录学生大学期间以及毕业之后的变化,从而在一定程度上超越截面调查(crosssectional survey)在因果推论方面的不足。本调查具体涵盖的学校以及各个学校的抽样数、初访成功样本数、此后历年的追踪样本数和追访率情况见表1—1到表1—3。
本调查以2009年为基准年,包括当时的大一(2008级)及大三(2006级)两个年级的代表性样本,其后在2010年、2011年和2012年进行了3次追踪调查。对于2008级而言,这四年反映的是他们整个大学时代的成长经历;对于2006级而言,四年经历反映了他们从大学走向社会的过程。
表1—1首都大学生成长跟踪调查涵盖学校及各年追访情况(全体样本)
学校名称
抽样
人数
2009年
2010年
2011年
2012年
基期
回收率
第一
轮追访
第二
轮追访
第三
轮追访
北京大学
500
450
420
406
378
9000%
9333%
9022%
8400%
中国人民大学
500
487
438
439
389
9740%
8994%
9014%
7988%
清华大学
500
467
415
411
383
9340%
8887%
8801%
8201%
北京航空航天大学
300
284
263
264
255
9467%
9261%
9296%
8979%
北京理工大学
300
290
276
263
257
9667%
9517%
9069%
8862%
北方工业大学
300
284
261
253
248
9467%
9190%
8908%
8732%
北京化工大学
300
300
289
285
272
10000%
9633%
9500%
9067%
北京邮电大学
300
261
250
219
208
8700%
9579%
8391%
7969%
北京石油化工学院
300
279
263
247
257
9300%
9427%
8853%
9211%
北京农学院
300
287
276
253
246
9567%
9617%
8815%
8571%
北京语言大学
300
280
253
234
226
9333%
9036%
8357%
8071%
中国传媒大学
300
247
235
226
206
8233%
9514%
9150%
8340%
首都经济贸易大学
300
262
236
231
214
8733%
9008%
8817%
8168%
中央民族大学
300
298
279
264
238
9933%
9362%
8859%
7987%
中国矿业大学
300
295
272
276
266
9833%
9220%
9356%
9017%
合计
5 100
4 771
4 426
4 271
4 043
9355%
9277%
8952%
8474%
说明:各轮追访率都是相对于基期成功调查样本的。表1—2、1—3相同。
表1—2首都大学生成长跟踪调查涵盖学校及各年追访情况(2006级样本)
学校名称
抽样
人数
2009年
2010年
2011年
2012年
基期
回收率
第一
轮追访
第二
轮追访
第三
轮追访
北京大学
240
204
188
171
157
8500%
9216%
8382%
7696%
中国人民大学
253
242
215
207
170
9565%
8884%
8554%
7025%
清华大学
228
210
177
170
158
9211%
8429%
8095%
7524%
北京航空航天大学
144
131
121
119
114
9097%
9237%
9084%
8702%
北京理工大学
140
133
119
112
108
9500%
8947%
8421%
8120%
北方工业大学
149
137
118
109
112
9195%
8613%
7956%
8175%
北京化工大学
158
158
148
145
135
10000%
9367%
9177%
8544%
北京邮电大学
161
133
129
100
94
8261%
9699%
7519%
7068%
北京石油化工学院
156
143
131
120
126
9167%
9161%
8392%
8811%
北京农学院
164
152
144
126
121
9268%
9474%
8289%
7961%
北京语言大学
133
119
100
90
85
8947%
8403%
7563%
7143%
中国传媒大学
152
112
105
97
88
7368%
9375%
8661%
7857%
续前表
学校名称
抽样
人数
2009年
2010年
2011年
2012年
基期
回收率
第一
轮追访
第二
轮追访
第三
轮追访
首都经济贸易大学
151
123
108
100
91
8146%
8780%
8130%
7398%
中央民族大学
141
138
125
119
103
9787%
9058%
8623%
7464%
中国矿业大学
166
163
142
145
141
9819%
8712%
8896%
8650%
合计
2 536
2 298
2 070
1 930
1 803
9062%
9008%
8399%
7846%
表1—3首都大学生成长跟踪调查涵盖学校及各年追访情况(2008级样本)
学校名称
抽样
人数
2009年
2010年
2011年
2012年
基期
回收率
第一
轮追访
第二
轮追访
第三
轮追访
北京大学
260
246
232
235
221
9462%
9431%
9553%
8984%
中国人民大学
247
245
223
232
219
9919%
9102%
9469%
8939%
清华大学
272
257
238
241
225
9449%
9261%
9377%
8755%
北京航空航天大学
156
153
142
145
141
9808%
9281%
9477%
9216%
北京理工大学
160
157
157
151
149
9813%
10000%
9618%
9490%
北方工业大学
151
147
143
144
136
9735%
9728%
9796%
9252%
北京化工大学
142
142
141
140
137
10000%
9930%
9859%
9648%
北京邮电大学
139
128
121
119
114
9209%
9453%
9297%
8906%
北京石油化工学院
144
136
132
127
131
9444%
9706%
9338%
9632%
北京农学院
136
135
132
127
125
9926%
9778%
9407%
9259%
北京语言大学
167
161
153
144
141
9641%
9503%
8944%
8758%
中国传媒大学
148
135
130
129
118
9122%
9630%
9556%
8741%
首都经济贸易大学
149
139
128
131
123
9329%
9209%
9424%
8849%
中央民族大学
159
160
154
145
135
10063%
9625%
9063%
8438%
中国矿业大学
134
132
130
131
125
9851%
9848%
9924%
9470%
合计
2 564
2 473
2 356
2 341
2 240
9645%
9527%
9466%
9058%
可以看到,论是基期调查还是后续跟踪调查,本调查都保证了很高的成功率。这在同类调查中是非常难得的。当然本调查也存在样本丢失的情况,在2006级更为严重(见图1—1)。因为四轮调查都在学校,2008级的样本丢失相对较少,预计因为毕业后联系方式的变化,在2013年第五轮调查中会有较大变化。
图1—1首都大学生成长跟踪调查历年追访率
数据分析发现,样本的丢失(如果第四轮调查仍被调查到则不为丢失,即便中间有个别轮次丢失)存在一定的选择性。从基本属性上看,来自城市,特别是地级市和直辖市的学生更有可能退出调查。对于2006级而言,不同性别、民族、专业、学校(除邮电大学外)的学生丢失的差异不明显。从包含更多家庭背景及个人特征变量的探索模型3可以看到,在其他情况相同的情况下,家庭条件较好、在校期间得过奖励的学生更有可能保留在样本中(见表1—4)。样本的丢失具有一定的“选择性”。2008级学生截止到2012年的丢失比例相对较小。但是,男生、人文学科以及中央民族大学的学生更有可能缺席后来的调查。第一轮调查收集的家庭背景变量及个人特征变量对预测该年级学生是否会退出本调查没有明显的意义。当我们将这些家庭背景和个人属性更换为2011年也就是他们大三时的信息时(模型5)。可以看到,是否退出本追踪调查与个体政治面貌、是否获得奖励、价值观及社团活动时间有一定的关系。参照2006级的情况,其中有些变量的影响可能是合理的,另一些变量的影响可能是上述信息替换造成的。总体而言,样本丢失有一定的选择性,但各模型的伪确定系数都很小(见表1—4),表明各变量对丢失事件的解释效果较差,选择性在上述各个方面并不特别明显。
表1—4首都大学生成长跟踪调查样本追访失败Logistic模型
2006级
2008级
2006级
2008级
2008级
模型1
模型2
模型3
模型4
模型5
男生参照女生
0162
0475**
0056
0524**
0399*
非农户口参照农业
0131
0048
0231
0225
0081
北京生源参照外地
-0171
0046
-0351
0148
-0048
来自县城参照农村
0364
0618*
0171
0673*
0545
来自地级市
0820***
0797*
0508*
0785*
0729*
来自省城或直辖市
0795***
1145***
0532*
1061**
1063**
汉族参照少数民族
-0072
-0026
-0078
0148
0125
人文参照社会科学
0137
0588**
0129
0664**
0522*
理工参照社会科学
-0227
-0158
-0247
-0095
-0153
中国人民大学参照北京大学
0355
0033
0496
0206
0261
清华大学
0222
0211
0374
0236
03
续前表
2006级
2008级
2006级
2008级
2008级
模型1
模型2
模型3
模型4
模型5
北京航空航天大学
-0482
-0156
-0337
-0128
-0147
北京理工大学
-0013
-0507
0286
-0448
-0415
北方工业大学
-002
-0264
0283
-0184
-0151
北京化工大学
-0295
-0863
-0094
-069
-0817
北京邮电大学
0427
0108
0562*
0174
0109
北京石油化工学院
-0469
-0795
-0137
-0597
-0681
北京农学院
017
-0041
0491
0244
0101
北京语言大学
0295
0106
0503
0327
0196
中国传媒大学
-0131
0061
-0044
021
0042
首都经济贸易大学
0309
0197
0596
041
0384
中央民族大学
0334
0837*
0517
1129**
0958*
中国矿业大学
-025
-0237
-0037
-0023
-0123
大学特殊入学渠道
-0019
0041
0073
高中为省以上重点
0134
0051
0025
父亲教育水平
013
0082
0101
父母中有党员
-0022
0048
0001
家庭经济地位
-0225**
-0069
-0044
个人为党员
-0361*
0169
-0699**
性格外向度
-0014
0052
0012
成绩班内排名
0004
0003
0006
在校获得奖励
-0276*
-0061
-0532**
每周社团活动时间
-0007
0009
0018*
身体健康情况
0008
0016
0007
生活满意度
-0006
-0011
-0003
权威服从倾向
-0032
-0033
0016
个人价值倾向
002
0019
-0118***
国家发展满意度
-0002
-0006
0018**
伪确定系数
0035
0055
0057
0067
0102
样本数
2 267
2 420
2 204
2 288
2 395
注:*p<005,**p<001,***p<0001。
说明:限于篇幅,截距省略了。模型5中的个人政治面貌及以下的变量取值为第三轮调查时的取值,如果第三轮调查时样本已经丢失,则为最后一次调查时的回答取值。所谓大学特殊入学渠道,指大学入学时享受过保送、加分、降分或者增投志愿等特殊待遇。
样本丢失最主要的直接原因是法联系到受访者。因为大学生的追踪调查不同于居民户的调查。前者没有固定的生活场所,尤其受毕业事件的影响,我们只有通过手机、电话、邮件等方式来联系受访者。2011年对2008级学生的调查中,截至当年7月18日有162名受访者未填写问卷,其中61人为法联系上。同年针对2006级的追访中,截至当年10月22日尚未填答问卷的408名受访者中,联系不上的有299人,联系上但因为各种原因未填的92人,明确表示拒绝的只有17人。
联系方式的改变是造成这种问题的主要原因,尤其是毕业前后,联系方式的变化更普遍。毕业后一年内能够联系上的2006级学生手机联系方式发生变化的比例将近1/3。那些未联系上因而缺席当年调查的受访者,他们中多数电话法接通。2008级学生在校期间,每年更换手机联系方式的比例也超过10%。邮件联系方式的改变更为频繁,2010—2011年有超过30%的学生更改主要邮箱联系方式。网易163和126、腾讯QQ、新浪和Gmail是使用率排在前五位的邮箱,其中网易邮箱相对更为稳定,在大学生中的市场占有率也比较稳定。
除了联系方式的改变会影响到与受访者的联系外,短信和邮件的到达率也是影响追踪联系的重要原因。随着反垃圾邮件和垃圾短信力度的加大,追踪调查中的集中邮件通知和短信通知很容易被当作垃圾信息遭到屏蔽。这在最近轮次的调查中表现得特别明显。
表1—5首都大学生成长跟踪调查受访者手机联系方式变更比例
年级
调查年份
2010
2011
2012
2006级
变更比例
134
325
244
总人数
2 070
1 930
1 803
2008级
变更比例
113
109
131
总人数
2 356
2 341
2 240
在抽样与追踪介绍部分的最后,需要就一个问题做一些说明:仅仅使用北京地区的资料能够代表中国大学毕业生的普遍状况吗?关于这个问题,第一,我们认为利用北京市大学生样本洞悉大学生的发展状况是有意义的。第二,我们也在努力将中国教育追踪调查扩展到全国及各个教育阶段。而这已经不完全是一个研究设计问题。在科研资源有限以及当前高等教育投资与招生制度背景下,使用任一局部地区(甚至多个具有代表性的局部地区)的大学生样本讨论大学生问题,都面临着学生来源的选择性问题。高等教育资源的地区差异越大,就业制度的地区差异越大,地区发展越不均衡,一个地区的大学生的在校成长与毕业后的发展就越具有特殊意义。通过抽样调查概括出全国平均面貌,要么容易流于肤浅,要么需要海量的投入。我们相信,基于不同区域的比较同样能够为认识全国的面貌提供丰富的支持。这里我们至少呈现了一个地区的面貌。我们的能力是有限的,但抱负是远大的。
而且,对于北京这样一个特殊的教育空间的研究,即便完全不能将结论推论到其他地区,也因为其政治上的敏感性以及在高等教育中的特殊地位而具有充分的研究价值。北京作为中国的首都,集政治、经济、文化中心为一体,是我国高等教育资源最为集中的地区。这里集中了全国39所985高校中的8所,112所211高校中的26所,占到全国同类高校总数的20%以上。这里每年的研究生招生人数占全国招生人数的148%。每年毕业的高校学生达到将近16万,且其中2/3为外地生源,而毕业找工作的学生中有80%首选在北京找工作。我们承认在北京上大学的学生都是选择的结果,而北京的学生毕业后的出路也必然具有独特性。但这种情况在哪里不是一样呢?我国高校集中的大城市(如上海、西安、武汉等等)普遍面临类似的境况,只不过程度不同罢了。在这个意义上讲,利用北京高校学生的数据来研究大学生不仅具有典型性,也具有代表性。而且北京不仅有中国最好的高校,也有相对差的学校,学校之间的层次是非常明显的,这对于研究不同高校及其他不同类别的学生的发展都具有重要意义。
第2节问卷设计
首都大学生成长跟踪调查问卷设计参考了多个类似研究的问卷设计。特别是美国的NELS(national education longitudinal survey)项目、台湾的TEPS(Taiwan education penal survey)项目。问卷设计的过程中得到了香港科技大学的吴晓刚教授及其同仁的指导帮助,也得到了中国人民大学社会与人口学院的冯仕政、王卫东、谢桂华、宋月萍、唐丹、齐亚强、李丁,中国人民大学国际关系学院的韩东临老师等的支持。研究特别关注了什么因素会影响大学进入、大学期间的表现、大学毕业之后的发展,以及大学期间的表现——不仅包括学业表现,还有课外活动与政治表现——对于毕业出路以及毕业后的发展的影响。这些都继承了社会学研究中关于社会阶层流动、社会结构再生产理论的关注。这与研究团队的背景是紧密相关的。当然,问卷也包括大量其他方面的内容。我们认为,大学是身处其中的大学生信仰和价值观(包括政治观念、宗教观念等等)形成的重要场所,是获得人力资本、社会关系资本以及政治资本的重要阶段,也是收获爱情奠基婚姻的重要机会。当然,也会遭遇很多的压力和心理上的变化与成熟。在这些过程中,需要不断调整和处理与周边各种人员的关系,而家庭与社会的影响也如影随形。问卷中,我们对相关的方面都有涉及。
具体而言,问卷包括如下几个方面:
2009年基期调查时,询问了受访者基本情况,恋爱状况与恋爱观,心理健康状况,高考成绩与进入大学的方式,大学的专业选择、对学校和院系的评价、学习成绩、获奖情况等,大学期间的政治表现,经济状况与兼职行为,生涯规划与预期,社会观念与行为,家庭背景与父母基本情况等。
2010年继续更新询问了2009年的大部分问题,并增加了原高中学校的环境等与学习情况有关的问题和针对2006级毕业生毕业准备与毕业出路的题目。
2011年因为2006级学生已经毕业,两个年级的调查并不是同时进行的,使用了两套问卷。这一年,我们改用了电子版的网络问卷。2008级学生除了询问第一轮调查中的绝大多数问题外,增加询问了宗教信仰状况、兄弟姐妹构成与教育情况。2006级学生的问卷进行了较大调整,前两轮的心理健康量表因为太长,基本上全部取消。增加询问了在读研究生的学习生活情况、恋爱婚姻情况,在职工作者的工作单位收入、职业变动等职业相关情况,毕业后未深造者的住房与户籍情况。
2012年的调查同样分为两个问卷进行,先调查的是在校学生(包括2008级全部学生和2006级继续深造者)。其中2008级询问了大多数第一轮调查中询问的问题,并继续询问了有关宗教信仰的问题,此外还增加了有关文化消费与文艺特长的问题,详细询问了恋爱经历与相关态度。由于2008级的学生在2012年大多数都面临毕业,因此同2010年针对2006级的调查一样,询问了他们详细的出路安排情况,是否考研、申请出国、报考公务员或找其他工作,结果如何等。2006级在校研究生除了心理健康量表和毕业安排外,还回答上述2008级回答的其他问题,此外主要更新询问了研究生学校特征、在校经济状况、与导师关系、时间安排等情况。针对那些已经参加工作的2006级学生,除基本问题外,主要询问了目前的工作属性,更换工作的经历(特别是第一份工作情况)。
在进行问卷设计时,我们尽量保持了多轮调查中表述方式的一致性。2011年和2012年使用两套问卷时,后一套问卷会囊括前一套问卷,通过恰当的跳答机制实现了问卷的动态生成。2011年和2012年的调查采用的是在线问卷的方式(具体见后文关于调查执行的介绍)。问卷系统使用开源软件Limesurvey生成。
我们在问卷设计中遇到了一些困难,有一些经验和教训可以和读者分享。第一,在专业与学校等多个方面存在分化的多元背景下,如何测量大学生的能力、学业投入、学业表现是一个很难的问题。本研究在这一方面没有太多着力,并未对学生的学业水平,相关的智力水平、非认知能力展开测试。一方面,我们很难发展出一套可以全面衡量大学生能力及其变化趋势的客观测试。即使发展出来,也难以要求所有学生每年都完成一次测试。而上述能力的测量和控制是非常重要的。本研究尝试通过高考成绩、英语考试成绩、成绩班级排名、GPA等来近似地测量学生的能力,但这些测量很多仍不具备跨群组的可比性,或者很难代表全面的能力水平。另一方面,清华大学中国经济社会数据中心等机构开展的“中国大学生学习与发展追踪研究”基于全美大学生学习性投入项目(national survey of student engagement,NSSE)在上述方面做了更为细致的探索。相信,未来他们能够提供更为科学的测量工具用于上述方面的研究。
第二,追踪调查中哪些属性是应该多次测量的,哪些问题询问一次或间或询问两次即可需要提前设计好。为了刻画研究对象的变化,多次测量在追踪调查中是非常常见的。但是同一个工具,尤其是以认知—反应为基础的问卷工具,反复呈现给同一个人,前后测量的信度和效度需要检验。在确定什么问题值得多次询问时,测量工具的上述属性是必须考虑的。此外,多次测量的项目应该是最重要、最核心的部分,不能太多,否则后续调查的问卷长度难以控制。因为,随着研究的深入,研究者总会发现在此前的调查中没有收集的信息,而试图增加测量。好的追踪调查测量工具的设计应该一开始就准备好多轮调查的问卷设计,而不是做一轮设计一轮。
第三,针对样本中特殊群体和个别对象的测量会极大地增加问卷的复杂程度,但收益并不一定大。大学阶段,学生们经历着人生最重要的分化。有的人中途就离开学校,有的人需要延期,有的人毕业参加工作,有的人毕业继续深造,而深造的人中,有的是保送,有的是申请出国等等。一个群体会分化成不同的子群体,不同的人可能在不同的年份经历同样的事件。如果这些不同群体的细致特征,所有对象经历某些事件的过程都需要测量和记录,将使得问卷复杂化。但收集上来的信息,可能并不具有足够的统计效力和代表性,难以与其他亚群体比较,或者因为测量时间不相同而缺少可比性等等。因此在问卷设计中非常有必要抓大放小,抓住重要内容,做好取舍和权衡,尽量在最大多数人都能够回答的时候,问大家都可以回答的问题。
第3节调查执行与数据清理情况
这一节主要介绍2011年和2012年追访调查的执行情况,包括具体的执行方式、执行过程,以及礼品激励的设置、访问员报酬的安排、垃圾信息治理政策变化对于联系通知的影响等等。
2011年和2012年本调查采用网络填答的方式完成。之所以采用这种调查方式,原因在于:第一,随着2006级本科生的毕业,要在世界范围内追访这些学生,成本陡然增加。实现全面的实地追访已经不可能。第二,随着互联网技术的发展,当前我国大学生的网络可及性非常高。2010年的调查显示,95%的受访者有自己的个人电脑。在2011年的调查中,如果受访者表示上网不方便,项目组可付其10元上网费,请其到附近上网点上网。最终只有1位本科生表示在老家上网不方便,项目组额外给付了10元上网费。第三,相对于项目组派人登门进行面对面的问卷填写,说服受访者到近便的上网点进行填答更为方便,而且只要不存在代答的情况,由于网络问卷自动化的逻辑检查与必选设置,数据质量甚至有更好的保障。因此保证被访者自己填写问卷,并且能够与以往收集的数据链接起来非常重要。在调查邀请中,我们通过短信或邮件告知受访者一个唯一的6位或7位字符串密码,凭借该密码登录网页并完成问卷,问卷一旦完成密码失效。当然,具体填答过程中,受访者会不会告诉他人密码代为填答很难控制,就像实地填答过程中,一一核对受访者身份的成本也是很高的。后期的数据检验发现,个别案例的回答确实存在前后两轮相差较大,可被怀疑存在代答的情况。但总体而言,数据的一致性还是非常高的。
具体而言,调查过程可以分为“邀访”和“劝访”两个阶段。第一个阶段是邀访,即通过电子邮件或手机短信等方式,一般性地集中通知和邀请被访者凭借对应密码上网填答问卷,被访者自愿填答。第二阶段,对邀访不成功的被访者,由访问员针对性地通过电话、短信、邮件联系,说服其上网填答,是为“劝访”。
以2011年2008级学生的访问情况为例:2011年5月27日—6月10日为集中邀访阶段。在被访者主动自愿的情况下,共完成应访案例的67%。经过前两次调查的培养,被访者对CEPS的认同度是比较高的。6月10日—7月18日为劝访阶段。项目组将尚未完成问卷的受访者名单分配给6位访问员,由他们分头与受访者联系,进行劝访,共完成应访案例的26%。整个调查从5月27日至7月30日,历时65天,共有2 311人完整地填答问卷,另有31人部分地填答问卷。按填答完整者计算,当年针对在校本科生的追访完成2009年初访名单的934%;2010年追访成功的案例中有951%被再次追访成功,2010年追访未成功的案例中,重新找回59%(69个)。
2011年和2012年的调查中,受访者接到通知后,可以自己选择填答问卷的时间,时间的安排更为自由。因此,在访问时长上,这两轮调查更长。2011年一半学生用时短于30分钟,除去用时超过300分钟的案例,平均用时为38分钟左右。之所以出现10%的案例用时超过5个小时,是因为填答者可以随时中断填写,并在未来接着填写,系统将记录最开始填写的时间与提交问卷的时间。这些案例的实际填写时长并不是真这么长。2012年因为增加的问题相对较多,调查时长明显增加了,并且分多次完成问卷的学生更多了(从开始到提交历时5小时以上的案例达到了15%)(见图1—2)。
图1—2四轮调查问卷填答用时分布情况
四轮调查中受访者提交问卷的日期如图1—3所示。各轮调查开始的时间有一定的差异。第一轮调查在5月底开始,7月份学校放暑假之前结束。第二轮调查同样在暑假开始前结束,依据第一轮调查经验,开始时间略早。第三轮调查,针对2008级学生的主要在当年的6月份完成,而2006级学生因为已经毕业,主要在8、9月份完成,10月份有个别收尾案例。2012年的调查同样分为两部分,针对在校生,为了避免因为毕业联系方式改变联系不上,主要在6、7月份完成,时间较第一轮和第二轮有所延长。而针对已经工作的学生,主要在10月底、12月完成。
图1—3四轮调查问卷提交日期分布情况
受访者一天中提交问卷的时点如图1—4所示。在头两轮中,调查基本是在中午开始的,因为大学生受访者中午空闲时间相对较多。2011年和2012年,受访者主要在上午10点以后开始提交问卷,中午有一个小高峰,下午相对比较均匀,晚上8点以后到深夜提交问卷的人较多。这与相当一部分的通知选择在下午6点左右发出有关,在校生有熬夜的习惯则是更为重要的原因。
图1—4四轮调查问卷提交时点分布情况
如果以提交日期为周几来考察的话,第一轮和第二轮调查的高峰点在周三到周五,周一到周二相对较少(见图1—5)。采用网络问卷之后,每周各天的完成量比较均匀,周五相对最少,而周六相对更多。这除了与通知发送时间相关外,可能与周五通常是学生和工作人交友活动的日子,空闲时间较少,周六准备休息放松的人较多有一定的关系。
图1—5四轮调查中一周各天提交问卷人数占比
在数据收集过程中我们给受访者提供了必要的激励。第一、二轮的调查中我们在调查现场给予受访者20元的现金补贴。而在第三、四轮调查中我们通过空中充值方式给受访者的手机或其提供的亲友手机号码充值,充值金额为30元到100元不等,对于毕业参加工作的学生的补助更高,少数较晚仍未提交问卷的受访者我们给予了更高的激励。互联网的发展和支付方式的多样化为本项目的推进提供了极大的方便。在第三轮调查结束之后,2011年末项目组进行了一次样本维护,给愿意接受的学生邮寄了中心定制的实物纪念品。而2012年调查结束后,我们对参加调查的2008级被访者进行了抽奖,共有30位学生获得500元或1 000元不等的现金奖励。相对于现金激励,实物激励的影响更为分化,一件礼物,有的人非常喜欢,而在另一些人那里则可能带来负面的影响。总体而言,纪念品的质量非常关键,一定要慎重选择。已经毕业学生对补贴的重视程度也更为分化,有部分学生主动放弃补助,并愿意将补助捐献给其他机构和组织。总体上看,随着物价水平的提高,大家对于补助水平的期望也有所提高。
数据收集的过程也是首都大学生成长跟踪调查逐步发展和完善调查管理系统的过程。通过网络来收集信息,需要有问卷系统、通知系统、催访记录系统、报酬发放系统、进度控制系统等多个系统和平台的配套和合作。在Limesurvey(http://wwwlimesurveyorg)基础上,我们发展出催访过程记录系统,对访问员与受访者沟通联系的过程进行记录,从而更好地进行进度和质量的控制。此外,通知平台也与问卷调查系统日益整合。这些都需要信息及网络技术人才的支持。在互联网经济快速发展,市场薪资日渐高涨的情况下,高校如何加大投入,并进行科研体制调整,通过何种形式购买此类专业技术支持或引进相关人才并发挥其长处是值得研究的问题。社会科学研究数据收集的专业化和现代化是近年来中国高校社科发展的重要潮流。相关高校和研究院所都成立了专业的调查机构与数据中心。如何立足于实际情况,找准各自的定位和最优发展路径,并与兄弟单位协作多赢是需要多方共同努力的事情。调查技术的信息化就是合作的重要方面。
数据收集好之外,数据的清理工作可以极大地提高数据的可用性。在第一、二轮数据收集录入后,我们通过各种信息进行了案例的匹配。自动匹配不成功的案例通过查验扫描版问卷的方式进行确定。后两轮调查数据则通过事先生成的密码数据表进行自动匹配。数据的清理使用Stata软件进行,并做了详细的文档说明。目前已经形成了四轮调查的长数据(long data)格式(见表1—6):
表1—6首都大学生成长跟踪调查数据集形式
ID
调查轮次
性别
变量1
变量n
1
1
1
1
0
1
2
1
2
0
1
3
1
2
0
1
4
1
2
1
2
1
0
1
1
2
2
0
3
1
2
3
0
1
0
2
4
0
2
0
……
……
……
……
……
所有在多轮调查中收集的变量统一了变量名,并在变量标签中标示了出现的轮次。提供给研究者使用的数据中,我们删除了所有涉及个人隐私或可能定位个人的信息,如工作单位名称、海外大学名称、过高的家庭收入,当然更包括个人的联系方式、家庭住址、具体的学生干部职位等等。数据清理的具体规则和过程,我们会在适当的时候公布相关的文档。有关首都大学生成长跟踪调查项目的更多信息,可以浏览http://wwwchinaepsorg。
展开