2005年的英语专业八级考试是根据2004年新的八级考试大纲设计和施测的一次考试,考试的性质、构念领域、任务要求、分数权重等都发生了较大变化。作为全国测量英语专业学生高年级英语水平的大规模考试,这些变化对个人、团体和社会将产生重大影响。测试界认为,越是高风险考试,越要对考试的技术和应用方面进行评价,对考试的效度验证要求越高。因此,运用先进的效度理念、分析技术和行业规范对我国的八级考试进行研究,不仅有理论价值,也具有现实意义。在对测验的评价中,效度是重要的考虑因素。然而,在过去近一个世纪以来,效度的概念从多类效度发展到统一构念效度。与效度概念发展相联系,效度验证的范式和方法也产生了变化。因此,全面和准确地理解效度,具有十分重要的理论意义。而掌握效度验证的科学方法具有运用价值。
本文研究的目的有二:一是对统一效度概念从本体论、认识论、方法论视角进行较全面的评述,旨在为八级考试效度验证提供一个理论和方法框架;二是在统一效度概念下,对八级考试的客观试题从实证的角度进行效度验证。验证的问题包括四个:(1)八级考试客观试题的测量学属性如何?(2)客观题目实际测量的维度与考试设计的理念是否一致?(3)客观试题分数的意义在不同的群体中是否具有类似的解释?(4)新增加的人文知识分测验是否存在考试偏差?
针对两个目的,采用两种研究方法。对构念效度的理论和方法讨论采用文献综述方式,针对八级考试客观题目的效度验证是用定量的方式提供解释依据。
……
第三章介绍了研究的设计和采用的分析方法介绍,具体包括研究的具体问题、样本、研究的工具和统计方法。后者包括三个方面的统计:一是试题所测构念维度的探索方法;二是跨群体构念效度比较的方法;三是项目功能差异检验的方法。
第四章报告了本研究的核心发现。它们包括对研究具体几个问题的结果:考试的构念维度数、试题难度的跨群体比较、试题题目区分度的跨群体比较、分测试信度的跨群体比较、分测试间相关系数的跨群体比较、因子结构的跨群体比较、人文知识题的项目功能差异检验。
第五章是讨论和结论部分。总结了本研究所得到的发现及获得的结论,对使用的研究方法和过程进行了评述,在针对TEM8(2005)的研究结果的基础上,对TEM 8的设计者提出了建议;另外,本部分还指出了本研究对语言评价的贡献和不足之处,提出了此研究框架下今后研究的方向和思路。
展开
——上海外国语大学博士生导师、上海外语音像出版社社长、《外语电化教学》副主编、陈坚林教授