信阅平台

作者简介

汪顺玉，男，1965年出生，重庆酉阳县人，土家族。上海外国语大学英语语言文学博士，重庆邮电大学外国语学院、国际学院副院长，西南大学外国语学硕士导师。主要研究领域为语言测试与评估，已经在《外语教学》《四川外语学院学报》《上海科技翻译》《重庆大学学报》（社会科学版）等核心刊物上发表语言测试学术论文多篇，翻译出版了《如何解读统计图表十一研究报告阅读指南》，主持省部级帝宄课题三项，参与国家级研究课题两项。

展开

内容介绍

　　    2005年的英语专业八级考试是根据2004年新的八级考试大纲设计和施测的一次考试，考试的性质、构念领域、任务要求、分数权重等都发生了较大变化。作为全国测量英语专业学生高年级英语水平的大规模考试，这些变化对个人、团体和社会将产生重大影响。测试界认为，越是高风险考试，越要对考试的技术和应用方面进行评价，对考试的效度验证要求越高。因此，运用先进的效度理念、分析技术和行业规范对我国的八级考试进行研究，不仅有理论价值，也具有现实意义。在对测验的评价中，效度是重要的考虑因素。然而，在过去近一个世纪以来，效度的概念从多类效度发展到统一构念效度。与效度概念发展相联系，效度验证的范式和方法也产生了变化。因此，全面和准确地理解效度，具有十分重要的理论意义。而掌握效度验证的科学方法具有运用价值。
　　    本文研究的目的有二：一是对统一效度概念从本体论、认识论、方法论视角进行较全面的评述，旨在为八级考试效度验证提供一个理论和方法框架；二是在统一效度概念下，对八级考试的客观试题从实证的角度进行效度验证。验证的问题包括四个：（1）八级考试客观试题的测量学属性如何？（2）客观题目实际测量的维度与考试设计的理念是否一致？（3）客观试题分数的意义在不同的群体中是否具有类似的解释？（4）新增加的人文知识分测验是否存在考试偏差？
　　    针对两个目的，采用两种研究方法。对构念效度的理论和方法讨论采用文献综述方式，针对八级考试客观题目的效度验证是用定量的方式提供解释依据。
　　    ……
　　    第三章介绍了研究的设计和采用的分析方法介绍，具体包括研究的具体问题、样本、研究的工具和统计方法。后者包括三个方面的统计：一是试题所测构念维度的探索方法；二是跨群体构念效度比较的方法；三是项目功能差异检验的方法。
　　    第四章报告了本研究的核心发现。它们包括对研究具体几个问题的结果：考试的构念维度数、试题难度的跨群体比较、试题题目区分度的跨群体比较、分测试信度的跨群体比较、分测试间相关系数的跨群体比较、因子结构的跨群体比较、人文知识题的项目功能差异检验。
　　    第五章是讨论和结论部分。总结了本研究所得到的发现及获得的结论，对使用的研究方法和过程进行了评述，在针对TEM8（2005）的研究结果的基础上，对TEM 8的设计者提出了建议；另外，本部分还指出了本研究对语言评价的贡献和不足之处，提出了此研究框架下今后研究的方向和思路。

展开

精彩书评

　　作者研究观点新颖，层次清晰，逻辑严密，理论综述全面详实，论证充分得当，充分显示了作者对语言测试评价理论及其相关理论深刻的理解和认识。此外，论文研究方法得当，分析手段科学，也体现了作者扎实的学术基础和较强的科研能力，尤其是作者在语言测试理论和实践上的创新和突破，对外语测试理论在中国的应用和发展都具有很高的参考价值。论文主题突出、结构严谨，层次分明、概念清晰、分析透彻，语言流畅。
　　 ——上海外国语大学博士生导师、上海外语音像出版社社长、《外语电化教学》副主编、陈坚林教授

展开

精彩书摘

在技术规范方面，美国教育心理和心理测量界制定了一系列具体的职业规定，其中最著名的规范有两个：一是始于1954，年的教育与心理测量标准（当时的名称是《心理测量和诊断技术的技术建议》，Technical Recommendations for PsychologicalTests andDiagnost&Techniques）。这方面的标准已被多次修改，出版了几个版本，最近的《标准》是1999年美国心理协会、美国教育研究协会和国家教育测量委员会（英文名缩写分别为APA／AERA／NCME）共同修订的。第二个行业规范是“华盛顿特区考试实践共同委员会”（The Joint Committees on TestingPractices in Washington DC）于1988年制定并颁布并于2005年修订的《教育领域公正测试规范》（.rhe Code of Fair TestingPractices in Education）。考试公正和考试伦理问题在这两个文件中都得到强调，而《标准》体现了效度研究的最新发展思想，对效度概念进行了全新的解释，对考试偏差源和消除偏差的方面提出了较全面的要求。
在实践方面，美国考试开发机构，试题出版机构都能较好地执行上述文件精神。以美国最大（也是全球最大）的考试开发和研究机构——教育考试中心（E丁S）为例，该中心在试题开发过程中，执行严谨的质量把关措施，对每道试题从计量学角度，从可能的民族、性别、文化偏差角度进行审视；试题施测后，对试题从多方面进行研究，形成并公开研究报告，全球共享。现在，ETS对高风险考试的评价，在信度、效度和考试公正几个方面都要进行。由于新的效度理论扩展为统一多维度的概念，考试公正包括用复杂的统计方法进行考试偏差检验和价值判断，对考试的效度评价成为工作中的重中之重。

展开

第1章引论
1.1.研究背景
1.2.问题的阐述
1.3.论文的结构
1.4.研究背景的总结

第2章文献述评
2.1.构念和效度的本体论阐释
2.2.构念效度的文献回顾
2.3.构念效度验证的数据分析方法述评
2.4.八级考试的效度依据
2.5.文献评述的总结

第3章研究设计和分析过程
3.1.研究概述
3.2.研究设计
3.3.研究的问题
3.4.研究方法
3.5.研究方法的总结

第4章研究发现
4.1.测验分数的描述统计结果
4.2.题目的难度和区分度
4.3.分测验的信度
4.4.聚合效度与区分效度
4.5.因子维度的探索
4.6.跨群体构念一致性检验
4.7.人文知识分测验的项目差异功能分析
4.8.发现的总结

第5章研究的结论、意义和建议
5.1.总结和结论
5.2.研究的价值
5.3.研究的不足
5.4.关于进一步研究的建议

附录
附录A 人文知识分测验总分水平的频度
附录B 主轴法6：因子方案全部客观题目旋转后因子负荷
附录C 主轴法3：因子方案全部客观题目旋转后因子负荷
附录D 2005年TEM8试题
参考文献

展开