信阅平台

内容介绍

　　《教育测量与评估（原书第二版）》的主要内容包括：（1）在对学生以专业的方式进行评估的时候，教师所应该掌握的必要知识与技能；（2）教育评估研究的意义。《教育测量与评估（原书第二版）》介绍了在评估中经常采用的必要的基本数学概念和知识；扩展了传统的教育评估的内容，介绍了近几年使用比较广泛的表现性评估和成长记录袋评估；完整介绍了对残疾学生评估所必须进行的评估调整；还讨论了教育评估中的实践。

展开

精彩书摘

　　第1章教育评估简介
　　为什么要了解测验与评估？
　　本章强调
　　评估语言教育评估的常见应用教育评估的假设教师需要了解的评估内容评估过程中的参与者21世纪的教育评估教育评估与相关法律学习目标阅读和学习本章后，学生应该能够：(1) 定义测验、测量和评估。(2) 解释和列举不同类型的测验。(3) 描述和列举对不同类型得分的解释。(4) 描述和解释教育评估的假设。(5) 解释评估过程中的主要参与者。(6) 描述和解释评估在学校中的主要应用。(7) 解释影响评估的主要联邦教育法律。(8) 描述和解释教师在教育评估中应该掌握的能力。(9) 解释评估的主要趋势。评估是教学过程不可分割的组成部分。评估可以而且应该为加强施教和促进学习提供信息。
　　对教师来讲，学生主要是受教育的对象。在高校从教60多年的经验告诉我们，他们一般不会对测验和评估感兴趣。的确，虽然学生知道他们要参加测验，但测验并没有导致他们选择从事教师这个职业。教师热爱学生，也热爱教育，但对于测验，他们经常采用负面或充其量是中立的态度。这种倾向并不局限于教育学生。主修心理学的大学生通常喜欢心理学，因为他们想从事这方面的工作并在这方面给人们提供帮助。他们渴望成为咨询师或心理治疗师，但想专门从事评估的相对较少。在给本科生讲授教育或心理测验和测量课程的时候，我们觉得花些时间向学生解释为什么需要了解测验和评估是重要的。这是本章的主要目的之一。我们想解释为什么需要了解测验与评估，并希望这些努力是值得的。
　　教学往往被概念化为教师施教而学生学习的简单过程。按照这种观点，教学被看成一个教与学的过程。但在实践中，更实际的看法是，评估是教学过程不可分割的组成部分。事实上，据统计，教师至少投入1/3的时间用于与评估有关的活动（Stiggins and Conklin，1992）。评估可以而且应该为加强施教和促进学习提供信息。换句话说，施教、学习和评估之间有着密切的关系。按照这种扩展后的教学概念，施教和评估是密切相关的，评估提供了一些客观反馈，如学生学到了什么，他们学得怎么样，施教是否有效，以及什么样的信息、概念和目标需要更多关注。将教学仅限定在施教和学习过程上是有局限性的，教学过程更准确的概念应该包括施教、学习和评估。在这个模型中，评估的目标就像施教的目标一样，用于促进学生的成长（Gronlund，1998）。在现实的教育世界中，很难想象有效的教学不涉及某种形式的评估。对学生学习的评估做得越好，教师的教学效果也就越好。
　　下面引用Stiggins和Conklin（1992）的话来说明，在教育评估的整个过程中，教师发挥着重要作用。
　　作为一个国家，花费数十亿美元用在教育评估上，包括数百万美元用于国际和国内的评估，以及另外的数百万美元用于州际的测验项目。最重要的是，以地区性的测验项目为基础的标准化测验形成了数十亿美元的产业。如果将所有这些花费加起来，很明显，在政治上占有重要地位的评估，竟然占不到实施美国学校评估的1％。而另外99%的费用是用在教师每时每刻、日复一日、周而复始的课堂评估上。
　　总之，如果你想成为一个好教师，你需要了解一些与测验和评估有关的知识。施教和评估都是教学过程的组成部分，并且评估是教师日常工作的一个重要组成部分。通过这一章的学习，希望你对教育评估的作用会有一个更好的了解，尽管你可能不想专门从事与测验和评估有关的工作，但你会领会到评估对整个教育过程的重要作用。
　　1.1评估语言
　　在前言中，已经使用了一些比较常见但有些技术性的术语。这里介绍一些对进一步阅读有益的术语定义。1.测验、测量和评估测验是一个过程，在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分（AERA et al.，1999）。
　　(1) 测验：测验（test）是一个工具或过程，在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分（AERA，APA and NCME，1999）。这是一个相当宽泛或一般的定义，但在本书中将采用这个定义。当然，对不同类型的测验，我们会提供更具体的信息。然而，在继续学习之前需要注意的是，应该提一提我们所定义的测验的一个特殊方面。因为测验仅是行为的样本，所以至关重要的是，测验反映的是你有兴趣知道的具有代表性行为的样本。你的评估应该评定这样的内容，即与你分配给它们的相对重要性要一致。在我们对测验和评估进行研究的时候，代表性样本概念的重要性将变得更加明显；在后面章节中介绍测验的技术性能的时候，将会更详细地涉及这一点。测量是给对象、特征、属性或行为分配数值的一套规则。
　　(2) 测量：测量（measurement）可以定义为给对象、特征、属性或行为来分配数值的一套规则。教育测验是测量工具，涉及给一个人的表现分配得分的规则（如管理指南和评分标准）。反过来，对这些得分的解释又用来反映考生的特征。例如，在拼写测验中，拼写正确的单词数量可以反映一个学生的拼写能力。评估是收集信息的系统过程，这些信息可以用来推断人或事物的特征（AERA et al.，1999）。
　　(3) 评估：评估（assessment）是收集信息的系统过程，这些信息可以用来推断人或事物的特征（AERA et al.，1999）。评估应该导致增加对这些特征的了解。测验显然是一个收集信息的系统方法，因此是一套评估工具。从历史记录、访谈和观察中得到的评论也是合法的评估技术，当把这些信息集成起来的时候，会发挥很大的作用。因此，评估比测验更广泛、更全面。
　　至此，已经定义了这些常见的术语，有一些我们不愿意承认的观点是，在实践中，许多教育专家互换地使用测验、测量和评估这些术语。认识到这一点，Popham （2000）指出，在当代教育界，评估已成为首选的术语。当应用于学生时，测量听起来相对死板和枯燥乏味，有避免使用的倾向。测验有其自身的负面含义。例如，几乎每个星期报纸上刊登的有关“应试教育”或“高风险测验”的文章中，测验通常都带有负面的含意。此外，当人们听到测验这个词时，通常认为是纸笔测验。近年来，作为对传统纸笔测验越来越不满的结果，导致其他测验得到了发展（例如，表现性评估和成长记录袋）。因此，测验不再被看成现代教育实践的特殊描述。这导致了将评估作为教育工作者当前使用的流行语。心理测量学是心理测量的科学。信度指的是测验成绩的稳定性或一致性。效度指的是对测验分数解释的准确性。
　　下面，定义一些其他的术语。心理测量学（psychometrics）是心理测量的科学，心理测量学家是专门从事测验、测量和评估的心理或教育专业人员。你可能会听到人们提到测验的心理属性，其实他们说的是测验的测量或统计属性。这些测量属性包括信度和效度。信度（reliability）指的是测验成绩的稳定性或一致性。理论上，信度是指测验分数与测量误差无关的程度（AERA et al.，1999）。与测量误差相对无关的得分是稳定的或一致的（即可靠的）。效度（validity），简单来说，指的是对测验得分解释的适当性或准确性。如果测验得分的解释是为了反映智力，那么它们实际上反映了智力吗？如果测验得分是用来预测工作上的成功，那么它们能准确预测谁将在这份工作上成功吗？
　　2.测验类型
　　我们定义测验是一个工具或过程，在这个过程中，采用标准化方法可以从中获得一个人行为的样本并对其进行评估或评分（AERA，APA and NCME，1999）。也许在你的生活中已经参加过大量的测验，很可能你已经注意到，并不是所有的测验都是一样的。例如，参加学校的测验是为了帮助确定其成绩，参加驾照测验是为了获得驾驶执照，填写调查问卷是为了帮助在教育和职业中做决策，在申请大学时要参加入学测验，为了获得专业证书和许可证也要参加测验，以及参加人格测验是为了获得对人格的理解。这个简单罗列显然没有穷尽所有的测验。
　　Cronbach（1990）指出，测验一般可分为最大表现性测验和典型反应测验两种。最大表现性测验也常常称为能力测验，但成就测验也包含在其中。在最大表现性测验中，试题的评分可以分为“正确”或“不正确”两种，鼓励考生展示他们最好的表现。最大表现性测验（maximum performance test）的目的是评估考生的知识和能力的上限。例如，最大表现性测验可以用来评估学生执行选定任务或掌握指定内容领域的情况。智力测验与课堂成就测验是最大表现性测验最常见的例子。相比之下，典型反应测验试图测量考生的典型行为和特质。通常，典型反应测验称为人格测验。在这种情况下，人格用来广泛反映一整套非认知的特征，如态度、行为、情感和兴趣（Anastasi and Urbina，1997）。一些人保留测验这个术语专门用于最大表现性测验，而将量表和调查问卷等术语用于典型反应测验（AERA et al.，1999）。在这本书中，术语测验采用的是其更广泛的意义，即包括最大表现性测验和典型反应测验。最大表现性测验的目的是评估考生的知识和能力的上限。
　　最大表现性测验：正如我们提到的，最大表现性测验的目的是评估考生的知识和能力的上限。最大表现性测验通常还可以划分为一些子类。首先，最大表现性测验可以分为成就测验和资质测验。其次，最大表现性测验可以分为速度测验和难度测验。最后，最大表现性测验还可以分为客观测验和主观测验。这些区别，虽然本质上不是绝对的，但已有很长的历史基础，并且提供了一些有用的描述性信息。成就测验测量在已接受过施教的内容领域内的知识或技能（AERA et al.，1999）。资质测验测量作为整个生活经历的结果而积累的认知技能和能力（AERA et al.，1999）。
　　成就测验和资质测验：最大表现性测验通常分为成就测验和资质测验。成就测验（achievement test）的目的是测量在已接受过施教的内容领域内的知识或技能（AERA et al.，1999）。与此相反，资质测验（aptitude test）的范围更广泛，其目的是用来测量一个人作为整个生活经历的结果而积累的认知技能、能力和知识。换句话说，成就测验与一个特定的教学目标有关，而资质测验反映整个生活经验累积的影响。然而，这种区别并不是绝对的，实际上仅是程度或强度问题。当今大多数测验专家将成就测验和资质测验概念化了，用来测量认知能力的提高，这个认知能力的提高可以依靠评估的能力与具体学习经验的密切程度而形成一个连续体。成就测验和资质测验的另一个区别是对结果的使用或解释的方式。成就测验通常用来测量一个人在一个特定的时间点上学到或“获得”了什么。与此相反，资质测验通常用来预测未来表现或反映一个人潜在的学术或工作表现。然而，这种区分也不是绝对的。例如，在高中毕业时用来评估成就的测验也可能用于预测在大学的成功。虽然认识到成就测验和资质测验之间的区别并不是绝对重要的，但在讨论学生能力的不同类型的时候，成就和资质的区别却很有用。速度测验反映的是速度的差异。难度测验反映的是考生能够正确回答的试题难度。
　　速度测验和难度测验：最大表现性测验经常分为速度测验和难度测验。对单纯的速度测验（speed test），表现仅仅反映的是速度的差异。速度测验通常包含相对简单的试题，但有严格的时间限制，目的是限制考生成功做完所有试题。对单纯的难度测验（power test），速度不是要考虑的主要问题。参加难度测验的每个人都有足够的时间来处理这些试题，但试题是根据难易程度排列的，并且测验中包含一些难度非常大的试题，没有考生能试图回答所有的试题。因此，难度测验的表现主要反映考生能够正确回答的试题的难度。在良好的速度测验和难度测验中，没有人会获得一个完美的得分。正是按照完美得分是“不确定的”来设计这些测验。也就是说，如果有人获得一个完美的得分，那么，这个测验就没有评定出这个人能力的上限。为了充分接近能力的上限，测验需要包括测验专家所说的“足够的上限（adequate ceiling）”；也就是说，测验足够困难，没有考生能够获得一个完美的得分。如你所料，速度测验和难度测验之间的差异也是程度上的差别
　　……

展开

译者序
原书第二版前言
原书前言
第1章教育评估简介1
1.1评估语言2
1.测验、测量和评估2
2.测验类型4
3.分数解释的类型8
1.2教育评估的假设9
1.心理与教育结构是存在的9
2.心理与教育结构是可以测量的9
3.虽然可以测量结构，但测量并不完美10
4.存在不同的方法来测量任何给定的结构10
5.所有评估方法都有其自身的优势和弱点10
6.信息的多种来源应该是评估过程的组成部分10
7.测验中的表现可以推广到非测验行为11
8.评估可以提供信息用来帮助教育工作者制定更好的教育决策11
9.可以用公平的方式进行评估11
10.测验和评估可以使教育机构乃至整个社会受益12
1.3评估过程中的参与者13
1.开发测验的人13
2.使用测验的人14
3.参加测验的人14
4.评估过程中的其他参与人员15
1.4教育评估与相关法律15
1.不让一个孩子掉队法案（NCLB，2001）15
2.残疾人教育改进法案2004（IDEA，2004）16
3.1973年《康复法案》的第504条款（504条款）17
4.保护学生权利法案（PPRA）18
5.家庭教育权利和隐私权法案（FERPA）19
1.5教育评估的常见应用19
1.学生评价19
2.教学决策20
3.选拔、安置和分类决策20
4.政策决策21
5.咨询和指导决策21
1.6关于评估，教师需要了解什么21
1.教师应该有能力选择适合做教学决策的、专业开发的评估方法22
2.教师应该有能力开发适合做教学决策的评估方法22
3.教师应该有能力管理、评阅和解释专业开发的和自己编制的评估方法22
4.在做教育决策时，教师应该有能力使用评估结果23
5.教师应该有能力开发包含评估信息的有效的评分方法23
6.教师应该有能力交流评估结果23
7.教师应该有能力识别不道德、非法和其他不恰当使用评估的方法或信息23
1.721世纪的教育评估24
1.计算机自适应测验（CAT）和其他技术进步24
2.“真实的”或复杂的表现性评估25
3.教育问责和高风险测验26
4.对残疾学生评估的趋势27
1.8总结28
1.9关键术语和概念30
1.10推荐阅读31
1.11感兴趣的互联网网站32
第2章测量中的数学基础33
2.1数学在评估中的作用33
2.2测量量表34
1.什么是测量？34
2.称名量表34
3.顺序量表35
4.等距量表35
5.比率量表36
2.3测验成绩的描述39
1.分布39
2.集中趋势测量42
3.变异性测量46
2.4相关系数49
1.散点图50
2.相关和预测52
3.相关系数的类型52
4.相关性与因果性54
2.5总结55
2.6关键术语和概念56
2.7推荐读物57
2.8感兴趣的互联网网站57
2.9练习题58
第3章测验得分的意义60
3.1常模参照和标准参照得分的解释61
1.常模参照解释62
2.用于常模参照解释的派生分数67
3.标准参照解释76
3.2常模参照，参照标准，或两者的结合80
3.3得分的定性描述82
3.4总结82
3.5关键术语和概念84
3.6推荐读物85
3.7感兴趣的网站85
3.8练习题86
第4章教师的信度87
4.1测量误差88
1.测量误差的来源90
4.2估计信度的方法92
1.重测信度93
2.复本信度94
3.内部一致性信度95
4.评分者之间信度98
5.总评成绩的信度99
6.选择信度系数100
7.评价信度系数102
8.如何提高信度104
9.估计信度的特殊问题105
4.3测量的标准误107
1.评价测量的标准误108
4.4信度：教师的实践策略110
4.5总结113
4.6关键术语和概念114
4.7推荐读物115
4.8练习题115
第5章教师的效度117
5.1效度威胁118
5.2信度和效度119
5.3“效度类型”与“效度证据类型”120
5.4效度证据类型122
1.基于测验内容的证据122
2.基于与其他变量之间关系的效度证据125
3.基于内部结构的证据132
4.基于反应过程的证据133
5.基于测验后果的证据133
6.整合效度证据134
5.5效度：教师的实践策略135
5.6总结137
5.7关键术语和概念138
5.8推荐读物139
第6章教师的试题分析141
6.1试题难度指标（或试题难度水平）142
1.特殊评估情况和试题难度144
6.2试题区分度145
1.区分度指标145
2.试题整体测验相关系数148
3.掌握测验的试题区分度149
4.速度测验的试题分析150
6.3干扰项分析150
1.干扰项如何影响试题难度和区分度152
6.4试题分析：教师的实践策略153
6.5使用试题分析来改善试题154
6.6表现性评估的试题分析157
6.7定性试题分析158
6.8使用试题分析改进课堂教学160
6.9总结160
6.10关键术语和概念161
6.11推荐读物162
第7章开发课堂测验的基本步骤163
7.1教育目标的特点164
1.范围164
7.2教育目标的分类165
1.认知领域166
2.情感领域168
3.动作技能领域169
7.3行为与非行为教育目标169
7.4编写教育目标170
7.5开发测验提纲（或测验蓝图）172
7.6按照测验提纲来开发测验173
1.常模参照和标准参照得分的解释169
7.7在全州范围内开发课堂测验174
1.选择使用哪种类型的试题174
2.装配评估178
7.8让学生为评估做准备和管理评估180
7.9总结183
7.10关键术语和概念184
7.11推荐读物185
第8章选择类试题的开发和使用186
8.1选择题187
1.开发选择题的准则188
2.选择题的优势198
3.选择题的弱点201
8.2判断题202
1.开发判断题的准则203
2.判断题的优势205
3.判断题的弱点205
8.3匹配题206
1.开发匹配题的准则207
2.匹配题的优势209
3.匹配题的弱点209
8.4总结210
8.5关键术语和概念211
8.6推荐读物212
第9章构造类试题的开发和使用213
9.1口试：作为构造类试题先驱的口头论述214
9.2论述题215
1.论述题测验的目的215
2.不同复杂程度的论述题216
3.限制型论述题与扩展型论述题218
4.开发论述题的准则219
5.论述题的优势220
6.论述题的弱点221
7.评分论述题的准则223
9.3简答题226
1.开发简答题的准则228
2.简答题的优势229
3.简答题的弱点230
9.4最后注意：构造类试题与选择类试题231
9.5总结231
9.6关键术语和概念232
9.7推荐读物233
第10章表现性评估和成长记录袋234
10.1什么是表现性评估？235
10.2开发有效表现性评估的准则240
1.选择合适的表现性任务240
2.开发测验说明243
3.开发评分答案的办法244
4.减少评分误差的实施步骤248
5.表现性评估的优势253
6.表现性评估的弱点254
10.3成长记录袋256
1.开发成长记录袋评估的准则256
2.成长记录袋评估的优势258
3.成长记录袋评估的弱点258
10.4总结259
10.5关键术语和概念262
10.6推荐读物263
10.7感兴趣的网站263
第11章基于课堂评估来评定成绩264
11.1反馈与评价265
1.正式和非正式评价267
2.在终结性评价中使用形成性评价268
11.2报告学生的进步：使用什么符号269
11.3评定成绩的基础271
11.4参考框架272
1.常模参照评分（相对评分）272
2.标准参照评分（绝对评分）274
3.成就与改善或努力的关系275
4.成就与能力的关系275
5.建议276
11.5将各类得分合并成总评成绩276
11.6告知学生评分系统和获得的成绩281
11.7家长会283
11.8总结283
11.9关键术语和概念284
11.10推荐读物285
第12章高风险评估时代的标准化成就测验286
12.1高风险评估时代288
12.2集体成就测验290
1.商业开发的集体成就测验291
2.各州开发的成就测验296
3.增值评估：一个教育问责的新方法302
4.在学校中使用标准化成就测验的最佳实践303
12.3个体成就测验308
12.4选择成就测验套装311
12.5总结312
12.6关键术语和概念313
12.7推荐读物313
第13章在学校中使用资质测验314
13.1智力测验的简要历史317
13.2在学校中使用的资质和智力测验319
1.资质成就的差异321
13.3特殊学习障碍的一个新的评估策略：干预反应（RTI）323
13.4主要的资质/智力测验324
1.集体资质/智力测验324
2.个体资质/智力测验330
3.选择资质/智力测验335
4.理解智力评估报告336
13.5大学入学考试350
13.6总结351
13.7关键术语和概念352
13.8推荐读物353
第14章行为和人格评估354
14.1评估行为和人格355
1.反应定势356
2.在学校中的行为和人格评估358
14.2行为评定量表359
1.儿童行为评估系统第二版——教师和家长评定量表（TRS和PRS）360
2.Conners评定量表修订版（CRS-R）365
3.儿童行为检核表和教师报告表（CBCL和TRF）366
14.3自陈测量367
1.儿童行为评估系统第二版——人格自陈（SRP）368
2.青少年自陈量表（YSR）372
14.4投射技术372
1.投射画374
2.完成语句测验375
3.统觉测验375
4.墨渍技术376
14.5总结377
14.6关键术语和概念378
14.7推荐读物379
第15章评估调整380
15.1影响残疾学生评估的重大立法381
15.2残疾人教育法案（IDEA）382
1.IDEA的残疾分类383
15.3第504条款387
15.4评估

展开