第1章教育评估简介
为什么要了解测验与评估?
本章强调
评估语言教育评估的常见应用教育评估的假设教师需要了解的评估内容评估过程中的参与者21世纪的教育评估教育评估与相关法律学习目标阅读和学习本章后,学生应该能够:(1) 定义测验、测量和评估。(2) 解释和列举不同类型的测验。(3) 描述和列举对不同类型得分的解释。(4) 描述和解释教育评估的假设。(5) 解释评估过程中的主要参与者。(6) 描述和解释评估在学校中的主要应用。(7) 解释影响评估的主要联邦教育法律。(8) 描述和解释教师在教育评估中应该掌握的能力。(9) 解释评估的主要趋势。评估是教学过程不可分割的组成部分。评估可以而且应该为加强施教和促进学习提供信息。
对教师来讲,学生主要是受教育的对象。在高校从教60多年的经验告诉我们,他们一般不会对测验和评估感兴趣。的确,虽然学生知道他们要参加测验,但测验并没有导致他们选择从事教师这个职业。教师热爱学生,也热爱教育,但对于测验,他们经常采用负面或充其量是中立的态度。这种倾向并不局限于教育学生。主修心理学的大学生通常喜欢心理学,因为他们想从事这方面的工作并在这方面给人们提供帮助。他们渴望成为咨询师或心理治疗师,但想专门从事评估的相对较少。在给本科生讲授教育或心理测验和测量课程的时候,我们觉得花些时间向学生解释为什么需要了解测验和评估是重要的。这是本章的主要目的之一。我们想解释为什么需要了解测验与评估,并希望这些努力是值得的。
教学往往被概念化为教师施教而学生学习的简单过程。按照这种观点,教学被看成一个教与学的过程。但在实践中,更实际的看法是,评估是教学过程不可分割的组成部分。事实上,据统计,教师至少投入1/3的时间用于与评估有关的活动(Stiggins and Conklin,1992)。评估可以而且应该为加强施教和促进学习提供信息。换句话说,施教、学习和评估之间有着密切的关系。按照这种扩展后的教学概念,施教和评估是密切相关的,评估提供了一些客观反馈,如学生学到了什么,他们学得怎么样,施教是否有效,以及什么样的信息、概念和目标需要更多关注。将教学仅限定在施教和学习过程上是有局限性的,教学过程更准确的概念应该包括施教、学习和评估。在这个模型中,评估的目标就像施教的目标一样,用于促进学生的成长(Gronlund,1998)。在现实的教育世界中,很难想象有效的教学不涉及某种形式的评估。对学生学习的评估做得越好,教师的教学效果也就越好。
下面引用Stiggins和Conklin(1992)的话来说明,在教育评估的整个过程中,教师发挥着重要作用。
作为一个国家,花费数十亿美元用在教育评估上,包括数百万美元用于国际和国内的评估,以及另外的数百万美元用于州际的测验项目。最重要的是,以地区性的测验项目为基础的标准化测验形成了数十亿美元的产业。如果将所有这些花费加起来,很明显,在政治上占有重要地位的评估,竟然占不到实施美国学校评估的1%。而另外99%的费用是用在教师每时每刻、日复一日、周而复始的课堂评估上。
总之,如果你想成为一个好教师,你需要了解一些与测验和评估有关的知识。施教和评估都是教学过程的组成部分,并且评估是教师日常工作的一个重要组成部分。通过这一章的学习,希望你对教育评估的作用会有一个更好的了解,尽管你可能不想专门从事与测验和评估有关的工作,但你会领会到评估对整个教育过程的重要作用。
1.1评估语言
在前言中,已经使用了一些比较常见但有些技术性的术语。这里介绍一些对进一步阅读有益的术语定义。1.测验、测量和评估 测验是一个过程,在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分(AERA et al.,1999)。
(1) 测验:测验(test)是一个工具或过程,在这个过程中采用标准化程序可以得到一个人行为的样本并对其进行评价和评分(AERA,APA and NCME,1999)。这是一个相当宽泛或一般的定义,但在本书中将采用这个定义。当然,对不同类型的测验,我们会提供更具体的信息。然而,在继续学习之前需要注意的是,应该提一提我们所定义的测验的一个特殊方面。因为测验仅是行为的样本,所以至关重要的是,测验反映的是你有兴趣知道的具有代表性行为的样本。你的评估应该评定这样的内容,即与你分配给它们的相对重要性要一致。在我们对测验和评估进行研究的时候,代表性样本概念的重要性将变得更加明显;在后面章节中介绍测验的技术性能的时候,将会更详细地涉及这一点。测量是给对象、特征、属性或行为分配数值的一套规则。
(2) 测量:测量(measurement)可以定义为给对象、特征、属性或行为来分配数值的一套规则。教育测验是测量工具,涉及给一个人的表现分配得分的规则(如管理指南和评分标准)。反过来,对这些得分的解释又用来反映考生的特征。例如,在拼写测验中,拼写正确的单词数量可以反映一个学生的拼写能力。评估是收集信息的系统过程,这些信息可以用来推断人或事物的特征(AERA et al.,1999)。
(3) 评估:评估(assessment)是收集信息的系统过程,这些信息可以用来推断人或事物的特征(AERA et al.,1999)。评估应该导致增加对这些特征的了解。测验显然是一个收集信息的系统方法,因此是一套评估工具。从历史记录、访谈和观察中得到的评论也是合法的评估技术,当把这些信息集成起来的时候,会发挥很大的作用。因此,评估比测验更广泛、更全面。
至此,已经定义了这些常见的术语,有一些我们不愿意承认的观点是,在实践中,许多教育专家互换地使用测验、测量和评估这些术语。认识到这一点,Popham (2000)指出,在当代教育界,评估已成为首选的术语。当应用于学生时,测量听起来相对死板和枯燥乏味,有避免使用的倾向。测验有其自身的负面含义。例如,几乎每个星期报纸上刊登的有关“应试教育”或“高风险测验”的文章中,测验通常都带有负面的含意。此外,当人们听到测验这个词时,通常认为是纸笔测验。近年来,作为对传统纸笔测验越来越不满的结果,导致其他测验得到了发展(例如,表现性评估和成长记录袋)。因此,测验不再被看成现代教育实践的特殊描述。这导致了将评估作为教育工作者当前使用的流行语。心理测量学是心理测量的科学。信度指的是测验成绩的稳定性或一致性。效度指的是对测验分数解释的准确性。
下面,定义一些其他的术语。心理测量学(psychometrics)是心理测量的科学,心理测量学家是专门从事测验、测量和评估的心理或教育专业人员。你可能会听到人们提到测验的心理属性,其实他们说的是测验的测量或统计属性。这些测量属性包括信度和效度。信度(reliability)指的是测验成绩的稳定性或一致性。理论上,信度是指测验分数与测量误差无关的程度(AERA et al.,1999)。与测量误差相对无关的得分是稳定的或一致的(即可靠的)。效度(validity),简单来说,指的是对测验得分解释的适当性或准确性。如果测验得分的解释是为了反映智力,那么它们实际上反映了智力吗?如果测验得分是用来预测工作上的成功,那么它们能准确预测谁将在这份工作上成功吗?
2.测验类型
我们定义测验是一个工具或过程,在这个过程中,采用标准化方法可以从中获得一个人行为的样本并对其进行评估或评分(AERA,APA and NCME,1999)。也许在你的生活中已经参加过大量的测验,很可能你已经注意到,并不是所有的测验都是一样的。例如,参加学校的测验是为了帮助确定其成绩,参加驾照测验是为了获得驾驶执照,填写调查问卷是为了帮助在教育和职业中做决策,在申请大学时要参加入学测验,为了获得专业证书和许可证也要参加测验,以及参加人格测验是为了获得对人格的理解。这个简单罗列显然没有穷尽所有的测验。
Cronbach(1990)指出,测验一般可分为最大表现性测验和典型反应测验两种。最大表现性测验也常常称为能力测验,但成就测验也包含在其中。在最大表现性测验中,试题的评分可以分为“正确”或“不正确”两种,鼓励考生展示他们最好的表现。最大表现性测验(maximum performance test)的目的是评估考生的知识和能力的上限。例如,最大表现性测验可以用来评估学生执行选定任务或掌握指定内容领域的情况。智力测验与课堂成就测验是最大表现性测验最常见的例子。相比之下,典型反应测验试图测量考生的典型行为和特质。通常,典型反应测验称为人格测验。在这种情况下,人格用来广泛反映一整套非认知的特征,如态度、行为、情感和兴趣(Anastasi and Urbina,1997)。一些人保留测验这个术语专门用于最大表现性测验,而将量表和调查问卷等术语用于典型反应测验(AERA et al.,1999)。在这本书中,术语测验采用的是其更广泛的意义,即包括最大表现性测验和典型反应测验。最大表现性测验的目的是评估考生的知识和能力的上限。
最大表现性测验:正如我们提到的,最大表现性测验的目的是评估考生的知识和能力的上限。最大表现性测验通常还可以划分为一些子类。首先,最大表现性测验可以分为成就测验和资质测验。其次,最大表现性测验可以分为速度测验和难度测验。最后,最大表现性测验还可以分为客观测验和主观测验。这些区别,虽然本质上不是绝对的,但已有很长的历史基础,并且提供了一些有用的描述性信息。成就测验测量在已接受过施教的内容领域内的知识或技能(AERA et al.,1999)。资质测验测量作为整个生活经历的结果而积累的认知技能和能力(AERA et al.,1999)。
成就测验和资质测验:最大表现性测验通常分为成就测验和资质测验。成就测验(achievement test)的目的是测量在已接受过施教的内容领域内的知识或技能(AERA et al.,1999)。与此相反,资质测验(aptitude test)的范围更广泛,其目的是用来测量一个人作为整个生活经历的结果而积累的认知技能、能力和知识。换句话说,成就测验与一个特定的教学目标有关,而资质测验反映整个生活经验累积的影响。然而,这种区别并不是绝对的,实际上仅是程度或强度问题。当今大多数测验专家将成就测验和资质测验概念化了,用来测量认知能力的提高,这个认知能力的提高可以依靠评估的能力与具体学习经验的密切程度而形成一个连续体。成就测验和资质测验的另一个区别是对结果的使用或解释的方式。成就测验通常用来测量一个人在一个特定的时间点上学到或“获得”了什么。与此相反,资质测验通常用来预测未来表现或反映一个人潜在的学术或工作表现。然而,这种区分也不是绝对的。例如,在高中毕业时用来评估成就的测验也可能用于预测在大学的成功。虽然认识到成就测验和资质测验之间的区别并不是绝对重要的,但在讨论学生能力的不同类型的时候,成就和资质的区别却很有用。速度测验反映的是速度的差异。难度测验反映的是考生能够正确回答的试题难度。
速度测验和难度测验:最大表现性测验经常分为速度测验和难度测验。对单纯的速度测验(speed test),表现仅仅反映的是速度的差异。速度测验通常包含相对简单的试题,但有严格的时间限制,目的是限制考生成功做完所有试题。对单纯的难度测验(power test),速度不是要考虑的主要问题。参加难度测验的每个人都有足够的时间来处理这些试题,但试题是根据难易程度排列的,并且测验中包含一些难度非常大的试题,没有考生能试图回答所有的试题。因此,难度测验的表现主要反映考生能够正确回答的试题的难度。在良好的速度测验和难度测验中,没有人会获得一个完美的得分。正是按照完美得分是“不确定的”来设计这些测验。也就是说,如果有人获得一个完美的得分,那么,这个测验就没有评定出这个人能力的上限。为了充分接近能力的上限,测验需要包括测验专家所说的“足够的上限(adequate ceiling)”;也就是说,测验足够困难,没有考生能够获得一个完美的得分。如你所料,速度测验和难度测验之间的差异也是程度上的差别
……
展开