第一章 CAT 概 述
教育领域的信息化技术对考试的革命性影响日趋明显,将现代测量理论与计算机技术相融合,弥补传统考试的不足,使教育考试的改革和发展更好地满足人才选拔、促进公平的需要,已成为人们的诉求和时代发展的趋势。
CAT在教育测量领域可谓异军突起,不仅改变了测验形式、测验内容,而且正朝着测验内容多样化、测验对象多元化、呈现方式智能化的方向发展。这种由计算机替代人工施测、由单机到网络化、由线性到自适应的变化,既是一种趋势,也是一种必然。可以说,CAT的发展对教育测量产生了重大影响。
第一章 CAT 概 述
第一节 自适应测验的起源
一、第一个自适应测验—比奈智商测验
在心理测量发展的早期阶段,甚至在标准化传统纸笔测验出现之前,Binet和Simon(1905)在开发比奈智商测验的时候就确定了根据每名考生的能力调整测验内容的基本原则,比奈智商测验后来被称为斯坦福—比奈智商测验。
(一)比奈智商测验的过程
比奈智商测验由一组按“心理年龄”分组设定的测验试题组成,测验实施是一个完全自适应的过程。
1)它使用一个预先标准化的测验题库,比奈为每个年龄段的考生选择的试题是能被该年龄段大约50%的考生正确回答的试题。因此,在这个测验的*初版本中,3—11岁中的每个年龄段都有它对应的试题集,所有这些试题构成了比奈自适应测验的题库。
2)它是由一名受过训练的心理学家单独施测的,其目的是为每名考生寻找与其能力相匹配的难度水平的试题。
3)它有一个可变的启动选项,比奈智商测验是由施测者根据对考生可能的能力水平的*佳猜测开始的(通常是考生的实际年龄)。
4)它使用一种定义的评分方法,即在给定的年龄段中,一组试题被施测并立即由施测者评分。
5)它有一个分支或试题选择规则来决定接下来施测于考生的试题,在比奈智商测验中,下一组测验试题是基于考生在前面测验试题上的表现来选择的。如果考生能够正确回答某一年龄段的大多数试题,通常接下来就被给予更高年龄段的试题;如果考生不能够正确回答某一年龄段的大多数试题,通常接下来就被给予更低年龄段的试题。
6)它有一个预先设定的终止规则,即每名考生的*高水平和*低水平被确定时,比奈智商测验就结束。*高水平是所有试题都回答错误的年龄水平,*低水平是所有试题都回答正确的年龄水平。每名考生的有效测量范围介于这两个水平之间。
每名考生在比奈智商测验中的*终成绩是根据其正确回答的试题水平来确定的。事实上,因为不同考生回答的是不同数量和不同水平的试题,研究者将根据他们的年龄水平对这些试题进行加权后得出其在测验中获得的IQ分数。
(二)比奈智商测验的示例
图1-1展示了比奈智商测验的施测过程。测验试题以心理年龄形式分组,每组试题由每个年龄段中能够被大约50%的考生正确回答的试题构成。
图1-1 比奈智商测验施测过程示意图
在这个例子中,测验从9岁组的试题开始。考生正确地回答了试题1、2、4、5、6、10,错误地回答了试题3、7、8、9。因此,在所施测的10道试题中,有60%的试题得到了正确回答。因为有些试题被正确地回答了,而有些没有,所以9岁既不是这名考生的*高水平(100%错误),也不是其*低水平(100%正确),需要继续进行测验。其中,“+”表示考生对测验试题的正确应答,“?”表示考生对测验试题的错误应答。
之后,施测者可以选择下一个更高或更低的年龄水平组的试题,从而找到考生的*高水平或*低水平。施测者先寻找*低水平(也许是为了给考生提供一些正面的强化),因此,测验的分支到了8.5岁组的试题,用试题进行施测,其中80%的试题得到了正确回答。然后,施测者继续在8岁组施测下一组较简单的试题来寻找*低水平,其中90%的试题得到了正确回答。*后施测到了7.5岁组的试题,考生正确回答了100%的试题,从而考生的*低水平得以确认。
确认了*低水平之后,施测者继续进行测验,以寻找考生的*高水平。因为所有7.5—9岁组的试题已被施测,所以需要测验9.5岁组的试题(这些未施测试题会更加困难),施测这些试题后,考生正确回答了40%的试题。这不是考生的*高水平(100%错误),因此需要继续测验下一组更困难的试题(10岁)。从图1-1中可以看出,这些试题的正答概率为0(即错误率为100%),因而10岁组就是考生的*高水平。
(三)比奈智商测验的特点
上述示例说明,比奈智商测验具有以下特性(这些也是大多数自适应测验所具有的特征)。
1)测验的起始点可以根据考生能力的不同而变化。如果测验从7.5—10岁的任何年龄组开始,与图1-1的示例中相同的试题会被施测,测验结果不会受到影响;如果测验在这个范围之外开始,额外的试题会被施测(从而延长测验时间),但分数不会受到影响(比奈智商测验基于考生正确回答试题的心理年龄水平)。例如,如果测验是从7岁组试题开始的,因为它们是非常容易的试题,考生应该答对所有试题,那么就额外地确立了一个*低水平。同样,如果测验是从10.5岁组试题开始的,就会导致额外地确立一个*高水平,因为这些试题比10岁组的试题更困难。
2)在比奈智商测验中,如果试题不能提供关于考生能力水平的更多信息,测验就会终止。*低水平以下的试题对于考生来说太容易,超过*高水平的试题又太难,因此,这些试题都不能为确定考生的能力水平提供更多信息。
3) 一个设计良好的自适应测验会有预先规定好的关于考生能力的精确度水平,直到获得了可用于测量每名考生能力的充足信息,测验才会结束。在比奈智商测验中,这一精确度是由*高水平和*低水平确定的,而不在于每名考生需要回答多少道试题。
4)每个自适应测验可能会使用题库中不同的试题。自适应测验的目的是从预先标定好的题库中选出*符合考生能力水平的试题进行施测,在图1-1的示例中,这组试题是7.5—10岁组的考题,另一名考生可能会回答5—7.5岁组的试题,而其他考生有可能回答8—13岁组的试题。
5)在自适应测验中,对于每名考生而言,正答概率为0.5的难度等级的试题能够提供关于考生能力的MFI。自适应测验的这一特性使不同能力的考生对测验的心理强化环境体验趋于均衡,即能力较低的考生可能觉得自适应测验比传统的纸笔测验更容易,因为在纸笔测验中,他们可能发现自己答错了大多数试题;相反,能力较高的考生可能认为自适应测验比纸笔测验更难,因为他们习惯于正确回答纸笔测验中的大多数试题。
二、基于计算机的分层自适应测验
1973年,Weiss提出了一种新的测验,即基于计算机的比奈智商测验,以此提高测验的效率,Weiss称之为分层自适应测验(Weiss,1973)。
(一)分层自适应测验与比奈智商测验的异同
分层自适应测验与比奈智商测验使用相同的题库结构,也就是说,测验试题被分层或组织成数个难度等级,称为“层级”。与比奈智商测验类似,分层自适应测验使用的是一个可变的起始水平,允许测验在适合考生的任何难度等级开始,但它与比奈智商测验有不同的选题规则和终止规则。
在比奈智商测验中,考生对给定层级中的一组试题进行作答,根据考生在这组试题上的得分,考官会为其选择更加困难或更加容易的下一级别或上一级别的试题。在分层自适应测验中,施测者使用单个试题对考生施测,计算机在每道试题作答完毕后立即做出应答正误的判断,如果该道试题应答正确,就对考生施测更难的试题组的第一道试题;如果该道试题应答错误,就对考生施测更容易的试题组的第一道试题。分层自适应测验以逐个试题为基础持续进行,对每一道试题进行正误判断,并根据判断结果将下一道试题移至合适的难度等级,直至达到测验终止条件时结束。
展开