天才一秒记住【梧桐文学】地址:https://www.wtwx.net
第三节计算机化自适应测验
banner"
>
计算机化自适应测验是利用现代化的信息技术手段实现自适应技术的测验形式。
第二节已经指出,它是第二代计算机化测验,也是发展最为成熟的自适应测验形式,第三代与第四代可以视为第二代计算机化考试在心理测量理论与考试结果应用方面的拓展。
本节将详细介绍计算机化自适应测验的概念、优势、研究现状与未来研究方向等方面。
一、概念
计算机化自适应测验根据考生前面的作答选择能够最大化地提高测量精度的项目。
从考生的角度来看,考试的难度与其能力是匹配的。
如果考生能答对中等难度的项目,后面的项目可能就会更难一些。
如果他们的作答不好,就有可能做更简单一些的项目。
因此计算机化自适应测验的突出优点就是提高了考试的效率,只需要更少的题就能达到传统纸笔测试的测量精度。
一个计算机化自适应测验本质上就是下面这样一个迭代算法。
第一步,根据对考生能力的现有估计,在所有可能的项目中寻找最佳项目;
第二步,把选定的项目呈现给考生,考生给出作答;
第三步,根据考生的作答,更新考生的能力估计值;
第四步,检查是否符合终止规则。
如果符合,考试结束;反之,重复以上三个步骤。
为了实现这个迭代算法,一个计算机化自适应测验系统应当包括以下五个缺一不可的基本元素:事先标定的题库、初始题选择、选题法、能力估计方法与终止规则。
(一)事先标定的题库
CAT需要从一个题库中选择项目呈现给考生。
这个题库中的项目都需要用心理测量学模型标定,把它们放在一个共同的标尺上。
最常用的心理测量学模型是项目反应理论(ItemRespo)。
在20世纪70年代,大部分CAT研究都是采用了经典测量理论(ClassicTestTheory,CTT)。
此后由于IRT研究的大发展,IRT取代了CTT。
目前,两种新的测量理论也渐渐流行起来:多维项目反应理论(Multi-dimensionalIRT,MIRT)与认知诊断理论(itiveDiagnosis,CD),因此也产生了基于这两种新理论的CAT,称为多维IRT的计算机化自适应测验(MIRT-CAT)与认知诊断的计算机化自适应测验(CD-CAT)。
(二)初始题选择
CAT选题的基本依据是考试不同进程中当前的能力估计值。
但是在施测之前,一般很难得到考生能力的估计,因此需要一些特殊的方法来处理此时的能力粗略估计问题。
一般来说有两大类方法:第一类是通过其他渠道获得的考生已有信息,如性别、年级等背景变量(九年级的考生一般来说比七年级的考生能力更高,九年级考生应该选择较难的项目而七年级考生选择相对容易的项目)。
第二类就是假定考生具有中等能力水平,选择中等难度的项目。
(三)选题法
选题法的主要任务是要构造一个指标,选出一个对能力估计值最有测量效率的项目。
目前最常用的选题指标叫作信息函数。
顾名思义,这个函数值最大(或者最小)的项目能够提供最多的信息。
选题法中涉及很多信息函数,但是可以大致分为两大类:一类是来自于统计学的Fisher信息函数;另一类是来自于计算机科学的信息函数,包括Shannon信息函数、Kubek-Leibler信息函数以及互信息函数(MutualInformation)等。
同时,选题法也不仅仅涉及测量效率的问题,也涉及心理与教育测量中各种实际的限制,如与考试安全相关的项目曝光率问题、内容平衡问题、正确作答的排序问题等。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!