梧桐文学

第二 计算机化自适应测验原理(第1页)

天才一秒记住【梧桐文学】地址:https://www.wtwx.net

第二节计算机化自适应测验原理

banner"

>

一、CAT的产生

假设需要测量三个物体的长度(如书本、桌子和树木),请问你会使用什么样的测量工具(直尺、米尺、皮尺……)?如果测量三个物体都使用同一个测量工具(如直尺或皮尺),请问该测量工具对这三个物体的测量误差是一样的吗?显然,测量误差不仅不是一样的还有可能差异较大。

例如,用直尺测量树木的误差明显要大于测量书本的误差,而用皮尺测量书本的误差显然会大于测量树木的误差。

因而在实践中,人们往往会根据物体(长度)本身的特征选择不同的测量工具。

例如,用直尺测量书本长度、用米尺测量桌子长度、用皮尺测量树木的长度……以保证对每个物体的测量误差尽可能小。

同理,如果需要测量三个被试的能力(高、中、低),若使用同样的测量工具(如同一份试卷或量表),则该测量工具对该三个被试的测量误差可能不相同甚至差异很大,因而也需要根据不同被试能力的特点选择最适合他她的测量工具。

传统的纸笔测验强调“千人一卷”

,所有被试完全采用相同的测量工具(同一份试卷或量表),从而可以实现不同被试间分数的直接比较,这种做法表面上实现了“公平公正”

,但实际上由于被试的测量误差各不相同且可能相差很大,反而影响了测验的“公平公正”

计算机化自适应测验(CAT)的产生有望改善这一状况,它强调“因人施测”

“量体裁衣”

的自适应测量思想,从题库中为每个被试选择一份最适合他她的测量工具(题目),即选择对每个被试具有最小测量误差(最大测量信度)的测量工具,从而真正实现了自适应的测量方式;同时,与传统纸笔测验相比,CAT不仅可以达到更高的测量精度,还有可以减少测验长度、减轻被试测试负担等优势。

二、CAT的原理

计算机化自适应测验的实现离不开相应的测量理论的支持,经典测量理论(CTT)由于无法实现项目参数间的等值从而不能支撑CAT的实现,而项目反应理论(IRT)的产生才使CAT的思想得以实现,因此一般认为项目反应理论是CAT的理论基础;同时CAT的实现还离不开具有相同量尺参数的大型题库(关于题库本章第三节有详细说明)。

CAT测试一般采用序贯测量方式,即根据被试的当前能力值,序贯从题库中选择与该被试当前能力相匹配的试题,被试每做完一道题都需要与前面所有做过的试题一并进行能力估计,并根据该被试新估计的当前能力估计值再从题库中挑选一道,依此循环,直至测试终止。

参见图2-2-1。

图2-2-1CAT过程

实现CAT的自适应选题,离不开相应的选题算法,当前测量学者们开发了多种自适应的选题算法,如难度匹配法、最大信息量法、按a分层法等。

现以难度匹配法为例来说明CAT的基本原理(参见图2-2-2)。

图2-2-2中两位被试(A和B)参加CAT测试,由于一开始对两位被试的能力不清楚,CAT一般试探性从题库中随机选择一题(或几题)给被试作答。

对于被试A,CAT随机选到一道偏容易的试题给被试作答,被试A答对该题,CAT接着挑选比上一题稍难的第2题给被试A做,答对第2题,CAT挑选比第2题更难的第3题供被试A作答,答对第3题,CAT接着挑选比第3题难的第4题,答错第4题,CAT再选择比第4题容易的第5题,依此循环。

随着做题数量的不断增加,被试能答对答错多大难度的题目倾向收敛(参见图2-2-2)。

从图2-2-2可看出,被试A大概能答对难度约为1.2的题目,超过该难度倾向答错、低于该难度倾向答对,由此可判断被试A的能力值大约为1.2。

从图2-2-2还可看出,被试B能答对难度约为-1.2的题目,超过该难度倾向答错、低于该难度倾向答对,由此可判断被试B的能力值大约为-1.2。

当然CAT多半是根据被试在CAT上所有项目的作答情况综合对被试能力值进行更为精确的估计。

图2-2-2CAT原理示意图

如果采用其他选题策略(如最大信息量法等),CAT的原理基本相似,这里不再详细展开。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

斯坦索姆神豪九零后天师一睁眼,我穿成两个熊孩子后娘桃桃乌龙满级大佬从斗罗开始重生后我成了全大陆最横的崽狂探我的重返2008我真不知道原来我家这么有钱斗破乾坤,龙王求亲请排队重生之惊羽夫人每天都被套路从水浒开始的好汉之旅星际第一女将极品赘婿八零之珠光宝气公子实在太正义了棋魂:随身阿尔法狗穿成反派的病美人妹妹[穿书]洪荒之太清问道袖藏天光破茧一剑倾国空间农女:团宠娇妻甜又飒权游:睡龙之怒