第二计算机化自适应测验原理（第1页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

第二节计算机化自适应测验原理

banner"

一、CAT的产生

假设需要测量三个物体的长度（如书本、桌子和树木），请问你会使用什么样的测量工具（直尺、米尺、皮尺……）？如果测量三个物体都使用同一个测量工具（如直尺或皮尺），请问该测量工具对这三个物体的测量误差是一样的吗？显然，测量误差不仅不是一样的还有可能差异较大。

例如，用直尺测量树木的误差明显要大于测量书本的误差，而用皮尺测量书本的误差显然会大于测量树木的误差。

因而在实践中，人们往往会根据物体（长度）本身的特征选择不同的测量工具。

例如，用直尺测量书本长度、用米尺测量桌子长度、用皮尺测量树木的长度……以保证对每个物体的测量误差尽可能小。

同理，如果需要测量三个被试的能力（高、中、低），若使用同样的测量工具（如同一份试卷或量表），则该测量工具对该三个被试的测量误差可能不相同甚至差异很大，因而也需要根据不同被试能力的特点选择最适合他她的测量工具。

传统的纸笔测验强调“千人一卷”

，所有被试完全采用相同的测量工具（同一份试卷或量表），从而可以实现不同被试间分数的直接比较，这种做法表面上实现了“公平公正”

，但实际上由于被试的测量误差各不相同且可能相差很大，反而影响了测验的“公平公正”

。

计算机化自适应测验（CAT）的产生有望改善这一状况，它强调“因人施测”

“量体裁衣”

的自适应测量思想，从题库中为每个被试选择一份最适合他她的测量工具（题目），即选择对每个被试具有最小测量误差（最大测量信度）的测量工具，从而真正实现了自适应的测量方式；同时，与传统纸笔测验相比，CAT不仅可以达到更高的测量精度，还有可以减少测验长度、减轻被试测试负担等优势。

二、CAT的原理

计算机化自适应测验的实现离不开相应的测量理论的支持，经典测量理论（CTT）由于无法实现项目参数间的等值从而不能支撑CAT的实现，而项目反应理论（IRT）的产生才使CAT的思想得以实现，因此一般认为项目反应理论是CAT的理论基础；同时CAT的实现还离不开具有相同量尺参数的大型题库（关于题库本章第三节有详细说明）。

CAT测试一般采用序贯测量方式，即根据被试的当前能力值，序贯从题库中选择与该被试当前能力相匹配的试题，被试每做完一道题都需要与前面所有做过的试题一并进行能力估计，并根据该被试新估计的当前能力估计值再从题库中挑选一道，依此循环，直至测试终止。

参见图2-2-1。

图2-2-1CAT过程

实现CAT的自适应选题，离不开相应的选题算法，当前测量学者们开发了多种自适应的选题算法，如难度匹配法、最大信息量法、按a分层法等。

现以难度匹配法为例来说明CAT的基本原理（参见图2-2-2）。

图2-2-2中两位被试（A和B）参加CAT测试，由于一开始对两位被试的能力不清楚，CAT一般试探性从题库中随机选择一题（或几题）给被试作答。

对于被试A，CAT随机选到一道偏容易的试题给被试作答，被试A答对该题，CAT接着挑选比上一题稍难的第2题给被试A做，答对第2题，CAT挑选比第2题更难的第3题供被试A作答，答对第3题，CAT接着挑选比第3题难的第4题，答错第4题，CAT再选择比第4题容易的第5题，依此循环。

随着做题数量的不断增加，被试能答对答错多大难度的题目倾向收敛（参见图2-2-2）。

从图2-2-2可看出，被试A大概能答对难度约为1.2的题目，超过该难度倾向答错、低于该难度倾向答对，由此可判断被试A的能力值大约为1.2。

从图2-2-2还可看出，被试B能答对难度约为-1.2的题目，超过该难度倾向答错、低于该难度倾向答对，由此可判断被试B的能力值大约为-1.2。

当然CAT多半是根据被试在CAT上所有项目的作答情况综合对被试能力值进行更为精确的估计。

图2-2-2CAT原理示意图

如果采用其他选题策略（如最大信息量法等），CAT的原理基本相似，这里不再详细展开。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

如遇章节错误，请点击报错(无需登陆)

第二 计算机化自适应测验原理（第1页）

第二计算机化自适应测验原理（第1页）