第三计算机化自适应测验（第4页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

目前反应时已经成测评中的一个研究热点之一，重要的问题包括如何对反应时进行建模，如何利用反应时来提高能力估计的精度，如何提高计算机化自适应测验的选题效率，如何探测考生的各种不良作答策略（作弊、泄题、动机弱等）。

（九）实时的准确评分、结果报告与解读

正如上文论述的计算机减少考试误差的好处。

计算机可以快速地评分，计算分测验分数与总分。

因此，考生可以在测验结束几分钟之后拿到一份成绩报告单与结果解读。

但是纸笔测验一般至少需要一周到一个月不等的时间来完成评分撰写报告结果的任务。

很多标准化考试被认为没有任何教学指导意义，因为考试与成绩反馈之间的时间过长。

（十）电子化存储

由于作答信息收集方式的改变，计算机能够直接产生数字化的存储，避免了大量题本的物理运输、处理与存储。

电子化的存储方式大大降低了传输过程中发生错误的概率。

为了满足考试分析、二次教育研究以及存档的需求，这些数据可以快速便捷地传送。

三、CAT研究现状与未来研究方向

自CAT研究诞生40年以来，心理教育测量研究者的研究已经成绩斐然，CAT也成为心理教育测量领域一个成熟的分支，成为专业学术杂志与会议的重要议题，甚至有了专门的国际性研究协会。

这个部分我们将对CAT研究的过去与现状从测量模型、考试实施、考试分析三个方面来进行梳理总结，并对未来的重要研究问题进行一些预测。

（一）测量模型

CAT研究初期（20世纪70年代），CAT是一种与传统纸笔测验完全不同的形式，具有开创性。

因此有关的研究处在萌芽阶段，在主题内容技术等方面非常有限。

第一，最重要的研究重点是能力估计的统计信度；第二，只研究CAT形式，而忽略了其他的形式；第三，只研究二分的项目，而忽略了多级计分模型；第四，只研究单维模型。

CAT研究还没有开始研发新的项目类型与评分规则（如纸笔测验无法呈现与评分的项目类型）。

这些新题型与评分规则都可以增加考试的效度与可考查的内容。

20世纪90年代廉价而强大的电脑开始出现，极大地促进了第一批大型CBT项目的产生，如ASVAB、GRE中的部分考试，以及TOEFL。

这些大型项目在实践中遇到大量的技术难题，其中大部分都是非常有趣兼具挑战性的研究性课题。

同时，计算机与多媒体技术的结合大大开阔了测试研究者与开发者的思路，激励他们尝试新的测验形式与作答形式。

例如，使用视频来呈现项目，收集考生的语音作答等。

CBT的兴趣已经不再仅仅局限于统计层面，不仅关注信度，也开始关注效度，如考题内容的平衡等。

计算机不仅仅可以实现自适应，还可以呈现更复杂的项目，如复杂的视听材料（过程模拟、场景的演变等）。

计算机也可以实现考生与测验之间更高级的互动。

例如，考题可以是一个模拟的病人，考生需要对其进行诊断、询问、开药等活动。

开放题的计算机化评分也变得更加可能，如ETS研发的自动评分系统。

但是同时，题库的开发与维护变得更加复杂，也比最初设想的昂贵。

考试安全已经日益成为一个重要的问题。

测试工业界一方面希望通过立法来设立更严格的项目管理制度，另一方面也希望开发出小样本与缺失数据下的各种考试质量控制技术（参数估计方法、项目功能差异、被试拟合等）。

1.研究主题

（1）CAT题库。

最优题库的内容与项目参数是什么分布？能否帮助测试编制者开发出具有理想统计学性质的项目？

（2）在线标定。

在线标定收集到的数据一般来说是确实数据。

什么是最优的取样设计？项目内容与形式能否提供一些项目参数（特别是难度参数）的先验信息，这样可以减少样本容量的要求？

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第三 计算机化自适应测验（第4页）