天才一秒记住【梧桐文学】地址:https://www.wtwx.net
(四)总结
综合以上可见,目前在单维二级评分模型下的试测题选题法的种类很多。
以考生能力值为中心的选题法,对除1PL模型之外的模型,有思路上的问题;而对以试测题为中心的选题法的早期探索,实际上不可行。
除此之外,其他选题法包括以试测题为中心的选题法以及随机选题法,策略各异,各有不同的优势。
目前还没有哪一种试测题选题法像CAT中的最大Fisher信息量一样,获得学术界和应用界的一致公认和采用。
未来还需要更多的研究来充实这一方面的科学认识。
除了在统计学上特点不同之外,在试测题选题法的考虑中也包括了质性问题以及现实中与考生交互作用的讨论。
如第一节所说的,通过最优取样理论获取的样本很容易失去对总体的代表性,从而成为偏置样本。
那么这种样本从本质上来说是否有效呢?假如从这个角度来看,也许唯一有效的选题法就是随机取样。
另外,如果嵌入试测题的难度与前后题目的难度之间有所不同,考生是否真的能察觉到?例如,Vispoel,Clough,Bleiler,Hendri和Ihrig(2002)及Vispoel,Clough和Bleiler(2005)通过真人实验发现,考生对于题目难度的判断差别很大,这并不准确。
而这又对考生的心理和行为到底有什么真正的影响?这些都是值得思考和讨论的问题。
二、在线标定情境下的参数估计方法
(一)概述
1.在线标定与传统试测
在线标定情境下的题目参数估计和传统情境下的题目参数估计有明显的区别。
在传统情境下,首先进行完整的试测,获取所有的作答数据,随后一次性完成题目标定。
而作答数据一般是完整矩阵(所有参加试测的考生完成所有试测题),或者完整模块式矩阵(每一组题有规律地分配给一组考生,从而作答矩阵形成一个个方形模块)。
与之相比,在线标定情境下,每一道题将实时分配给完全不同的考生样本,同时每一个考生作答的题目(包括正式CAT题和测试题)可以完全无系统规律。
另外,在在线标定情境下,作答数据的获取和参数的标定是交替循环进行的。
传统的题目参数估计可以将整齐的作答矩阵提供给参数标定软件,统一估计出题目参数。
对于大型的模块式矩阵,有些软件也可能无法处理。
而在线标定情境下的作答数据,既不能形成整齐的矩阵,也有很多缺失值(因为每一个考生只作答正式CAT题库中的一小部分题目,以及试测题库中的一小部分题目),并且需要在样本不断积累的过程中反复估计和更新题目参数。
因而在这种情境下,想要应用传统的参数估计软件可能会面临较大的困难,而需要开发新的计算程序来进行实时的、逐题的参数标定。
2.参数量尺的锚定
另一个需要考虑的方面是参数量尺(Scale)的锚定。
由于IRT有参数量尺不确定(Sdeterminacy)的性质,在参数估计之后,需要对参数量尺进行锚定即等值。
如果是对一个全新的题库进行参数标定,而没有任何已知的参数量尺,那么在参数估计之后,可以任意变动参数量尺,而不影响模型的拟合效果。
一般的程序会按难度参数或者考生能力参数分布进行量尺标准化,从而将参数量尺锚定。
如果存在现有的题库和相应的参数量尺,在试测和标定新题时,需要将新题的参数锚定到已有的参数量尺上,那么可以有两种方法完成:一种是将新题单独估计,事后通过量尺链接(Linking)的方法将新题参数折换到已有量尺上。
这种链接需要倚靠常规等值设计中的锚题(Ans)或锚人(AnchorPersons)来提供新旧量尺间的桥梁。
这种方法环节多,成本大,对于锚题或锚人的要求复杂。
另一种是将旧题引入新题参数估计的过程中,使旧题参数固定在已知参数值上,而后估计新题参数,这样估计出的新题参数毋需经过量尺链接,已直接锚定在已有量尺上了。
这种方法相当于隐含地利用了锚人设计,因为每位考生都既完成了部分旧题也完成了部分新题。
适合在线标定的方式是上述第二种情境的第二种方法:每一次估计新题参数,将利用完成这一题的所有考生的作答数据,其中包含了他们各自完成的正式CAT的题目数据,用于对新题参数量尺的锚定。
Kim(2006)讨论了几种在传统试测模式下使用的固定参数标定法(FixedParameterCalibration),这与下文要介绍的几种在线标定文献里参数估计法主旨相同,不同点在于在线标定的作答数据更分散,计算流程更机动灵活。
3.计算流程
在考试进行过程中,不需要在考生完成试测题之后马上进行参数标定,因为其后呈现的正式CAT题目的作答数据,仍可以被包含在参数标定的计算之中,提高估计的精度。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!