天才一秒记住【梧桐文学】地址:https://www.wtwx.net
Ban等人(2001)还讨论了一种利用在BILOG程序里加入强先验分布来锚定试测题参数的方法。
另外,Segall(2003)提出了如何在在线标定情况下利用MonteCarlo)算法估计参数。
前者过于依赖特定程序,而后者MCMC的计算又用时极长,两者都不太实际。
Ban等人(2001)通过模拟研究对其他上述方法在3PL模型下进行了比较,得出的结论是MEM估计结果最精确,OEM第二,Stog-A最不准。
需要注意的是,在其文章中,OEM和MEM的方法中均提到了加入贝叶斯先验值,而在Stog-A中并未提到。
Zheng(2014)对于Sto以及这三种方法各加入贝叶斯先验值,共六种方法,在1PL,2PL,3PL模型下进行了比较。
结论是:在三种模型下,加入贝叶斯先验值的三种方法都好于未加入贝叶斯先验值的三种方法;这个差别在3PL模型下最明显,远大于三种方法本身之间的差异;在2PL模型下,这个差别的程度有所缩减;而在1PL模型下,这个差别的程度更加缩小。
而在未加入贝叶斯先验值的三种方法之间,在三种模型的b参数估计结果中都观测到了MEM好于OEM,且好于Stog-A的模式。
这个模式在其他参数中并未出现。
Zheng(2014)对于各算法的具体步骤和表达式进行了详细描述。
三、试测题嵌入位置
试测题嵌入位置理论上会影响参数标定的精准度,因为随着嵌入位置从考试刚开始的题目位置逐渐向考试尾端移动,考生能力水平估计值越来越精准(前提是模型拟合较好),而实时最优选题算法中正用到了这个考生能力水平估计值。
这个值中包含的测量误差越小,最优选题的计算越接近于真正的最优,理论上说估计效率也越高。
当然我们用随机选题法选取试测题时,试测嵌入位置不影响参数标定的结果,因为随机选题法并没有利用考生能力水平估计值。
我们也可以利用这个理论来检验不同的试测题选题法,如果某最优选题法不符合这一规律,有可能说明这个选题法的机制里有一些不合理的地方。
例如,Zheng(2014)的模拟研究中发现了在2PL和3PL模型下,以考生能力值为中心的选题法呈现出从考试前部的嵌入位置到考试中部,再到考试后部,试测题参数估计效率逐渐降低的趋势。
而这也印证了前文中所分析的,以考生能力值为中心的选题法并不是为优化题目参数估计效率而设计的,它的机制是不合理的。
在理想情况下,在使用最优选题法时,试测题应被嵌入在考试最后的位置,以获得最好的参数标定效率。
但是,如果这个信息被考生得知,并且他们也知道试测题不计入总分中,那么他们的答题动机将显著减小,从而影响了试测的效度。
因此,更加实际的方法是将试测题随机嵌入考试中,可以是随机嵌入全卷,或者考试的某一部分。
已有文献中的研究尝试了不同的嵌入设计。
例如,随机嵌入全卷(etal.,2012),固定在全长52题的考试中的第22题和第28题(Kingsbury,2009),随机嵌入全长28题的考试中的最后6题中的3题(vanderLinden&Ren,2015)。
Kingsbury(2009)建议试测题不应连续呈现。
Zheng(2014)在模拟研究中比较了随机嵌入全卷前三分之一、中三分之一及后三分之一的设计,结果发现这一因素与试测题选题法有明显的交互作用,即在不同的试测题选题法下,各嵌入位置呈现的模式很不一样。
四、试测终止规则
试测终止规则决定了在什么情况下结束一道试测题的试测。
试测结束后,试题将面临审核,审核通过后即可进入正式题库,被用在正式考试中。
当没有试测终止规则时,随着正式CAT考试的进行,试测题库中所有题目都可以任意被选择。
在考试窗口的任一时间,试测题库中的各题将拥有各异的参数估计精准度。
最简单的试测终止规则是基于样本量的规则(Ali&g,2014;Kingsbury,2009;Zhu,2006):当一道测试题的样本量达到某一指定量时,即结束该题的试测。
然而,在同一样本量下,不同试题的参数估计的误差可以差异很大,因此试测终止规则也可以基于参数估计的标准误值:当一道试测题的参数估计标准误低于某一指定阈限时,即结束该题的试测。
这一方法理论上比基于样本量的终止规则效率更高。
在这种设计下,建议同时也叠加一个最大样本量规则,以避免某些试题长期不终止试测。
Kingsbury(2009)还提出另一种可能的终止规则:当一道试测题的参数估计值在前后两次估计之间不再变动时,终止该题的试测。
终止规则是未来在线标定研究中很有价值的研究方向。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!