天才一秒记住【梧桐文学】地址:https://www.wtwx.net
所以正确的做法是在每位考生完成整个考试之后,对考试中嵌入的所有试测题进行标定。
另一种可行的计算流程是,在一道试测题积累若干个(如10个)新的作答数据之后再进行标定。
也就是说,不需要在每位考生完成考试之后都实施参数标定,而是如果这位考生完成的试测题中,有一道题刚好积累了10个新的作答数据,则只对该题进行参数标定;而其他试测题只记录作答数据,不标定,等到有其他考生作答了这些题,达到10个新数据时,再集合之前记录的所有相关数据,来标定那些题。
这个方法可以节省计算机的计算量。
下文将介绍已有文献中的几种适用于在线标定的参数估计方法。
(二)Stog-A
Stog-A(Stog,1988)是最早被提出的针对在线标定情境的参数估计方法。
在这一设计下,当一位考生完成了整个考试后,先利用正式CAT题目来估计考生的能力水平值。
而后,把估计出的考生能力值当作已知定量,应用条件极大似然估计法(umLikelihoodEstimation)来估计参数值。
在具体实现条件极大似然估计时,目标是找到能够最大化对数条件似然值的题目参数,一般需要采用计算机循环近似的算法。
常用的算法是将二分法(Bise)和牛顿-拉夫逊(on-Raphson)循环结合使用。
这个方法是思路上最直接,计算上最容易的。
但Stog(1988)的研究中发现,由于这一方法使用的是考生能力估计值,而不是真实能力值,产生的试测题参数值可能存在量尺漂移(ScaleDrift)。
(三)OEM
OEM方法由Wainer和Mislevy(1990)提出,全称为单循环EM方法(Oion-maximizatiohod)。
它是由传统参数估计中最受认可、最常用的边际极大似然估计法(MarginalMaximumLikelihood)衍生出来的。
边际极大似然估计法的理念是当考生能力值未知,无法运用条件极大似然估计法时,基于从作答数据中算出的后验考生能力值分布,可以算出题目参数的边际似然值表达式,而后以最大化这一边际似然值为目标,算出题目参数值。
在Baker和Kim(2004)的详解中,这一算法的具体实现,利用了统计上EM算法的架构。
EM算法包含了交替循环的E步骤(Expeaximization):E步骤先根据当前题目参数临时值,算出所有考生能力的后验分布,再利用这些后验分布来算出题目参数的对数似然值表达式;M步骤以最大化前述表达式为目标,算出题目参数估计值。
下一循环的E步骤则利用了新的题目参数估计值,更新完善考生能力的后验分布,算出新的对数似然值表达式,如此往复,不断更新完善题目参数估计值,直到算法收敛(如参数估计值在循环之间不再变动)。
这种方法既无须知道考生能力值,又从作答数据中获取了考生能力值的信息,帮助题目参数的估计,是在统计上相对完善的设计,因而也是最受认可的参数估计法。
在在线标定的情境下,OEM的方法只包含了一个循环。
在E步骤中,考生的后验能力分布是从所有该考生完成的正式CAT题目中获得的;而后的M步骤,利用前述考生能力后验分布算出的对数似然值,以最大化该值为目标,找到试测题参数估计值。
这一方法的理念是,在传统参数标定中,所有题目的参数都是未知的,因而考生能力后验分布的获取需要通过EM循环不断完善;然而在在线标定的情境下,正式CAT题目的参数值是已知的,理论上可以利用那些正式题目,仅一步就可以直接获取精准的考生能力后验分布,从而避免了反复循环,节省了计算时间。
(四)MEM
MEM方法由Ban等人(2001)提出,全称为多循环EM方法(Multiple-cycleExpeizatiohod)。
它包含了正常的EM循环,直到参数收敛终止。
在第一个E步骤中,考生的后验能力分布只从该考生完成的正式CAT题目中获得;而在之后所有的E步骤中,考生的后验能力分布的获得,既利用了所有该考生完成的正式CAT题目,也利用了试测题作答数据和其新估计的参数值。
(五)贝叶斯估计法
在上述三种估计法中,都可以在似然值表达式中加入贝叶斯先验值,形成对贝叶斯后验似然值的最大化,具体算法见Baker,Kim(2004)及Zheng(2014)。
贝叶斯成分的加入可以使参数估计中牛顿-拉夫逊(on-Raphson)循环更加稳定。
尤其是对于3PL模型的题目,或样本量小的情况,普通的牛顿-拉夫逊循环有可能不收敛,而加入贝叶斯成分可以有效缓解这一问题。
而在线标定的情境正好符合样本量小的情况,因为在试测题作答样本积累的过程中,题目参数不断被更新,而在样本积累的初期,样本量自然是小的。
(六)其他方法及方法间的比较
针对Stog-A的量尺漂移问题,Stog(1988)又提出了Stog-B的方法。
这一设计要求在考试中安排锚题(正式CAT题目,要求所有人作答)。
在对试测题进行参数标定之后,利用锚题再完成一轮等值。
这一方法并不太实际,因为它显著加长了考试长度,同时纠正效果也不一定显著,因为等值过程也引入了相应的不可忽略的误差。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!