天才一秒记住【梧桐文学】地址:https://www.wtwx.net
表10-3-1两次CFA分析结果以及删题理由(1)
续表
表10-3-2最终D-CAT所挑选出来的64道题目(包括锚题)的项目参数(2)
续表1
续表2
(七)测验特性
1.模拟研究A
将模拟的被试数据应用到CAT算法当中。
当潜在特质值在-2~2时,程序平均需要用到7.15道题目(标准差为1.39)来估计被试的潜在特质值,就可以达到之前设定的标准SE≤0.32。
当潜在特质值在两个标准差之外时,需要的题目数明显更高(M=27.77,SD=10.75)。
图10-3-2显示出了测量不同水平的潜在特质要达到预定的准备度所需要的平均题目数。
图10-3-2D-CAT(终止规则SE≤0.32)中不同潜在特质所需的题目数(和标准差)
2.模拟研究B
当用真实的患者作答数据来运行算法的时候,θ在样本平均数±2个标准差附近的被试需要平均6.12个题目(SD=2.11)来估计就能达到测验精度标准。
只有61个患者在这个范围之外,这些患者需要18.3±11.7个题目(表10-3-3)。
基于IRT的θ值与题库中所有题目的总分高度相关(积差相关值r=0.95),而且令人满意的是与一些已编制的抑郁测量工具相关度也很高(BDI:R=0.79;CES-D:R=0.83)。
为了与定长的CAT进行比较,Fliege等人也考查了基于IRT的θ值与CES-D8道题目版本的总分之间的联系(R=0.76)。
图10-3-3的散点图的形状较平缓呈S形,这说明了在潜在特质连续体的高低两端,CAT的区分能力比定长的量表好一些。
表10-3-3最终D-CAT所挑选出来的64道题目(包括锚题)的项目参数
续表1
续表2
图10-3-3模拟D-CAT得分的散点图
四、讨论
最后,研究者回顾了开发D-CAT的整个流程。
目前对于基于IRT测验的开发在每一步中哪些可用的方法是最合适的,并没有一个统一的意见。
研究者在本研究中所选择的方法都是基于最终CAT得以实际应用的角度来考虑的。
许多科学家质疑健康统计数据是否真的适用于IRT模型,Hambleton等人(1991)提出了对于基本模型假设的系统的组合检验。
例如,单维性;模型固有的特性;依靠这个模型可能得到的预测结果。
他们一共提出了22种不同的方法,本研究用到了其中的6种。
模拟研究结果显示,完整题库中64道题目得分与CAT中平均6道题目的得分几乎没有什么大的差异。
节省了相当大部分的题目并且没有与之相对应的题目信息的损失,这与先前的研究是一致的。
表示CAT得分与固定长度的抑郁量表之间相关的散点图呈平缓的S形曲线,说明了CAT在潜在特质低分和高分的两端有着更高的区分度。
我们CAT的测验信息曲线显示了信息量在潜在特质的最末端信息量会下降。
然而,较之传统测量工具的优势是可以得到每个患者的测量精度,而且可以记录下潜在特质。
结果表明,测量潜在特质值在最末端的被试需要数量更多的题目。
然而,所需题目的平均数也并没有超过抑郁标准问卷,即使是对于Theta值在-2以下或者2以上的被试。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!