第三计算机化自适应测验（第5页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

（3）曝光控制。

怎样的曝光控制方式才是有效的？怎样减少由曝光控制带来的测量精度的损失？

（4）作答速度。

CAT中考生作答的考题不一样，那么如何避免由此带来的作答速度效应？

（5）质量控制。

CAT中获取的作答信息较少，给项目功能差异、参数漂移、作答异常的探查带来了困难。

现有的技术在CAT中还可以使用吗？还有什么新的质量控制技术？

2.突破性研究

以下研究主题是更加长久的研究主题，能够促进下一代CAT的形式。

（1）CBT与认知诊断模型的结合。

（2）复杂项目或者作答的测量模型建模（如基于电脑模拟的测试）。

（3）提高考试公平的各种方法（按照文化背景来选题）。

（4）多维测量模型。

（5）信息选题法与能力估计误差之间的交互作用。

（6）项目自动生成。

（二）考试实施

20世纪七八十年代的研究集中在IRT模型、选题法、终止规则，项目与能力参数的估计方法。

现在CAT要面对更新的技术难题，包括：项目的研发、更新，用一个更宽泛的名词，叫作“题库维护”

；项目前测（获得各种项目参数）；项目与考试安全。

这些新问题都是在一些考试机构实施CAT后发现项目提前曝光影响了分数的效度（Validity）。

这三个技术难题高度相关：大题库可以提高考试安全，但是大题库的开发十分昂贵，因此对项目开发与质量控制的成本与收益需要进行监控。

同时，为项目参数估计与质量控制收集数据的过程也是项目曝光的过程，可能会引发安全问题。

因此，需要大量的研究来降低项目开发成本，降低项目曝光率。

1.研究主题

如果以下八个问题能够回答，那么CAT与CAT的实施效率将大幅提高：项目研发、项目统计指标、有效题库的维护、项目曝光、成本收益分析、公平、在不同施测条件下的考生行为与考试平台选择。

（1）项目研发。

能够提升项目编制者的培训？项目可以克隆吗？这些克隆项目有类似的项目统计指标吗？可以开发出项目生成的程序吗？自动评分可以促进开放题在CBT中的推广吗？在CBT中选择题仍然占据主流地位，从选择题转向使用开放题的实际困难是什么？克隆题会不会加剧考试培训对考试的信效度带来的威胁？

（2）项目统计指标。

获得足够小估计误差的项目各项统计指标需要多大的样本？这些估计误差对能力估计的影响有多大？项目编写者能否参与获得这些统计指标？如果可以，最有效的获取方式是什么？通过纸笔测验获得的项目统计指标是否适用于CBT？在纸笔测验中获得的统计指标中，哪一个对CBT最没有参考价值？有没有方法使考生在实际考试中发挥出自己的最好水平？

（3）有效题库的维护。

什么结构与组织形式才是最优题库？题库使用的时间是多长？一个题库的分数需要与一个参照题库进行等值吗？一个安全题库的最大项目曝光度是多少？题库中的项目应该如何进行轮休才能既保证题库安全又能获得最大的使用周期？如何探查被泄露的题？在考试过程中探查到了被泄露的题，有什么方法进行补救？另一个与题库项目使用率最大化有关的问题是如何可以开发出高效的算法，它可以使用题库中所有项目但是对能力估计不会产生重大的负面影响。

（4）项目曝光。

一个考生知道一个题库中部分项目会产生多大的影响？应该如何度量项目曝光，什么是高曝光率或者低曝光率？曝光可以或者应该定义为什么时间看到项目，而不是被看到的频率？在考虑项目曝光的情况下，选题法选出的项目仍然能够保证内容平衡的要求吗？

（5）成本收益分析。

将考试效度与CBT其他的优势相比，实施CBT需要的成本是否值得？CBT的成本会对某些特殊群体造成重大影响吗？有没有降低CBT成本的新办法？相对于纸笔测验，CBT的增值是什么？

（6）公平。

CAT中考生的考题不同，数量与难度也不同，这些会带来公平问题吗？如果内容平衡要求发生变化，那么不同时间点的分数具有多大的可比性？在CAT中如何探查项目功能差异？CAT考试中考生如何作弊？如何防止作弊？

（7）在不同施测条件下的考生行为。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

如遇章节错误，请点击报错(无需登陆)

第三 计算机化自适应测验（第5页）

第三计算机化自适应测验（第5页）