天才一秒记住【梧桐文学】地址:https://www.wtwx.net
目前有关的研究包括复杂项目的自动评分与作答反应时。
1.复杂项目的自动评分
目前,用于表现型测试的开放题日益流行起来。
开放题一般都是人工阅卷,所以与选择题相比,开放题的评分成本较高,也非常耗时。
很多成本与时间来自评分活动的各个环节,包括评分者到阅卷地点、评分标准的制定(整体评分或者采点评分规则)、评分者的训练与质量控制、阅卷活动、标准设定、分数报告等。
实施表现型测试题的CBT也更加复杂。
计算机最显著的优势是实时评分、提高测量效率,但是表现型测试项目似乎与此背道而驰,因为它无法实现实时评分。
复杂项目的自动评分是解决这个难题的重点。
一旦实现重大突破,那么CBT就可以施测满足教育者需要的开放式项目,使项目更加贴近现实情境。
自动评分也可以促进新题型的开发,提供更多的测试信息。
具体的研究问题包括:
(1)高效自动评分算法是什么样的?开发这样的算法需要多少人力资源?如何降低学习素材(专家人工打分的材料供机器学习评分规则的)的需求量?分数量尺对自动评分是否存在影响?这些因素会受到项目类型与测量技能的影响吗?
(2)衡量自动评分的标准是什么?机器评分与人工评分的一致性是最重要的标准吗?机器评分比人工评分具有更高的信度吗?分类树(ClassifiTree)等方法能否准确地对考生进行分类?在作文写作中,分类树能否很好地区分具有某些特征的作答,提高作文自动评分的准确性?
(3)自动评分与人工评分的混合使用能否产生更高的信度与效度?例如,人机组合是否会比两个人工或者两台机器阅卷更加准确?哪种方式更加节约成本?公众更容易接受哪种方式?如果人机组合,那么人工介入的基本规则是什么?
(4)回归类、复杂规则类的算法是复杂表现型项目自动评分的最好方法吗?其他方法(如回归类与复杂规则类的混合算法)可以提高自动评分的精确性吗?不同复杂项目、领域与考试类型(高利害还是诊断)需要多大的准确性?评分回归模型中最优特征的类型是什么?需要多少个特征?最优特征与数量在统一测试领域内的可推广度有多大?
(5)目前各类项目中,最适用于自动评分的项目类型是什么?自动评分算法的可推广度有多高?自动评分还有什么其他的外部效度问题?
(6)诊断功能能否有效地与自动评分结合?在写作自动评分中,能否实现对写作的程序性技能与语法技能进行评价,这样可以实现写作评分的效度研究?能否开展多维的自动评分,提供诊断信息?
2.作答反应时
我们需要进一步探讨如何对测验中收集的信息进行更好地挖掘。
作答的反应时间是我们可以利用的附加信息。
这个领域的重要研究主题包括:
(1)研究反应时间在能力估计中的附加值以及阅读与作答中的不同反应时间可能反映出来的加工技巧。
在计算心理测量学指标时,反应时能否对数据降噪起到任何作用?不同考生群体之间(高低、性别、种族)存在反应时差异吗?
(2)反应时建模。
将反应时信息用来推断考生在数学推理、写作与具体领域(生物、历史等)使用的认知技能。
反应时模型会加深我们对这些技能的认识吗?是否存在反应时与技能之间的调节变量?反应时模型与能力模型能否探查不同人群或者技能之间的差异?
(3)利用反应时监控考生作答速度模式来提高考试的效度。
通过作答反应时的模型,我们可以探测快速猜测等行为,从而减少考试焦虑、考试技巧等无关因素的影响。
是否存在与最优作答相关的反应时模式,不同领域的最优反应时模型是否存在一致性?不同人群之间的反应时差异能够部分地解释人群能力表现的差异吗?
本章概括性地介绍了自适应测验的计算机化测验的基本概念、主要特征、历史变革与现状;同时,详细地总结了计算机化自适应测验的历史、现状与重要研究问题。
不难看出,计算机化测验涉及教育、心理测量与信息技术的变革以及几者之间的互动,虽然历史不算很长,但是内容丰富多变。
本章提及的一些重点与热点会在后面的章节中进行进一步更加详尽地总结与评述。
思考题:
1.自适应测验有什么特征?
2.计算机化测验有哪些分类及各类有什么特征?
3.计算机化自适应测验包括哪些基本元素(或算法)?
4.计算机化自适应测验有什么优势?
5.你觉得计算机化自适应测验未来的发展方向有哪些?
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!