简介:本研究基于多层面Rasch模型,通过分析评分结果对PRETCO口试评分标准的效度进行了验证,结果发现:PRETCO口试评分标准能够有效区分考生的能力;评分员评分的内部一致性总体较好;虽然评分员之间的严厉度有明显差别,但是这些差异并不影响总体的评分质量;评分员使用了评分标准中所有分数段;各个分数段的评分总体分布较为合理;因此,PRETCO口试评分标准的整体效度较高。但是,研究同样发现一些问题:“朗读”任务评分标准中两个分数段与考生能力出现了负增长;“陈述”任务评分标准一个分数段的使用频次过低,个别分数段阈值差距较小,评分员对这些分数段难以把握,容易产生混淆。基于此,本研究尝试为完善PRETCO口试评分标准以及评分员的培训提供一些启示与建议。
简介:口语考试的评分是评分员基于评分标准对语言产出的认知处理过程,处理的目的就是解释考生之间的分数差异(scorevari-ance)。用于解释分数差异的变量包括构念相关变量(construct-rele-vantvariables)和构念不相关变量(construct-irrelevantvariables)。如果构念不相关变量发生作用,那么评分就产生误差。考试误差可区分为系统性误差(systematicerror)和随机性误差(randomerror)。随机性误差是评分误差控制的重点内容。口语考试评分误差的主要表现形式包括评分员的个性差异、回归均值趋势和假正态分布。我们可以通过分数差异分布和回归系数等统计手段验证口语考试评分误差的大小程度。本文还讨论了口语考试评分误差控制的目标、原则和方法。评估误差控制的目的就是最大化构念相关变量的作用,最小化构念不相关变量的影响作用;这就要求评分员在评分过程中坚持一致性、完整性和独立性三条基本原则;在手段的使用方面,口语考试的评分误差控制主要包括管理手段、技术手段和统计手段等。