简介:本研究以"中国学习者英语语料库"中的大学英语四、六级考试作文为研究样本,比较300篇作文的人工评分和国内某自动评分系统结果的差异;同时利用人工和软件结合的方法,分析作文的词汇、句法、语篇和错误等四类语言类定量特征对人工和机器评分的影响,揭示人机评分差异的成因。结果显示,自动批改系统整体评分效度有待提高;机器所依赖的语言类量化特征在人工批改中的作用有限,评分依据的不同造成两者结果的差异。
简介:以2012年高教社杯全国大学生数学建模竞赛A题为例,建立几种葡萄酒品尝评分的可信性度量的评价准则.以品酒员和酒样品为控制因素对品尝评分进行方差分析,比较均方差和相应F观测值度量评分差异主要是来自品酒员还是来自酒样品;通过对各组品尝评分的协同系数检验,实现对各组品酒员评判标准的一致性评价;利用品酒员评分的分值偏差和排序偏差综合集成结果,建立品酒员可信度量化模型,并排列葡萄酒样品的综合评价优化结果;通过对品尝评分的可靠性研究和重复测量的方差分析实现对品酒员可信性度量.SPSS21计算表明四种准则在应用中简单易行,研究结果可以作为评价评审专家选择、调整和淘汰的依据.
简介:美国国家教育进展评估(NAEP)数学测评旨在了解学生的数学知识和技能,以及学生运用他们的知识解决问题的能力。NAEP2013数学测评分析框架包括内容领域和数学精熟度,其中,内容领域包括数的性质和运算、测量、几何、代数、数据分析、统计和概率等内容;精熟度按照复杂性主要分成低、中、高三个程度。NAEP数学试题注重生活情境,强调学生对图表或表格的认读和解释能力,并注重学生数学思维能力的养成。NAEP2013数学测评及试题设计启示教师,应在数学问题的设计中注重情境的真实性与合理化,凸显数学的应用价值;增强试题的开放程度,促进学生数学思维的发展;重视数学问题解决过程,以合理性为评价准则。
简介:目的:探究幼儿师范生口语表达能力水平与结构,分析幼儿师范生口语测试中的评分者效应,以提升幼儿师范生口语测试公平性,促进幼儿教师口语课程教学效果。方法:以某高校学前教育学院举行的幼儿师范生口语大赛为例,运用多面Rasch技术分析本次大赛所得到的测评数据。结果:幼儿师范生口语表达能力水平相差较大,六位评分者评分严格,且差异明显,评分者的前后一贯性差,评分等级设置过于分散,高等级与低等级未能发挥相应作用。结论:幼儿师范生口语表达能力是多成分心理特质,需要从多方面训练,测试评分偏差源于评分员对评分规则的熟知度差,口语测试应当合理分散进行,过于集中测试导致的评分疲劳等会影响评分公平性。
简介:探讨分段诊断性刮宫术(分段诊刮术)手术模型和考核评分系统在妇产科住院医师临床技能培训中的作用。选取2015年1月至2017年9月在北京大学人民医院妇产科住院医师培训基地轮转的43名住院医师,分别进行出科考核和年度考核60人次。考试中,要求住院医师根据所给病例,在女性骨盆模型上完成分段诊刮术,并表述相应的术前、术中和术后处理。考试评分表中包含与手术相关的10个项目,分别为术前3项、术中2项、术后5项。统计各项得分,评出优良、及格、不及格3个级别,以综合判断住院医师对手术的掌握情况。对考试不及格者要求训练后重新考试,直至及格。在各项评分中,无菌操作和病历记录2项不及格比例较高,分别为33.3%和68.3%。另外,在术前准备和知情同意项目中也各有18.3%不及格,其余各项不及格比率〈10.0%。具体分析评分表中各个考核项目,找出完成分段诊刮术过程中的不足之处,以增强技能培训中的针对性。模拟分段诊刮术及考核评分系统是检验住院医师对手术掌握情况的一种方法,量化分析手术完成情况对加强住院医师基本手术技能培训和临床思维的培养有积极作用。