首页 理论教育评分规则,读写测评中的标尺设置规则

评分规则,读写测评中的标尺设置规则

【摘要】:我们习惯用的答案、评分标准,其“标尺”就是试题实际的分数,该数值主要根据具体试卷的结构和试题的重要性而定;而国际测量理论、实践中的评分标准,分值范围即标尺大小,有独立于具体试卷之外的一般规则。(一)基于题型规划评分标准标尺先看NAEP的做法。NAEP评分标准标尺设定范围符合阿特建议的规则。总的来说,试题评分标准标尺的大小,基本与评估内容的复杂性、试题的答题空间、思维容量成正比。

我们习惯用的答案、评分标准,其“标尺”就是试题实际的分数,该数值主要根据具体试卷的结构和试题的重要性而定;而国际测量理论、实践中的评分标准,分值范围即标尺大小,有独立于具体试卷之外的一般规则。

(一)基于题型规划评分标准标尺

先看NAEP的做法。20世纪70年代初NAEP就已经形成了较为成熟的评分标准[7]。在该测评项目的阅读测评框架文件和写作测评框架文件中均有对评分标准的说明。就NAEP阅读测评而言,评分标准是在试题类型框架下考虑的。相关说明可整理如表8-1[8]所示:

表8-1 NAEP各类型题目评分标准标尺设定

概括而言,NAEP阅读测评中各类试题的评分依据形成了一套评分标准体系,评分标准标尺的确定路径大致是:[9]考虑什么类型的题目,学生需要作出怎样的行为反应;②根据特定类型题目的答题任务量预设标尺数值范围;③规定标尺数值所代表的意义。

推敲NAEP评分标准设定规则,有个细节问题可以追问:题型是固定的,特定题型对应的评分标准的标尺是否也相对固定?比较而言,选择性反应题和简短的建构反应题的评分标准,标尺数值范围相对稳定;而扩展性建构反应题的评分标准,标尺数值范围可适度增大,NAEP实际测评时就用到了标尺为0—4的评分标准。当然,数值范围再怎么可变也有一定的限度,因为在国际测量与评价领域,评分标尺的设置已经形成了一些基本规则。

(二)根据特定任务测评目的和测评空间规划评分标准标尺

阿特(Alter,J.)等人在考察了若干评分标准之后,专门就如何确定一个评分标准“评分点的数目”,即标尺范围,提出了系列建议。[10]

·一般来说,问题的开放度越高,表现形式越复杂,则量表的评分范围就越大。

·如果使用评分标准的目的是根据规定的标准去判定能力的大小,则4点量表用得较多,其中“3”通常代表“达标”,“4”代表高于一般标准,“2”意味着还差一点不能达标,而“1”则意味着明显地低于一般标准。

·如果是对同一年级学生的成绩进行评定,推荐在评分标准中设置3—6个评分点。

·如果要评价一个连续的发展过程——要使用评分标准追踪不同年级学生的某项技能——则需要更多的评分点,如6—11个评分点。

对照来看,NAEP阅读试题评分标准,标尺设定在0—1和0—4之间;NAEP写作评分标准,标尺为0—6。NAEP评分标准标尺设定范围符合阿特建议的规则。

总的来说,试题评分标准标尺的大小,基本与评估内容的复杂性、试题的答题空间、思维容量成正比。在我国试题开发阶段,给各个试题赋分时,是否存在一些一般规则?是否充分考虑了评分效果和评分的操作性?这些问题还有待进一步思考。

(三)评分标尺尺度与评分结果的运用

行文至此,很容易发现我国写作评分标准,标尺空间较大,譬如0—60或0—70。我们也许是在无意中选择了“大尺度评分标准”。

有研究者开展了“小尺度评分”和“大尺度评分”的比较研究。经过实证研究发现,大尺度评分更容易给出趋中分数,并且写作的满分值越大,越容易出现趋中评分现象。也就是说,大评分量表并没有起到对考生写作能力进行有效区分的作用,反而带来了更大的误差。评分量表大小对写作评分效果有很大影响。[11]

那为什么我们会选用大尺度评分标准,而国外普遍采用小尺度评分标准?其实这个差异首要源于对分数的运用和解释方式不同。国外根据评分标准评分获得的分数为“原始分数”(raw score),需要换算成量表分数(scale score)才可以进行比较,最后报告阶段可能还会转化为表现水平等级。譬如,NAEP写作测评,三个写作试题,根据评分标准,每篇满分6分,总分范围就是0—18分,而后期用于比较的分数(scale score)是0—300;报告用的表现水平总共6级。反观我国,无论是阅读评估还是写作评估,都是把根据评分标准评分得到的数字直接相加,将由此得到的原始总分直接用于报告和比较。

因此,如何设置评分标准的标尺,如何使用和解释分数,是后续研究和实践中需要谨慎思考的问题。