首页 理论教育回到言说起点:评分标准概念、类型和结构

回到言说起点:评分标准概念、类型和结构

【摘要】:此处建议选用“评分标准”这一说法。当然,我国“评分标准”的内涵和运用技术还有待更新。一般测量与评价理论书籍,几乎都会介绍评分标准的上述基本类型。绝大多数正式的评估项目都会有意识地考虑评分标准的类型,作出自觉、明确的选择。评分标准类型的选择,主要在分析式评分标准和整体式评分标准间展开。无论最终以什么样式呈现,评分标准通常由三个基本要素构成。

针对我国评分依据概念和样式不稳定的现象,首要追问的是:关于评分依据,有无专门的概念和相对稳定的样式?

(一)统一的概念,广阔的运用空间

教育与心理测试标准》专门指出,在测试设计阶段“所有题型都要说明如何评分”,其中非选择题需要提供评分规定——Scoring Rubric[1]。PISA、NAEP、ACT及加拿大BC省学生基础技能评估项目FSA等,均使用Scoring Rubric来进行评分。同时,国外课堂教学评估领域也十分重视Scoring Rubric,几乎所有表现性评价理论和实践研究均会谈及Scoring Rubric。

一言以蔽之,Scoring Rubric已经成为国际测量与评价领域中的一个专门术语、一类专门的评价工具,既适用于高利害纸笔测试领域,也适用于过程性、表现性评价领域。

目前,与Scoring Rubric相关的中文表达有:“评分量规”“评分量表”“评分规则”“评分标准”“评分指南”……此处建议选用“评分标准”这一说法。因为我国写作评估领域已经较为稳定地使用“评分标准”概念,“写作”既是我国语文考试的重要组成部分,又是较为典型的表现性评价方式之一,沿用“评分标准”概念有助于连接我国语文纸笔测试领域和日常教学评估领域,促使这两个评估领域的理念、技术和话语系统保持一定程度的接轨,进而与国际测量与评价领域接轨。当然,我国“评分标准”的内涵和运用技术还有待更新。

(二)稳定的类型,必要的选择

从呈现样式和评分方法角度看,评分标准已经形成了较为稳定的两大类型。其一,分析式评分标准(analytic rubrics),针对学生完成的成果或学生的表现分解出几个基本的观察要素或维度,对各个要素或维度单独进行评分,再经过某种规则计算得出学生完成该任务获得的总分(日常教学评估可以省去算总分,旨在诊断表现细节)。其二,整体式评分标准(holistic rubrics),对学生完成任务的情况进行整体评价并在此基础上给出一个总分或等第。从适用范围来看,评分标准又有通用评分标准和指向特定任务的评分标准[2],前者在相似的任务中可以通用,譬如中高考写作评分标准保持了相对的稳定性;后者只能应用于一个具体的任务,譬如某次考试某个阅读主观题的评分标准。

一般测量与评价理论书籍,几乎都会介绍评分标准的上述基本类型。初看起来似乎仅是程式化的交代,然而一旦与具体的评估项目关联起来,就会发现这些“知识”在评估实践中有着切实的意义。绝大多数正式的评估项目都会有意识地考虑评分标准的类型,作出自觉、明确的选择。

评分标准类型的选择,主要在分析式评分标准和整体式评分标准间展开。目前来看,阅读题主要用整体式评分标准,日常表现性评价主要用分析式评分标准。写作评分标准则较为复杂,有用整体式评分标准的,如NAEP写作评分标准、上海市高考作文评分标准;有用分析式评分标准的,如上海市中考作文评分标准、教育部考试中心作文评分标准、美国ACT写作评分标准。偶尔会看到综合运用两种评分标准的情况,譬如,加拿大FSA写作评估,将写作水平设为四个等级,每一个等级既给出了简要的整体描述,又从内容、语言、结构、规范四个维度进行了分项描述,实际评分时采用的是整体评分方法[3]

究竟是用整体式评分方法,还是用分析式评分方法,需要综合考虑如下几个问题:测量对象复杂与否,是否需要分维度评估?评估的目的是侧重于诊断每个学生的表现细节还是比较学生的整体表现水平?测试规模如何,评分环节是否能保证充足的时间、人力?分项评分结果的质量可能会高于整体评分结果的质量[4],但所需投入度高。选择整体式评分方法,还是用分析式评分方法,与理念、目的有关,也受现实条件的制约。

除了有意识地作出横向选择,部分国际大规模考试也会随着测评项目的推进,分阶段呈现、完善评分标准:先呈现通用评分标准,再为特定任务设置具体评分标准。如NAEP、FSA等测评项目在命题之前的建构测评框架阶段,会暂拟特定类型阅读题的通用评分标准。NAEP为问答题所设的通用评分标准为[5]

3=充分的

学生的反应体现出其对文本的理解深入、细致,能依据文本中的多重信息作出恰当反应。

2=基本的

学生的反应体现出其对文本的理解较为可靠,能依据文中的部分信息作出恰当的反应。

1=有偏差的

学生的反应体现了其对文本的理解,但缺少文本信息的支持。

0=不恰当的

学生的反应体现出其对文本理解不够,作出的反应不恰当。

提前设置一般评分标准既有助于被试了解基本的评估取向,也给试题开发加了一层指引或约束。

(三)不同样式和类型背后共同的要素

各类评分标准又可以不同的样式呈现:表格式的、条目式的、图示类的(如台阶式的,或加了箭头等图示的)。无论最终以什么样式呈现,评分标准通常由三个基本要素构成。评价标尺[6]——可以用等级、分数或点数表示,用于区分特定任务完成的好坏程度。描述语——用以陈述各个水平层次所对应的具体表现。表现样例——与各等级描述语匹配,便于评分标准使用者更好地理解特定等级或分数所对应的学生可能的表现。

评分标准及其各种样式都是应实际测量与评价需要而产生、发展起来的。当我们使用这一工具时,需要尊重已有的相关知识和规则,更加自觉地运用评分标准。譬如,需要进一步明确评分标准的内涵和意义;在特定评估场合有意识地选择和制定特定类型的评分标准。