测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
我们习惯用的答案、评分标准,其“标尺”就是试题实际的分数,该数值主要根据具体试卷的结构和试题的重要性而定;而国际测量理论、实践中的评分标准,分值范围即标尺大小,有独立于具体试卷之外的一般规则。
(一)基于题型规划评分标准标尺
先看NAEP的做法。20世纪70年代初NAEP就已经形成了较为成熟的评分标准[7]。在该测评项目的阅读测评框架文件和写作测评框架文件中均有对评分标准的说明。就NAEP阅读测评而言,评分标准是在试题类型框架下考虑的。相关说明可整理如表8-1[8]所示:
表8-1 NAEP各类型题目评分标准标尺设定
概括而言,NAEP阅读测评中各类试题的评分依据形成了一套评分标准体系,评分标准标尺的确定路径大致是:[9]考虑什么类型的题目,学生需要作出怎样的行为反应;②根据特定类型题目的答题任务量预设标尺数值范围;③规定标尺数值所代表的意义。
推敲NAEP评分标准设定规则,有个细节问题可以追问:题型是固定的,特定题型对应的评分标准的标尺是否也相对固定?比较而言,选择性反应题和简短的建构反应题的评分标准,标尺数值范围相对稳定;而扩展性建构反应题的评分标准,标尺数值范围可适度增大,NAEP实际测评时就用到了标尺为0—4的评分标准。当然,数值范围再怎么可变也有一定的限度,因为在国际测量与评价领域,评分标尺的设置已经形成了一些基本规则。
(二)根据特定任务测评目的和测评空间规划评分标准标尺
阿特(Alter,J.)等人在考察了若干评分标准之后,专门就如何确定一个评分标准“评分点的数目”,即标尺范围,提出了系列建议。[10]
·一般来说,问题的开放度越高,表现形式越复杂,则量表的评分范围就越大。
·如果使用评分标准的目的是根据规定的标准去判定能力的大小,则4点量表用得较多,其中“3”通常代表“达标”,“4”代表高于一般标准,“2”意味着还差一点不能达标,而“1”则意味着明显地低于一般标准。
·如果是对同一年级学生的成绩进行评定,推荐在评分标准中设置3—6个评分点。
·如果要评价一个连续的发展过程——要使用评分标准追踪不同年级学生的某项技能——则需要更多的评分点,如6—11个评分点。
对照来看,NAEP阅读试题评分标准,标尺设定在0—1和0—4之间;NAEP写作评分标准,标尺为0—6。NAEP评分标准标尺设定范围符合阿特建议的规则。
总的来说,试题评分标准标尺的大小,基本与评估内容的复杂性、试题的答题空间、思维容量成正比。在我国试题开发阶段,给各个试题赋分时,是否存在一些一般规则?是否充分考虑了评分效果和评分的操作性?这些问题还有待进一步思考。
(三)评分标尺尺度与评分结果的运用
行文至此,很容易发现我国写作评分标准,标尺空间较大,譬如0—60或0—70。我们也许是在无意中选择了“大尺度评分标准”。
有研究者开展了“小尺度评分”和“大尺度评分”的比较研究。经过实证研究发现,大尺度评分更容易给出趋中分数,并且写作的满分值越大,越容易出现趋中评分现象。也就是说,大评分量表并没有起到对考生写作能力进行有效区分的作用,反而带来了更大的误差。评分量表大小对写作评分效果有很大影响。[11]
那为什么我们会选用大尺度评分标准,而国外普遍采用小尺度评分标准?其实这个差异首要源于对分数的运用和解释方式不同。国外根据评分标准评分获得的分数为“原始分数”(raw score),需要换算成量表分数(scale score)才可以进行比较,最后报告阶段可能还会转化为表现水平等级。譬如,NAEP写作测评,三个写作试题,根据评分标准,每篇满分6分,总分范围就是0—18分,而后期用于比较的分数(scale score)是0—300;报告用的表现水平总共6级。反观我国,无论是阅读评估还是写作评估,都是把根据评分标准评分得到的数字直接相加,将由此得到的原始总分直接用于报告和比较。
因此,如何设置评分标准的标尺,如何使用和解释分数,是后续研究和实践中需要谨慎思考的问题。
有关读写测评:理论与工具的文章
测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
在差异背后,可以找到国际读写测评中的一些基本趋势、规律。(三)测试任务层面,形式丰富,内容有学术性以上测评案例中的“任务”与我们熟悉的题目,有一些较为明显的差异。案例4德国课程标准中呈现的测试样例则是一个大任务中包含一系列连贯性的子任务,子任务是完成大任务的一个环节,完成一组子任务就完成了一个大任务,按要求建构了一个档案袋。其实,尊重读写规律、需求的任务,就是“真实”的语文实践活动。......
2023-08-17
这其实涉及评分标准除“标尺”“描述语”之外的第三个要素了。表现样例通常来自真实测试的结果,是评分标准不可或缺的要素,让看似抽象的水平描述语具体可感。(四)评分标准描述语呼应题目的细节考量以上关于评分标准描述语撰写的三个思考点,是撰写评分标准时需要考虑的三个通用思考点。......
2023-08-17
(一)我国高考作文评分标准发展概览语文考试要求和内容的变化、作文评分技术的发展等,均会引发高考作文评分标准的调整。评分标准的内容涉及评分观察点和各种品质要求,这些内容既会影响作文评估的效度,又会对日常写作教学和评估产生深刻的影响。从评分标准“内容”角度展开的讨论一直存在。可是,高考作文评分标准,却把“有文采”放到了语言的至高无上的地位。......
2023-08-17
品评感官各个指标,并将品评结果记录下来。每组品评份数:每组试验品评试样需包含一份标准样品和不超过4份测试样品。最后以综合评分的平均值作为该稻米食味的评定结果。表5-1米饭感官评价评分规则和记录表(续表)......
2023-06-20
经过证明的论点方得视为已有,未经证明的论点拿来证明论题乃是非所有而取之,故说是窃取。违反这条规则必定陷入循环论证,即恶性循环。这是关于论证的一条规则,凡违反任何逻辑规律与各种思维形式的规则的论证都是错误的论证。总上证明规则六条,其第一、第二两条是关于论题的,第三、第四、第五条是关于论据的,其最后第六条是关于论证的。......
2023-11-08
明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
表5-9典型题型明示的测评目标①除上海外,各地考试说明基本沿用了考试中心考试大纲中的能力层级体系及其标识,见第二章第一节。其次,部分看似是不同任务、表述不同的题目,公开解释中所说的能力范围一致,譬如,5、6、7之间有明显的交叉。......
2023-08-17
相关推荐