测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
为了取得可见的实践效果和获得可持续性发展,核心素养语境下的语文教育评价需作出系统调整。其间有两个要点:一是从全局出发形成调整的“系统框架”;二是各个环节、局部的“调整思路”都要有针对性。
系统框架需兼顾当前语文教育评价改革的需要与评价领域的常规问题(或基本环节)来确立。无论何时,评价总会涉及“评价什么”“如何评价”这样的基本问题。其中,“如何评价”又包括中观的“评价途径和类型”与微观的“任务设计、实施和反馈”两个层面。核心素养语境下的语文教育评价,也需要从这些角度考虑应作出哪些调整。调整思路可以通过比较核心素养理念下的培养目标和当前语文教育评价的现状,明确语文教育评价各环节需要调整的内容、方向。
综合而言,当前语文教育评价可关注图7-1所示的系统调整框架和思路。以下逐一探讨各层面的实践切入点。
图7-1 语文教育评价系统调整框架与思路图
(一)充分理解和全面考虑评价“领域”
可以再回顾一下关于“构念”的界定和说明:“测量的第一个阶段,要回答一个问题:‘我们测量的是什么?’我们需要用一个‘标签’来识别构念。更重要的是,我们需要为这个构念界定‘领域’,即根据关于这个构念的理论和相关知识识别一些可操作的指标。”
当下,根据对核心素养、语文学科核心素养的理解,结合国际测评经验,有必要从不同角度思考语文测评领域。
其一,原本被边缘化,但核心素养语境下需重视的部分。譬如,口语交际。进入21世纪,各个国家和地区在制订核心素养体系时,不约而同地高度重视沟通交流能力。沟通交流能力主要对应母语课程中的口语交际能力,各个国家和地区的母语课程标准对此都有具体、详细的要求。纵观我国语文课程发展史,语文教学大纲或课程标准层面一直都有关于听说或口语交际的相关要求,但口语交际教学一直处于语文教学实践的边缘。当下,重视口语交际,既符合语文学科本体规律,又能呼应核心素养培养要求。《普通高中语文课程标准(2017年版)》中的学业质量标准,虽然篇幅有限,但还是有关于口语交际的学习结果要求:能敏锐地感受交际对象的语言特点和情感特征,迅速判断其表达的正误与恰当程度,察觉其言外之意和隐含的情感倾向;能根据具体的语境和表达的目的、要求,运用口头语言,文从字顺、准确生动地表达自己的真情实感。乐于与他人分享自己的学习经验……[7]这是四级水平中的要求,是高校考试招生录取的要求。然而现实中,学生不敢交流、不善交流的情况还较为普遍。因此,核心素养语境下,应该给予曾经被忽视的口语交际教学和评价更多的关注。
其二,原本就有,但可以略作调整、拓展的部分。譬如,阅读后的写作。已有的相关实践主要是为了引导学生积累写作素材或借鉴所读文章的写法,以促进写作。这样一种取向本身是有意义的。不过我们不能忽略部分学生写作中存在的这样一种现象:追求好词好句,追求“旁征博引”,却不善于好好分析、说理。对此,我们不妨重视另一种取向的“读写结合”,即通过写来表达对所读内容的理解、思考、评论等。在《普通高中语文课程标准(2017年版)》中,每一个任务群的学习要求和教学提示中都提出了“写作”要求,具体形式有:写概要或提要、读书笔记、作品评介、调查报告、文学评论、学术性小论文等。这些内容需要引起我们的重视。这一类任务,可以从不同角度观察到学生阅读、写作及批判性思维能力的发展情况。这一脉的“读写结合”,在国外被称为“通过写作学习”(writing to learn)[8]或“实质性写作”(substantive writing)[9]等。
其三,原本没有正式提出,需要新研究的测评领域。譬如,整本书阅读、思辨性读写等。对于这些较新的领域,首先,要加深对这些领域的内涵、目标的理解,“在教师开始评估学生的批判性思维能力前,他们自己先要有这些能力。否则,他们没有立场来评估他们学生的思维”[10]。其次,要考虑这些新领域如何和已有的阅读、写作等测评领域融合。
以上从三个方面谈了如何通过精选和深入理解测评领域来尽可能逼近核心素养取向的评价。不过,这里所提及的一些测评领域,可能超越了我们印象中的考试范围;按照这样的思路,也许我们的考试会不堪重负;有些内容,现在似乎也不具备考试的条件。事实上,核心素养语境下,语文教育评价改革需要走出狭隘的考试意义上的评价观,同时丰富对于考试的认识。
(二)有针对性地选择和规划评价类型
核心素养或学科核心素养“是复杂的理论建构,对既有测评理论和实践提出了严峻的挑战”[11]。对于这样难测的构念,克服困难的途径有两条。一是研究并发展纸笔考试,精心选择测评领域,精心设计题目。这一方面,高利害考试命题者和测量与评价领域的研究者正在努力推进。二是广大语文教师可在日常教学中扎实地丰富评价的途径和类型。
2003版高中语文课程标准和2011版义务教育语文课程标准中早已提出应恰当运用多种评价方式,只是没有达到期待的实践效果。在当下核心素养语境下,它们又赢得了人们的高度关注。[12]当然,此时的关注会有些更加明确的着力点。
1.进一步加强形成性评价在评价体系中的地位
美国在2010年颁布《各州共同核心标准》后,联邦政府共拨款3.62亿美元给两个评估联盟,即“大学及职业准备评价合作伙伴”(Partnership for Assessment of Readiness for College and Careers,简称PARCC)和“智慧平衡评价联盟”(Smarter Balanced Assessment Consortium,简称SBAC),要求他们制订基于CCSS的学业评估体系。其比较突出的一个共同点是都承诺“评估体系将由一种用于问责目的的总结性(年末)评估和用于整个学年的形成性评估组合而成”[13]。从我们的视角来看,相对于中高考这些高利害、选拔性考试而言,这里所说的学年末的总结性评估和贯串学年的形成性评估,都是广义的形成性评估。美国通过形成性评估来落实基于美国“21世纪技能”(可以理解为美国版核心素养)的新课程标准CCSS的力度,由此可见一斑。
为什么要如此重视形成性评价?测量与评价领域基本已经形成了定论,形成性评价和终结性评价有着各自的功能,任何好的评价方案都需要这两种评价。[14]这本是评价实践领域应有的常态。在核心素养语境下,更需要兼顾这两类评估,因为素养的形成是累积的过程,需要长时间、多角度的观察。
反观实践,似乎我们日常教学中从来不缺评价,不过日常评价很多时候是高利害性质的终结性考试的“附庸”[15]。核心素养语境下,形成性评价需要丰富样式。
2.有针对性地大力使用表现性评价
“基于核心素养的课程改革驱动着评价体系的变革,促使我们必须超越传统的只注重‘双基’的客观纸笔测验,采用并丰富‘能检测学生的认知思维和推理能力以及运用知识去解决真实的、有意义的问题的能力’的表现性评价。”[16]
我们对表现性评价概念并不陌生,其先于核心素养概念出现。当下的着力点是更加准确地理解表现性评价,更有针对性和更大幅度地运用表现性评价。需要特别指出的是,表现性评价任务是相对于“有固定答案的标准化测试而言的”[17],它可以用纸笔形式实施,也可以用非纸笔形式实施。
表7-1 表现性评价的类型[18]
表7-1中的任务都属于表现性任务,这些任务类型可以衍生出可大可小、可深可浅的具体任务,如一次考试的一个题目、一个小型研究项目等。不同规模的表现性评价任务可以组合使用。无论任务规模如何,采用什么形式实施,表现性任务的关键是背后有较为明确的指向:我希望我的学生发展哪些重要的认知技能或特质?(例如,以书面形式有效地沟通,利用原始资料和参考资料分析问题);我希望我的学生发展什么样的社交和情感技能或特质?(例如,独立工作,与他人合作,对自己的能力有信心,认真负责);我希望我的学生发展什么元认知技能?(例如,反思他们的写作过程,评估研究策略的成效,回顾他们的进展);我希望他们能解决什么类型的问题?(例如,研究解决没有唯一正确答案的问题);我希望我的学生能够应用哪些概念和原则?(例如,了解因果关系)。[19]
表现性评价的关键是指向高阶思维技能,让学生建构自己的反应。这就涉及“如何评价”更微观和操作层面的问题,也就是如何设计任务与如何对学生的反应作出反馈。
(三)优化任务设计并重点关注评价反馈
将上文的思考延续至任务设计层面,先要努力做到两点:一是切实为核心素养语境下产生的新领域或既有领域的新方向设计任务;二是着力设计有针对性的表现性任务。其后要从命题技术角度考虑核心素养语境下的测评任务有何特点。
指向核心素养的测评任务有何特征?当前提及最多的属性是“情境化”“综合性”等。用《普通高中语文课程标准(2017年版)》中的话语来说即“以具体情境为载体”“设计典型任务”。此处强调三点:其一,不应给纸笔考试,尤其高利害考试过多的压力,日常教学过程是实施这类任务更为广阔的天地;其二,不应为了“情境”而“情境”,为了“综合”而“综合”,任务设计需有明晰的意图,如前文表现性任务反思清单所提示的那样;其三,应多元、立体地理解“情境”,语文学习内容本身构筑起了一定的情境,不必时时添加“小明”这样的人物和事件因素,除非能调动学生的学习兴趣,或情境中隐含着问题,有助于学生体验发现问题、提出问题、分析问题的环节等。[20]
与任务设计同等重要的,是完成任务后的评价反馈环节。课堂教学中的评价反馈、课后的作业及试题的评价反馈,要特别关注以下三点。
首先,聚焦学生表现。前文已述及,指向核心素养的评价应以表现性任务为主。往前追溯,其实经典的迪克(Dick,W.)和凯里(Carry,L.)教学设计模型已经强调在识别目标阶段要“写出表现目标(performance objective)”,即教学目标应描述学生在完成一个单位的学习后,能做什么。[21]为了保证评价的效度,这种关注学生“表现”的意图应该延续到评价反馈环节。2017版高中语文课程标准呈现了学业质量标准,“学业质量标准将核心素养和教学内容有机地连接起来”[22]。“学业质量是学生在完成本学科课程学习后的学业成就表现”[23],“学业质量标准”本质上是“表现”标准。因此,在日常的教学评价反馈、作业和试题评价反馈中,应该走出标准答案、采点给分的模式,而关注学生实际“能做什么”,在这个过程中可以适当参考学业质量标准的水平描述。
其次,区分表现差异。表现性评价会用到很多开放性题目或任务。目前存在的一种误区是,将某些开放题的评分建议简化为一句笼统的“言之成理即可”,这样的评分方法会降低测试效度,无法有效地实现诊断功能。教师还是要对学生反应的实质差异作出专业的判断。
为了纵向把握学生个体发展过程中的变化,横向把握学生与学生之间的发展差异,评价反馈的关键之一是区分学生的表现差异,给学生提供有针对性的反馈。这在课堂中体现为教师给出有针对性的评价和指导;在阅卷中,体现为根据分层标准赋分,让分数具有较强的解释力。相比而言,后者是更迫切需要解决的问题,良好的试题评分方法也能带动日常教学评语的发展。
分层赋分需要用到分层评分标准,其基本构成要素为:水平层级、各水平层级描述语及回答样例。[24]前两个要素,可以参考学业质量标准的样式,其中难点是如何分层描述学生对于特定题目的反应表现。从目前的研究和实践来看,有两种方式:一是命题阶段就有意识地根据一定的理论框架(如“可观察的学习成果结构”,Structure of the Observed Learning Outcome,简称SOLO)[25]设计题目并设置评分标准;二是“采用归纳方式,通过分析学生对开放性任务的各种反应,揭示不同个体的关键特征和理解方式,归纳为不同类型或等级,作为当前任务的评分标准”[26]。当然,实际操作中,两条路径通常是融合使用的,同时还需要准确把握测评目标,对相关的学科内容和学习过程有较为深入的认识。
再次,适当开发类型化评分工具。主观题的分层评分标准,开发成本较高,在日常教学中,可以适当开发一些类型化的评分标准(也叫评价量表、评分规则等)[27]。譬如口语交际的评价量表、各种类型写作的评价量表、整本书阅读过程中的任务评价量表等。这些评分标准,通常采用分项评分标准(也叫分析式评分量表),即以表格形式分项分等级描述可能的表现。师生运用时,可以较为具体地诊断特定方面当前的表现水平状态,并且能够通过评分标准中更高层级的质量描述语,明晰下一阶段的努力方向。
类型化评分标准的开发需要一定的研究积累和时间投入,但从长远来看有诸多好处:能减轻教师写评语的工作量;能增强反馈的系统性和针对性,目前“因语言笼统而指导性弱是通病”[28];在研发这些评分标准的过程中,教师的评价素养和学科知识素养等都能获得一定的提升;运用甚至让学生参与评分标准的设定,“有利于培养学生的元认知意识,最终提高教育者需要关注的高层次思维技能”,“让学生开始参与评估工具开发的有效方法是向他们提供两个例子,好的和不好的,要求他们讨论两者差异”。[29]
有关读写测评:理论与工具的文章
测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
考试大纲曾经发挥了积极的作用。不过,不可回避的是,细究考试大纲,还有一些可以进一步讨论的问题。(一)测评领域的界定有待进一步研究考试大纲给“表达”领域分出了两个考查内容板块:语言文字应用和写作。2015年,有11个省市的考试说明将其作为一个专门的板块设定测评目标。[5]当然,实际的考试命题终究还是要操作性框架的,考试大纲文件的取消,并不代表着考试大纲中的概念框架、思维方式会同时消失。......
2023-08-17
我国考试大纲从其内容构成来看,倾向于是一份操作性文件,直接规定“考核目标与要求”“考试范围与要求”,不像国外的测评框架那样对测评的构念、领域作出明确的界定和详细的解释。......
2023-08-17
在差异背后,可以找到国际读写测评中的一些基本趋势、规律。(三)测试任务层面,形式丰富,内容有学术性以上测评案例中的“任务”与我们熟悉的题目,有一些较为明显的差异。案例4德国课程标准中呈现的测试样例则是一个大任务中包含一系列连贯性的子任务,子任务是完成大任务的一个环节,完成一组子任务就完成了一个大任务,按要求建构了一个档案袋。其实,尊重读写规律、需求的任务,就是“真实”的语文实践活动。......
2023-08-17
明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
表5-9典型题型明示的测评目标①除上海外,各地考试说明基本沿用了考试中心考试大纲中的能力层级体系及其标识,见第二章第一节。其次,部分看似是不同任务、表述不同的题目,公开解释中所说的能力范围一致,譬如,5、6、7之间有明显的交叉。......
2023-08-17
不过,这些逐级发展的目标背后,其实有着这样一个潜在的假设:无论是“写话”还是“习作”,都是为日后“写文章”意义上的“写作”打基础的。同时,用于“表达和交流”的“写作”,主要指的也是“写文章”。如果我们把视野放宽,可以看到国外母语教育界对于写作的功能定位,不限于“写文章”。[5]反观我国的状况,也许在大多数学生心中,写作就是写文章,是老师布置的任务。......
2023-08-17
“智慧学伴”测评工具在课堂教学后测的应用,是指在授课内容完成后,利用“智慧学伴”测评工具在线上对学生本节课所学知识进行检查测试,进一步发现学生在学习完成后存在的问题,同时来评定教学内容是否完成。正是由于“智慧学伴”测评工具在课堂教学后测中的应用,使学生习得的知识技能得以巩固,形成的能力得以延伸拓展。......
2023-08-06
相关推荐