明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
必须给标尺赋予意义,评分标准才能用于实际的评分过程。因此,评分标准的另一个基本要素——“描述语”举足轻重。
评分标准各级描述语该描述什么?描述的依据是什么?怎样的表达能更加有效地区分水平层次?这些都是撰写描述语过程中必然要考虑的问题。
(一)描述语的基本指向——评估学生的反应和表现
NAEP所有的题目都会有专门的评分标准[12],如以下例子:
例1 (NAEP 12年级样题)
题目:再回味一下以上文本,用一两个词描述故事整体的氛围或给人的感觉。请说明作者是如何营造这种氛围的。
评分标准:
能识别故事氛围并用多个证据来说明这种氛围是如何形成的(能用至少两个理由或证据来说明这种氛围是如何形成的,这些理由或证据可以来自文本,也可以是推论得出的)。(答案样例略)
能识别故事的氛围并能用证据支持自己的观点(这一水平的回答能引用文本中的多处内容,但这些内容其实指向的是一种原因或证据)。(答案样例略)
能识别故事的氛围,但只能用有限的理由或证据作为支撑(能识别故事的氛围,但只能用一个很小的理由或来自文本的证据来支持自己的选择)。(答案样例略)
能识别故事的氛围,但没有具体阐述(可能出现以下情况中的一种:写出了氛围,但没有阐释;循环论据;直接抄写文中的内容;表达含糊;把主观的反应作为证据)。(答案样例略)
未能识别故事氛围。(答案样例略)
细细感受这个题目的评分标准,“描述语”表面是对学生回答结果的描述,但实质指向了学生的思维过程、方法。是就答案评答案,还是透过学生的答案区分学生的理解程度、思维水平,这可能是“评分标准”与“参考答案”隐性、最重要的区别。
综观现有相关理论和各大读写测评项目,述及评分标准时,均将评估对象指向了学生的表现。阿特在《课堂教学评分规则》一书中交替使用了如下表述:理解程度、熟练程度、成果或表现的合格性、表现的不同水平……
(二)评分标准描述语的依据与取向——呼应测评目标和构念内涵
NAEP阅读测评框架文件在谈及评分标准时强调:在开发试题时,命题者应该同时开发匹配的评分标准,以此保证题目和评分标准均指向所要测评的构念[13]。从一个测评项目完整的开发流程出发将这个意思表达完整,即对构念的理解是测评开发的基本立足点;测评目标需反映对构念的认识;试题直接反映测评目标,间接呼应对构念的认识;而评分标准,需要由近及远考虑三层依据——题目指向、测评目标、对测评对象的基本认识,如图8-1所示。
图8-1 评分标准与构念、测评目标和试题的关系
如何保持这几者之间的内在一致性?NAEP写作测评项目的做法比较清晰。因为NAEP对写作的基本定位是“有目的的交际行为”,因此评估重点是考查学生写作中“内容的发展”“组织结构”“语言规范”是否具备读者意识,是否有助于实现交流目的。为了将这样的理念落实到各类型写作评估中去,NAEP先建构了如下基本评价标准[14](下画线为笔者所加):
内容的发展对于作者的写作目的和读者而言是有效的
·内容的深度和复杂性对于作者的写作目的和读者而言是有效的
·思考和写作路径(譬如分析、综合等)对于作者的写作目的和读者而言是有效的
·用到的细节和例子是特别的,对作者的写作目的和读者而言是有效的
组织结构对于作者的写作目的和读者而言是合逻辑的
·对作者的写作目的、思考和写作的路径而言,文本的结构是富有逻辑和有效的
·段落之间是连贯的
·全文焦点一致
语言表达技巧和规范有助于清晰地表达意思,对作者的写作目的和读者而言是有效的
·句子结构把握较好,句子的变化对作者的写作目的和读者而言是恰当的
·词语选用准确、恰当,有助于清晰地表达、呈现作者的思想
·语气语调对于写作目的和读者而言是合适的
·语法有助于清晰地表达、呈现作者的思想
从画线部分可以看出,该评分标准几乎是不厌其烦地在强调:写作的任何一个方面、细节都是为了实现作者的写作目的,让读者或知悉作者的观点,或体验到作者传递的经验、信息等。这一取向会再进一步延续、渗透到各类型写作的具体评分标准中去。[15]
(三)描述语准确体现各层级间的差异——注重设计过程和表达方式
在明确了评分标准描述语的指向和撰写依据之后,接下来要直面的颇具挑战性的任务是:在撰写各级描述语时,尽可能准确反映该水平应有的表现,尽量保证纵向水平层次之间有区分度,较容易区分出学生的表现差异[16]。这先需要一个较为充分的评分标准制定过程,通常要经过评分标准预设、学生实际作品样例分析和典型样例选择等环节,其间可能需要经过多轮修订。有了研制过程和方法的保障,接下来就需要在描述语的撰写上下功夫。
以下三种表达方式,有助于较为清晰地描述出学生的表现水平差异。
其一,用好不同的形容词或程度副词。这在系列国外写作评分标准[17]和我国写作评分标准设计中都能看到。
其二,尽可能描述清楚行为表现的本质差异。如果仅用一些形容词、副词或数量词来表达程度差异是不够的,还需要尽量描述行为表现更具体也更本质的差异。譬如上文例1中的评分标准,各级描述语将隐性的思维差异做了显性的描述:真的能从文中找出和推论出作者营造故事情感基调的几种策略;看似答了很多,但其实说的是同一个内容;难以基于文本提炼出作者的写作策略,只能循环论证,将主观印象作为证据用……
其三,呈现各级表现样例。这其实涉及评分标准除“标尺”“描述语”之外的第三个要素了。表现样例可以看成各级描述语的附件。表现样例通常来自真实测试的结果,是评分标准不可或缺的要素,让看似抽象的水平描述语具体可感。
(四)评分标准描述语呼应题目的细节考量
以上关于评分标准描述语撰写的三个思考点,是撰写评分标准时需要考虑的三个通用思考点。不过,评分标准终究是服务于每一个具体的题目的。因此,评分标准还可能需要针对特定的题目作出特定的设计。其间有一种情况NAEP测评框架文件做了专门的说明:如果一个题目测量了一个以上的技能或概念,那么在评分标准描述语中需要兼顾、描述清楚学生在这几个技能或概念上的掌握情况[18]。在我国评分标准中,也能找到注意了这一设计细节的样例。如下题:
例2 (2013年上海市语文高考阅读题第6题)
本文研究的视角新颖,阐述的方法多样,请结合文章对这两点作简要说明。
评分标准:本题分“视角新颖”和“方法多样”进行评分。评分项“视角新颖”满分1分。答“通过研究卷轴的物质性特征来揭示其蕴含的文化精神”或“与局限于图像、风格等艺术范围之内的研究不同”即给1分。
评分项“方法多样”的评分量表:
量表说明:答题模式中的5项是,(1)从一般的卷轴作品谈起,转入对长幅横式这一类卷轴作品的分析;(2)对观看过程作具体介绍;(3)比较卷轴与西方油画的装饰方式;(4)以孙少述的诗句作类比;(5)引用布尔迪的话。
这个题目的评分标准紧扣、兼顾了题干中的两个思考点,符合NAEP提示的设计原则。
如果把例2和例1结合起来看,还可以有一些更加微观的发现。例2和例1两个试题虽然是来自两个国度、涉及两种不同文体,看起来完全不同的两个题目,但有异曲同工之处:考查的认知维度都可以归为“评价”层级,都是需要跳出文本来看文本的显著特征,并且一个题目里都有两个需要回答的点。不过,要回答的两个点之间的关系不一样:例1中两个子问题“用一两个词描述故事整体的氛围或给人的感觉”“请说明作者是如何营造这种氛围的”紧密相连,后者是对前者的阐释;而例2中要回答的两个思考点则是相对独立的,相当于问了两个问题——视角是什么?阐述的方式有哪些?相应地,两个题目的评分标准也做了不同的处理:例1用的是整体式评分标准,评分标准各个层级的描述语兼顾了对两个子问题的回答情况——能识别故事氛围(回答前半个问题)并用多个证据来说明这种氛围是如何形成的(回答后半个问题),层级之间的区分度主要靠对第二个子问题的回答质量拉开;而例2干脆为“研究视角”“阐述方法”分别设置了评分标准,赋予不同分值,分别打分,再算总分,这就相当于是两个小题目放在一个大题目里了。这两个例题的评分标准均兼顾了试题中的两个答题点,但又有不同的处理方式。这些经验值得我们注意,并在以后的研究和实践中有意识地发展。当然,这里暂时忽略了两者分数计算和解释方法的差异。
有关读写测评:理论与工具的文章
明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
在差异背后,可以找到国际读写测评中的一些基本趋势、规律。(三)测试任务层面,形式丰富,内容有学术性以上测评案例中的“任务”与我们熟悉的题目,有一些较为明显的差异。案例4德国课程标准中呈现的测试样例则是一个大任务中包含一系列连贯性的子任务,子任务是完成大任务的一个环节,完成一组子任务就完成了一个大任务,按要求建构了一个档案袋。其实,尊重读写规律、需求的任务,就是“真实”的语文实践活动。......
2023-08-17
考试大纲曾经发挥了积极的作用。不过,不可回避的是,细究考试大纲,还有一些可以进一步讨论的问题。(一)测评领域的界定有待进一步研究考试大纲给“表达”领域分出了两个考查内容板块:语言文字应用和写作。2015年,有11个省市的考试说明将其作为一个专门的板块设定测评目标。[5]当然,实际的考试命题终究还是要操作性框架的,考试大纲文件的取消,并不代表着考试大纲中的概念框架、思维方式会同时消失。......
2023-08-17
2019年全国Ⅱ卷和北京卷设置了选做题,并且旗帜鲜明地打上了“任选”两字。(一)任选形式差异两个选做题,命题思路还是有差别的。[24]任选题形式差异背后应该有本质的考查意图和评价焦点上的差异。另一方面,要明了并尽量规避任选试题的风险。同时,也要防止长期固化一种任选类型可能给教学和学生发展带来的负面影响。......
2023-08-17
测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
为了适应我国当前需求,同时兼顾国外测评的多样性,以下择取国外部分高利害考试和日常总结性测评案例加以剖析。11年级这一套试卷的三个模块,共呈现了6篇阅读文本,题目总计22个,其中选择题19个、基于阅读的写作题3个。其中的“语言与文学研究”领域开设三门课程,每门课程又分基础课程和高级课程供学生选修,其中的《语言A:文学》课程,相当于是将我们的整本书阅读中的文学作品阅读课程化了。......
2023-08-17
超越任务选做型作文题,对于文体的不同规定值得专门探讨。其一,“文体不限”是文体开放的基本形式。文体不限是提高作文试题开放度的基本手段之一,学生有着广阔的文体选择空间。加了限制条件的“文体不限”,引导的是更加自觉的选择,以及对文体特征和功能更加到位的理解。其三,“规定文体”也能成为一种具有深远意义的开放。......
2023-08-17
国际阅读“测评框架或说明”文件蕴含的一些基本追求也是我国考试研究者、命题人员和测评文件编写者等相关人员需要重视的。如何保证上述三个层面的良性互动,是我们在剖析国际“测评框架或说明”文本之余需要反思和探究的问题。我们可以从学习国际“测评框架或说明”文本的技术规范开始,同时也许还需要适当调整我们的思维模式。......
2023-08-17
相关推荐