首页 理论教育内化各类标准,充分把握语文测评方向及其意义

内化各类标准,充分把握语文测评方向及其意义

【摘要】:二是测评通用标准,从测评技术角度规范测评行为。标准强调读写评估的价值取向、读写的复杂性、读写评估中的主体、多元评估途径的重要性等。以上六类标准,提醒我们既要重视测评领域的经典文献,遵循测评领域的基本规范,也要能密切关注测评领域的研究动态及与测评相关的重要文件。以上系列标准中的部分标准,对语文测评领域而言,还需要进一步解读和探索。

以上三个方面,测评什么、选择怎样的测评途径,以及具体测评工具的开发流程,都是在测评项目实施过程中显性的要考虑和做的事情。而在这样的思考和操作过程中,始终伴随、贯串着一个隐性问题:如何保证质量。精细化思考和操作这些步骤,有助于提升测评的质量。除此之外,还需有意识地关注“质量标准”。“不管测验目的如何,任何一个测验总是要满足一系列的质量标准。测验必须有效和可靠,这是测验作为一种测量工具的质量标准。此外,还有一些与施测过程有关的标准:适切性、可行性与透明性。”[18]希尔伦斯(Scheerens,J.)、格拉斯(Glass,C.C.)等人的这一论述中提及了两类标准,在此基础上做进一步的梳理,可以得出有助于保证和提升测评质量的系列标准。

一是基本质量标准,源于经典测量理论,主要指标为信度和效度,需要通过试测来检验。所有的测量与评价书籍中都会提及这两个指标,此处不再赘述。

二是测评通用标准,从测评技术角度规范测评行为。以上希尔伦斯、格拉斯等人提及的“适切性、可行性与透明性”便属于这一类。其中“适切性与可行性”主要指的是在测验编制和施测所需时间及成本方面,评估应该是高效的;一个测验应该是公平的,可以让每一个学生展示他(她)的能力或熟练水平;测验时间也应该是充足的,除非是速度测验。“透明性”指的是学生应该提前知道测验的考查范围及其内容来源、项目类型、计分方法和适用规则、通过测验所需要的能力水平。[19]与此类似的,往前追溯,1981年美国12个专业组织组成的教育评价联合委员会就公布了有关教育计划、方案、资料的评价标准。标准分为四类:实效性、可行性、适宜度与技术完善性,表征了成功实践评价的特性。[20]

三是测评专业标准,与上述评价通用标准相比,是从测评设计与实施的各个角度、层面提出了更为具体的规范标准。譬如由美国教育研究协会(American Educational Research Association,简称AERA)、美国心理学协会(American Psychological Association,简称APA)和全美教育测量学会(National Council on Measurment in Education,简称NCME)三家共同研制的《教育与心理测试标准》(Standards for Educational and Psychological Testing)。该标准主要适用于标准化的测量手段,如实际能力、能力倾向、学业成就、态度、兴趣、个性、认知功能和精神健康等方面的测试,当然该标准也不同程度地适用于更大范围内的、要求不那么正规的评估手段。[21]该标准从效度和信度等质量指标,测评工具开发、评分、测评管理等方面的具体操作,以及测评运用三个层面13个方面提出了若干条标准。

四是领域测评专业标准,是从特定测试内容领域角度设立的测评专业标准,譬如国际《阅读和写作评估标准》(Standards for the Assessment of Reading and Writing)[22]。该标准由来自国际阅读协会(International Reading Association)和美国英语教师委员会(National Council of Teachers of English)的成员组成的“评估联合工作组”(Joint Task Force on Assessment)起草,由国际阅读协会出版社出版。标准强调读写评估的价值取向、读写的复杂性、读写评估中的主体、多元评估途径的重要性等。

五是特定国家、地区课程标准,指导和规范着各个国家和地区课程开发的所有环节,包括课程资源的开发、教学实施过程,以及测评设计与实施。就我国《普通高中语文课程标准(2017年版)》而言,它对于测评的指导性比以往版本的课程标准要强许多。其中既有方向性的“评价建议”,又有较为具体的“学业水平考试与高考命题建议”,还有刻画语文学科核心素养及其表现水平的学业质量标准,课程标准中的这些规定,涉及测评内容、技术和水平各个层面,对测评项目的开发有着直接、重要的指导意义。

六是具体测评项目的操作性标准。一些重要考试通常有专门的文件,譬如国外读写测评项目都有专门的测评框架文件,我国高考前有考试大纲,现有《中国高考评价体系》。其他一些测评场合,可能需要命题者自主建构测评蓝图,即图1-2“评估设计过程模型”中第二阶段的产物。其间,可能需要用到一些工具,譬如借助教育目标分类学,让宏观课程目标具体化为特定测评项目中可测量的测评目标。教育目标分类学本身不会告诉我们特定的测评项目应该测评什么,但是其术语体系有助于我们把测评目标表达得更为清晰和可测量。不少研究者都提出过测评目标的表述问题,譬如萨克斯(Sax,G.)和牛顿(Newton,J.W.)说的是要把“内隐目标”“模糊的动词”表述为“清晰的动词”[23],雷新勇说的是要把“理论目标”转化为“行为目标”[24]。安德森等人将布鲁姆教育目标分类学中的认知目标细化为19种认知目标亚类[25],有助于教学和测评领域优化目标表述。当然,语文学科未必能直接、完全使用该体系,但可将其作为一种参考框架和思维工具。

以上六类标准,提醒我们既要重视测评领域的经典文献,遵循测评领域的基本规范,也要能密切关注测评领域的研究动态及与测评相关的重要文件。以上系列标准中的部分标准,对语文测评领域而言,还需要进一步解读和探索。[26]

上述六类标准在测评项目设计中的关系可以用图1-4表示:

图1-4 测评系列“标准”协同作用图

其中,测评通用标准、测评专业标准、读写测评标准的作用相对隐性,它们能为测评项目的质量保驾护航,但需要测评项目组织、开发和实施者有意识地重视和尊重这些标准的要求或建议;教育目标分类学,可以看作一种思考和表达工具,可以借助其厘清课程标准、教学和考试各个层面间的延续性和一致性;考试大纲、测评蓝图,是对测评项目的具体规划,是实际指导具体工具开发的操作标准;效度和信度等基本的质量标准,理论上是第三类测评专业标准中的重要指标,此处单列,是因为已经为人们所熟悉,也相对基础,是所有测评工具必须重视的质量指标。

以上,尝试在测量与评价理论中的某些“点”与语文学科测评中需要考虑的基本问题之间建立了一定的联系。此为后续探讨读写测评具体问题的认识框架和前提。

语文教育评价改革的外在呼声从未停止过,语文教育领域内部关于评价改革的思考也从未停歇过。在当下和未来,我们更需要追问相关探索的意义、专业性,由此提高语文教育评价改革的成效,进而对整个语文课程教学体系产生积极的影响。