内化各类标准，充分把握语文测评方向及其意义

2023-08-17 理论教育版权反馈

【摘要】：二是测评通用标准，从测评技术角度规范测评行为。标准强调读写评估的价值取向、读写的复杂性、读写评估中的主体、多元评估途径的重要性等。以上六类标准，提醒我们既要重视测评领域的经典文献，遵循测评领域的基本规范，也要能密切关注测评领域的研究动态及与测评相关的重要文件。以上系列标准中的部分标准，对语文测评领域而言，还需要进一步解读和探索。

以上三个方面，测评什么、选择怎样的测评途径，以及具体测评工具的开发流程，都是在测评项目实施过程中显性的要考虑和做的事情。而在这样的思考和操作过程中，始终伴随、贯串着一个隐性问题：如何保证质量。精细化思考和操作这些步骤，有助于提升测评的质量。除此之外，还需有意识地关注“质量标准”。“不管测验目的如何，任何一个测验总是要满足一系列的质量标准。测验必须有效和可靠，这是测验作为一种测量工具的质量标准。此外，还有一些与施测过程有关的标准：适切性、可行性与透明性。”^[18]希尔伦斯（Scheerens，J.）、格拉斯（Glass，C.C.）等人的这一论述中提及了两类标准，在此基础上做进一步的梳理，可以得出有助于保证和提升测评质量的系列标准。

一是基本质量标准，源于经典测量理论，主要指标为信度和效度，需要通过试测来检验。所有的测量与评价书籍中都会提及这两个指标，此处不再赘述。

二是测评通用标准，从测评技术角度规范测评行为。以上希尔伦斯、格拉斯等人提及的“适切性、可行性与透明性”便属于这一类。其中“适切性与可行性”主要指的是在测验编制和施测所需时间及成本方面，评估应该是高效的；一个测验应该是公平的，可以让每一个学生展示他（她）的能力或熟练水平；测验时间也应该是充足的，除非是速度测验。“透明性”指的是学生应该提前知道测验的考查范围及其内容来源、项目类型、计分方法和适用规则、通过测验所需要的能力水平。^[19]与此类似的，往前追溯，1981年美国12个专业组织组成的教育评价联合委员会就公布了有关教育计划、方案、资料的评价标准。标准分为四类：实效性、可行性、适宜度与技术完善性，表征了成功实践评价的特性。^[20]

三是测评专业标准，与上述评价通用标准相比，是从测评设计与实施的各个角度、层面提出了更为具体的规范标准。譬如由美国教育研究协会（American Educational Research Association，简称AERA）、美国心理学协会（American Psychological Association，简称APA）和全美教育测量学会（National Council on Measurment in Education，简称NCME）三家共同研制的《教育与心理测试标准》（Standards for Educational and Psychological Testing）。该标准主要适用于标准化的测量手段，如实际能力、能力倾向、学业成就、态度、兴趣、个性、认知功能和精神健康等方面的测试，当然该标准也不同程度地适用于更大范围内的、要求不那么正规的评估手段。^[21]该标准从效度和信度等质量指标，测评工具开发、评分、测评管理等方面的具体操作，以及测评运用三个层面13个方面提出了若干条标准。

四是领域测评专业标准，是从特定测试内容领域角度设立的测评专业标准，譬如国际《阅读和写作评估标准》（Standards for the Assessment of Reading and Writing）^[22]。该标准由来自国际阅读协会（International Reading Association）和美国英语教师委员会（National Council of Teachers of English）的成员组成的“评估联合工作组”（Joint Task Force on Assessment）起草，由国际阅读协会出版社出版。标准强调读写评估的价值取向、读写的复杂性、读写评估中的主体、多元评估途径的重要性等。

五是特定国家、地区课程标准，指导和规范着各个国家和地区课程开发的所有环节，包括课程资源的开发、教学实施过程，以及测评设计与实施。就我国《普通高中语文课程标准（2017年版）》而言，它对于测评的指导性比以往版本的课程标准要强许多。其中既有方向性的“评价建议”，又有较为具体的“学业水平考试与高考命题建议”，还有刻画语文学科核心素养及其表现水平的学业质量标准，课程标准中的这些规定，涉及测评内容、技术和水平各个层面，对测评项目的开发有着直接、重要的指导意义。

六是具体测评项目的操作性标准。一些重要考试通常有专门的文件，譬如国外读写测评项目都有专门的测评框架文件，我国高考前有考试大纲，现有《中国高考评价体系》。其他一些测评场合，可能需要命题者自主建构测评蓝图，即图1-2“评估设计过程模型”中第二阶段的产物。其间，可能需要用到一些工具，譬如借助教育目标分类学，让宏观的课程目标具体化为特定测评项目中可测量的测评目标。教育目标分类学本身不会告诉我们特定的测评项目应该测评什么，但是其术语体系有助于我们把测评目标表达得更为清晰和可测量。不少研究者都提出过测评目标的表述问题，譬如萨克斯（Sax，G.）和牛顿（Newton，J.W.）说的是要把“内隐目标”“模糊的动词”表述为“清晰的动词”^[23]，雷新勇说的是要把“理论目标”转化为“行为目标”^[24]。安德森等人将布鲁姆教育目标分类学中的认知目标细化为19种认知目标亚类^[25]，有助于教学和测评领域优化目标表述。当然，语文学科未必能直接、完全使用该体系，但可将其作为一种参考框架和思维工具。

以上六类标准，提醒我们既要重视测评领域的经典文献，遵循测评领域的基本规范，也要能密切关注测评领域的研究动态及与测评相关的重要文件。以上系列标准中的部分标准，对语文测评领域而言，还需要进一步解读和探索。^[26]

上述六类标准在测评项目设计中的关系可以用图1-4表示：

pagenumber_ebook=26,pagenumber_book=14

图1-4　测评系列“标准”协同作用图

其中，测评通用标准、测评专业标准、读写测评标准的作用相对隐性，它们能为测评项目的质量保驾护航，但需要测评项目组织、开发和实施者有意识地重视和尊重这些标准的要求或建议；教育目标分类学，可以看作一种思考和表达工具，可以借助其厘清课程标准、教学和考试各个层面间的延续性和一致性；考试大纲、测评蓝图，是对测评项目的具体规划，是实际指导具体工具开发的操作标准；效度和信度等基本的质量标准，理论上是第三类测评专业标准中的重要指标，此处单列，是因为已经为人们所熟悉，也相对基础，是所有测评工具必须重视的质量指标。

以上，尝试在测量与评价理论中的某些“点”与语文学科测评中需要考虑的基本问题之间建立了一定的联系。此为后续探讨读写测评具体问题的认识框架和前提。

语文教育评价改革的外在呼声从未停止过，语文教育领域内部关于评价改革的思考也从未停歇过。在当下和未来，我们更需要追问相关探索的意义、专业性，由此提高语文教育评价改革的成效，进而对整个语文课程教学体系产生积极的影响。

内化各类标准，充分把握语文测评方向及其意义

相关推荐