首页 理论教育深入理解语文测评:理论与工具

深入理解语文测评:理论与工具

【摘要】:测量理论中用构念泛指观念性、概念化的、非物质的测量对象。结合其他相关论述,测量第一个阶段的工作和注意事项可以解析为如下几点:其一,明确测量对象,即构念的所指和名称。其三,为构念界定的领域,必须是“可操作的指标”,即该指标是可以通过任务加以测量,继而根据学生反应报告其发展水平或状态的。这些差异汇总起来,就代表了对测评构念不同的理解,对测评领域不同的选择和理解。

考什么,是所有考试设计都要回答的基本问题。若要对“考什么”这个问题有较为深入的思考,需要重视“心理属性的实质理论”,也可以称为“建构理论”(construct theory)。“建构理论”是测验所测量的心理建构的界定和描述、构成和结构、发展水平和形成机制的解释性框架体系。[1]构念理论的发展需要心理和教育测量学与各学科的联合研究。语文学科测评领域,需要从认识测量理论中的构念内涵及其意义开始。

测量理论中用构念泛指观念性、概念化的、非物质的测量对象。构念可能是人认知模型理论中的一个部分;可能是“学业成就”;可能是和健康相关的概念,如“生命的质量”;也可能是社会学层面的概念,如农村人口移民的同化等。[2]明确测量对象——构念,洞悉构念的属性,是准确、有效表达测量内容和目标,以及提高测试效度的前提。

测量过程模型的第一个环节始终是构念的确认和分析:

测量的第一个阶段,要回答一个问题:“我们测量的是什么?”我们需要用一个“标签”来识别构念。更重要的是,我们需要为这个构念界定“领域(domain)”,即根据关于这个构念的理论和相关知识识别一些可操作的指标(operational indicators)。[3]

以上这段论述不仅明确了测量起始阶段的任务是弄清楚“测量的是什么”,并且高度概括地揭示了解决这个问题过程中要做的事情,而且隐含了明确构念过程中需要注意的一些问题。结合其他相关论述,测量第一个阶段的工作和注意事项可以解析为如下几点:

其一,明确测量对象,即构念的所指和名称。在这个看似简单的问题上,我们需要反思:我们常说的语文素养、阅读素养等概念是否能准确表达各类语文考试的测量对象?如果我们已经将测量构念锁定在这些概念上,那么这是一种习惯性的术语沿用,还是一种测量理论视角下的自觉行为——了解其内涵,并会将关于测量对象内涵的理解,严格落实在测试内容选择和测试方式设计的各个环节、各个层面?

其二,找出特定构念相应的测量领域(或“指标”)。因为“教育测量的对象多属于人的心理属性,它是不能作为物质实态来操作的结构概念。这种结构概念,不能直接测量,只能从测量与这个结构概念有关的或从反映这种结构概念的(可测量的)因素着手,对这个结构概念进行间接的测量”[4]。要找到这些测量领域(可测量因素),可以参考关于这个构念的既有理论和相关知识,譬如关于语文素养、阅读、写作等的研究。

其三,为构念界定的领域,必须是“可操作的指标”,即该指标是可以通过任务加以测量,继而根据学生反应报告其发展水平或状态的。“我们假设我们要测量的构念有一个特定的、简单的形式:从一极到另一极,譬如从高到低,从小到大,从正面到负面……我们的主要兴趣是考察特定的‘反应’处于两极之间的哪个位置。”[5]

其四,一个构念通常需要不止一个而是一些测量领域,因为有许多构念不像以上第三点所描述的那样是单维的,而是要复杂得多,是多维的。“对此,最直接的处理方式是,一次处理一个维度,将每一个维度看作一个构念。”[6]

用上述理论反思语文考试,可以肯定的是,语文考试测量的是一种复杂构念。

可以将以上抽象的理论具体化:我们测量的构念可能是语文学科核心素养;我们可以为其界定的领域,即“一些可操作的指标”,有“阅读与鉴赏、表达与交流、梳理与探究”(高中),或“识字与写字、阅读、写作、口语交际、综合性学习”(义务教育阶段)。到这一步,操作性还不够,还要为阅读、写作等领域找到更加具体的操作指标或任务设计的切入点。

测量领域的选择和理解至关重要,测评什么和不测评什么,需仔细推敲。

反观实践,在测评领域的选择和理解上,存在着一些差异和落差。

纵向来看,语文测评领域的变化是较为显著的。以语文高考为例:1954年考了作文、概括文章主要意思、给文言语段加标点、字词填空、文学常识;1963年考了作文和文言文的理解两大板块;1978年考的是语言基础知识和运用(标点、字、词、句)、作文、古代汉语知识;1986年涉及语言基础知识和运用(标点、字、句)、古代诗文的识记、文言文阅读、文学文化常识、现代文阅读、作文……2017年开始,高考语文全国卷文学类文本阅读和实用类文本阅读由选考改为必考,也反映了对语文测评构念和领域的认识在发展。

横向来看,同一测评领域会有不同的测评指标,以阅读为例,2018年我国东西南北中16个地区的语文中考试卷中,有4份试卷不考名著阅读;有4份试卷考到了名著阅读,但只考信息记忆;有4份试卷兼顾考查名著阅读中的记忆和理解能力;有4份试卷中的名著阅读题则专门考查理解或理解以上层级的能力(与地区发达与否没有必然关系)。再如,有些地方规定写作只考记叙文写作,有些地方则会考到各种文体。这些差异汇总起来,就代表了对测评构念不同的理解,对测评领域不同的选择和理解。部分选择,恐怕与语文学科核心素养、核心素养这些构念并不匹配。

综合来看,在语文考试层面,不仅有测评领域间的差异,还有同一领域测评目标之间的差异。这种差异可能是不同时代、不同地区不同选择的结果,但需要有可以言明的理据。