测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
考什么,是所有考试设计都要回答的基本问题。若要对“考什么”这个问题有较为深入的思考,需要重视“心理属性的实质理论”,也可以称为“建构理论”(construct theory)。“建构理论”是测验所测量的心理建构的界定和描述、构成和结构、发展水平和形成机制的解释性框架体系。[1]构念理论的发展需要心理和教育测量学与各学科的联合研究。语文学科测评领域,需要从认识测量理论中的构念内涵及其意义开始。
测量理论中用构念泛指观念性、概念化的、非物质的测量对象。构念可能是人认知模型理论中的一个部分;可能是“学业成就”;可能是和健康相关的概念,如“生命的质量”;也可能是社会学层面的概念,如农村人口或移民的同化等。[2]明确测量对象——构念,洞悉构念的属性,是准确、有效表达测量内容和目标,以及提高测试效度的前提。
测量过程模型的第一个环节始终是构念的确认和分析:
测量的第一个阶段,要回答一个问题:“我们测量的是什么?”我们需要用一个“标签”来识别构念。更重要的是,我们需要为这个构念界定“领域(domain)”,即根据关于这个构念的理论和相关知识识别一些可操作的指标(operational indicators)。[3]
以上这段论述不仅明确了测量起始阶段的任务是弄清楚“测量的是什么”,并且高度概括地揭示了解决这个问题过程中要做的事情,而且隐含了明确构念过程中需要注意的一些问题。结合其他相关论述,测量第一个阶段的工作和注意事项可以解析为如下几点:
其一,明确测量对象,即构念的所指和名称。在这个看似简单的问题上,我们需要反思:我们常说的语文素养、阅读素养等概念是否能准确表达各类语文考试的测量对象?如果我们已经将测量构念锁定在这些概念上,那么这是一种习惯性的术语沿用,还是一种测量理论视角下的自觉行为——了解其内涵,并会将关于测量对象内涵的理解,严格落实在测试内容选择和测试方式设计的各个环节、各个层面?
其二,找出特定构念相应的测量领域(或“指标”)。因为“教育测量的对象多属于人的心理属性,它是不能作为物质实态来操作的结构概念。这种结构概念,不能直接测量,只能从测量与这个结构概念有关的或从反映这种结构概念的(可测量的)因素着手,对这个结构概念进行间接的测量”[4]。要找到这些测量领域(可测量因素),可以参考关于这个构念的既有理论和相关知识,譬如关于语文素养、阅读、写作等的研究。
其三,为构念界定的领域,必须是“可操作的指标”,即该指标是可以通过任务加以测量,继而根据学生反应报告其发展水平或状态的。“我们假设我们要测量的构念有一个特定的、简单的形式:从一极到另一极,譬如从高到低,从小到大,从正面到负面……我们的主要兴趣是考察特定的‘反应’处于两极之间的哪个位置。”[5]
其四,一个构念通常需要不止一个而是一些测量领域,因为有许多构念不像以上第三点所描述的那样是单维的,而是要复杂得多,是多维的。“对此,最直接的处理方式是,一次处理一个维度,将每一个维度看作一个构念。”[6]
用上述理论反思语文考试,可以肯定的是,语文考试测量的是一种复杂构念。
可以将以上抽象的理论具体化:我们测量的构念可能是语文学科核心素养;我们可以为其界定的领域,即“一些可操作的指标”,有“阅读与鉴赏、表达与交流、梳理与探究”(高中),或“识字与写字、阅读、写作、口语交际、综合性学习”(义务教育阶段)。到这一步,操作性还不够,还要为阅读、写作等领域找到更加具体的操作指标或任务设计的切入点。
测量领域的选择和理解至关重要,测评什么和不测评什么,需仔细推敲。
反观实践,在测评领域的选择和理解上,存在着一些差异和落差。
纵向来看,语文测评领域的变化是较为显著的。以语文高考为例:1954年考了作文、概括文章主要意思、给文言语段加标点、字词填空、文学常识;1963年考了作文和文言文的理解两大板块;1978年考的是语言基础知识和运用(标点、字、词、句)、作文、古代汉语知识;1986年涉及语言基础知识和运用(标点、字、句)、古代诗文的识记、文言文阅读、文学文化常识、现代文阅读、作文……2017年开始,高考语文全国卷文学类文本阅读和实用类文本阅读由选考改为必考,也反映了对语文测评构念和领域的认识在发展。
横向来看,同一测评领域会有不同的测评指标,以阅读为例,2018年我国东西南北中16个地区的语文中考试卷中,有4份试卷不考名著阅读;有4份试卷考到了名著阅读,但只考信息记忆;有4份试卷兼顾考查名著阅读中的记忆和理解能力;有4份试卷中的名著阅读题则专门考查理解或理解以上层级的能力(与地区发达与否没有必然关系)。再如,有些地方规定写作只考记叙文写作,有些地方则会考到各种文体。这些差异汇总起来,就代表了对测评构念不同的理解,对测评领域不同的选择和理解。部分选择,恐怕与语文学科核心素养、核心素养这些构念并不匹配。
综合来看,在语文考试层面,不仅有测评领域间的差异,还有同一领域测评目标之间的差异。这种差异可能是不同时代、不同地区不同选择的结果,但需要有可以言明的理据。
有关读写测评:理论与工具的文章
测量与评价,两者各有专门的话语系统但又密切相关。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。......
2023-08-17
考试大纲曾经发挥了积极的作用。不过,不可回避的是,细究考试大纲,还有一些可以进一步讨论的问题。(一)测评领域的界定有待进一步研究考试大纲给“表达”领域分出了两个考查内容板块:语言文字应用和写作。2015年,有11个省市的考试说明将其作为一个专门的板块设定测评目标。[5]当然,实际的考试命题终究还是要操作性框架的,考试大纲文件的取消,并不代表着考试大纲中的概念框架、思维方式会同时消失。......
2023-08-17
我国考试大纲从其内容构成来看,倾向于是一份操作性文件,直接规定“考核目标与要求”“考试范围与要求”,不像国外的测评框架那样对测评的构念、领域作出明确的界定和详细的解释。......
2023-08-17
明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
《阅读锚定标准》中有这样的说明:“标准界定了每一个学年末,学生应该能理解什么和能够做什么。”[8]这一说明揭示了理解和描述阅读素养的两个最基本的维度。其次,《阅读锚定标准》的前两个维度“主要思想和细节”与“艺术和结构”下面的具体标准,也都指明了学生在阅读过程中对于文本的不同侧面应该作出怎样的认知反应。......
2023-08-17
为了适应我国当前需求,同时兼顾国外测评的多样性,以下择取国外部分高利害考试和日常总结性测评案例加以剖析。11年级这一套试卷的三个模块,共呈现了6篇阅读文本,题目总计22个,其中选择题19个、基于阅读的写作题3个。其中的“语言与文学研究”领域开设三门课程,每门课程又分基础课程和高级课程供学生选修,其中的《语言A:文学》课程,相当于是将我们的整本书阅读中的文学作品阅读课程化了。......
2023-08-17
超越任务选做型作文题,对于文体的不同规定值得专门探讨。其一,“文体不限”是文体开放的基本形式。文体不限是提高作文试题开放度的基本手段之一,学生有着广阔的文体选择空间。加了限制条件的“文体不限”,引导的是更加自觉的选择,以及对文体特征和功能更加到位的理解。其三,“规定文体”也能成为一种具有深远意义的开放。......
2023-08-17
《阅读和写作评估标准》的一大特色是:在学生终身学习、整个教育系统的发展,以及整个社会所有成员读写能力发展的背景下谈读写评估问题。这份《阅读和写作评估标准》的态度十分坚决:“如果一项评估实践无法带来促进教和学的效果,那么其是无效的。”《阅读和写作评估标准》重视探究,是基于这样一个基本认识:如今,学校教育的目的已经不单单是传递知识,而是发展学生独立学习、合作学习和问题解决的能力。......
2023-08-17
相关推荐