明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
特定测量语境中的“构念理论”是完整、自足的,但若放在学科的大体系中来看,可能是不足的。关于这一点,几个较为成熟的国际读写测评项目都有相关说明。譬如,美国国家教育进展评估项目(National Assessment of Educational Progress,简称NAEP)在其阅读测评框架文件中说明:该测试项目聚焦于“重要的、可测量的学生学业成就指标”,“对某一概念的界定也许不是对这一个概念的唯一和最佳界定”,但一定要“适用于测试评估”。[7]因此,“考试”再科学规范,日常教学和教学评价的边界也不能囿于考试的边界。
那么,那些难以测量的素养或素养维度,该如何去诊断和报告学生的发展情况?更为健全的语文测评体系应该是怎样的?这需要追溯到测量与评价的关系上去。测量与评价,两者各有专门的话语系统但又密切相关。米勒(Miller)等人对此做了较为生动的阐释。评价是指经由观察、表现与专题评定或纸笔测验获得学生的学习信息,并对学生学习进展予以价值判断;评价要回答的问题是“这个人有多好”,兼顾量化描述(测量)与质化描述(非测量)。测量要回答的问题是“这个人表现有多少”,重点在量化描述。转化为操作流程和手段,两者的区别和联系可以用图1-1[8]表示:
图1-1 评价途径与过程
反观我国评价研究与实践,可以看到近十几年间,有研究者曾站在不同层面呼吁转变观念,构建与上图相近的观念和实践体系。有的是从高校招生评价体系的角度呼吁由“考试”向“评价”演进。[9]这一理想将逐步变为现实,“到2020年基本建立中国特色现代教育考试招生制度,形成分类考试、综合评价、多元录取的考试招生模式”[10]。也有研究者站在学校教学的立场,提出“基础教育尤其是义务教育阶段,要把考试观转变为评价观”,将各种可行的方法“创造性地自主地运用于学校教学过程,收集、记录、分析和解释来自多方面的信息资料,并对其价值作出必要的判断”。[11]日常教学评价倡议在实践中还没有得到充分重视,也许还是要等高考招生层面的多元评价体系真正运转起来之后,才能倒逼中小学日常教学层面充分开展立体、多元的评价实践。
从语文教育评价系统改革的角度出发,还是需要自觉、积极地研究和开发立体化的语文测评体系。我国《义务教育语文课程标准(2011年版)》和《普通高中语文课程标准(2017年版)》对此都有明确的建议:
要根据不同年龄学生的学习特点,按照不同学段的课程目标,抓住关键,突出重点,采用合适方式,提高评价效率。语文课程评价应该改变过于重视甄别和选拔的状况,突出评价的诊断和发展功能。形成性评价关注学习过程,有利于及时揭示问题、及时反馈、及时改进教与学活动。终结性评价关注学习结果,有利于对教学活动作出总结性的结论。形成性评价和终结性评价都是必要的。应加强形成性评价,注意收集、积累能够反映学生语文学习与发展的资料,可采用成长记录袋等各种方式,记录学生的成长过程。要坚持定性评价和定量评价相结合,全面反映学生语文学习的状态及水平。[12]
语文教师应根据实际需要,整合诊断性评价、形成性评价、终结性评价等多种评价方式,考查学生核心素养发展情况。每种评价方式都有自身的优势和局限,教师应根据特定的评价目的选择使用。可采用纸笔测试、现场观察、对话交流、小组分享、自我反思等多种评价方法,提高评价效率,增强评价的科学性和可靠性。……学生语文核心素养的发展呈现鲜明的个体特点。教师要注意搜集学生在语文实践活动中产生的各类材料,如测试试卷、读书笔记、文学作品、小组研讨成果、调查报告、体验性表演活动和个人反思日志等。通过这些材料了解学生在任务群学习中表现出的个性品质和精神态度,建立完整的学习档案,全面记录学生核心素养的发展轨迹。有条件的地方,可以运用信息技术,丰富学生的表现性评价,形成多样化的学生成长记录,全面而科学地衡量学生的发展。[13]
课程标准中的这些理念与米勒等人勾勒的评价途径和方法体系吻合,也细化了语文课程中可能的多种评价方式、方法。当然,这些理念和设想只有真正成为学校日常教学的行为指南才有意义。
本书侧重探讨纸笔测试,没有专门探讨非纸笔测试,但本书有一个潜在的假设,所有纸笔测试之外还有着以其他方式展开的测评活动,而且正如这一节一样,在合适的话题下,本书还是会尽力强调“非测量”部分的重要性。
即使是语文纸笔测试,也要注意试题类型的多元化、特定类型试题可能的适用情境及设计规则。目前,绝大多数测量与评价类书籍,基本都会有专门章节探讨各类型试题的编制原则。虽然是一些一般规则,但对语文学科命制试题有启发意义和规范意义。语文学科试题的发展要兼顾规范和创新两个方面。
将语文测评途径和语文测评构念联合起来思考,可以作出如下假设。假设语文学科教育本体研究足够成熟,语文课程目标足够清晰,语文测评构念理论足够充分,语文测评手段足够丰富,那么语文测评领域就能朝着更加科学的方向发展。所有可以考试的内容领域,都有专门的测评目标——体现领域属性、清晰明确、适宜检测和报告,并且能对教学产生积极影响;那些不适宜考试的素养维度也能有相对丰富、成熟的测评途径,有效诊断学生的发展水平。
有关读写测评:理论与工具的文章
明晰了测评构念、选择了测评途径之后,就进入测评工具开发或选择阶段。阶段三开发测评工具时,需注意测评的是“潜在的”[17]构念,因此测量与评价要解决的一个关键问题是如何用外显的工具引发学生隐性的思维过程、认知反应,并据此判断其构念发展水平。此处勾勒的测评工具开发小模型突出了测评工具开发中需要特别重视的一个方面,即需要考虑工具引发的学生反应。......
2023-08-17
考试大纲曾经发挥了积极的作用。不过,不可回避的是,细究考试大纲,还有一些可以进一步讨论的问题。(一)测评领域的界定有待进一步研究考试大纲给“表达”领域分出了两个考查内容板块:语言文字应用和写作。2015年,有11个省市的考试说明将其作为一个专门的板块设定测评目标。[5]当然,实际的考试命题终究还是要操作性框架的,考试大纲文件的取消,并不代表着考试大纲中的概念框架、思维方式会同时消失。......
2023-08-17
我国考试大纲从其内容构成来看,倾向于是一份操作性文件,直接规定“考核目标与要求”“考试范围与要求”,不像国外的测评框架那样对测评的构念、领域作出明确的界定和详细的解释。......
2023-08-17
在差异背后,可以找到国际读写测评中的一些基本趋势、规律。(三)测试任务层面,形式丰富,内容有学术性以上测评案例中的“任务”与我们熟悉的题目,有一些较为明显的差异。案例4德国课程标准中呈现的测试样例则是一个大任务中包含一系列连贯性的子任务,子任务是完成大任务的一个环节,完成一组子任务就完成了一个大任务,按要求建构了一个档案袋。其实,尊重读写规律、需求的任务,就是“真实”的语文实践活动。......
2023-08-17
测量理论中用构念泛指观念性、概念化的、非物质的测量对象。结合其他相关论述,测量第一个阶段的工作和注意事项可以解析为如下几点:其一,明确测量对象,即构念的所指和名称。其三,为构念界定的领域,必须是“可操作的指标”,即该指标是可以通过任务加以测量,继而根据学生反应报告其发展水平或状态的。这些差异汇总起来,就代表了对测评构念不同的理解,对测评领域不同的选择和理解。......
2023-08-17
为了适应我国当前需求,同时兼顾国外测评的多样性,以下择取国外部分高利害考试和日常总结性测评案例加以剖析。11年级这一套试卷的三个模块,共呈现了6篇阅读文本,题目总计22个,其中选择题19个、基于阅读的写作题3个。其中的“语言与文学研究”领域开设三门课程,每门课程又分基础课程和高级课程供学生选修,其中的《语言A:文学》课程,相当于是将我们的整本书阅读中的文学作品阅读课程化了。......
2023-08-17
超越任务选做型作文题,对于文体的不同规定值得专门探讨。其一,“文体不限”是文体开放的基本形式。文体不限是提高作文试题开放度的基本手段之一,学生有着广阔的文体选择空间。加了限制条件的“文体不限”,引导的是更加自觉的选择,以及对文体特征和功能更加到位的理解。其三,“规定文体”也能成为一种具有深远意义的开放。......
2023-08-17
国际阅读“测评框架或说明”文件蕴含的一些基本追求也是我国考试研究者、命题人员和测评文件编写者等相关人员需要重视的。如何保证上述三个层面的良性互动,是我们在剖析国际“测评框架或说明”文本之余需要反思和探究的问题。我们可以从学习国际“测评框架或说明”文本的技术规范开始,同时也许还需要适当调整我们的思维模式。......
2023-08-17
相关推荐