您当前位置:首 页 > 国际视野>
PISA的命题、评分组织管理及其对上海市基础教育质量监测的启示
 

【摘要】依据学生学业测评的基础教育质量监测是一项系统性工程,需要在考试命题、评分和测量分析等技术手段上不断加强和完善,更需要有科学、务实、具有可操作性的考试命题和评分组织管理为保障。本研究以PISA2006的命题和评分组织管理为例,从PISA的命题评分时间表、命题负责机构、试题提交、命题的两个阶段、评分标准的制订、评分组织管理六个方面阐述了PISA命题和评分组织管理所具有的特点,并在此基础上就上海市基础教育质量监测的科学健康发展提出建议。

【关键词】PISA;命题和评分管理;基础教育质量监测

 

依据学生学业测评的基础教育质量监测是一项系统性工程,包括测评目标和测评框架的开发确定、命题(试题开发和筛选)、评分、数据分析、结果诠释、反馈应用等环节。学生学业成就评价要真正体现并落实新的评价理念和考试的教学诊断性目的,不仅需要不断加强和完善考试命题、评分和测量分析等技术手段,同时也需要在考试命题和评分组织管理方面引入新的理念,采取具有可操作性的务实措施,以确保新的评价理念在实施过程中得以落实。

国际学生评估项目ProgramforInternationalStudentAssessment,简称PISA)是由经济合作与发展组织开发并实施的学生能力评价项目,自2000年以来,已经完整地实施了三轮(包括PISA2000PISA2003PISA2006),目前正在实施第四轮PISA2009PISA在原本设计时只针对发达国家——30个经合组织成员国之间的一项学生学习质量评价项目,最初的PISA200032个国家参加,包括28OECD国家和4个非OECD国家,随后,另有11个国家(经济体)加入了PISA的测试。PISA2003除了有30OECD国家参加外,还有11个非OECD国家(经济体)参与;PISA200627个非OECD国家(经济体)参与,到了PISA2009,非OECD国家(经济体)的数量已经超过了30个。越来越多非OECD国家(经济体)参与了PISA的测试,一方面是因为有些国家(经济体)希望从国际的视角了解本国教育发展的位置,另一方面,也有一些国家(经济体)希望通过参与PISA学习OECD的学生学业测试组织管理模式,以便为本国(经济体)建立长期有效的质量监测体系提供参照。

 

一、PISA的命题和评分标准制订过程:以PISA2006为例

PISA2006以科学为主要测试领域,阅读与数学为其次要测试领域,因此,后两个领域的测试题都为PISA2000PISA2003中已经使用过的连接试题(LinkItem),没有重新设计题目。PISA2006中,科学测试题大部分为设计的题目,共有37个科学单元,108道认知试题,31道嵌入式态度试题;认知测试题中,有22道题选自PISA2003,其余86道题则选自222道新设计的题目。下面从六个方面说明PISA命题和评分标准的制订过程及特点。

1PISA的命题和评分组织时间表

PISA命题的准备工作十分充分,甚至早于每一轮PISA的正式启动。以PISA2006科学试题的命题为例,PISA2006正式开始于20039月,其命题设计则开始于20037月,200410月结束,共历时一年多,OECD从五个国际命题专家组和各参与国家或地区提交的试题中,筛选并修改出高质量的试题,并逐步完善和确定评分所用的评分指南(详见下表)。

 

 

资料来源:《PISA2006技术报告》(《PISA2006TechnicalRe-port》)第30页,表格2.2

 

2PISA的命题负责机构

PISA很重视试题所具有的跨文化性和跨国跨地区性,在PISA2006中,国际专业协作组织委托五个国际知名的研究机构设立国际命题专家组负责PISA科学的命题,它们分别是:澳大利亚教育研究理事会(ACER)、荷兰教育考试院(CITO)、OSLO大学(ILS,挪威)、KIEL大学(IPN,德国)、日本国立教育研究所(NIER)。另外,还有4个专家组(科学专家组、阅读专家组、数学专家组、技术专家组)配合命题的工作。这些命题专家组不仅负责一部分的命题工作,也对各参与国提交的试题进行评审和修订,保证PISA试题的质量。其中,澳大利亚教育研究理事会根据PISA专业协作组织的管理和科学素养框架的要求,从整体上协调并监督各命题专家组的工作。

3PISA试题的提交

虽然PISA的命题主要由五个国际命题专家组负责,但其试题的提交部门则不仅仅局限于这五个专家组,PISA在设定命题标准后,鼓励各参与国(经济体)提交本地试题。在PISA2006中,有21个国家和经济体参与了新试题的开发,丰富了PISA测试的选题范围,为高质量的试测提供了试题资源保障。

为了帮助各国提交试题并提高命题质量,PISA还编制了试题提交指南和样题,详细说明了PISA命题的要求和过程,同时在PISA会议中开设PISA命题工作坊,现场指导各国命题专家有关PISA命题的原则、程序等。PISA在命题指南中规定的命题提交和筛选的标准主要包括:试题格式(按照一个试题单元形式提交,包括引导文本、多个题目和每个题目的评分指南)、试题对测评框架的覆盖面、影响试题的难度因素、试题题型多样化、试题内容的国际性(减少文化偏差及难以翻译的内容)。

PISA广泛的试题来源,决定了PISA试题情境的丰富多样、试题的开放性和文化多元性。

4PISA命题的两个阶段

PISA的命题来源主要为各参与国(经济体)提交的试题和五个国际命题专家组提交的试题。整体而言,PISA从命题到最后确定试题主要有两个阶段。第一个阶段是PISA国际命题专家对各参与国(经济体)提交试题的审查(详见图1),第二个阶段是对所有提交试题的国际审查(详见图2)。

一般而言,由各参与国(经济体)提交的试题都必须经过至少一个国际命题专家组的审核和修订,并由此专家组将经过筛选或修订后的试题提交至ACER,再次进行进一步的审核、筛选和修订(过程包括图1和图2所示的两个阶段)。各国际命题专家组提交的试题也必须至少由另一个国际命题专家组进行审核,再与各参与国(经济体)提交并经过审核的试题一起,共同汇集到ACER,开展国际性的审核和修订,并筛选出试测所用的新试题(图2所示的第二个阶段)。最后,筛选出来的新试题与确定的连接试题一起作为试测试题,在所有的参与国(经济体)中施测,并利用试测结果的数据分析,以及各参与国(经济体)对试测结果的反馈,再次筛选或修订试题,确定最终正式测试所用的试题。

1 PISA2006科学试题命题过程的第一个阶段:对各参与国(经济体)提交试题的审查

 

PISA命题的这两个阶段反映了其规范严谨的特点。

1)多方命题,专家反复审核修改。无论是PISA国际命题专家组提交的试题单元,还是各参与国家或地区提交的试题单元,都要经过本地的审查和试题的实验性认知活动(cognitivelaboratoryactivities),每经过一个阶段,就要对试题进行筛选、剔除,或作进一步修改和完善,这样的审核修改至少有4次,最多可达7次,使每一道试题都能经过不同专家的反复审核和修改。

2)进行试测,并对测试数据进行统计分析。无论是本地的实验性测试、由ACER开展的国际实验性测试,还是所有参与国(经济体)都参加的试测,都需要将测试结果录入,进行统计分析,得出试题的功能性差异等指标,并以此为基础对试题进行删减或进一步修改完善,科学确保正式测试所用试题的质量,尽可能保证试题对所有参与国家(经济体)学生的公平性。

5.PISA评分标准的制订

PISA试题命题的过程,也是评分指南逐步完善的过程。在题目的最初设计中,PISA就要求将每道试题的评分指南草稿列入其中;随后,在实验性认知活动中,通过与学生访谈、座谈等,收集并整理世界各国学生对试题的回答;最后,将这些回答与测试框架相结合,确定试题的评分要点描述和相应的学生回答案例。

PISA测试共有五种题型,包括选择题、封闭式问答题、简答题、复合选择题以及开放式问答题。其中,开放式问答题和部分简答题没有固定答案,需要评分专家进行人工编码。PISA开放题的评分标准是根据学生的真实回答而研制的。PISA开放式问答题的评分标准主要包括两部分内容:评分要点描述、回答示例。其中,评分要点描述类似我们考试中的标准答案,而回答示例则选取多个具有代表性的学生的真实反应,用以直观说明不同代码学生的典型回答。

这些回答示例绝大部分来自PISA试题研制两个阶段中的实验性测试。第一个阶段,各参与国家或地区设计的试题要提交给一个国际命题专家组审核,审核过程中要组织一次至少有30名学生参加的实验性测试(Pilottesting)。若试题进入第二个阶段的审核,ACER将再组织至少50名学生对修订后的试题进行实验性测试。这两次测试,除了要根据学生的反应对试题进行修订外,还有一项重要功能,即收集学生的真实答案,用以修订评分指南中的评分要点描述,同时,具有代表性的回答将补充到回答示例中。另外,评分指南还根据2005年组织的PISA试测的结果作一定修改。PISA评分指南中的回答示例是评分员培训的重要内容,也是实际评分的重要指导。

从评分指南的制定过程我们可以看到,PISA以学生的真实反应为制定答案的依据,鼓励学生提出不同的观点,这充分体现了PISA以学生为本的思想,有利于学生发展个性,提出具有创造性的想法。

6.评分组织管理

需要评分专家人工评分的试题大约占总试题量的45%。按每个国家(经济体)最少4500名学生估算,至少有116000个回答需要人工评分。为了保证各个国家(经济体)之间评分的公平性和一致性,PISA设计了试题本轮转程序、评分培训、分类计分、多次评分、评分检查等质量控制环节。

2  PISA2006科学试题命题过程的第二个阶段:所有提交试题的国际审查

 

1)试题本轮转程序

PISA设计了规范细致的试题本轮转程序,保证在各个领域中,每一位评分专家都要参与每一个试题组的评分,使每位评分专家都能了解整体情况;确保每个学生的试题本是一位以上的评分专家来评分的,每所学校的试题本是由一群评分专家评分的,从而减少人为的所产生的影响;要求评分专家评分时,必须是同一批试题本中的同一道题全部批完以后,再接着评下一题。这样做,尽可能确保了每道题评分的前后一致性,避免了晕轮效应(即评分专家在对当前试题进行评分时受学生试题本中前面试题回答的影响)。

2)评分培训

在试测前和正式测试前,PISA专业协作组织会各组织一次评分专家的国际培训(共两次培训),再由经过国际培训的评分专家对本地参与评分的评分专家进行本地培训。

在本地培训中,培训与评分是交替进行的,每次一个单元组(Cluster)。5个步骤分别如下:评分专家亲自做一遍试题熟悉该试题组的评分指南,对自己做的练习进行批改进行国际样例培训和讨论独立完成国内样例评分练习取得高度一致性后再对这一组试题进行评分。如果在国内样例评分练习中有超过10%的不一致,就要补充国内样例或者从国际论坛上选择其他国家的典型样例补充讨论。只有这样,才可以保证评分专家在评分时对评分培训内容记忆犹新,不容易为其他评分试题原则和标准所干扰。

3)答案分类计分

PISA评分是先将学生答案分类,赋予代码,然后将代码输入数据库管理软件。原始数据库提交给国际组织后,由国际组织统一将代码转化为标准分。

根据测评框架和总结试测所收集的学生回答实例,PISA针对每一道主观评分题的评分指南中都确定了评分的类别,一般分为1(满分)、0(零分)两个等级,或2(满分)、1(部分分数)、0(零分)三个等级,在个别情况下,也有分3210四个等级的。这些评分类别并非是学生在这道题的最后分数,而是确定其答案的等级,最后的分数要根据参与测试学生的回答状况,对学生回答的数据运用项目反应理论量化(scaling)后,才最后确定其得分。

PISA这种将评分和计分两个过程独立分开的方式,有利于评分教师在评分时尽可能保持中立客观,根据给出的评分标准给出相应代码,减少评分时教师直接看到分值而可能给学生得分带来的负面影响。而且,01(和2)的评分类别相对简单,教师在评分时也相对更容易掌握,较能在评分过程中保持原则的一致性。

另外,用测试结果确定的试题难度值给所得评分类别进行量表化,进而得出学生的最终分数,这种计分方法更为科学,能减少由命题教师决定试题分数值所带来的分数不等值问题。

4)评分质量检查

为了保证评分质量,PISA专业协作组织不仅制订了严格的评分作息时间(每天工作不超过6个小时),还设计了5个质量检查的环节。首先,试题本被分批整理好,每批试题本上都有流转单,评分专家要在流转单上签名,这一方面能保证评分程序的规

范和有序,另一方面也使得评分结果有据可查,促使各评分专家认真评卷,保证质量。其次,每个组的评分组长每天要检查组内评分专家的评分,并做好记录,对评分错误率较高的评分专家,可相应加强检查和培训。第三,对于有疑问、有争议的试题评分,可提交到各国家或地区PISA中心,甚至提交到ACER总部,协商解决疑问,尽可能保证各国家或地区评分的一致性。第四,每种试题本都抽取100本进行多次评分,用于检测评分专家之间的一致性以及评分数据的信度。第五,在数据库提交结束后,国际组织还要另外组织独立的国际评分组,在每个国家(经济体)抽取160名学生的试题本进行评分检查。

 

二、PISA对上海市基础教育质量监测的启示

PISA的实施显示,先进的评价理念和测评技术要真正得以落实,需要有科学规范的组织管理程序为保障。有研究者曾对全国29个省(自治区、直辖市)义务教育阶段的各类考试(包括校外教育机构组织的考试与学校自行组织的统一考试)进行调查,发现有些考试可能会增加学生、教师和学校的负担,其原因与考试目的、设计、实施等环节组织管理的不规范和不系统有着密切的关系。这些问题在上海市义务教育阶段也或多或少地存在。例如,上海市目前的外部统一测试一般是由考试命题单位组织专家参与命题,命题时间为封闭式的几个星期。鉴于时间有限等原因,上海市的初中学业考试和中考命题都没有经过试测的过程,主要依靠命题专家的个人经验和水平来保证试题的质量;试题答案由命题专家确定,并且答案多数具有惟一性。

借鉴PISA在命题和评分组织管理上的经验,我们可以从以下三个方面对上海市基础教育质量监测提出建议。

1.规范考试命题的标准和程序

首先,确定可操作化的命题标准。考试命题单位要基于考试目标和相关的标准,确定命题提交和审核修订的标准,尤其是要求命题能最终反映和落实考试所要达到的预定目标(如中考对新课标三维目标的落实),使课堂教学和学校的内部测试真正能够按课程标准的要求全面开展。

其次,设计严格规范的命题程序。命题的提交、修订、筛选要经过一定流程的反复轮转,由多方专家对命题进行探讨和修改完善,以规范的程序保证命题的质量。

第三,请教育测量和考试研究的专家介入命题环节,增加试测环节,通过对试测结果的分析(如试题功能差异分析等),在正式考试之前筛选或修改完善试题,尽可能从技术上保证考试对每位学生的公平性。

2.改进开放题的设计和评分标准研制工作

要完善开放题的设计和评分,尤其应在开放题的评分标准上,征求学生和教师等多方的意见和建议,设定更为开放和多元的开放题评分标准。

首先,可以尝试改变开放题标准答案的研制方法,改变以往单纯由命题专家经验决定的一条途径,适当进行题目的适应性研究,根据学生的真实反应对题目和评分标准进行修订。

其次,在开放题设计中,增加能够发挥学生个性的题目,同时评分标准应更加多元,鼓励学生在正确理解的基础上提出具有独创性的观点,重视他们的阐发论证能力。

第三,充分发掘和利用考试提供的信息。尽管大部分教师在平时的教学和作业中非常重视学生正确解题思路和方法的训练,但是在大规模考试中却往往较少反映这方面的要求。为此,一方面,我们可以鼓励教师在自编测验或小范围监测考试中采用PISA评分方法,增加考试获得的信息量,针对性地改进教学;另一方面,在大规模考试中,教育研究部门可以选择部分题目进行抽样研究,对学生已有的答案进行两位数代码的评分,从而对考试所获得数据进行二次开发,充分发掘大规模考试中的信息,增强考试的反馈功能。

3.运用多种措施提高评分的公平性和一致性提高开放题评分的一致性是我们亟待解决的问题。以往的考试并没有重视评分培训的环节,在开始评分的时候我们并不了解评分者之间对评分标准理解的一致性程度有多少。我们可以借鉴PISA的做法,在开始正式评分之前做好评分标准的培训和练习,在达到较高程度的一致性后再开始评分;并且

我们还可以增加多次评分的环节,用来检查评分的一致性程度,对于一致性程度较低的试题,考试命题单位应重新检查试题和评分标准的质量。

返回顶部】 【关闭】 【打印