《国务院关于深化考试招生制度改革的实施意见》指出,2014年启动考试招生制度改革试点,2017年全面推进。2017年已至,对于新一轮高考改革,万众嘱目。高考的重要性无论怎么说都不过分,所以国家、社会、学校、家庭和个人始终高度重视高考,对高考中的一些重要问题也倍加关注。
高考原始计分的逻辑基础
高考原始计分是将各学科原始分数直接相加所得结果,即通常意义上的高考成绩,是我国现行高考制度最主要的一种计分方式。一般是各学科分别依据评分标准,判定每份试卷的原始分数。然后将每位考生各门学科的原始分数直接相加作为高考成绩,是高校从高分到低分依次录取学生的依据。
或许很少有人怀疑,把上述所得高考成绩作为高校录取依据的科学性、公正性与合理性。其实原始分数不仅意义不明确,比如,无法判断96分是“好”还是“差”,它可能是考生团体的第一名,也可能是倒数第一,所以无法判断它在团体中所处的位置是高还是低。而且,由于不同学科试题难度存在差异,会造成不同学科的单位分值不相等,甚至同一学科的每一分值一般也不相等。因而,将各学科原始分数简单相加作为高考成绩,如同把3个苹果与4只梨相加,问等于多少?难以解释。以这样获得的高考原始计分作为高校录取依据的科学性令人质疑,择优录取的可能性也值得推敲。故有必要理清怎样才算“优”,怎样才能把真正的好学生选拔出来。
高考作为选拔性考试,具有鉴别功能。简单说来,原始分数是把每位考生的答题情况与评分标准进行比较的结果,两者越符合得分越高,否则越低。这样各学科原始分数只代表每位考生答题情况与评分标准的符合程度。而高考作为选拔性考试,其择优录取的依据是建立在考生之间差异比较的基础上的,所谓“优”实质上是指考生群体中排名靠前的那些学生。因而高考作为选拔性考试,特别强调考生之间差异的判别,这与新课程强调过程性评价、倡导发展性评价的理念并不矛盾。高考鉴别不同能力倾向、区别不同程度学生的功能,不仅依然存在,或许有必要进一步加强,以便最大限度地为每一个人提供最适合发展的机会,真正体现教育的公平与公正性。
高考标准计分的逻辑基础
为满足选拔性考试对考生比较的目的,在关注个别考生成绩的同时,有必要进一步考查每门学科考生成绩的排序或分布情况。不过由于原始分数不等值,直接把各门原始分数相加后,按总原始分数从高到低进行排序(如通常所做的那样),也显然不具备科学基础。
高考成绩的正态分布性质 研究表明,人的能力包括记忆能力、推理能力、语言表达能力等,常常遵从正态分布。就是说,能力超强和极低的人都很少,能力中等的人最多。一般而言,当某个变量受许多个微小、相互独立的因素影响时,往往表现为正态分布。比如,学生的品德或学习能力就受许多因素影响,如学生的智力水平、家庭状况、个人努力程度、社会环境、班级风气、校园文化风格、教师教学水平、教学方式方法等,都会影响学生的品德或学习能力。然而在这诸多因素中,没有哪一个因素能对学生品德或学习能力起决定性作用,甚至每一个因素的影响可能都微不足道,但又不可缺少。这时学生的品德或学习能力就一般服从正态分布规律。自然,当试题能真实反映学生的实际状况时,考试成绩的分布也呈正态分布。这时分数极高和极低的都很少,中间的占据绝大多数。
高考分数呈正态或接近正态分布,对录取工作的科学化、公平性至关重要。比如若题目太难,各种程度的考生都不会做,成绩集中在低分端;或题目太简单,考试成绩集中在高分端。分布偏离正态、成绩扎堆,使考生的实际水平难以被区分开来,录取的公正性难以保证。
为了满足高考这类选拔性考试对考生进行区分的要求,参阅《教育统计分析方法》,人们依据考生成绩呈正态或接近正态分布的特点,将原始分数(用X表示)转换为标准分(记为Z),两者之间的关系为:Z=(X-μ)/σ。其中μ是某一学科的平均分,即通常意义上所说的平均成绩;σ是标准差,代表该学科成绩分布范围的大小,越大成绩分布范围越广,越小成绩分布范围越窄。根据《教育统计分析方法》所附的正态分布表,每一个标准Z分数与它在团体中所占的位置或比率具有一一对应关系。当成绩分布呈正态时,在Z=-3(比平均分低3个标准差)到Z=3(比平均分高3个标准差)之间就包含了全部考生的99.73%。这意味着,成绩正态分布时,无论是比平均分低3个标准差还是高3个标准差,都很少见。
考虑到标准分Z不仅有正有负,而且不符合人们计分习惯,于是在标准分数Z的基础上,利用Z’=αZ+β(α、β均为常数)的线性变换,演化出多种形式的标准分数。最早使用较多的标准T分数,定义为:T=10Z+50。这样不仅能避免负分数情况,也能大致符合人们百分制的计分习惯。我国现行标准分制度规定:T=100Z+500,T的取值范围为100—900,超出者分别以100和900计。分析标准分的特点,当Z=1时,代表成绩高于平均分1个标准差;Z=2,则代表成绩高于平均分2个标准差……说明标准分具有等距性质,而且各门学科都有相等的含义,能直接相加(或者依照不同学科在高考中的权重做加权平均)作为高考总成绩,从而在根本上解决了原始分数不能直接相加减的问题。同时标准分还能准确刻画成绩在团体中的位次,比如Z=2,表明比该考生成绩高的人数不足全体考生的2.3%,这显然是一个排名很靠前、很好的成绩。可见,基于各门学科考生成绩的排序或分布状况,将原始分转化为标准分,消除了原有各个学科的量纲,体现了学生在群体中的相对位置,标准分数均以标准差为单位,将不同学科的分数统一到一个单位上来,从而实现可以直接相加的功能,而且每一个考生的标准分都能准确表征该考生成绩在团体中的位次,即能准确反映成绩的好与差,从而为择优录取提供了科学、公正的依据。
高考原始分数与标准分数的比较
按照标准分录取时,能真正达到择优录取、分类录取的目的,充分实现高考录取工作科学、公平、公正的要求。实践表明,按照原始分和标准分两种方式进行录取,确实会产生不同结果。
例如,甲、乙两名考生在某选拔性考试中,若以原始分数作为录取依据,当录取分数线是300分或者两名考生中只能有一人被录取时,应录取甲生(306分),而乙生(297分)落选。但将甲乙两名考生各科考试的原始分数转化成标准分以后,则录取结果恰好相反。
这其实不难理解。第一,原始分数的每一单位,不仅不同学科不相等,甚至同一学科的每一分值也并不相等。因此,直接将原始分数相加缺乏科学的依据。第二,原始分数不能体现它在考分总体中的位次,但标准分恰好能反映这一点。如,甲生英语成绩的标准分为0.40,意味着比甲生的英语成绩高的考生占34.46%;而乙生英语成绩的标准分为2.20,说明比这一分数高的考生仅占1.39%。可见,标准分正是通过每个考分在全体考分中的位次来表征优劣,故又称为相对分数。
早在1994年,国家教委办公厅针对各科命题难度不同,导致各科原始分数之间不能直接比较,造成分数解释上的困难等问题,发布了《普通高等学校招生全国统一考试建立标准分数制度实施方案》,到1997年陆续推广到海南、河南、陕西、广东、山东、福建等省。2001年只有海南和广东两省坚持使用标准分。2002年教育部不再支持标准分试点。使用标准分,一方面对命题提出严峻挑战,不仅题目偏难或偏易,都会出现偏离正态分布的情况,甚至标准差过大(成绩分布范围过大)或过小(成绩分布范围过小),也都可能使成绩的分布偏离正态特性,使原始分数转换为标准分数难以实现。另一方面,当人们不能准确理解标准分的含义时,也会对标准分的实施产生抵触情绪。
我们在近期一项调查中发现,接受以往高中会考“要符合正态分布”的教师占到33.3%;认为标准分数与原始分数相比“没有本质差别”的教师也有16.7%。这意味着,使人们深刻理解并广泛接受标准分,可能还要经历一个较长时期。