,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,心理测量学,-,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,第七章 测验分数的可比性与测验等值,江西师大心理与教育统计测量中心,第七章 测验分数的可比性与测验等值江西师大心理与教育统计测,测验等值概述,1,常用等值资料采集方法设计,2,测验分数等值关系计算的基本方法,3,第七章 测验分数的可比性与测验等值,-,心理测量学,测验等值概述1常用等值资料采集方法设计2测验分数等值关系计算,2,心理测量学,江西师大心理与教育统计测量中心,测验等值概述,1,第七章 测验分数的可比性与测验等值,-,心理测量学江西师大心理与教育统计测量中心测验等值概述1第七章,3,测验等值概述,D,B,C,A,测验等值的含义,测验等值的条件,等值步骤,等值误差,-,心理测量学,测验等值概述DBCA测验等值的含义测验等值的条件等值步骤等值,4,测验等值的含义,测验、考试被作为一种尺度来对人的心理特质进行测量。这种尺度应该具有稳定性。不同的考试版本之间应该具有一致性。对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。,-,心理测量学,测验等值的含义 测验、考试被作为一种尺度来对人,5,测验等值的含义,尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免的。这种差别不仅会影响到测验的质量,影响到评价标准的客观性,而且会使参加考试时间不同、使用试卷不同的考生受到不公平的对待。,心理测量学,江西师大心理与教育统计测量中心,-,测验等值的含义 尽管我们在命题过程中总是尽量保持,6,测验等值的含义,这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。,这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(,Equating,)。,心理测量学,江西师大心理与教育统计测量中心,-,测验等值的含义 这样,就需要将具有不同难度、分数,7,测验等值的条件,心理测量学,江西师大心理与教育统计测量中心,测验等值必须满足的要求与条件,测验所测心理结构或特性的同一性,等信度,测验等值转换关系的公平性,测验等值转换关系的可递推性,-,测验等值的条件心理测量学江西师大心理与教育统计测量中心,8,测验等值的条件,测验等值必须满足的要求与条件,(续),测验等值转换关系的对称性,测验等值转换关系对总体的惟一性或称样本不变性,在测验等值处理中,如果待等值测验能完全符合上述,6,个条件,则等值的结果将令人满意。,-,心理测量学,测验等值的条件 测验等值必须满足的要求与条件(续)-心,9,等值步骤,两测验形式之间的等值关系,必须依据等值条件去寻找这一隐性等值关系,并用某种形式将其显示出来。,揭示两测验形式的等值关系,实现测验等值应该按一定步骤进行。,-,心理测量学,等值步骤 两测验形式之间的等值关系,必须依据等值条,10,等值步骤,心理测量学,江西师大心理与教育统计测量中心,测验等值步骤(,七步,),确定等值目的,编制测验复份,选择一种数据采集的设计方法,贯彻数据采集设计方案,-,等值步骤心理测量学江西师大心理与教育统计测量中心测验等值步骤,11,等值步骤,心理测量学,江西师大心理与教育统计测量中心,选择一个或多个等值的操作性定义,以确定拟予等值的测验形式之间存在什么关系。,选择一种或多种统计估计方法,评价等值结果,测验等值的步骤一般依据以上七步完成,有时个别步骤的顺序可能会有所调整,但总体上不会有很大变化。,-,等值步骤心理测量学江西师大心理与教育统计测量中心选择一个或多,12,等值误差,等值完成后必须对等值结果进行评价。评价等值关系可靠性与准确性的指标是等值关系中所包含等值误差的大小。等值误差有两类:随机等值误差与系统等值误差。测验误差不可避免一样,等值误差也是不可避免的。,-,心理测量学,等值误差 等值完成后必须对等值结果进行评价。评价等值,13,等值误差,心理测量学,江西师大心理与教育统计测量中心,影响等值误差的主要因素,被等值测验的同质性,被等值测验之间的难度差别,被等值测验分数的分布特点,包括偏度、峰度等,被等值测验的单维性,-,等值误差心理测量学江西师大心理与教育统计测量中心影响等值误差,14,等值误差,心理测量学,江西师大心理与教育统计测量中心,影响等值误差的主要因素,(,续,),铆题对测验的代表性,或锚题分数与测验分数的相关,用于等值估计的考生样本的容量,用于等值估计的考生样本分数分布的相似性,-,等值误差心理测量学江西师大心理与教育统计测量中心影响等值误差,15,等值误差,心理测量学,江西师大心理与教育统计测量中心,影响等值误差的主要因素(续),测验长度,铆题,数量,铆题,在测验中的位置,实际的影响因素可能更多。等值还会受到测验所关注的分数段、测验目的对分数精确性的要求水平、测验分数的应用、计算条件等多种因素的影响。,-,等值误差心理测量学江西师大心理与教育统计测量中心影响等值误差,16,心理测量学,江西师大心理与教育统计测量中心,常用等值资料采集方法设计,2,第七章 测验分数的可比性与测验等值,-,心理测量学江西师大心理与教育统计测量中心常用等值资料采集方法,17,常用等值资料采集方法设计,1,单组设计,2,随机等组,设计,3,铆测验,非等组,设计,-,常用等值资料采集方法设计1单组设计2随机等组3铆测验-,18,单组设计,单组设计:,即把拟予等值的两个或多个测验同时向同一被试组施测,然后借助于同一被试组把拟予等值的测验联系起来,这时两组测验分数的差异主要是由于两个测验的难度不同而引起的,因而从理论上来说这种等值设计既简单又无抽样误差。但实际上由于练习效应、疲劳及厌倦等因素的影响,会给等值结果带来误差。,-,心理测量学,单组设计 单组设计:即把拟予等值的两个或多个测验同时向同,19,随机等组设计,随机等组设计:,从同一总体中随机抽取两组考生,这两组考生被认为在能力分布上是相同的或很接近,让这两组考生分别接受两份不同测验,X,和,Y,,然后估计两测验形式的等值关系。这种设计方案可克服练习效应和疲劳等因素的不利影响。这种数据采集设计有一个假设,即两被试样本的总体分布是相同的。由于从同一总体抽样,因此,不考虑其间的抽样误差,这一假设比较容易得到满足。,-,心理测量学,随机等组设计 随机等组设计:从同一总体中随机抽取两组考生,20,铆测验,非等组设计,铆测验,非等组设计:,在测验编制时另外编制一组测验试题,这些试题被称为共同题,也称为铆(,anchor,)题。在数据采集时,铆测验题即对第一组被试施测,又对第二组被试施测。,-,心理测量学,铆测验非等组设计 铆测验非等组设计:在测验编制时另外,21,等值设计方法图示,单组设计,样本,测,验,X Y,P,随机等组,设计,样本,测,验,X Y,P,1,P,2,铆测验,非等组设计,样本,测,验,X V Y,P,1,q,1,-,心理测量学,等值设计方法图示单组设计样本测 验X,22,心理测量学,江西师大心理与教育统计测量中心,测验分数等值关系计算的基本方法,3,第七章 测验分数的可比性与测验等值,-,心理测量学江西师大心理与教育统计测量中心测验分数等值关系计算,23,测验分数等值关系计算的基本方法,线性等值,等百分位等值,铆测验非等组设计下的等值关系计算方法,-,心理测量学,测验分数等值关系计算的基本方法线性等值-心理测量学,24,线性等值,在单组设计或随机等组设计下的两个分数,一个在测验形式,x,上,另一个在测验形式,y,上,如果它们的标准分数相等,这两个分数就被认为是等值的。,-,心理测量学,线性等值 在单组设计或随机等组设计下的两个分数,一,25,线性等值,心理测量学,江西师大心理与教育统计测量中心,用数学公式表示,所谓测验分数,x,等值于测验分数,y,,即有下式成立:,改写为:,其中:,-,线性等值心理测量学江西师大心理与教育统计测量中心 用数,26,等百分位等值,在单组设计或随机等组设计下的两个分数,一个在测验形式,x,上,另一个在测验形式,y,上,如果这两个分数有相同的百分等级,那么这两个分数就被认为是等值的。按照这个原理,寻找与,x,分数等值的,y,分数,只要找到与,x,分数有相等百分等级的,y,分数就可以。,-,心理测量学,等百分位等值 在单组设计或随机等组设计下的两个分数,27,等百分位等值,心理测量学,江西师大心理与教育统计测量中心,对于测验,x,的每个一分数,可根据公式在,x,测验分布中先求出与其对应的百分等级,然后在,y,测验上求取具有该百分等级的分数。即在两个测验上就有相同百分等级的分数就是等值分数。,-,等百分位等值心理测量学江西师大心理与教育统计测量中心,28,百分等级计算公式为:,根据百分等级计算测验分数公式为:,-,心理测量学,百分等级计算公式为:-心理测量学,29,铆测验非等组设计计算,让两个被试组分别参加两个形式的测验,在两个测验中有部分项目是共同的,铆题,这样两组被试被铆题铆接在一起。使用该设计可以采用线性等值方法来完成等值计算。,-,心理测量学,铆测验非等组设计计算 让两个被试组分别参加两个形式,30,铆测验非等组设计计算,心理测量学,江西师大心理与教育统计测量中心,铆测验非等组,设计线性等值方法计算公式如下:,其中,是,x,测验向全体被试,t,施测时的平均数与标准差的估计值,是,y,测验向全体被试,t,施测时的平均数与标准差的估计值。,-,铆测验非等组设计计算心理测量学江西师大心理与教育统计测量中心,31,如果两组被试能力差异不大,四项估计值为:,-,心理测量学,如果两组被试能力差异不大,四项估计值为:-心理测量学,32,心理测量学,江西师大心理与教育统计测量中心,其中,,与,是只参加测验,x,被试的平均数和标准差,,与,是只参加测验,y,被试的平均数和标准差,,与,是铆测验向全体被试,t,施测得到的平均数和标准差,,与,是既参加测验,x,又参加铆测验被试的平均数和标准差,,与,是即参加测验,y,又参加铆测验被试的平均数和标准差,,是测验,x,对测验,v,的回归系数,,是测验,y,对测验,v,的回归系数。,-,心理测量学江西师大心理与教育统计测量中心 其中,与,33,如果两组被试能力有差异,这四项估计值为:,式中,、与 分别是各个测验的信度系数。,-,心理测量学,如果两组被试能力有差异,这四项估计值为:-心理测量学,34,本章小结,测验等值是测验公平性的保证,其在测验实施、编制与结果分析,题库的建立,不同单位、地区、时间所测学科成绩的比较等方面,都是极为必要的。,-,心理测量学,本章小结 测验等值是测验公平性的保证,其在测验实施、编,35,本章小结,心理测量学,江西师大心理与教育统计测量中心,如果不进行等值处理,不同时间举行的考试的成绩之间不具备可比性,评价标准或证书授予标准会受到试卷难度起伏的影响。这种状况,不仅影响到选拔效率和人员素质,而且对考生也是很不公平的。,-,本章小结心理测量学江西师大心理与教育统计测量中心 如果,36,本章小结,心理测量学,江西师大心理与教育统计测量中心,等值研究的意义并不局限于保证考试公平。今天,为了避免命题和试卷编制中的盲目性和偶然性,国内许多考试机构都在致力于建设题库。实现基于项目反应理论(,Item Response Theory,,简称,IRT,)的题目参数等值是建设科学化、大规模题库的前提。,-,本章小结心理测量学江西师大心理与教育统计测量中心 等值,37,本章小结,心理