,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017/2/18,#,Chi-square,卡方检验的基本介绍,卡方检验的两种主要用途,卡方检验应注意的问题,A chi-square test,also written,as X,test(,X,为希腊字母,读作,chi),is any,statistical hypothesis test,wherein the sampling distribution of the test statistic is a,chi-square distribution,when null hypothesis is true,.,chi-square is,a non-parametric test,.,all variables are,categorical,.,卡方检验,通过比较两项或多项频数,检测在一定显著水平上实际频数与以某种理论模型或分布特征假设为基础的期望频数的差异度,(,Bulter,1985,112,),具体,来说,就是比较,实际次数与期望次数,(或理论次数)之间是否有显著差异。,期望次数,是指根据某种理论模式,或根据对某种特征的分布所做的假设而期望得到或应该得到的次数。,卡方检验的步骤,1.,建立零假设,H,0,和备择假设,H,1,2.,根据理论经验或理论分布计算期望频数,卡方检验的零假设为:实际次数与期望次数之间,没有差异,(对于不同的用途,零假设的陈述方法略有不同),备择假设为:实际次数与期望次数之间有差异。,4.,根据自由度和显著水平,在卡方分布表中查找出对应的卡方临界值。,如果运算出的卡方值大于卡方临界值,拒绝零假设;反之,接受零假设。,3.,根据实际频数和期望频数计算样本卡方值,计算卡方值的基本公式,:,X,2,卡方值,O,指实际次数或观测次数,E,指期望次数或理论次数,由英国统计学家,Karl Pearson,首次提出,也被称为,Pearson x,2,Two main uses of chi-square test,test for goodness of fit of the data,test for group independence,Chi-square for goodness of fit,科学研究中,影响一个事物的因素可能很多,在一项检验中,只有一个因素改变称为单因素检验,多于一个因素的检验称为多因素检验(盛骤,,1989,;,241,),.,我们经常要检验某一实际因素实际出现的频数与期望出现的频数是否有显著性差异,这在统计学上称作拟合度检验(韩宝成,,2000,;,155,),This,test is used when there is only,one categorical variable,with two or more levels,.,目的:检验实际次数与期望次数是否吻合。,两种常见的单因素卡方拟合度检验:,检测观测数据之间的差异性,检验样本分布与理论分布模型的拟合度,检测观测数据之间的差异性,对观测数据之间的差异性检验是相对简单的单因素检验,只检验分成多项的单因素频数之间有没有显著性差异。,某大学英语老师为了了解学生学习英语的动机做了一次小范围的问卷调查,该问卷调查共,6,项,调查对象是,150,名普通高校非英语专业大二学生,调查结果整理后如 下表第二行所示。从调查结果上看有无显著性差异?如果有显著性差异,其主要动机是什么呢?,学习英语动机,各科都喜欢学,特别喜欢学习英语,认为学习英语有用,通过四六级,找个好工作,应付考试,实际频数,13,16,28,49,24,20,学习英语动机,各科都喜欢学,特别喜欢学习英语,认为学习英语有用,通过四六级,找个好工作,应付考试,实际频数,13,16,28,49,24,20,期望频数,25,25,25,25,25,25,分析步骤:,1.H,0,:学生学习英语的动机没有显著性差异。,2.,计算期望频数。,根据零假设,如果学生学习英语的动机没有显著性差异,那么,150,名学生对,6,项的选择概率相等。,期望频数,=,总数,/,分类项,3.,计算卡方值。,X,2,=33.40,4.,根据自由度和显著水平找出相应的卡方临界值,自由度在某种意义上可以理解为我们检验时可以依据的独立信息的数量(,Woods,1986,),.,计算自由度公式为:,df=k-1,(,k,是组数,),d,f=6-1=5,=0.05,卡方,临界值为,12.6,5.,结论,由于,X,2,=33.4,远大于,卡方临界值,12.6,拒绝零假设,即学生学习英语的动机有显著性差异。,通过观察可以看出动机为通过四六级的人数最多,由此可以得出,学生学习英语的主要动机是为了通过四六级。,检验样本分布与理论分布模型的拟合度,卡方检验在单因素拟合度检验中的另一个重要应用是检验样本分布是否与特定分布模型拟合。,正态性检验,:,检验实际次数分布与期望次数分布是否有显著性差异,实际次数,指样本各组数据的实际分布次数,期望次数,指在假设样本来自正态总体的情况下各组数据所应该具有的次数,如果实际次数与期望次数,没有差异或差异很小,,就说明样本确实来自,正态分布,;如果两者,差异显著,,就说明样本所来自的,总体分布不是正态,。,1.,进行正态检验前,首先要把样本整理成,分组次数分布表,,其中第一列为数据的分组,第二列为魅族的实际数,O,2.,然后假设样本来自的总体呈正态分布,计算,每组的期望次数,,,是正态检验的关键。,3.,计算出期望次数后,根据公式计算出,X,2,值,4.,根据设定的显著水平和自由度查卡方分布表,得出卡方临界值。,这,类正态性检验的自由度为组数减,3,K,-3,5.,如果卡方值小于临界值,检验就没有显著意义,即不能推翻零假设,证明样本确实来自正态总体;反之,就拒绝零假设,说明样本不是来自正态总体。,期望次数的计算,步骤,:,1.,计算样本的平均值与标准差,2.,把每组的上限转换成标准分,Z,(即上限离开平均值的标准差单位数),并从正态分布表中查出对应的正态曲线下的面积,A,3.,求每组的面积,该面积就是每组的期望次数的比例,P,4.,用每组期望次数的比例乘以样本容量,(PN,),即得每组的期望次数,E,注意:如果某组的期望次数低于,5,,就要与邻组的 期望次数合并,直到合并后的期望次数等于或大于,5,,否则就会影响卡方检验的可靠性。,注:,A,是,Z,值与平均值之间所夹面积,用一组的上限标准分对应面积减去下一组上限对应面积,以班级,A 30,名学生的某次精读考试成绩为例,说明如何用卡方检验来验证该样本来自正态总体的条件得到满足。成绩如下:,66.8,65.5,65.8,79.0,81.8,80.0,74.1,80.6,80.4,79.5,67.8,79.2,74.5,67.7,78.8,75.4,71.2,85.7,61.1,78.0,79.3,61.0,62.3,79.8,79.8,71.2,85.2,76.3,68.7,58.2,组别,O,Z,A,P,E,85,以上,80-85,75-80,70-75,65-70,60-65,-60,2,4,10,4,6,3,1,-,1.46,0.81,0.15,-0.50,-1.15,-1.80,-,0.427 86,0.291 03,0.059 62,0.191 46,0.374 93,0.035 93,0.072,14,0.136 83,0.231 41,0.251 08,0.183 47,0.089 14,0.035 93,2.16,4.10,6.94,7.53,5.50,2.67,1.08,数据的,平均数为,73.823,标准差为,7.66,1,进行卡方检验:,1.,零假设,H,0,为:样本来自正态分布总体的一个随机样本,2.,设显著水平,为,0.01,O,E,O-E,(O-E),2,(O-E),2,/E,2,4,10,4,6,3,1,2.16,4.10,6.94,7.53,5.50,2.67,1.08,-0.26,3.06,-3.53,0.75,0.07,9.36,12.46,0.56,0.01,1.35,1.65,0.06,注意:卡方检验要求每个分数段的频率次数要有,足够大的期望值(至少不能少于,5,),,否则会导致卡方值增大。所以,表中,第一和第二,组被合并到一起,,第五、六、七,合并到一起。这样组数就是,4,个,自由度,df,=4-3=1,查卡方分布表得出临界值为,6.64,3.,由于卡方值,3.07,小于临界值,6,64,,所以检验没有显著意义,即不能推翻零假设,这名样本,来自正态总体,。,=3.07,Chi-square for,testing,group independence,除了进行拟合度检验,卡方检验还用于分析,两个或两个以上的因素,之间有无关联和判断因素之间的差异是由于样本抽样造成的随机差异还是由于来自不同总体造成的真正差异。,The test for group independence is used when there are,two or more variables,All of the variables are,categorical.,列联表独立性检验,四格表独立性检验,列联表独立性检验:,用于独立性检验的数据一般整理成列联表(,contingency table,)的形式,列,行总计,行,A,B,C,A+B+C,D+E+F,D,E,F,列总计,A+D B+E,C+F,N,一个,分类标准把数据分为若干列,另一个分类标准把数据分为若干行,行列交叉形成一个个方格(,cell,),每,一行和每一列都有一个总计,书写在一行或一列的末尾,称为“边际总和”。所有的边际总和加起来就是全部数据的个数或样本容量,N,列联表行的数目一般用,r,表示,列的数目用,k,表示,因此一个列联表可以表示为,rk,例如 上表可表示为,23,独立性检验的步骤:,1.,陈述零假设,H,0,:两个分类标准完全独立,2.,设显著水平,3.,假设零假设成立,计算每一个格里的,期望次数,例如,第一格,A,的期望数为,(,A+B+C,),(,A+D,),/N,按惯例,期望次数一般放在括号内,置于实际次数之后。,4.,计算卡方值,X,2,5.,确定自由度:,df=(r-1)(k-1),6.,在卡方分布表中查对应于,和,df,的值。如果,X,2,大于临界值,就推翻零假设。,我们想知道家常信件(,Family Letters,FL,)和事务信件(,Business Letters,BL,)的,词长,与,信件的类别,之间有无联系(或是否独立),.,现从两类信件中分别随机选取,500,和,600,词,若把词长分为三类:两个音节以下(,2,)、,3-4,个音节、,5,个音节以上(,5,)词长的次数分布情况如下表所示,2,3-4,5,行总计,FL,BL,300,150,50,500,150,200,250,600,列总数,450,350,300,1100,(,204.5,),(,159.1,),(,136.4,),(,136.6,),(,190.9,),分析步骤:,1.,零假设:词长独立于信件的类型,即两者互不关联。,2.,计算期望次数。,(,245.5,),3,.,确定自由度 设定显著水平,该,表的数据列联表为,23,根据公式计算,df,=(,r,-1),(,k,-1,),=12=2,设定显著水平,=0.05,4.,查,卡方分布表得对应卡方临界值,5.99,3.,计算卡方值 得出,X,2,=231.4,由于卡方值,231.4,远大于,临界值,5.99,,所以拒绝零假设,说明词长和信件类型是,有关联的,。,四格表独立性检验,四格表又称相依表,是一种,22,形式的列联表,计算,22,的四格表卡方值的,方法,与其他类型的列联表,一样,,只是在计算四格表卡方值时有一个,不需要计算期望频数,的特殊公式,相对常规的卡方公式计算更简单方便。,A,B,C,D,A