,按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,卡方检验和非参数检验,在总体分布形式已知条件下未知参数检验问题。但实际问题中总体的分布形式往往是未知的,虽然根据中心极限定理可以有相当的把握认为大多数经济变量服从或近似服从正态分布,但有时为了使所做的统计推断更具说服力,就需要对总体的分布形式进行检验。,1,本章主要内容,:,(,1,)总体分布的卡方()检验;,(,2,)两个比例差异的卡方()检验(独立样本);,(,3,)两个以上比例差异的卡方()检验(独立样本);,(,4,)独立性的卡方()检验;,(,5,)两个比例差异的,McNEMAR,检验(相关样本);,(,6,)两个独立总体的非参数检验(,Wilcoxon,秩和检验);,(,7,)单因素方差分析的非参数检验(,Kruskal-Wallis,秩检验),2,检验的基本原理,(1),设,x,1,x,2,xn,为总体,X,的一组样本观察值,,F,(,x,),为某一已知分布的分布函数,,1,2,r,是的,r,个待定参数,分别是,r,个参数的点估计,以分别代替,1,2,.,r,,作原假设,H,0,:总体,X,的分布函数为,F,(,x,),(2),将,F,(,x,),的定义域划分为,k,个互不相交的区间,(,ai,ai,+1,,,i,=1,2,k,;记,fi,为样本观察值,x,1,x,2,xn,落在第个区间,(,ai,ai,+1,内的频数,并记,Pi=P,ai,X,ai,+1=,F,(,ai,+1)-,F,(,ai,),3,.1,总体分布的 检验,为以,F,(,x,),为分布函数的随机变量在区间,(,ai,ai,+1,上取值的概率,,i,=1,2,k,。则当,H,0,为真时,由贝努里定理,当,n,充分大时,,n,次独立重复试验结果的实际频率 与其概率,Pi,之间的差异并不显著,于是显然可以用统计量来刻画它们间总的差异的大小。其中,nPi,为理论频数。当,H,0,为真时,下式的值就应当较小,4,(3),可以证明,当,n,充分大时,(,n,50),,若,H,0,为真,则统计量,近似服从,(,k,-,r,-1),分布。其中,r,为分布,F,(,x,),中待定参数的个数,于是在给定显著性水平,下,若,就拒绝,H,0,,说明总体,X,的真实分布函数与,F,(,x,),间存在显著差异;否则接受,H,0,,即可以认为两者在水平,下并无显著差异。,5,某厂有一台经常需要维修的设备,该设备中有一个易损坏的重负荷轴承,设备故障的主要原因是轴承损坏。为了制定该设备的维修计划和维修预算,需要了解该轴承的寿命分布。表,10.1,给出了,100,个轴承寿命的观察数据,问:该轴承寿命是否服从正态分布?,6,解:由表中数据,用,Excel,可求得,=120.95,,,S,2=40.582,,故可作原假设,H,0,:,X,N,(120,,,402),将实轴划分为如下,7,个互不相交的区间。用,Excel,的,FREQUENCY,函数计算数据落在各区间内的频数,用,NORMDIST,函数求出各理论频数,nPi,,统计量的计算如表所示。,7,8,取显著性水平,=0.25(,由于原假设,H,0,是我们希望得到的结果,为使检验结论更具说服力,控制的重点应是与原假设,H,0,不真而接受,H,0,的概率,故,应取的稍大些,),。本例中,k,=7,,,r,=2,,,k,r,-1=4,。,故在水平,=0.25,下接受原假设,H,0,,即可认为该轴承的使用寿命服从,N,(120,,,402),分布。,9,.2,比例差异的 检验(独立样本),10.2.1,两个比例差异的检验,前面,我们研究了两个比例的,Z,检验。这部分从不同角度检验数据。假设检验过程使用近似卡方()分布的检验数据。,如果想要比较两个独立样本组的分类变量,可以做两维的列联表,显示每组的第,1,类(正向类,如“成功”,“是”等)和第,2,类(反向类,如“失败”,“否”等)出现的频数,如表所示,10,为了检验组一样本有关类,1,的比例是否等于第二组样本有关类,1,的比例,即假设检验为:,原假设为两比例之间无显著差异:,备择假设为两比例之间有差异:,使用卡方()检验的基本思路为:,(,1,),.,确定统计量为,(10.2.1),其中 为列联表中特定单元的观测频数,为列联表中特定单元的期望频数,因此这里的统计量 是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的所有单元格取和求得;,11,(,2,)可以证明上述统计量 近似服从自由度为,1,的 分布,因此在显著性水平下,决策规则为:,如果 ,拒绝,否则,接受 。,12,13,应用案例,有两家酒店,为了确定服务质量,要求顾客离开时做满意度调查,顾客可能会再次入住;根据调查数据得到的列联表如表,10.5,所示。问在显著性水平的情况下,顾客会回到酒店一和酒店二的比例是否相同,。,14,15,16,17,18,10.2.2,两个以上比例差异的检验,统计量是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的,2,c,个所有单元格取和求得,因此统计量 的自由度为,19,20,应用案例,如果有四家酒店,根据调查数据得到的列联表如表,10.10,所示。问在显著性水平的情况下,顾客会回到这四家酒店的比例是否相同。,21,22,23,独立性检验,24,假设在上面例子中的酒店顾客满意度的调查中,向表明不会再次入住酒店的顾客问第二个问题。即不会再次入住的原因是什么,包括价格、位置、客房服务和其他等。调查结果的列联表如表,10.14,所示。试问在显著性水平的情况下,不会再次入住理由与酒店之间是否有联系?,25,26,27,28,10.3,两个相关样本比例差异检验,29,30,31,应用案例,32,33,如果样本容量很小,并且无法确定样本数据是否来自正态分布总体,此时可以选择以下两种方法来分析两独立总体均值间的区别:,(,1,)用不依赖于正态总体假设的,Wilcoxon,秩和检验;,(,2,)对于数据进行正态转换后使用合并方差的,t,检验。,本节介绍用,Wilcoxon,秩和检验来检验两组值间是否有差别。在合乎这些检验的条件下,,Wilcoxon,秩和检验和合并方差及独立方差的,t,检验一样有效;当,t,检验假设不符合时,,Wilcoxon,秩和检验更有效。,34,10.4,两个独立总体的非参数分析:,Wilcoxon,秩和检验,35,36,应用案例,37,38,39,40,10.5,单因素方差分析的非参数分析:,Kruskal-Wallis,秩检验,如果第,9,章中单因素方差分析的,F,检验的正态分布假设条件不符合时,可以使用,Kruskal-Wallis,秩检验。,Kruskal-Wallis,秩检验是两独立总体,Wilcoxon,秩和检验的延伸,主要用于检验项独立总体是否有相等均值。,Kruskal-Wallis,秩检验和单因素方差分析的,F,检验一样有效。,41,42,43,44,45,46,47,The end!,Thanks!,2024/11/19,中国人民大学六西格玛质量管理研究中心,48,