单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章 二维列联表,二维列联表,假设将n个个体按属性A和B分类,属性A有r类,属性B有c类,就形成了一张二维的rc列联表。,二维列联表,与四格表相类似,二维列联表同样有四种不同的抽样方式。,其中,单侧给定、总的样本容量给定和完全随机三种情况较为常见,且这三种抽样方式下的检验方法完全相同。,独立性与齐性,如果对任意的i和j,都有:,那么称属性A与B独立。,如果A与B独立,那么对任意j都与i无关,如果A与B独立,那么对任意i都与j无关,独立性与齐性,此时,称属性A与B有齐性关系。,齐性关系描述了Ai类中Bj的条件概率完全相同,或在Bj 类中Ai的条件概率完全相同。,因此,对于二维列联表属性A与B相互独立,等价于二者之间有齐性关系。,需要指出的是,在四格表中相互独立等价于不相关,可以用相关系数描述二者的关联程度。但在二维列联表中那么不能使用。,二维列联表的独立性检验,二维列联表独立性检验实质上是带参数的分类数据的检验问题。,二维列联表的独立性检验,【例4.1】为了解男性和女性对三种啤酒的偏好差异分别调查了1353个男性和636个女性,结果见表:,问男性与女性对啤酒的偏好是否有显著差异。,二维列联表的独立性检验,通过计算检验统计量的值得到:,说明男性与女性对啤酒的偏好有显著差异,可见,独立性问题的讨论仅仅是说明属性A与B有无关系,或是否相互独立,但不能给出关系的方向与强弱。,相合性的度量与检验,相合性用来描述属性变量之间的相关情况,包括关联的方向和强度。,二维列联表根据属性的类型分为三类:,双向无序列联表,一向无序、一向有序列联表,双向有序列联表,实际上即使无序也可以定义为有序,或假设有序。这样,相合关系有两类:,正相合:属性A大的个体,属性B也往往较大;,负相合:属性A大的个体,属性B往往较小;,相合性的度量与检验,在四格表中,用来判断属性A与B关联情况相合性检验的统计量U、2均包含一个共同因子:,n11n22-n12n210时,四格表正相合;,n11n22-n12n210时,四格表负相合;,有序属性数据相合关系的度量:,Pearson的矩相关系数,Spearman的等级相关系数,Kendall的相关系数使用最多,相合性的度量与检验,相关系数根本思路:,认为二维列联表均可定义为有序表;,对有序变量的赋值可以确定由小到大的顺序关系,但不影响相合关系的度量;最简单的赋值方法就是令,在二维表中,,相合性的度量与检验,在不考虑同分对的情况下,系数以数据对中同序对与异序对的差为分子,以样本容量n可能形成的总数据对数为分母;即,其中:在二维表的任意两个单元格之间,假设:,同序对:,异序对:,同分对:,相合性的度量与检验,同分对可以有三种类型,属性A方向的同分对,即行等级或顺序相同的数据对,记为T,A,;,属性B方向的同分对,即列等级或顺序相同的数据对,记为T,B,;,属性A与B的同分对,即行顺序与列顺序相等的数据对,记为T,AB,;,因此有,,相合性的度量与检验,从系数的计算公式可知,在属性A与B正相合时,G 比较大而H 比较小;反之在A与B负相合时,G 比较小而H 比较大。因此,(G-H)的方向决定了相合性的方向。,在存在同分对的情况下,需要对相合性的度量进行修正。,相合性的度量与检验,系数的取值范围为-1,1之间,当,H=0,且T,A,=T,B,=T,AB,时,完全正相合;,当r=c时,=1;,当,G=0,且T,A,=T,B,=T,AB,时,完全负相合;,当r=c时,=-1;,当,T,A,=T,B,=T,AB,时,说明每一行、每一列只有一个非零值;,当从左上角到右下角的对角线元素外的其余元素都等于0时,为完全正相合;,当从右上角到左下角的对角线元素外的其余元素都等于0时,为完全负相合;,Gamma系数,除肯德尔的外,相合性度量还有伽马系数Gamma:,伽马的取值在-1,1之间,越接近1说明越趋向正相合,越接近-1说明为负相关。,当H=0时,=1;当G=0时,=-1。,与的比较:,Somers d系数,D系数有两类,分别定义为:,该系数取值范围在-1,1,常用于2c或者r2的列联表,前者适用于列属性依赖于行属性的情况,后者适用于行属性依赖于列属性的情况。,三个系数的比较:,B1,B2,B3,B4,B5,A1,*,*,*,0,0,A2,0,0,0,*,*,B1,B2,B3,B4,B5,A1,*,*,*,0,0,A2,0,0,*,*,*,相合性的检验,从前面几个相关系数的计算公式可以看出,对二维列联表的相关性的检验,主要是对同序对与异序对的差进行检验,即检验,G-H,是否等于0。,令 ,于是有:,由于其标准误计算较为复杂,通常使用统计软件进行计算。,方表的一致性检验,二维表中当r=c时,形成方表。,方表有一致性检验问题。,【例4.3】两位检验员分别对72件产品进行检验的结果见表:,问:他们的检验结果是否一致?,一致性的度量,在二维列联表的相合性度量中,当除从左上角到右下角的对角线元素外其余都为0时,两种属性完全正相合。,在方表中,一致性可以理解为:从左上角到右下角的对角线元素表示结果一致,其值越大,表示一致性越高。因此,可以反映一致性的大小,称为观测一致率:,但这一度量值存在平均值为正的缺陷,由Cohen于1960年提出了Kappa系数。,一致性度量,一致性的检验,Kappa 系数中的0就是 ,e是0的期望或均值,称为期望一致率,即两次试验结果由于偶然时机所造成的一致率;,当方表中左上到右下对角线以外元素均为0时,Kappa 系数到达最大值1,即完全一致;当完全不一致时,Kappa 等于0;,Kappa 系数的取值在0,1之间;,Kappa 0.8时,认为一致性较好;,0.4Kappa 0.8时,认为一致性一般。,一致性的检验,一般认为,计算的Kappa小于0时,属于偶然一致,即期望一致率大于观测一致率;,只有在Kappa大于0时,才进行一致性检验;,在计算kappa系数的方差根底上,可以构造检验统计量:,经计算,例4.3的kappa=0.361,kappa的标准误=0.0844,故U=4.277,很明显,原假设不成立,即不是偶然一致。,独立性的期望频数定义,对于二维表,独立性的定义除根本的联合概率等于边缘概率乘积的方法外,还可以用期望频数。,假设存在 和 ,使任意的 和 都有:,那么称属性A和B相互独立。,其中,mij为期望频数(证明见P96)。,主要用来描述完全随机泊松分布变量的抽样方式下,属性A与B的相互独立问题,即:,完全随机泊松分布情况下,属性A与B独立性检验与带参数的分类数据检验完全相同。,独立性的期望频数定义,公式 可以理解为:,在A和B相互独立时,和 是与 有关的两个量。,由 可知,因此,可以认为 和 分别是属性A和B的效应。,对独立性的期望频数定义公式可以通过取对数将乘法转换为加法,即:,这就是对数线性模型(第7章)。,不完备列联表,当某些nij=0时,称这些格为空格;有空格的列联表称为不完备的列联表。,对于一般完备列联表讨论独立性,对不完备列联表讨论拟独立性。,独立性的期望频数定义可推广到不完备列联表的分析。,令S表示列联表中非空格构成的集合,,假设存在mij=ij,称属性A与B拟独立。,其中,mij表示期望频数,即,不完备列联表,对不完备列联表中元素的估计,可以在假定完全随机泊松分布的根底上,得到似然方程组:,在保持边缘和不变的前提下,解出期望频数。,有的情况下期望频数的极大似然估计难以直接得到,需要通过迭代算法求解。,迭代算法就是在保持边缘和不变时,寻找 放入不完备列联表的非空格中,也就是满足以上方程组成立。,迭代估计法,迭代算法的步骤:,1、令非空格上的期望频数估计的初始值为1,,2、调整该估计值,令:,3、继续调整以上估计值,令:,迭代估计法,4、将第二次迭代得到的值作为初始估计,重复前面的步骤2和步骤3;,5、直至相邻两次迭代得到的估计仅有比较小的差异,最后得到的迭代估计就是期望频数的极大似然估计。,以上步骤可以在表格上完成,每次估计所有非空格的迭代值,直到精度符合要求即可。,不完备列联表期望频数的ML估计除上述迭代法外,还可以通过对数线性模型法,借助统计软件进行估计。,不完备列联表的检验,对拟独立的不完备列联表的ML估计后,需要进行拟独立性检验;同时,考虑不完备子集的拟独立性也是研究完备表的一种方法。,原假设应为:,检验统计量为:,