单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,列联表独立性分析案例,2024/11/15,列联表独立性分析案例2023/9/26,独立性检验,本节研究的是,两个分类变量的独立性检验问题,。,在日常生活中,我们常常关心,分类变量之间是否有关系,:,例如,吸烟是否与患肺癌有关系?,性别是否对于喜欢数学课程有影响?等等。,2024/11/15,独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果(单位:人),列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。,0.54%,2.28%,探究,2024/11/15,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了996,上面我们通过分析数据,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?,这需要用统计观点来考察这个问题。,现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,,为此先假设,H,0,:吸烟与患肺癌没有关系,.,把表中的数字用字母代替,得到如下用字母表示的列联表,用,A,表示不吸烟,,B,表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设,H,0,等价于,P(AB)=P(A)P(B).,2024/11/15,上面我们通过分析数据,得到的直观印象是吸烟和患,因此,|ad-bc|,越小,说明吸烟与患肺癌之间关系越弱;,|ad-bc|,越大,说明吸烟与患肺癌之间关系越强。,在表中,,a,恰好为事件,AB,发生的频数;,a+b,和,a+c,恰好分别为事件,A,和,B,发生的频数。由于频率接近于概率,所以在,H,0,成立的条件下应该有,2024/11/15,因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;在表中,为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量,-,卡方统计量,(,1,),若,H,0,成立,即“吸烟与患肺癌没有关系”,则,K,2,应很小。,根据表,3-7,中的数据,利用公式(,1,)计算得到,K,2,的观测值为:,那么这个值到底能告诉我们什么呢?,(,2,),独立性检验,2024/11/15,为了使不同样本容量的数据有统一的评判标准,基于上述,在,H,0,成立的情况下,统计学家估算出如下的概率,即在,H,0,成立的情况下,,K,2,的值大于,6.635,的概率非常小,近似于,0.01,。,也就是说,在,H,0,成立的情况下,对随机变量,K,2,进行多次观测,观测值超过,6.635,的频率约为,0.01,。,思考,答:判断出错的概率为,0.01,。,2024/11/15,在H0成立的情况下,统计学家估算出如下的概率 也就,判断 是否成立的规则,如果 ,就判断 不成立,即认为吸烟与患肺癌有关系;否则,就判断 成立,即认为吸烟与患肺癌没有关系。,独立性检验的定义,上面这种利用随机变量,K,2,来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的,独立性检验,。,在该规则下,把结论“成立”错判成“不成立”的概率不会差过,即有,99%,的把握认为 不成立。,2024/11/15,判断 是否成立的规则如果,独立性检验的基本思想(类似,反证法,),(1),假设结论不成立,即 “两个分类变量没有关系,”,.,(2),在此假设下我们所构造的随机变量,K,2,应该很小,如果由观测数据计算得到,K,2,的观测值,k,很大,则在一定可信程度上说明 不成立,.,即在一定可信程度上认为“两个分类变量有关系”;如果,k,的值很小,则说明由样本观测数据没有发现反对 的充分证据。,(3),根据随机变量,K,2,的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为,99%,即“两个分类变量有关系”这一结论成立的可信度为约为,99%.,独立性检验的基本思想(类似反证法)(1)假设结论不成立,即,怎样判断,K,2,的观测值,k,是大还是小呢?,这仅需要确定一个正数 ,当 时就认为,K,2,的观测值,k,大。此时相应于 的判断规则为:,如果 ,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”。,-,临界值,按照上述规则,把“两个分类变量之间有没关系”错误的判断为“两个分类变量之间有关系”的概率为,P().,在实际应用中,我们把 解释为有,的把握认为“两个分类变量之间有关系”;把 解释为不能以 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据。,2024/11/15,怎样判断K2的观测值k是大还是小呢?这仅需要确定,思考:,利用上面的结论,你能从列联表的三维柱形图中看出两个分类变量是否相关呢?,表,1-11 2x2,联表,一般地,假设有两个分类变量,X,和,Y,,它们的值域分别为,x,1,x,2,和,y,1,y,2,其样本频数列联表(称为,2x2,列联表)为:,2024/11/15,思考:表1-11 2x2联表 一般地,假设有两个,若要判断的结论为:,H,1,:“,X,与,Y,有关系”,可以按如下步骤判断,H,1,成立的可能性:,可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。,2024/11/15,若要判断的结论为:H1:“X与Y有关系”,可以按如,在实际应用中,要在获取样本数据之前通过下表确定临界值:,具体作法是:,(1),根据实际问题需要的可信程度确定临界值 ;,(2),利用公式,(1),,由观测数据计算得到随机变量 的观测值;,(3),如果 ,就以 的把握认为“,X,与,Y,有关系”;否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据。,2024/11/15,在实际应用中,要在获取样本数据之前通过下表确定临界值:具体作,随机变量,-,卡方统计量,独立性检验,临界值表,0.1%,把握认为,A,与,B,无关,1%,把握认为,A,与,B,无关,99.9%,把握认,A,与,B,有关,99%,把握认为,A,与,B,有关,90%,把握认为,A,与,B,有关,10%,把握认为,A,与,B,无关,没有充分的依据显示,A,与,B,有关,但也不能显示,A,与,B,无关,2024/11/15,随机变量-卡方统计量 独立性检验临界值表0.1%把握,第一步:,H,0,:,吸烟,和,患病,之间没有关系,第二步:列出,2,2,列联表,独立性检验的步骤,第三步:计算,第四步:查对临界值表,作出判断。,2024/11/15,第一步:H0:吸烟和患病之间没有关系,反证法原理与假设检验原理,反证法原理:,在一个已知假设下,如果,推出一个矛盾,,就,证明,了这个假设不成立。,假设检验原理:,在一个已知假设下,如果,一个与该假设矛盾的小概率事件发生,,,就,推断,这个假设不成立。,2024/11/15,反证法原理与假设检验原理反证法原理:在一个已知假设下,如果,例,1,在某医院,因为患心脏病而住院的,665,名男性病人中,有,214,人秃顶;而另外,772,名不是因为患心脏病而住院的男性病人中有,175,人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?,解:根据题目所给数据得到如下列联表:,2024/11/15,例1 在某医院,因为患心脏病而住院的665名男性病人中,有2,例,1,在某医院,因为患心脏病而住院的,665,名男性病人中,有,214,人秃顶;而另外,772,名不是因为患心脏病而住院的男性病人中有,175,人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?,解:根据题目所给数据得到如下列联表:,根据联表,1-13,中的数据,得到,所以有,99%,的把握认为“秃顶患心脏病有关”。,2024/11/15,例1 在某医院,因为患心脏病而住院的665名男性病人中,有2,例,2,为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取,300,名学生,得到如下联表:,由表中数据计算,K,2,的观测值,k 4.514,。能够以,95%,的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出结论的依据。,解:可以有,95%,以上的把握认为“性别与喜欢数学课程之间有关系”。,分别用,a,b,c,d,表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。,如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例 与女生中喜欢数学课的比例 应该相差很多,即,2024/11/15,例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城,例,2,为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取,300,名学生,得到如下联表:,由表中数据计算,K,2,的观测值,k 4.514,。能够以,95%,的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出结论的依据。,因此,越大,“性别与喜欢数学课程之间有关系”成立的可能性就越大。,另一方面,在假设“性别与喜欢数学课程之间有关系”的前提下,事件,的概率为,因此事件,A,是一个小概率事件。而由样本数据计算得 的观测值,k=4.514,即小概率事件,A,发生。因此应该断定“性别与喜欢数学课程之间有关系”成立,并且这种判断结果出错的可能性约为,5%,。所以,约有,95%,的把握认为“性别与喜欢数学课程之间有关系”。,2024/11/15,例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城,例,3.,在,500,人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外,500,名未用血清的人的感冒记录作比较,结果如表所示。,试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验。,解:设,H,0,:感冒与是否使用该血清没有关系。,因当,H,0,成立时,,K,2,6.635,的概率约为,0.01,,故有,99%,的把握认为该血清能起到预防感冒的作用。,2024/11/15,例3.在500人身上试验某种血清预防感冒作用,把他们一年中的,解:设,H,0,:药的效果与给药方式没有关系。,因当,H,0,成立时,,K,2,1.3896,的概率大于,15%,,故不能否定假设,H,0,,即不能作出药的效果与给药方式有关的结论。,例,4,:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的,193,个病人的数据,能否作出药的效果和给药方式有关的结论?,2024/11/15,解:设H0:药的效果与给药方式没有关系。因当H0成立时,K2,例,5,:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?,解:设,H,0,:两种中草药的治疗效果没有差异。,因当,H,0,成立时,,K,2,10.828,的概率为,0.001,,故有,99.9%,的把握认为,两种药物的疗效有差异。,2024/11/15,例5:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药,例,6,、某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?,注:该年级此次考试中,数学成绩优秀的有,360,人,非优秀的有,880,人。,(,1,)列出数学与物理优秀的,2x2,列联表如下,228,132,360,143,737,880,371,869,1240,代入公式可得,2024/11/15,例6、某校高三年级在一次