单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,3.2,独立性检验的基本思想,及初步应用(1),饶平二中 李彬华,问题:数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量缺乏。,假设“面包分量足,那么一年购置面包的质量数据的平均值应该不少于1000g;,“这个平均值不大于950g是一个与假设“面包分量足矛盾的小概率事件;,这个小概率事件的发生使庞加莱得出推断结果。,一:假设检验问题的原理,假设检验问题由两个互斥的假设构成,其中一个,叫做原假设,用H,0,表示;另一个叫做备择假设,用H,1,表示。,例如,在前面的例子中,原假设为:H0:面包分量足,,备择假设为 H1:面包分量缺乏。,这个假设检验问题可以表达为:,H0:面包分量足 H1:面包分量缺乏,二:求解假设检验问题,考虑假设检验问题:,H0:面包分量足 H1:面包分量缺乏,在H0成立的条件下,构造与H0矛盾的小概率事件;,如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否那么,断言没有发现样本数据与H0相矛盾的证据。,求解思路:,三:二个概念,这种变量的不同取“值表示个体所属的不同类别,这类变量称为分类变量,1.分类变量,对于性别变量,取值为:男、女,分类变量,在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。,利用随机变量K2来确定在多大程度上可以认为两个分类变量有关系的方法称为两个分类变量的独立性检验.(为假设检验的特例),吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,问题:,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果单位:人,列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大,0.54%,2.28%,1)通过图形直观判断两个分类变量是否相关:,三维柱状图,2)通过图形直观判断两个分类变量是否相关:,二维条形图,3)通过图形直观判断两个分类变量是否相关:,患肺癌,比例,不患肺癌,比例,独立性检验,H,0,:,吸烟,和,患肺癌,之间没有关系,H,1,:,吸烟,和,患肺癌,之间有关系,通过数据和图表分析,得到结论是:,吸烟与患肺癌有关,结论的可靠程度如何?,用 A 表示“不吸烟,B 表示“不患肺癌,那么 H0:吸烟和患肺癌之间没有关系,“吸烟与“患肺癌独立,即A与B独立,等价于,等价于,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,独立性检验,引入一个随机变量,作为检验在多大程度上可以认为“两个变量有关系的标准。,1)如果P(,m,10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;,2)如果P(m7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;,3)如果P(m6.635)=0.01表示有99%的把握认为”X与Y”有关系;,4)如果P(m5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;,5)如果P(m3.841)=0.05表示有95%的把握认为”X与Y”有关系;,6)如果P(m2.706)=0.010表示有90%的把握认为”X与Y”有关系;,7)如果m,2.706),就认为没有充分的证据显示”X与Y”有关系;,设有两个分类变量X和Y它们的值域分别为x,1,x,2,和y,1,y,2,其样本频数列表(称为22列联表)为,y,1,y,2,总计,x,1,a,b,a+b,x,2,c,d,c+d,总计,a+c,b+d,a+b+c+d,22列联表,适用观测数据a,、,b,、,c,、,d不小于5,独立性检验,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,通过公式计算,独立性检验,已知在 成立的情况下,,即在 成立的情况下,K,2,大于6.635概率非常小,近似为0.01,现在的K,2,=56.632的观测值远大于6.635,分类变量之间关系,条形图,柱形图,列联表,独立性检验,背景分析,例1.,在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?,例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如以下联表:,性别与喜欢数学课程列联表,喜欢数学课程,不喜欢数学课程,总计,男,37,85,122,女,35,143,178,总计,72,228,300,由表中数据计算得 ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?,a,c,d,b,解:P,111,独立性检验根本的思想类似反证法,(1)假设结论不成立,即“两个分类变量没有关系.,(2)在此假设下随机变量 K2 应该很能小,如果由观测数据,计算得到K2的观测值k很大,那么在一定程度上说明假设,不合理.,(3)根据随机变量K2的含义,可以通过,评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系这一结论成立的可信度为约为99.9%.,