单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计推断,从数据得到对现实世界的结论的过程,1,统计推断从数据得到对现实世界的结论的过程1,估计,总体代表我们所关心的那部分世界。,而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量,假定了,分布,族,。,(描述数据时不用假定),比如假定人们的身高属于正态分布族;在抽样调查时假定了二项分布族等等,(这些假定可能有风险!),。,这些模型基本上是根据,“经验”,来假定的,仅仅是对现实世界的一个,近似,。,2,估计 总体代表我们所关心的那部分世界。2,估计,在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员,由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。,3,估计 在假定了总体分布族之后,进一步对总体的认识就是要在这个,估计量是用来估计的统计量,我们知道,统计量是样本的不包含未知参数的函数。样本均值、样本标准差都是统计量。,由于样本是随机的,统计量也是随机变量。,用于估计总体参数的统计量称为估计量;样本均值和标准差都是总体均值和标准差的常用估计量。,4,估计量是用来估计的统计量 我们知道,统计量是样本的不包含未知,点估计和区间估计,点估计,(point estimation)就是用估计量的实现值来近似相应的总体参数。,区间估计,(interval estimation)是包括估计量在内(有时是以估计量为中心)的一个区间;被认为很可能包含总体参数。,点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。,无偏估计(大样本性质),5,点估计和区间估计点估计(point estimation)就,区间估计,注意置信区间的论述是由,区间,和,置信度,两部分组成。,置信区间是对参数给出的一个范围,置信度为其可信程度,(大样本意义),有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),比如,“收视率为53%3%”,;不给出置信度,也不给出被调查的人数,这是不负责的表现。,6,区间估计 注意置信区间的论述是由区间和置信度两部分组成。6,区间估计,降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。,如果给出被调查的人数,则内行可以由此推算出置信度,反之亦然。,7,区间估计 降低置信度可以使置信区间变窄(显得“精确”),有误,一个描述性例子,一个有10000个人回答的调查显示,同意某种观点的人的比例为70%(有7000人同意),可以算出总体中同意该观点的比例的95%置信区间为(0.691,0.709);,另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(0.691,0.709)。,8,一个描述性例子 一个有10000个人回答的调查显示,同意某,一个描述性例子,实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。,如果第二个调查仅仅调查了50个人,有35个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有11%。,9,一个描述性例子 实际上,第二个调查隐瞒了置信度(等价于隐瞒,区间估计的意义,置信度的概念大量重复抽样时的一个渐近概念。,类似于,“我们目前得到的区间(比如上面的75%3%)以概率0.95覆盖真正的比例,p,”,的说法是错误的。,实际上应该说,“重复类似的抽样所得到的大量区间中有,大约,95%的覆 盖真实比例,(其值可能永远未知)。,10,区间估计的意义 置信度的概念大量重复抽样时的一个渐近概念。,区间估计的意义,这里的区间(72%,78%)是固定的,而总体比例,p,也是固定的值。,因此,只有两种可能,:或者该区间包含总体比例,或者不包含;这当中,没有任何概率可言。,至于区间(72%,78%)是否覆盖真实比例,除非一个不漏地调查所有的人,否则永远也无法知道。,11,区间估计的意义 这里的区间(72%,78%)是固定的,而总,假设检验,在假设检验中,一般要设立一个原假设;,而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。,12,假设检验 在假设检验中,一般要设立一个原假设;12,假设检验,在多数统计教科书中(除了理论探讨之外),假设检验都是以否定原假设为目标。,如否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。,很多教科书在这个问题上不适当地用“接受原假设”的说法,犯了明显的低级逻辑错误。,13,假设检验 在多数统计教科书中(除了理论探讨之外),假设检验都,假设检验的过程和逻辑,首先要提出一个原假设,比如某正态总体的均值等于5(,m,=5)。这种原假设也称为零假设(null hypothesis),记为H,0,与此同时必须提出对立假设,比如总体均值大于5(,m,5)。对立假设又称为备选假设或备择假设(alternative hypothesis)记为记为H,1,或H,a,14,假设检验的过程和逻辑 首先要提出一个原假设,比如某正态总体的,假设检验的过程和逻辑,根据零假设,(,不是备选假设!,),我们可以得到该检验统计量的分布;,然后再看这个统计量的数据实现值(realization)属不属于小概率事件。也就是说把数据代入检验统计量,看其值,是否落入零假设下的小概率范畴,如果的确是小概率事件,那么我们就有可能拒绝零假设,否则我们说,没有足够证据拒绝零假设,。,15,假设检验的过程和逻辑 根据零假设(不是备选假设!),我们可以,假设检验的过程和逻辑,注意:,零假设和备选假设在,我们涉及的假设检验中,并不对称,。检验统计量的分布是从零假设导出的,因此,如果有矛盾,当然就不利于零假设了。,不发生矛盾也不说明备选假有问题。,16,假设检验的过程和逻辑 注意:零假设和备选假设在我们涉及的假设,假设检验的过程和逻辑,检验统计量在零假设下,等于,这个样本的数据实现值,或在备选假设方向上更加极端,值的概率称为,p,-值(,p,-value)。,显然得到很小,p,-值意味着小概率事件发生了。如果小概率事件发生,是相信零假设,还是相信数据呢?,当然是相信数据。于是就拒绝零假设。但事件概率小并不意味着不会发生,仅仅发生的概率很小罢了。,拒绝正确零假设的错误常被称为第一类错误(type I error)。,17,假设检验的过程和逻辑 检验统计量在零假设下,等于这个样本的数,假设检验的过程和逻辑,不仅有第一类错误,还有第二类错误;那是备选假设正确时反而说零假设正确的错误,称为第二类错误(type II error)。,如要“接受零假设”就必须给出第二类错误的概率.但对于目前面对的问题,无法计算它.,18,假设检验的过程和逻辑 不仅有第一类错误,还有第二类错误;那是,假设检验的过程和逻辑,零假设和备选假设哪一个正确,这是确定性的,没有概率可言。,而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。,负责的态度是无论做出什么决策,都应该给出犯错误的概率。,19,假设检验的过程和逻辑 零假设和备选假设哪一个正确,这是确定性,假设检验的过程和逻辑,到底,p,-值是多小才能够拒绝零假设呢?也就是说,需要有什么是小概率的标准。,这要看具体应用的需要。,但在一般的统计书和软件中,使用最多的标准是在零假设下(或零假设正确时)抽样所得的数据拒绝零假设的概率应小于0.05(也可能是0.01,0.005,0.001等等)。,20,假设检验的过程和逻辑 到底p-值是多小才能够拒绝零假设呢?也,假设检验的过程和逻辑,这种事先规定的概率称为显著性水平(significant level),用字母,a,来表示。,当,p-,值小于或等于,a,时,就拒绝零假设。,所以,,a,是所允许的犯第一类错误概率的最大值。当,p-,值小于或等于,a,时,我们说这个检验是显著的(significant)。,21,假设检验的过程和逻辑 这种事先规定的概率称为显著性水平(si,假设检验的过程和逻辑,归纳起来,假设检验的逻辑步骤为:,第一:写出零假设和备选假设;,第二:确定检验统计量;,第三:确定显著性水平a;,第四:根据数据计算检验统计量的实现值;,第五:根据这个实现值计算,p,-,值;,第六:进行判断:如果,p,-,值小于或等于a,就,拒绝零假设,,这时犯错误的概率最多为a;如果,p,-,值大于a,就,不拒绝零假设,因为证据不足。,22,假设检验的过程和逻辑 归纳起来,假设检验的逻辑步骤为:22,假设检验的过程和逻辑,实际上,计算机软件仅仅给出,p-,值,而不给出,a,。这有很多方便之处。比如,a,=0.05,而假定我们得到的,p-,值等于0.001。这时我们如果如果采用,p-,值作为新的显著性水平,即,a,=0.001,于是可以说,我们拒绝零假设,显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。,在这个意义上,,p-,值又称为观测的显著性水平(observed significant level)。在统计软件输出,p-,值的位置,,有的用“,p-,value”,有的用significant的缩写“Sig”就是这个道理。,23,假设检验的过程和逻辑 实际上,计算机软件仅仅给出p-值,而不,假设检验的例子,汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后,得到下面的排放数据:17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为21.13。究竟能否由此认为该指标均值超过20?这次我们的假设检验问题就是,24,假设检验的例子 汽车厂商声称其发动机排放标准的一个指标平均低,假设检验的例子,检验统计量为,(为什么用这个?),我们可以发现,p-,值为0.1243,因此,我们没有证据否定零假设(如果显著性水平小于它)。,25,假设检验的例子 检验统计量为(为什么用这个?)25,26,26,两个变量的均值比较,两个学校高中学生的身高均值比较(,hight21.sav,).H,0,:,m,1,=,m,2,=,H,1,:,m,1,m,2,27,两个变量的均值比较 两个学校高中学生的身高均值比较(high,SPSS输出,P值0.001/2=0.0005,28,SPSS输出 P值0.001/2=0.000528,为什么不能“接受零假设”,其实可以,比如下面两种情况:,1.备选假设也是单点分布,这时可以负责地算出犯第二类错误的概率。,2.贝叶斯检验情况(这是一种决策观点),但在经典统计中的绝大多数情况都不可以。,29,为什么不能“接受零假设”其实可以,比如下面两种情况:29,从一个例子看“接受零假设”,(数据 rice.sav)一个大米加工厂卖给一个超市一批标明10kg重的大米。而该超市怀疑该厂家缺斤短两,对10包大米进行了称重,得到下面结果(单位:千克),9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87,这里假定打包的大米重量服从正态分布。,由于发生分歧,于是各方同意用这个数据进行关于大米重量均值,m,的t检验;以厂家所说的平均重量为10kg作为零假设,而以超市怀疑的份量不足10kg作为备选假设:,30,从一个例子看“接受零假设”(数据 rice.sav)一个大,1.超市的检验,于是,超市、加工厂老板和该老板的律师都进行了检验。结果是:,超市用全部数据进行t检验,得到拒绝零假设的结论。,他们根据计算得到:样本均值为9.92kg,而,p,-值为0.0106。因此超市认为,对于显著性水平,a,=0.05,应该拒绝零假设。,31,1.超市的检验 于是,超市、加工厂老板和该老板的律师都进行了,2.加工厂老板的检验,大米加工厂老板只用2个数据,得到“接受零假设”的结论。,大米加工厂老板也懂些统计,他只取了上面样本的头两个个数目9.93和9.83进行同样的t检验。,