,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七章,回归分析与方差分析初步,7.1一元线性回归,有一类变量间有关系,但不能用函数形式来表示。例如人,的体重 与身高 有关,又如居民的储蓄存款额 与它,的收入 有关,但同样的收入的人储蓄存款额也不会相,同。这样的变量间的关系在统计上称为,相关关系,。,X,自变量(一般变量,非随机变量),Y,随机变量,一、模型,收集数据,例7.1 我们知道营业税收总额与社会零售总额有关。为了能从社会商品零售总额去预测税收总额,需要了解两者的关系,现收集了如下几组数据(表),表7.1.1社会商品零售总额与税收总额 单位:亿元,序号,社会商品零售总额,x,营业税税收总额,y,1,14208,393,2,17730,596,3,20468,785,4,24288,982,5,31624,1250,6,34199,1555,7,33269,1579,8,38929,1639,9,45340,17.45,画散点图,观测散点图,如果 个点 在某直线附近波动,但不完全在一直线上,认为 由两部分构成,各 之间独立,可得一元线性回归的数学模型:,(7.1.1),回归函数:,反映 与 的相关关系,的估计为 ,回归方程为,考虑如何根据 去估计 ;,对回归方程的可信度作检验;,回归方程的作用:预测,控制。,二、参数的最小二乘法估计,(一),LSE,的求法,1.准则:,记,为残差平方和。,2.求法:,,又 是 的可微函数,有极值。,正规方程组:,从而 代入得,得到的,LSE,为,回归方程有两种形式:,回归直线过 两点。,(二),估计量的分布及有关性质,1,2,3 ,当 时,与 独立,4 仍服从正态分布,,定理7.1.1 在模型(7.1.1)下有,(1),(2)相互独立,7.2 单因子方差分析,实践例子:,美国的,Burke,市场调查公司是一家最富经验的市场调研机构之一。在一次研究中,一家,Anon,公司要评价儿童干谷类食品的潜在的新品种。,Anon,产品开发者认为可能改善食品味道的四类关键因素为:,1.食品中小麦与玉米的比例。,2.甜味剂的类型:白糖、蜂蜜或人工制剂。,3.果味香料的有无。,4.加工时间的长短。,用于研究由品尝得来的数据的统计方法是,方差分析,。分析结果如下:,*食品成分及甜味剂的类型对味道影响很大。,*果味香精事实上破坏了食品的味道。,*加工时间对味道没有影响。,这些信息帮助,Anon,识别出了可能产生最佳口味食品的因素。从而在生产方案中起了很大的作用。,7.2.1 问题的提出,在实际中常会遇到比较多个总体均值是否相等的问题。,例如:某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品的质量是否一致?,再如:某工厂有三个联营厂,生产同一产品,生产工艺也相同,那么这几个联营厂的产品质量是否一致?,类似问题有许多,今后我们称所要比较的地区、联营厂等为因子,因子所处的状态称为水平,如四个地区是地区这个因子的四个水平。,我们一般用大写字母,A、B、C,等表示因子,用大写字母加下标 表示该因子的水平,如,A,的水平用 等表示。,下面用一个例子来说明问题的提法。,例7.2.1 国民计算机公司(,NCP),在亚特兰大、达拉斯以及西雅图的工厂生产计算机与传真机。为确定这些工厂中有多少员工了解全面质量管理,从每个工厂选取了一个由6名员工组成的随机样本,并对他们进行质量意识考试。18名员工的考分列在下表中。管理者想用这些数据来检验假设:三个工厂的平均考分相同。,表7.2 员工的考分,观察值,亚特兰大,(工厂1),达拉斯,(工厂2),西雅图,(工厂3),1,85,71,59,2,75,75,64,3,82,73,62,4,76,74,69,5,71,69,75,6,85,82,67,在本例中我们要比较三个工厂的考分是否相同,为此把工厂看成一个因子,记为,A,,,它有三个工厂,就看成因子,A,的三个水平,记为 ,。我们将第 个工厂的第 个工人的考分记为 。,在本例中,由于在每个工厂选的是随机样本,(工人间的差异控制在最小范围)因此一个工厂的工人的不同考分可看成是在一个工厂的若干次重复观察。所以可把一个工厂的考分看成一个总体。为比较三个工厂的平均考分是否相同,相当要比较三个总体的均值是否一致。为简化起见,需要提出若干假定,把所要回答的问题归结为一个统计问题,然后设法解决它。,7.2.2 单因子方差分析的统计模型,一、假定,在单因子试验中,设因子,A,有 个水平,,在每一水平下考察的指标可以看成一个总体,现有 个水平,故有 个总体,并假定:,(1)每一总体均服从正态分布;,(2)每一总体的方差相同;,(3)从每一总体中抽取的样本独立。,要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第 个总体的均值为 ,那么要检验的假设为:,(7.2.1),其备择假设为:不全相同。,通常 可以省略不写。,当 为真时,,A,的 个水平的均值相同,这时称因子,A,的各水平间无显著差异,简称,因子,A,不显著,;反之,当 不真时,各 不全相同,这时称因子,A,的各水平间有显著差异,简称,因子,A,显著。,用于检验假设(7.2.1)的统计方法称为方差分析法,其实质是,检验若干个具有相同方差的正态总体的均值是否相等的一种统计方法,。若考察的因子只有一个时,称为单因子方差分析。,二、数据结构及统计模型,设从第 个总体获得容量为 的样本,,在水平 下获得的 与 不会一致,记,称 为随机误差,有,(7.2.2),这是 的数据结构式,在方差分析中引入一般平均与效应的概念,称,为,一般平均,,其中 。,称 为,A,的第 水平的,主效应,,,简称为 的效应。显然有,,统计模型可以改写成:,(7.2.4),从而假设(7.2.1)可写成:,7.2.3 检验方法,一、误差来源,试,验,数,据,造成各 差异的原因可能有两个:,(1)原假设 不真,即各水平下总体均值不同;,(2)差异是由于随机误差引起的。,记 表示水平 下的数据和,,表示水平 下数据的平均值,为所有数据的总平均值。,每一数据与总平均的偏差可以分解成两部分:,(7.2.5),称为组内偏差,仅反映随机误差:,(7.2.6),称为组间偏差,除随机误差之外还有,第 个水平的效应:,(7.2.7),二、平方和分解,称为,总偏差平方和,。,称为,误差偏差平方和,,称为,因子,A,的偏差平方和,三、检验统计量与拒绝域,有计算公式:,可以证明有:,(1)求:,利用正态总体中的结论(见第一章)有:,又由 分布的可加性知:,则有,从而有,(2)求,当原假设为真时,各 相等且为 ,则,取检验统计量为:,(7.2.8),比较合理的拒绝域形式为:,对给定的显著性水平 ,应满足,四、方差分析表(,ANOVA,表),可知当 为真,表7.2.1 单因子方差分析表,方差来源,平方和,自由度,均方,F,比,表7.2.2 例7.2.1的方差分析表,方差来源,平方和,自由度,均方,比,值,516,2,258,900,0.003,430,15,28.67,946,17,=0.0030.05,故拒绝,