,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/3/2,概率论与数理统计,#,2024/11/17,概率论与数理统计,1,第,9,章,方差分析及回归分析,在科学实验和生产实践中,影响一些事物的因素往往很多,。在众多影响因素中,有的影响较大,有的影响较小。为了解决这类问题,一般需要做两步工作。第一步是设计一个实验,使得这个实验一方面能很好地反映我们所感兴趣的因素的作用,另一方面实验的次数要尽可能地少,尽可能地节约人力、物力和时间。其次是如何充分地利用实验结果的信息,对我们所关心的事物,(,因素的影响,),作出合理的推断。方差分析和回归分析都是数理统计中具有广泛应用的内容,本章介绍的是最基本的内容。,2023/9/6概率论与数理统计1第9章 方差分析及回归分,2024/11/17,概率论与数理统计,2,9.1,一元方差分析,一项试验中,若只有一个因素在改变,称为单因素试验;多于一个因素在改变的试验称为多因素试验。,因素,(,即影响试验指标的条件,),可分为两类:一类是可控因素,如温度、比例、浓度等;一类是不可控因素,如测量误差、气象条件等。这里所说的因素是可控因素,且称因素所处的不同状态为该因素的不同水平。,2023/9/6概率论与数理统计29.1 一元方差分析一项,2024/11/17,概率论与数理统计,3,9.1,一元方差分析,例,为了比较四种不同肥料对某农作物产量的影响,选用一块肥沃程度和水利灌溉比较均匀的土地,将其分成,16,小块,如下表所示,(,按下表划分土地是为了尽可能减少土地原有肥沃程度及灌溉条件差异的影响,只分析肥料这个因素对产量的影响,),。,表9.1,A,1,A,2,A,3,A,4,A,2,A,3,A,4,A,1,A,3,A,4,A,1,A,2,A,4,A,1,A,2,A,3,2023/9/6概率论与数理统计39.1 一元方差分析例,2024/11/17,概率论与数理统计,4,9.1,一元方差分析,在表,9.1,中,表示在一小块土地上施第,i,种肥料。显然施每种肥料的各有四小块土地,所得产量由表,9.2,给出。问施肥对该作物的产量有无显著影响,若影响显著,施哪种肥料为好?,表9.2,肥料种类,(,A,i,),收获量,(,x,i,),平均收获量,(,),A,1,98 96 91 96,95.25,A,2,60 69 50 35,53.50,A,3,79 64 81 70,73.50,A,4,90 70 79 88,81.75,2023/9/6概率论与数理统计49.1 一元方差分析在表,2024/11/17,概率论与数理统计,5,9.1,一元方差分析,例,1,是一个单因素试验,这个因素就是肥料,不同的肥料,A,1,,,A,2,,,A,3,,,A,4,就是这个因素的,4,个水平。在因素的每一水平下进行独立试验,所得数据如表,9.2,所示。可以看出,虽然所施肥料相同,其他生产条件也一样,但相同面积土地的收获量是不相等的。这说明产量也是一个随机变量。从表,9.2,右边所示的平均收获量又可以看出,施不同的肥料对收获量是有影响的。现在判断肥料对作物产量的影响问题,就是要辨别收获量之间的差异主要是由抽样误差造成的还是由肥料的影响造成的。,2023/9/6概率论与数理统计59.1 一元方差分析例1,2024/11/17,概率论与数理统计,6,9.1,一元方差分析,表,9.2,中的数据可看成来自,4,个不同的总体,(,每一个水平对应一个总体,),的容量为,4,的样本值。我们假设各总体均为正态变量,即 分别服从 ,。,是从总体 中抽得的简单随机样本,按题意,即要检验假设 。,故这是一个检验方差相等的多个正态总体均值是否相等的问题。方差分析法就是解决这类问题的一种统计方法。,2023/9/6概率论与数理统计69.1 一元方差分析表9,2024/11/17,概率论与数理统计,7,9.1,一元方差分析,下面来推导更一般的问题。,设有,r,个正态总体 ,这里假定,r,个总体的方差相等,都为 ,做假设,现独立地从各总体上取出一个样本,,用,r,个样本检验上述假设是否成立。,采用直观的离差分解的方法来处理上述问题。将每个样本看成一组,则,组内平均,2023/9/6概率论与数理统计79.1 一元方差分析下面,2024/11/17,概率论与数理统计,8,9.1,一元方差分析,总平均,总离差平方和为,称为离差分解。,下面通过比较 和 的数值来检验假设 。,2023/9/6概率论与数理统计89.1 一元方差分析总平,2024/11/17,概率论与数理统计,9,9.1,一元方差分析,可以证明,在假设 成立时,和 相互独立且服从分布 和,。,由,F,分布定义知,所以,2023/9/6概率论与数理统计99.1 一元方差分析可以,2024/11/17,概率论与数理统计,10,9.1,一元方差分析,为方便计算,F,的数值,常用下面的方差分析表来计算,见表,9.3,。,方差来源,平,方,和,自由度,均,方,F,值,因素的影响,(,组间,),误,差,(,组内,),总和,2023/9/6概率论与数理统计109.1 一元方差分析为,2024/11/17,概率论与数理统计,11,9.2,一元线性回归,一般来讲,客观世界中存在的变量之间的关系可分为两大类,一类是变量之间为确定关系,另一类是非确定关系。确定关系指变量之间的关系可用函数关系表示。自变量取确定值时,因变量也随之确定。如,,这是在高等数学中所研究的函数关系。而另一类非确定关系即所谓的相关关系,具有统计规律性。下面举一些例子来说明。,2023/9/6概率论与数理统计119.2 一元线性回归,2024/11/17,概率论与数理统计,12,9.2,一元线性回归,(,1),人的身高,X,与,Y,体重之间存在一定的变量关系。一般来说人高一些,体重也重一些。但同样高度的人,体重往往不一定相同。,(2),人们的收入水平,X,与消费水平,Y,之间也有一定的关系。人们的收入水平,X,越高,相应的消费水平,Y,也越高,但收入水平相同的人消费水平却不一定相同。,(3),人的血压,X,与年龄,Y,之间也存在着这种关系,一般年龄大的人血压也高,然而相同年龄的人血压往往各不相同。,(4),化工产品的产量,Y,与温度 、压力 及催化剂 有关,但即使上述 、相同,产量,Y,也不一定相同。,2023/9/6概率论与数理统计129.2 一元线性回归(,2024/11/17,概率论与数理统计,13,9.2,一元线性回归,上面这些例子中,当自变量,X,取确定值时,因变量,Y,的值是不确定的。我们称变量间的这种非确定关系为相关关系。回归分析是研究相关关系的一种数学工具,它能帮助我们从一个变量取得的值去估计另一个变量所取得的值。把只有一个自变量的回归分析称为一元回归,多于一个自变量的回归分析称为多元回归。本节只介绍一元回归。,2023/9/6概率论与数理统计139.2 一元线性回归上,2024/11/17,概率论与数理统计,14,9.2.1,一元线性回归方程的概念,设随机变量,Y,与普通变量,X,之间存在某种相关关系:对,X,的每一确定值,,Y,都有自己的分布。,设,其中,,a,b,及 都是不依赖于,X,的未知参数,称上式为一元线性回归模型。,2023/9/6概率论与数理统计149.2.1 一元线性回,2024/11/17,概率论与数理统计,15,9.2.1,一元线性回归方程的概念,在直角坐标系中,画出坐标为,(),的,n,个点,这种图称为散点图。若,n,很大时,散点图中的,n,个点大致在一条直线附近,其形式为,若由上面样本得到,a,b,的估计 则对给定的,x,,用,作为 的估计,方程,称为,y,对,x,的线性回归方程或回归方程。,2023/9/6概率论与数理统计159.2.1 一元线性回,2024/11/17,概率论与数理统计,16,9.2.2,对,a,b,的估计,对,x,的,n,个不同的取值 做独立试验做独立试验,得样本,。下面用最小二乘法求,a,b,的估计值。,选择,a,b,使,Q,达到最小,故,Q,需对分别,a,b,求偏导,并令偏导等于零。即,2023/9/6概率论与数理统计169.2.2 对a,b的,2024/11/17,概率论与数理统计,17,9.2.2,对,a,b,的估计,解此以,a,b,为未知数的方程组,即得,a,b,的估计值分别为,于是所求线性回归方程为,2023/9/6概率论与数理统计179.2.2 对a,b的,2024/11/17,概率论与数理统计,18,9.2.3,的估计,由于 ,而 可用 做估计,又因为,其中,a,b,可用 代替,故 有 的估计量如下,将 代入得,2023/9/6概率论与数理统计189.2.3,2024/11/17,概率论与数理统计,19,9.3,一元线性回归中的假设检验和预测,9.3.1 线性假设的显著性检验,在第九章第二节中假定一元线性回归模型具有以下的形式,其中,a,b,是未知参数,,。一般来说,求得的线性回归方程是否具有实用价值,需经过假设检,。即,b,不应为零,因为若,b,=0,,,则,y,就不依赖,x,了。因此我们需要检验假设,2023/9/6概率论与数理统计199.3 一元线性回归中,2024/11/17,概率论与数理统计,20,9.3.1 线性假设的显著性检验,可以证明,当 为真时,b=0 ,,故,给定显著水平 ,查表确定 ,抽样后计算,T,值,若,,则拒绝 ,认为回归效果显著;,若 ,则接受 ,认为回归效果不显著。,2023/9/6概率论与数理统计209.3.1 线性假设的,2024/11/17,概率论与数理统计,21,9.3.2,预测,回归方程的一个重要应用是,对于给定的点,可以用一定的置信度预测对应的,Y,的观察值的取值范围,即预测区间。,设 是 处随机变量,Y,的观察值,则有,取 处的回归值,作为,的预测值,还可以证明,2023/9/6概率论与数理统计219.3.2 预测 回归,2024/11/17,概率论与数理统计,22,9.3.2,预测,且,由,T,分布定义知,对给定的置信度 ,有,2023/9/6概率论与数理统计229.3.2 预测且,2024/11/17,概率论与数理统计,23,9.3.2,预测,故得的 置信度为 预测区间(置信区间)为,其中,,于是在处,置信下限为,2023/9/6概率论与数理统计239.3.2 预测 故,2024/11/17,概率论与数理统计,24,9.3.2,预测,置信上限为,当,x,变化时这两条曲线形成包含回归直线,的带域。当 时,带域最窄,估计最精确。,x,离 其均值越远,,,带域越宽,估计精确性越差。,2023/9/6概率论与数理统计249.3.2 预测置信上,