单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章,回 归 分 析,第六章,1,教学目的和要求:,通过本章内容的教学,使学生掌握一元线性回归方程的求法、回归方程的方差分析与显著性检验方法;了解一元非线性回归方程的求解思路及回归曲线方程的效果与精度;了解多元线性回归方程的求法和显著性检验与精度。,教学目的和要求:通过本章内容的教学,使学生掌握一元线,2,主要内容:,1.回归分析的基本概念:概念、回归分析的主要内容。,2.一元线性回归:一元线性回归方程的求法、回归方程的方差分析与显著性检验、重复试验情况、回归直线的简便求法。,3.一元非线性回归:回归曲线类型的选取和检验、化非线性回归为线性回归、回归曲线方程的效果与精度。,4.多元线性回归:二元线性回归方程的求法、多元线性回归、多元线性回归的显著性检验与精度。,主要内容:1.回归分析的基本概念:概念、回归分析的主要,3,6.1,基本概念,变量间的关系可分为函数关系和相关关系。,变量间的函数关系,1、是一一对应的确定关系,2、设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x为某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=,f,(x,y),其中x称为自变量,称y为因变量,如以速度v作匀速运动的物体,走过的距离s与时间t之间,有如下的函数关系 s=vt,6.1基本概念 变量间的关系可分为函数关系和相关关系,4,变量间的相关关系,1、变量间关系不能用函数关系精确表达,3,、当变量x取某个数值时,变量y的值可能有几个,2、一个变量的取值不能由另一个变量唯一确定,如人的身高()与体重()之间的关系,变量间的相关关系 1、变量间关系不能用函数关系精确表达3、当,5,什么是回归分析?,3、因素分析,如从对共同影响一个变量的许多变量(因素)中,找出重要因素和次要因素,一种处理变量间相关关系的数理统计方法。它主要解决以下几个问题,1、从一组样本数据出发,确定变量之间的数学关系式,2、对这些关系式的可信程度进行各种统计检验,什么是回归分析?3、因素分析,如从对共同影响一个变量的许,6,7,回归模型的类型,回归模型,一元回归,线性,回归,非线性,回归,线性,回归,非线性,回归,多元回归,一个自变量,两个及两个以上自变量,7 回归模型的类型回归模型一元回归线性 非线性 线性 非,7,6.2 一元线性回归,6.2.1 一元线性回归方程,一元线性回归模型概念,1、当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归,3、描述因变量y如何依赖于自变量,x,和误差项的方程称为回归模型。,2、对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系,6.2 一元线性回归6.2.1 一元线性回归方程一元,8,由实验获得两个变量x和y的一组样本数据,,,构造如下一元线性回归模型,一元线性回归模型概念,模型中,y是x的线性函数部分加上误差项,线性部分反映了由于,x,的变化而引起y的变化,误差项,i,是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,0,和称为,模型的参数,由实验获得两个变量x和y的一组样本数据,一元线性回归模型概,9,1、误差项,i,是一个期望值为的随机变量,即。对于一个给定的值,的期望值为,2、变量是可以精确测量或严格控制的变量,3、误差项是一个服从正态分布的随机变量,且相互独立。即,独立性意味着对于一个特定的值,它所对应的与其它值所对应的不相关,对于一个特定的值,它所对应的值与其它值所对应的不相关,一元线性回归模型基本假定,1、误差项i是一个期望值为的随机变量,即。对于一个,10,b,0,和b,是未知的,必须利用样本数据去估计它们,设b,0,和b分别是参数,0,和,的,最小二乘估计,于是就得到了一元线性回归方程,b,0,和b 回归方程的回归系数,回归方程,b0和b是未知的,必须利用样本数据去估计它们 设,11,回归系数b,0,和b的求解,回归系数b0和b的求解,12,假定测得值y,t,精度相等,则,假定测得值yt精度相等,则,13,b,0,和b的,计算公式,计算式如(6-7)(6-13),b0和b的计算公式计算式如(6-7)(6-13),14,6.2.2,回归方程的稳定性,回归方程的稳定性是指回归值 的波动大小,用 的标准差 来表示,最小二乘估计量的精度,b,0,与b的协方差,6.2.2 回归方程的稳定性回归方程的稳定性是指回归值,15,于是,测量数据y的残余标准差,于是测量数据y的残余标准差,16,因此,因此,17,6.2.3,回归方程的方差分析,要解决的问题,对,N个观测值与其算术平均值之差的平方和,进行分解,将N个观测值的影响因素从数量上区别开,以便能用F检验法对回归方程进行显著性检验。,测量值 之间的差异(变差)来源于,两个方面,1.由于自变量x取值的不同造成的,2.除,x,以外的其它因素(如x对y的非线性影响、测量误差等)的影响,6.2.3 回归方程的方差分析要解决的问题对N个观测值与其,18,N个观测值之间的变差,用观测值与其均值的离差平方和来表示,称为,总的离差平方和,。,总的离差平方和,第,t,个,测量值,测量值的平均值,自变量,x,取值不同造成因变量,y,的变化,除x以外的其它因素因素的影响,N个观测值之间的变差,用观测值与其均值的离差平方和来表示,称,19,等于0,等于0,20,估计值,U 回归平方和,Q 剩余平方和,S,(,S的,自由度),-,N,-1,U,(,U的,自由度),-1,Q,(,Q的,自由度,)-,N,-2,测量点数,-,N,:,估计值U 回归平方和Q 剩余平方和S(S的自由度)-,21,6.2.4 回归方程显著性检验,要解决的问题,所求的回归方程是否基本上符合y与x之间的客观规律。,采用F检验法,一个回归方程是否显著,也就是y与x的线性关系是否密切。,显著性,-(统计量),F,F,分布,6.2.4 回归方程显著性检验要解决的问题所求的回归方程是否,22,U大Q小(比值大):F大,-,y,与,x,的,线性关系密切,对于一元线性回归,随机误差的分布形式,-,F,a,(,U,v,Q,),F,大于,F,a,(,v,1,v,2,)的概率为,a,显著水平:,a,0.01、,a,0.05、,a,0.1,F,=,F,0.01,(,U,v,Q,),高度显著,F,0.05,(,U,v,Q,),=F,F,0.01,(,U,v,Q,),显著(0.05水平上),F,F,0.1,(,U,v,Q,),不显著,F,0.1,(,U,v,Q,),=F,F,0.05,(,U,v,Q,),显著(0.1水平上),U大Q小(比值大):F大对于一元线性回归随机误差的分布形式-,23,6.2.5 方差,残余方差,当,x,固定时,衡量y随机波动大小的一个估计量,当回归方程稳定性较好时,可作为应用回归方程时的精度参数。,方差分析表,6.2.5 方差残余方差当x固定时,衡量y随机波动大小的一个,24,6.2.6 重复试验情况,问题:,在上述意义下的回归方程显著,并不一定表明这个回归方程拟合得很好,原因:,Q中除包含试验误差外,还包含了x和y线性关系以外得其它未加控制得因素得影响。,办法:,为了检验一个回归方程拟合得好坏,需进行重复试验。,从而获得误差平方和Q,E,和失拟平方和Q,L,,然后进行F检验。,6.2.6 重复试验情况问题:在上述意义下的回归方程显著,25,N个试验点,每个试验点都重复m次试验,N个试验点,每个试验点都重复m次试验,26,例63,例63,27,结论,如果,F,1,检验结果不显著,,说明非线性误差(相对于试验误差)很小。于是,把Q,L,与Q,E,合并,对U进行F检验,即,如果,F,2,检验结果显著,,,说明一元回归方程拟合很好,如果,F,1,检验结果显著,,说明非线性误差(相对于试验误差)是不可忽略的。此时用Q,E,对U进行F检验,即,结果显著,,再用Q进行第二次F检验,结果也显著。,说明试验误差和残差都很小,。,结论如果F1检验结果不显著,说明非线性误差(相对于试验误差),28,重复试验的用途:,可将误差平方和与失拟平方和从残差平方和中分离出来;,进一步可将系统误差与随机误差分离出来。,重复试验的用途:可将误差平方和与失拟平方和从残差平方和中分离,29,6.2.7 回归直线的简便求法,一、分组法(平均值法),6.2.7 回归直线的简便求法一、分组法(平均值法),30,二、图解法(紧绳法),二、图解法(紧绳法),31,6.3 一元非线性回归,步骤,确定函数类型;,把曲线回归转为为直线回归或多项式回归,确定未知参数,6.3 一元非线性回归步骤确定函数类型;,32,6.3.1 回归曲线函数类型的选取,1.直接判断法,根据专业知识,从理论上推导或根据以往的经验,确定出两个变量之间的函数类型,2.观察法,将观测数据作图,将其与典型曲线比较,确定其属于何种曲线类型,6.3.1 回归曲线函数类型的选取1.直接判断法根据专业,33,6.3.2 回归曲线函数类型的检验,1.直线检验法,适用条件:当函数类型中所含参数不多,如只有一个或两个时,步骤:,将所选的回归曲线,f,(x,y,a,b)0,写成,Z,1,A十BZ,2,Z,1,和Z,2,是只含一个变量(x或y)的函数,A和B是a和b的函数,选几对相距较远的x、y值,求出相对应的Z,1,和Z,2,的值;,以Z,1,和Z,2,为变量画图,若所得图形为一直线,则证明原先所选定的回归曲线类型是合适的。,6.3.2 回归曲线函数类型的检验1.直线检验法步骤:Z,34,2.表差法,适用条件:若一组试验数据可用一多项式表示,式中含有常数项多于两个时,,以决定多项式次数或检验次数,。,步骤:,用试验数据画图,自图上根据定差x,列出x,i,y,i,各对应值,根据x和y的读出值作出差值,2.表差法步骤:用试验数据画图 自图上根据定差x,35,根据表6-10确定的标准进行判断,根据表6-10确定的标准进行判断,36,例,检验表6-11所示观测数据可用ya+be,x,表示。,例 检验表6-11所示观测数据可用ya+bex表示。,37,6.3.3 化曲线回归为直线回归问题,条件,可用直线检验法或一阶表差法检验的曲线回归方程。,Z,1,A十BZ,2,将函数化为:,例,6.3.3 化曲线回归为直线回归问题条件 Z1A十BZ2将,38,6.3.4 回归曲线方程的效果与精度,残差为:,相关指数,6.3.4 回归曲线方程的效果与精度残差为:相关指数,39,6.4 多元线性回归,一、多元线性回归方程,假如因变量,y与另外M个自变量x,i,的,内在关系是线性的,测得N组观测数据,M+1个待估计参数,N个独立,服从正态分布,N(0,)的随机变量,M个可精确测量或控制的变量,6.4 多元线性回归一、多元线性回归方程假如因变量y与另外,40,回归分析教程课件,41,设,b,i,为,i,的最小二乘估计,则回归方程为:,设bi为i的最小二乘估计,则回归方程为:,42,回归分析教程课件,43,相应的回归方程为:,相应的回归方程为:,44,回归分析教程课件,45,二、多元线性回归方程的显著性与精度,二、多元线性回归方程的显著性与精度,46,三、每个自变量在回归方程中所起的作用,偏回归平方和,:取消一个自变量,x,i,后回归平方和减小的数值,P,i,=U-U,回归系数,C或L,-1,中的元素,三、每个自变量在回归方程中所起的作用偏回归平方和:取消一个自,47,分析步骤:,1)凡是偏回归平方和大的变量,一定是对y有重要影响的因素。F检验用Q对P,i,当 时,则认为变量x,i,对y的影响在水平上显著。,分析步骤:1)凡是偏回归平方和大的变量,一定是对y有重要,48,2)凡是偏回归平方和小的变量,却不一定不显著。,但能肯定它是所有变量中对y作用最小的一个,如F检验不显著,则可将其剔除。,剔除后,重新建立M-1元的回归方程,计算回归系数及偏回归平方和。此时,新的回归系数