,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,简单回归,授课人:马海燕,简单回归授课人:马海燕,相关与回归,相关与回归是双变量分析,直线相关与回归,(最简单的相关与回归),一、直线回归,直线回归,(linear regre,SS,ion),是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。,相关与回归相关与回归是双变量分析,直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为,因变量,(dependent variable),和,自变量,(independent variable),,习惯上分别用,y,和,x,来表示。其中,x,可以是规律变化的或人为选定的一些数值,(,非随机变量,),,也可以是随机变量,前者称为,I,型回归,后者称为,II,型回归。,直线回归分析中两个变量的地位不同,其中一个变量是依赖,二、直线回归分析的应用条件,1.,两变量的变化趋势呈直线趋势,(linear),;,2.,因变量,y,属于正态随机变量,(normal distribution),;,3.,对于,I,型要求对于每个选定的,X,,,y,都有一个正态分布的总体,并且这些总体的方差都相等,(equal variance),;对于,II,型回归,要求,x,、,y,服从双变量正态分布。,二、直线回归分析的应用条件,三、直线回归分析的一般步骤,1.,将,n,个观察单位的变量对,(x,,,y),在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。,2.,求回归方程的回归系数和截矩。,3.,写出回归方程 ,画出回归直线。,4.,对回归方程进行假设检验。,三、直线回归分析的一般步骤,四、直线回归方程及其求法,(一)方程的形式及意义:,直线回归方程的一般形式为,其中,b,称为回归系数,(coefficient of regression),,,含义为当,x,每变化,1,个单位时,因变量,Y,平均变化的单数,;,a,称为截矩,(intercept),,为回归直线或其延长线与,y,轴交点的纵坐标。,四、直线回归方程及其求法,(二)直线回归方程的求法,:,方程中的,a,和,b,是两个待定常数,根据样本实测,(,x,y,),计算,a,和,b,的过程就是求回归方程的过程。,为使方程能较好地反映各点的分布规律,应该使各实测点到回归直线的,纵向距离,的平方和最小,这就是最小二乘法,(least square method),原理。,(二)直线回归方程的求法:,To find a straight line to best fit the points.,Residual:,Fitness of the regression line,:,Principle of least squares,:,To find a straight line that minimizes the sum of squared residuals.,To find a straight line to bes,Calculate the regression equation of the height of son,Y,on the height of father,X,.,Calculate the regression equat,1.,先求,b,:,式中,l,xy,为,X,、,Y,的离均差积和,,l,xx,为,X,的离均差平方和;,2.,再求,a,:,1.先求 b:,五、直线回归方程的假设检验,回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。,即使,X,、,Y,的总体回归系数,为零,由于抽样误差的原因,其样本回归系数,b,也不一定为零,因此,需作,是否为零的假设检验,五、直线回归方程的假设检验,(,一,),方差分析,其基本思想是将应变量,Y,的总变异,SS,总,分解为,SS,回归,和,SS,剩余,,然后利用,F,检验来判断回归方程是否成立。,SS,总,即 ,为,Y,的离均差平方和(,total sum of squares,),反映未考虑,X,与,Y,的回归关系时,Y,的变异。,(一)方差分析,P(X,Y),应变量,Y,的平方和划分示意图,X,Y,称为剩余或残差,与回归系数的大小有关,P(X,Y) 应变量Y的平方和划分示意图 X,上式用符号表示为:,SS,总,=,SS,回,+,SS,剩,SS,回,即 ,为回归平方和,(regression sum of squares),,,它反映在,Y,的总变异,SS,总,中由于,X,与,Y,的直线关系而使,Y,变异减小的部分,也就是在总平方和中可以用,X,解释的部分,。,SS,回,越大,说明回归效果越好,即,SS,总,中可用,X,与,Y,线性关系解释的变异越多。,SS,剩,即 ,为剩余平方和,(residual sum of squares),,它反映,X,对,Y,的线性影响之外的一切因素对,Y,的变异的作用,也就是在总平方和,SS,总,中无法用,X,解释的部分。,SS剩即,方差分析时的步骤与一般假设检验相同。统计量,F,的计算 。,总,=,回,+,剩,总,=,n,-1,回,=1,剩,=,n,-2,方差分析时的步骤与一般假设检验相同。统计量F的计算 。,(,二,),t,检验,其基本思想是利用样本回归系数,b,与总体均数回归系数,进行比较来判断回归方程是否成立,,实际应用中因为回归系数,b,的检验过程较为复杂,而相关系数,r,的检验过程简单并与之等价,故一般用相关系数,r,的检验来代替回归系数,b,的检验。,(二)t检验,统计量,t,的计算公式为,S,b,为样本回归系数的标准误;,S,Y.X,为剩余标准差(,residual standard deviation,),它是指扣除了,X,对,Y,的线性影响后,,Y,的变异,可用以说明估计值 的精确性。,说明:两种检验方法是等价的,,F,=,t,2,统计量t的计算公式为Sb为样本回归系数的标准误;SY.,六、直线回归的区间估计,根据参数估计原理,回归系数,b,是总体回归系数的点估计,正像样本均数不一定恰好等于总体均数一样,需要对总体回归系数,进行区间估计,。,六、直线回归的区间估计,相关与回归课件,(,二,),的区间估计,指总体中自变量,X,为某一定值,X,0,时,的总体均数。对 的估计可计算可信区间:,(二) 的区间估计,(三)个体,Y,值的容许区间,总体中,,X,为一定值时,个体,Y,值的波动范围,(三)个体Y值的容许区间,七、直线回归方程的应用,(,一,),定量描述两变量之间的依存关系,对回归系数,b,进行假设检验时,若 ,可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。,七、直线回归方程的应用,(,二,),利用回归方程进行预测,把预报因子(即自变量,x,)代入回归方程对预报量(即因变量,Y,)进行估计,即可得到个体,Y,值的容许区间。,(二)利用回归方程进行预测,(,三,),利用回归方程进行统计控制,规定,Y,值的变化,通过控制,X,的范围来实现统计控制的目标,所以统计控制是利用回归方程进行的逆估计。,(三)利用回归方程进行统计控制,某市环境监测站在某交通点连续测定,30,天,每天定时采样,3,次,发现大气中,NO,2,浓度,Y(mg/m,3,),与当时的汽车流量,X(,辆,/,小时,),呈直线关系,根据,90,对观测数据求得回归方程 ,剩余标准差 。若,NO,2,最大容许浓度为,0.15mg/m,3,则汽车流量应如何控制?设,=0.05,。,某市环境监测站在某交通点连续测定30天,每天定时采样3次,=0.05,,,=90-2=88,,查表得单侧,t,0.05(88),=1.6624,。由于本例未给出每小时汽车流量的均数及 ,且样本含量较大,故以 代替 ,计算个体,Y,值单侧,95%,容许区间的上限:,解得,X,=1209,,即只要把汽车流量控制在,1209,辆,/,小时以下,那么就有,95%,可能使,NO,2,不超过最大容许浓度,0.15mg/m,3,。,=,(四)应用直线回归的注意事项,1.,作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。,(四)应用直线回归的注意事项,(四)应用直线回归的注意事项,2,直线回归分析的资料,一般要求应变量,Y,是来自正态总体的随机变量,自变量,X,可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时,P,值的真实性。,(四)应用直线回归的注意事项,(四)应用直线回归的注意事项,3,进行回归分析时,应先绘制散点图,(scatter plot),。若提示有直线趋势存在时,可作直线回归分析;一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。,(四)应用直线回归的注意事项,(四)应用直线回归的注意事项,4,绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。,5,回归直线不要外延。,(四)应用直线回归的注意事项,残差分析,(,检验应用条件,),残差分析(检验应用条件),线性相关于回归的联系与区别,1,、区别:,(,1,)资料要求上,回归要求,Y,服从正态分布,,X,是可以精确测量的;相关要求,X,与,Y,服从正态分布。,(,2,)在应用上,说明两变量依存变化的数量关系用回归,说明变量间的相关关系用相关。,2,、联系,(,1,),r,与,b,的符号相同。,(,2,),r,与,b,的假设检验等价。,(,3,)用相关解释回归。,r,2,称为决定系数,用回归可以解释的部分。,r,2,=ss,回,/ss,总,线性相关于回归的联系与区别1、区别:,