单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,2.1,一元线性回归模型(,1,),一般地,一元线性回归模型(统计模型)有如下形式:,y,t,=,0,+,1,x,t,+,u,t,上式表示变量,y,t,和,x,t,之间的真实关系。其中,y,t,称被解释变量(因变量),,x,t,称解释变量(自变量),,u,t,称随机误差项,,0,称常数项,,1,称回归系数(通常未知)。上模型可以分为两部分。,(,1,)回归函数部分,,E(,y,t,)=,0,+,1,x,t,(,2,)随机部分,,u,t,。,2.1 一元线性回归模型(1)一般地,一元线性回归模型(,1,2.1,一元线性回归模型(,2,),以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项,u,t,中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。,2.1 一元线性回归模型(2)以收入与支出的关系为例。假,2,2.1,一元线性回归模型(,3,),2.1 一元线性回归模型(3),3,2.1,一元线性回归模型(,4,),回归模型的随机误差项中一般包括如下几项内容,(,1,)非重要解释变量的省略,,(,2,)人的随机行为,,(,3,)数学模型形式欠妥,,(,4,)归并误差(粮食的归并),(,5,)测量误差等。,回归模型存在两个特点。(,1,)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(,2,)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。,2.1 一元线性回归模型(4)回归模型的随机误差项中一般,4,2.1,一元线性回归模型(,5,),通常线性回归函数,E,(,y,t,)=,0,+,1,xt,是观察不到的,利用样本得到的只是对,E,(,y,t,)=,0,+,1,x,t,的估计,即对,0,和,1,的估计。,在对回归函数进行估计之前应该对随机误差项,u,t,做出如下假定。,(1),u,t,是一个随机变量,,u,t,的取值服从概率分布(再初等阶段我们一般假设服从正态分布)。,(2),E,(,u,t,)=0,。,(3),D,(,u,t,)=,E,u,t,-,E,(,u,t,),2,=E(,u,t,),2,=,2,。称,u,i,具有同方差性。,2.1 一元线性回归模型(5)通常线性回归函数E(yt),5,(4),u,t,为正态分布(根据中心极限定理)。,以上四个假定可作如下表达。,u,t,N,(0,),。,(5),Cov,(,u,i,u,j,)=,E,(,u,i,-,E,(,u,i,)(,u,j,-,E,(,u,j,)=,E,(,u,i,u,j,)=0,(,i,j,),。含义是不同观测值所对应的随机项相互独立。称为,u,i,的非自相关性。,(6),x,i,是非随机的(初等阶段)。,(7)Cov(,u,i,x,i,)=,E,(,u,i,-,E,(,u,i,)(,x,i,-,E,(,x,i,)=,E,u,i,(,x,i,-,E,(,x,i,)=,E,u,i,x,i,-,u,i,E,(,x,i,)=,E,(,u,i,x,i,)=0.,u,i,与,x,i,相互独立。否则,分不清是谁对,y,t,的贡献。,(8),对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。,在假定(,1,),(,2,)成立条件下有,E,(,y,t,)=,E,(,0,+,1,x,t,+,u,t,)=,0,+,1,x,t,。,(4)ut 为正态分布(根据中心极限定理)。,6,2.2,最小二乘估计(,OLS,),对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。,2.2最小二乘估计(OLS)对于所研究的经济问题,通常真,7,2.2,最小二乘估计(,2,),怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用,表示。其中 称,y,t,的拟合值,和 分别是,0,和,1,的估计量。观测值到这条直线的纵向距离用 表示,称为残差。称为估计的模型。假定样本容量为,T,。(,1,)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(,2,)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(,3,)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感),2.2最小二乘估计(2)怎样估计这条直线呢?显然综合起来,8,2.2,最小二乘估计(,3,),设残差平方和用,Q,表示,,则通过,Q,最小确定这条直线,即确定和的估计值。以和为变量,把,Q,看作是和的函数,这是一个求极值的问题。求,Q,对和的偏导数并令其为零,得正规方程,,计算结果的推导过程参见(附录,2,1,),2.2最小二乘估计(3)设残差平方和用Q表示,,9,2.3,最小二乘估计量 和 的特性,1.,线性特性,:,这里指 和 分别是,y,t,的线性函数。,令 代入上式,得 可见,是,y,t,的线性函数,是,1,的线性估计量。同理,0,也具有线性特性(,证明留作课后习题,)。,2.3 最小二乘估计量 和 的特性1.线性特性,10,2.3,最小二乘估计量 和 的特性,2.,无偏性:估计量的数学期望即总体参数本身,利用上式,E,()=,E,(,k,t,y,t,)=,E,k,t,(,0,+,1,x,t,+,u,t,)=,E,(,0,k,t,+,1,k,t,x,t,+,k,t,u,t,),=,E,1,k,t,(,x,t,-),+,k,t,u,t,=,1,+,E,(,k,t,u,t,)=,1,3.,有效性,:,OLS,估计量在线性无偏估计量中方差最小。,0,1,的,OLS,估计量的方差比其他估计量的方差小。,Gauss-Marcov,定理:若,u,t,满足,E(u,t,),=0,,,D(u,t,)=,2,,那么用,OLS,法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。,OLS,估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏估计量。,(,见附录二),2.3 最小二乘估计量 和 的特性2.无偏性:,11,OLS,小结,注意:分清,4,个式子的关系。,(1),真实的统计模型,,y,t,=,0,+,1,x,t,+,u,t,(2),估计的统计模型,,y,t,=,+,x,t,+,(3),真实的回归直线,,E,(,y,t,),=,0,+,1,x,t,(4),估计的回归直线,,=,+,x,t,OLS 小结注意:分清4个式子的关系。,12,2.4,OLS,回归直线的性质,(1),残差和等于零,,=0,由正规方程,2,(,y,t,-,x,t,)(-1)=0,得,(,y,t,-,x,t,)=,(,y,t,-)=,()=0,(2),估计的回归直线,=+,x,t,过(,)点。,正规方程,(,y,t,-,x,t,)=0,两侧同除样本容量,T,,得,=+,。得证。,(3),y,t,的拟合值的平均数等于其样本观测值的平均数,,=,。,=,=,(+,x,t,)=+=,。得证。,(4)Cov(,x,t,)=0,只需证明,(,x,t,-)=,x,t,-,=,x,t,=0,。上式为正规方程之一。,(5)Cov(,)=0,(证明留作课后作业),2.4 OLS 回归直线的性质(1)残差和等于零,,13,2.5,y,t,的分布和 的分布,根据假定条件,u,t,N,(0,),,,E,(,y,t,)=,E,(,0,+,1,x,t,+,u,t,)=,0,+,1,x,t,+,E,(,u,t,)=,0,+,1,x,t,。,Var,(,y,t,)=,Var,(,0,+,1,x,t,+,u,t,)=,Var,(,0,+,1,x,t,),+,Var,(,u,t,)=,y,t,是,u,t,的线性函数,所以,y,t,N,(,0,+,1,x,t,),。,可以证明,E,()=,1,;,Var,()=,,,是,y,t,的线性函数(,=,k,t,y,t,),所以 ,N,(,1,),。,证明留作课后练习,2.5 yt的分布和 的分布 根据假定条件ut N,14,2.6,的估计,定义,其中,2,表示待估参数的个数。可以证明,.,是,的无偏估计量。因为是残差,所以又称作误差均方。可用来考察观测值对回归直线的离散程度。,和 的估计的方差是,2.6 的估计 定义,15,2.7,拟合优度的测量,可以证明,(,y,t,-),2,=,(-),2,+,(,y,t,-),2,=,(-),2,+,(),2,。,SST,(总平方和),=,SSR,(回归平方和),+,SSE,(残差平方和),注:,SSR,:旧指回归平方和(,regression sum of squares,),现指残差平方和(,sum of squared residuals,),SSE,:旧指残差平方和(,error sum of squares(sum of squared errors),),现指回归平方和(,explained sum of squares,),拟合优度是指回归直线对观测值的拟合程度。显然若观测值离回归直线近,则拟合程度好;反之则拟合程度差。,2.7 拟合优度的测量可以证明 (yt-),16,2.7,拟合优度的测量(,2,),证,:,(,y,t,-),2,=,(,y,t,-)+,(-),2,=,(,y,t,-),2,+,(-),2,+2,(,y,t,-),(-),其中,(,y,t,-),(-)=,(,y,t,-)(,x,t,-)=,(,y,t,-),x,t,-,(,y,t,-)=,x,t,=0,(正则方程),度量拟合优度的统计量是可决系数(确定系数)。,R,2,=,(回归平方和),/,(总平方和),=,SSR/SST,所以,R,2,的取值范围是,0,,,1,。对于一组数据,,SST,是不变的,所以,SSR,(),,SSE,()。,2.7 拟合优度的测量(2)证:(yt-,17,2.8,回归参数的显著性检验及其置信区间,主要是检验,1,是否为零。而用样本计算的,是否等于零则应通过检验来判断是否有统计上的显著性。,原假设,H,0,:,1,=0;,备择假设,H,1,:,1,0,在,H,0,成立条件下,统计量,若,t,t,(T-2),,则,1,0,;若,t,t,0.05,(14),=2.15,,检验结果是拒绝,1,=0,,即认为年木材剩余物和年木材采伐量之间存在回归关系。(残差图见操作),估计,1,的置信区间。由,得,1,的置信区间是,-,t,0.05,(14),+,t,0.05,(14),0.4043-2.15,0.0334,0.4043+2.15,0.0334,0.3325,0.4761,以,95%,的置信度认为,,1,的真值范围应在,0.3325,0.4761,范围中。,因为t=12.1 t0.05(14)=2.15,25,OLS,及其预测的,Eviews,操作(,3,),y,t,的点预测和平均木材剩余物产出量的置信区间预测。假设乌伊岭林业局,2000,年计划采伐木材,20,万,m,3,,求木材剩余物的点预测值。,2000,=-0.7629+0.4043,X,2000,=-0.7629+0.4043,20=7.3231,万,m,3,(置信区间预测及单点置信区间预测留作课后作业),OLS及其预测的Eviews操作(3)yt的点预测和平均木材,26,2.10,相关理论,简单线