计量经济学-简单线性回归-

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,制作：渤海大学统计学课程小组意见反馈：,Jingfeitongjixue,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,计量经济学,Telephone:186-4166-2376,适用专业：会计学（学术硕士）,第一章：简单线性回归,2,从,2004,中国国际旅游交易会上获悉，到,2020,年，中国旅游业总收入将超过,3000,亿美元，相当于国内生产总值的,8%,至,11%,。（资料来源：国际金融报,2004,年,11,月,25,日第二版）,是什么决定性的因素能使中国旅游业总收入到,2020,年达到,3000,亿美元？,旅游业的发展与这种决定性因素的数量关系究竟是什么？,怎样具体测定旅游业发展与这种决定性因素的数量关系,?,引子,:,中国旅游业总收入将超过,3000亿美元吗？,第一节：回归分析与回归方程,3,本节基本内容:,回归与相关,总体回归函数,随机扰动项,样本回归函数,第一节：回归分析与回归方程,4,一、回归与相关,1. 经济变量间的相互关系,熟知的关系：确定性的函数关系,现实的关系：不确定性的统计关系,相关关系,(为随机变量),没有,关系,第一节：回归分析与回归方程,5,函数关系：,对于任意,X,，有唯一的,Y,与其对应。,确定函数的方法：,描点、连线,待定系数法,Y=Kx+b,（线性关系两点足矣）,相关关系：,某一个,X,对应的,Y,不唯一，不确定。,由于大体上具有关系,Y=Kx+b,因此该关系用,Y=Kx+b+,问题：如何确定,K,和,b,呢，因为任意两点确定的,Y=Kx+b,可能都不一样。,6,相关关系的类型,从涉及的变量数量看,简单相关,；多重相关（复相关）,从变量相关关系的表现形式看,线性相关,；非线性相关,从变量相关关系变化的方向看,正相关,；负相关；不相关,总体线性相关系数,：,样本相关系数,7,一、回归与相关,2,.,回归分析,Y,的,条件分布,当解释变量,（自变量）,X取某固定值时（条件）,，,Y,的值不确定，,Y,的不同取值形成一定的分布，即,Y的条件分布。,Y,的,条件期望,对于X的每一个取值，对,Y所形成的分布确定其期望或,均值，称为Y的条件期望或条,件均值,8,回归线,:,此时,对于每一个,X的取值，,将,有,某一,Y的条件期望,与之对应,。,将轨迹连接所形成,的直线或曲线，称为回归线。,这样，就将相关关系转换为我,们以前的函数关系。,9,回归线,:,此时,对于每一个,X的取值，,将,有,某一,Y的条件期望,与之对应,。,将轨迹连接所形成,的直线或曲线，称为回归线。,这样，就将相关关系转换为我,们以前的函数关系。,10,回归函数：,应变量,Y,的条件期望随解释变量,X,的变化而有规律的变化，如果把,Y的条件期望,表现为X的某种函数,这个函数称为回归函数。,回归函数分为：,总体回归函数和样本回归函数,举例：假如已知,100个家庭构成的总体。,11,每月家庭可支配收入,X,1000,1500,2000,2500,3000,3500,4000,4500,5000,5500,820,962,1108,1329,1632,1842,2037,2275,2464,2824,888,1024,1201,1365,1726,1874,2110,2388,2589,3038,932,1121,1264,1410,1786,1906,2225,2426,2790,3150,每,960,1210,1310,1432,1835,1068,2319,2488,2856,3201,月,1259,1340,1520,1885,2066,2321,2587,2900,3288,家,1324,1400,1615,1943,2185,2365,2650,3021,3399,庭,1448,1650,2037,2210,2398,2789,3064,消,1489,1712,2078,2289,2487,2853,3142,费,1538,1778,2179,2313,2513,2934,3274,支,1600,1841,2298,2398,2538,3110,出,1702,1886,2316,2423,2567,Y,1900,2387,2453,2610,2012,2498,2487,2710,2589,2586,900,1150,1400,1650,1900,2150,2400,2650,2900,3150,例,:100个家庭构成的总体,(单位:元),相关关系的一对多，转变为函数关系的一对一。,二、总体回归函数,1. 总体回归函数的概念,前提：,假如已知所研究的经济现象的总体应变量,Y和解释变量X的每个观测值, 可以计算出总体应变量,Y的条件均值,，,并将其表现为解释变量,X,的某种函数,这个函数称为总体回归函数（,PRF）,2.总体回归函数的表现形式,（1）,条件均值,表现形式,假如,Y的条件均值是解释变量,X的线性函数,，可表示为：,（,2）,个别值,表现形式,对于一定的,X,，,Y的各个别值Y,i,分布在,的周围，若令各个Y,i,与条件均值,的偏差为,u,i,显然,u,i,是随机变量,则有,进而,14,三、随机扰动项,概念,:,各个,Y,i,值与条件均值,的偏差u,i,代表排除在模型以外的所有因素,（简单回归，就是指,X,以外的所有因素）对,Y的影响。,性质：,u,i,是期望为,0有一定分布的随机变量,。,重要性：,随机扰动项的性质决定着计量经济方法的选择,。,引入随机扰动项的原因,：,（,1,）未知影响因素的代表；（,2,）无法取得数据的已知影响因素的代表；（,3,）众多细小影响因素的综合代表；（,4,）模型的设定误差；（,4,）变量的观测误差；（,5,）变量内在随机性,.,15,四、样本回归函数,1样本回归线：,对于X的一定值，取得Y的样本观测值，可计算其条件均值，样本观测值条件均值的轨迹称为样本回归线。,2样本回归函数,：,如果把应变量Y的样本条件均值表示为解释变量X,的某种函数，这个函数称为样本回归函数（SRF）。,注意：,由于每次抽样都能获得一个样本，就可以拟合一条样本回归线，所以样本回归线随抽样波动而变化，可以有许多条,（,SRF不唯一）,16,SRF2,SRF1,总体回归,样本回归,1,样本回归,2,样本回归,均值表现：,样本回归函数如果为线性函数，可表示为,其中：是与相对应的的样本条件均值,和分别是样本回归函数的参数,个值表现,：,应变量的实际观测值不完全等于样本条件均值，,二者之差用表示, 称为,剩余项,或,残差项,：,因此可表示为：,17,3,样本回归函数的表现形式,18,4,对样本回归的理解,如果能够获得和的数值，显然:, 和是对总体回归函数参数和的估计, 是对总体条件期望的估计,在概念上类似总体回归函数中的，可,视为对的估计。,19,样本回归函数与总体回归函数的关系,SRF,PRF,A,用样本回归函数,SRF去估计总体回归函数PRF。,由于样本对总体总是存在代表性误差，,SRF 总会过高或过低估计PRF。,要解决的问题：,寻求一种规则和方法，使得到的,SRF的参数和,尽可能“接近”总体回归函数中的参数和。,这样的“规则和方法”有多种，最常用的是最小二乘法,20,5,回归分析的目的,21,第二节：简单线性回归模型的估计,本节基本内容,:, 简单线性回归的基本假定, 普通最小二乘法, 参数估计式的统计性质,22,一、简单线性回归基本假定,（,1）,对模型和变量的假定,如,；假定解释变量,X是非随机的，或者虽然是随机的，但与扰动项u,i,是不相关的,；,假定解释变量,在重复抽样中为固定值,；,假定变量和模型无设定误差,。,（,2,）对随机扰动项,u,i,的假定,（高斯假定）,假定,1：零均值假定,在给定X的条件下， u,i,的条件期望为零,。,23,假定,2：同方差假定,在给定X的条件下， u,i,的条件方差为某个常数,假定,3：无自相关假定,随机扰动项,u,i,的逐次值互不相关,假定,4：随机扰动,u,i,与解释变量,X,不相关,假定,5：对随机扰动项分布的正态性假定,24,二、普通最小二乘回归,OLS的基本思想,不同的估计方法可得到不同的样本回归参数和，所估计的也不同。,理想的估计方法应使与的差即剩余越小越好,因可正可负，所以可以取最小,，即,现实中，由于样本量很小，对于每一个具体的,X,，对应的,Y,i,往往只有一个值，无法取样本均值，即便有的,X,对应多个,Y,i,，由于样本量的关系，这些不同,X,对应的,也并非刚好在一条线上。因此我们只能找一条近似的直线，使得最小。,25,用克莱姆法则求解得观测值形式的,OLS估计式：,其中,取偏导数为,0，得正规方程,2. 无偏特性,:,3. 最小方差特性,：,在所有的线性无偏估计中，,OLS估计具有最小方差,结论：在古典假定条件下,OLS估计式是最佳线性无,偏估计式（,BLUE）,26,1. 线性特征,：,是的线性函数,三、,OLS,估计式的统计性质：高斯定理,27,三、,OLS,估计式的统计性质：高斯定理,估计值,偏倚,概,率,密,度,概,率,密,度,估计值,无偏性,有效性,28,第三节拟合优度的度量,本节基本内容,:,什么是拟合优度,总变差的分解,可决系数,概念,：,样本回归线是对样本数据,的一种拟合，不同估计方,法可拟合出不同的回归线，,拟合的回归线与样本观测,值总有偏离。,样本回归线对样本观测数据拟合的优劣程度,拟合优度,拟合优度的度量建立在对总变差分解的基础上,29,一、什么是拟合优度,?,30,二、总变差的分解,分析,Y,的观测值、估计值与平均值的关系,将上式两边平方加总，可证得,（,TSS,）,（,ESS,）（,RSS,）,总变差,（,TSS,）：应变量,Y,的观测值与其平均值的离差平方和（总平方和）,解释了的变差,（,ESS,）：应变量,Y,的估计值与其平均值的离差平方和（回归平方和）,剩余平方和,RSS,）：应变量观测值与估计值之差的平方和（未解释的平方和）,31,变差分解的图示,32,三、可决系数,以TSS同除总变差等式两边：,或,定义：,回归平方和（解释了的变差,ESS）在总变,差（TSS）中所占的比重称为可决系数，用表示:,或,作用：,可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数小，说明模型对样本观测值的拟合程度越差。,特点：,可决系数取值范围：,随抽样波动，样本可决系数是随抽样,而变动的随机变量,可决系数是非负的统计,33,可决系数的作用和特点,可决系数只是说明列入模型的所有解释变量对,因变量的联合的影响程度，不说明模型中每个,解释变量的影响程度（在多元中）,.,回归的主要目的如果是经济结构分析，不能只,追求高的可决系数，而是要得到总体回归系数,可信的估计量，可决系数高并不表示每个回归,系数都可信任,., 如果建模的目的只是为了预测因变量值，不是,为了正确估计回归系数，一般可考虑有较高的,可决系数,.,34,运用可决系数时应注意,35,第四节回归系数的区间估计和假设检验,本节基本内容：,OLS估计的分布性质,回归系数的区间估计,回归系数的假设检验,36,一、OLS估计的分布性质,是服从正态分布的随机变量, 决定了也是服从正态分布的随机变量，是的线性函数，决定了,也是服从正态分布的随机变量,。,期望,：,方差,：,标准差,：,无偏估计,：,37,根据本科知识（概率论）,在已知时,在,未知时,38,二,、,回归系数的区间估计,一般情况下，未知，以为例，下式成立,根据,t,分布的特点,因此：,同理：,39,二,、,回归系数的区间估计,再看：,说明如下问题：,我们的初心是“探寻”总体回归函数的和，上式告诉我们，有,1-,的可能性在向左右扩展（方圆）的区间中，同理。这说明和就在和附近的方圆范围内。,40,三,、,回归系数的假设检验（非零检验,）,计量经济学研究的目的：,经济变量,X,是否对,Y,具有线性影响？即,Y=,1,+ ,2,X+u,是否成立？如果总体回归方程中的,k,=0,，特别是,2,=0,，说明,X,对,Y,没有影响，否则,X,对,Y,有影响。,但是我们永远无法得知,k,，,我们只能获得，得知,k,在的方圆范围内，,但这一范围内有个数很特殊，就是,0,，,那么,k,不会是,0,吧，这很关键。,关于,k,是否是,0,的判断，就需要假设检验。,以为例，前面已知：,假定（统计学叫原假设,H0,：），则有,如果,，则符合常理，,即,H0:,很有可能,如果，为小概率事件，,即,H0:,不太可能,41,如前，一方面取决于,，一方面需要查表。在计量分析软件中，常用伴随概率,P,来判断,的大小，因此软件会自动计算出,P,。,那么什么是,P,，如何利用,P,呢？,P,指的是,t,分布的统计量大于的概率,如果,P,很小，小于设定的，说明,很大，必然在,t,分布边远的,两侧，即，可能性太小，拒绝。,42,用,P 值判断参数的显著性,P,统计量,t,43,本节主要内容：,回归分析结果的报告,被解释变量平均值预测,被解释变量个别值预测,第五节回归模型预测,经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用了以下规范化的方式：,例如：回归结果为,44,一、回归分析结果的报告,标准误差,SE,t,统计量,可决系数和自由度,45,二、被解释变量平均值预测,计量经济预测是一种,条件预测,：,条件：,模型,设定的关系,式,不变,；,所估计的,参数不变,。,解释变量,在预测期的,取值已作出预测,。,对应变量的预测分为,对平均值预测,和,对个别值,预测,对应变量的预测又分为,点预测,和,区间预测,我们首先学习对被解释变量平均值的预测，即对给定,X,f,下，对应的所有的,Y,的均值,E,（,Y|X,f,）的预测。,对,E,（,Y|X,f,）的预测分为,点预测,和,区间预测,，显然点预测就是把,X,f,代入所求的回归线。,进而：,红点是几呢？,46,二、被解释变量平均值预测,由于存在抽样波动，预测的平均值不一定等于真实平均值，,那么我们苦苦想知道的大致在哪个范围内呢？这就涉及到区间预测（类似前面的区间估计）,。,根据最小二乘法：,在,未知时,服从正态分布,47,二、被解释变量平均值预测,根据,t,分布的特点,因此有,即我们想知道的，将以,1-,的可能性,出现在区间,L,R,之中。,即出现在以为中心，半径为的方圆范围内。,48,三、被解释变量个值预测,对,X=X,f,的前提下，对某一个,Y,f,的,预测同样分为,点预测,和,区间预测。,规定：点预测同样用如下方式计算,那么，区间估计呢？,由于某个具体的,Y,f,是随机变量，点估计的也是随机变量，令，根据最小二乘法性质，也是正态分布的随机变量。,可证明：,某个黄点是几呢？,49,三、被解释变量个值预测,由此可知：,根据,t,分布性质：,进而,可见，某个同样落在以为核心的方圆范围内，此时的方圆半径为。,50,被解释变量均值预测与个值预测比较,（,1,）两者的点估计是相同的。,（,2,）两者的区间估计都是在以为中心，某个半径范围内；但是两者的区间半径不同。,总体均值是个确定的值（,固定的靶子,），因此它与（,枪眼,）的差异，只由决定，即只受抽样波动（,枪的好坏,）影响；,个值是个随机的值（,流动的靶子,），因此他与的差异，由自身的随机性和的抽样波动共同影响。,因此对均值预测要比对个值预测更精确（更好瞄准）,被解释变量均值预测与个值预测比较,51,SRF,Y的个别值的置信区间,Y均值的置信区间,52,第六节案例分析,提出问题：,改革开放以来随着中国经济的快速发展，居民的消费水平也不断增长。但全国各地区经济发展速度不同，居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。,研究范围：,全国各省市,2002年城市居民家庭平均每人每年消费截面数据模型。,53,理论分析：,影响各地区城市居民人均消费支出的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入。从理论上说可支配收入越高，居民消费越多，但边际消费倾向大于,0，小于1。,建立模型：,其中：,Y,城市居民家庭平均每人每年消费支出,(元),X,城市居民人均年可支配收入,(元),54,数据：,从,2002年中国统计年鉴中得到,地区,城市居民家庭平均每人每年消费支出,(元),Y,城市居民人均年可支配收入,(元,）,X,北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,10284.60,7191.96,5069.28,4710.96,4859.88,5342.64,4973.88,4462.08,10464.00,6042.60,8713.08,4736.52,6631.68,4549.32,5596.32,4504.68,5608.92,12463.92,9337.56,6679.68,5234.35,6051.06,6524.52,6260.16,6100.56,13249.80,8177.64,11715.60,6032.40,9189.36,6334.64,7614.36,6245.40,6788.52,地区,城市居民家庭平均每人每年消费支出,(元),Y,城市居民人均年可支配收入,(元,）,X,湖南,广东,广西,海南,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆,5574.72,8988.48,5413.44,5459.64,6360.24,5413.08,4598.28,5827.92,6952.44,5278.04,5064.24,5042.52,6104.92,5636.40,6958.56,11137.20,7315.32,6822.72,7238.04,6610.80,5944.08,7240.56,8079.12,6330.84,6151.44,6170.52,6067.44,6899.64,55,估计参数,具体操作：使用,EViews,软件包。估计结果：,假定模型中随机扰动满足基本假定，可用,OLS法。,56,模型检验,1,拟合优度检验：，说明,X,对,Y,的解释占了近,94%,2,参数显著性检验：,2,对应的伴随概率,P=0.000,，说明,2,显著,不为,0,； ,1,对应的伴随概率,P=0.334,，说明,1,不具有显,著性。,3,经济意义检验：,解释变量的系数为,0,.,758511，说明城镇居民,人均可支配收入每增加,1元，人均年消费支出平均将增,加,0,.,758511元。这符合经济理论对边际消费倾向的界定,。,57,点预测：,西部地区的城市居民人均年可支配收入第一步争取达到,1000美元(按现有汇率即人民币8270元)，,代入估计的模型得,第二步再争取达到,1500美元(即人民币12405元)，利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平,58,区间预测,平均值区间预测上下限：,59,即是说：,平均值置信度,95%的预测区间为（6393.03，6717.23）元。,平均值置信度,95%的预测区间为（9292.33，10090.83）元。,第一章结束,60,

最新DOC

最新PPT

最新RAR