单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,面板数据模型与stata软件的应用,一、什么是面板数据,二、面板数据模型的优势,三、面板模型的估计方法:FE和RE,四、stata软件简介,五、如何用stata估计面板模型:案例分析,面板数据模型与stata软件的应用,1,一、面板数据类型,时间维度+截面维度,如我们在分析中国各省份的经济增长时,共有31个截面,每个截面都取1979-2019共20年的数据,共有620个观察值,这是一个典型的平行面板数据,上市公司财务数据,研究一段时期内(2019-2019)上市公司股利的发放数额与股票账面价值之间的关系,共有20 11=220个观测值,强调经济理论基础、强调微观行为基础,一、面板数据类型时间维度+截面维度,2,表1 2019-2019年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格),地区人均消费,2019,2019,2019,2019,2000,2019,2019,CP-AH(安徽),3282.466,3646.150,3777.410,3989.581,4203.555,4495.174,4784.364,CP-BJ(北京),5133.978,6203.048,6807.451,7453.757,8206.271,8654.433,10473.12,CP-FJ(福建),4011.775,4853.441,5197.041,5314.521,5522.762,6094.336,6665.005,CP-HB(河北),3197.339,3868.319,3896.778,4104.281,4361.555,4457.463,5120.485,CP-HLJ(黑龙江),2904.687,3077.989,3289.990,3596.839,3890.580,4159.087,4493.535,CP-JL(吉林),2833.321,3286.432,3477.560,3736.408,4077.961,4281.560,4998.874,CP-JS(江苏),3712.260,4457.788,4918.944,5076.910,5317.862,5488.829,6091.331,CP-JX(江西),2714.124,3136.873,3234.465,3531.775,3612.722,3914.080,4544.775,CP-LN(辽宁),3237.275,3608.060,3918.167,4046.582,4360.420,4654.420,5402.063,CP-NMG(内蒙古),2572.342,2901.722,3127.633,3475.942,3877.345,4170.596,4850.180,CP-SD(山东),3440.684,3930.574,4168.974,4546.878,5011.976,5159.538,5635.770,CP-SH(上海),6193.333,6634.183,6866.410,8125.803,8651.893,9336.100,10411.94,CP-SX(山西),2813.336,3131.629,3314.097,3507.008,3793.908,4131.273,4787.561,CP-TJ(天津),4293.220,5047.672,5498.503,5916.613,6145.622,6904.368,7220.843,CP-ZJ(浙江),5342.234,6002.082,6236.640,6600.749,6950.713,7968.327,8792.210,表1 2019-2019年中国东北、华北、华东15个省级地,3,表2 上市公司的投资与股票账面价值:N=20,T=4,表2 上市公司的投资与股票账面价值:N=20,T=4,4,面板数据模型和stata软件应用,二、面板数据模型有以下几个优点:,第一,Panel Data 模型可以通过设置虚拟变量对个别差异(非观测效应)进行控制;,第二,Panel Data 模型通过对不同横截面单元不同时间观察值的结合,增加了自由度,减少了解释变量之间的共线性,从而改进了估计结果的有效性;,第三,Panel Data模型是对同一截面单元集的重复观察,能更好地研究经济行为变化的动态性,面板数据模型和stata软件应用二、面板数据模型有以下几个优,5,举例,交通死亡率与酒后驾车人数(一段时间内江苏省各市),其他的非观测(潜在)因素:南京与苏州,汽车本身状况,道路质量,当地的饮酒文化,单位道路的车辆密度,非观测效应导致估计结果不准确,面板数据可以控制和估计非观测效应,举例交通死亡率与酒后驾车人数(一段时间内江苏省各市),6,面板数据模型形式:,其中,i=1,2,3.N,截面标示;t=1,2,.T,时间标示,;x,it,为k1解释变量,,为k1系数列向量,对于特定的个体i 而言,a,i,表示那些不随时间改变的影响因素,而这些因素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、地区的经济结构,法律和产权制度等,一般称其为“个体效应”(individual effects),面板数据模型形式:,7,面板数据模型的误差项由两部分组成:,一部分是与个体观察单位有关的,它概括了所有影响被解释变量,但不随时间变化的因素,因此,面板数据模型也常常被成为非观测效应模型;,另外一部分概括了随截面随时间而变化的不可观测因素,通常被成为特异性误差或特异扰动项,面板数据模型的误差项由两部分组成:,8,GDP,X(Invest、edu),北京,江苏省,山西省,基础设施更加完善,受教育程度较好、经济结构以服务业为主、法制更健全,GDPX(Invest、edu)北京江苏省山西省基础设施更加,9,面板模型选择:固定效应还是随机效应,对“个体效应”的处理主要有两种方式:一种是视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;另一种是视其为随机因素,相应的模型称为“随机效应”模型,固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上;,随机效应模型则假设所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上,面板模型选择:固定效应还是随机效应对“个体效应”的处理主要有,10,FE(Fixed Effects)Model,RE(Random Effects)Model,其中,是截距中的随机变量部分,代表个体的随机影响,(,Replace with dummy variables,),FE(Fixed Effects)Model(Repla,11,固定效应模型,1、例如,在研究财政支出与经济增长的关系,运用全国的时间序列数据来检验财政支出与经济增长的关系可能存在设定误差并且受统计资料的制约,仅用时间序列资料不能够满足大样本的要求,同时,由于我国不同地区的体制变革和财政政策的不断调整,造成各个地区财政支出结构随时间而不断变化,面板数据(Panel Data)从某种程度上克服了这一困难。考虑到中国各省份财政支出结构与经济增长的关系存在明显的地区差异,从时间序列的角度,考虑各省差异的动态性,是面板数据模型的优势,固定效应模型1、例如,在研究财政支出与经济增长的关系,运用全,12,例如,在研究中国地区经济增长的过程中,以全国28 个省区为研究对象,可以认为这28 个省区几乎代表了整个总体,同时假设在样本区间内,各省区的,经济结构,人口素质,等不可观测的特质性因素是固定不变的,因此采用固定效应模型是比较合适的,例如,在研究中国地区经济增长的过程中,以全国28 个省区为研,13,2、而当我们研究某个县市居民的消费行为时,由于样本数相对于江苏省几千万人口是个很小的样本,此时,可以认为个体居民在个人能力、消费习惯等方面的差异是随机的,采用随机效应模型较为合适,随机效应模型:,RE认为个体的差异是随机的,其中,非观测的个体差异效应 与随机扰动项一样都是随机变量,随机效应模型,2、而当我们研究某个县市居民的消费行为时,由于样本数相对于江,14,总结:如果把非观测效应看做是各个截面或个体特有的可估计参数,并且不随时间而变化,则模型为固定效应模型;,如果把非观测效应看作随机变量,并且符合一个特定的分布,则模型为随机效应模型,总结:如果把非观测效应看做是各个截面或个体特有的可估计参数,,15,3、,在实证分析中,一般通过hausman检验判断:由于随机效应模型把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应不相关,而固定效应模型并不需要这个假设条件,因此,我们可以通过检验该假设条件是否满足,如果满足,那么就应该采用随机效应模型,反之,就需要采用固定效应模型,3、在实证分析中,一般通过hausman检验判断:由于随机效,16,Hausman检验的基本思想是:在固定效应u_i和其他解释变数不相关的原假设下,用OLS估计的固定效应模型和用GLS估计的随机效应模型的参数估计都是一致的。反之,OLS是一致的,但GLS则不是,因此,在原假设下,二者的参数估计应该不会有系统的差异,我们可以基于二者参数估计的差异构造统计检验量。如果拒绝了原假设,我们就认为选择固定效应模型是比较合适的。,Hausman检验的基本思想是:在固定效应u_i和其他解释变,17,四、stata软件简介,STATA软件估计与应用:,打开数据库:,use E:Program FilesStata10.0绿色软件Stata10东部.dta“,或者重新输入数据:edit,相关系数:cor gdp invest edu sci health,简单回归:,regress gdp invest culture sci,无常数:regress gdp invest culture sci,noconstant,四、stata软件简介STATA软件估计与应用:,18,估计结果,估计结果,19,回归诊断:,是否存在异方差,:estat hettest,怀特检验:,estat imtest,white,回归信息检验:,estat imtest,是否遗漏重要解释变量:,estat ovtest,拟合图:,rvfplot,单一变量的相关图,:,cprplot invest,回归诊断:,20,画图,菜单与命令结合,twoway(scatter gdp invest),twoway(scatter gdp invest|lfit gdp invest),画图菜单与命令结合,21,基本建设支出与GDP的相关关系图,基本建设支出与GDP的相关关系图,22,各省教育支出的增长趋势:2019-2019,各省教育支出的增长趋势:2019-2019,23,Durbin-Watson 统计量,:estat dwatson,序列相关检验,:estat durbinalt,滞后阶数选择:estat durbinalt,lags(2),条件异方差检验:,estat archlm,lags(2),可选变量的异方差检验:,estat szroeter,gdp invest culture sci,Durbin-Watson 统计量:estat dwatso,24,五、Stata对面板数据模型的估计,五、Stata对面板数据模型的估计,25,随机效应模型,随机效应模型,26,Stata对面板数据模型的估计,首先对面板数据进行声明:,前面是截面单元,后面是时间标识:,tsset company year,tsset industry year,产生新的变量:gen newvar=human*lnrd,产生滞后变量Gen fiscal(2)=L2.fiscal,产生差分变量Gen fiscal(D)=D.fiscal,Stata对面板数据模型的估计,27,描述性统计:,xtdes:对Panel Data截面个数、时间跨度的整体描述,Xtsum:分组内、组间和样本整体计算各个变量的基本统计量,xttab 采用列表的方式显