单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章 多元(复)回归分析,教师:卢时光,第三章 多元(复)回归分析教师:卢时光,1,1.复回归分析:估计问题,1.1 三变量模型:符号和假设,将双变量的总体回归模型(PRF)推广,就得到了三变量的总体回归模型。,其中,,Y,是应变量,,X,2,和,X,3,是解释变量,,u,是随机干扰项,,i,是指第,i,次观测值(当数据为实践序列时,下标,t,表示第,t,次观测)。系数,1,和,2,被称为,偏回归系数,。,我们继续在经典线性回归模型(CLRM)框架下,这样我们对模型做出如下假设:,1.复回归分析:估计问题1.1 三变量模型:符号和假设,2,其中(6)是说X,2,与X,3,之间没有精确的线性关系,专业上称为,无共线性,或,无多重共线性,。无共线性是说没有一个解释变量可以写成其余解释变量的线性组合。如果不存在一组不全为零的数,2,和,3,,使得:,如果是这关系存在,我们就说,X,2,与X,3,的,共线的,或,线性相关,。令一方面,如果这一关系仅当,2,=,3,=0时存在,则X,2,与X,3,线性独立,。,其中(6)是说X2与X3之间没有精确的线性关系,专业上称为无,3,(a)图表示X,2,和X,3,不存在线性关系。(b)图中,区域Y的3和4区域的变异是由于X,2,引起的,而Y的4和5区域的变异是由于X,3,引起的,但是区域4是X,2,和X,3,共有的,我们无法精确地区别开来,这样区域4代表了共线性。无共线性就要求像(a)图那样,解释变量没有重叠区域。,(a)图表示X2和X3不存在线性关系。(b)图中,区域Y的3,4,1.2 对复回归方程的解释,对式子两边求条件期望:,这样,式子给出以变量X,2,和X,3,的固定值为条件的Y的条件均值或期望值。如同双变量回归分析,复回归分析是以,多个解释变量的固定值为条件,的回归分析,并且我们所获取的,是变量X值固定时的Y的平均值或Y的平均响应。,1.2 对复回归方程的解释,5,1.3 偏回归系数的含义,偏回归系数,的含义如下:,2,度量者在,保持X,3,不变,的情况下,X,2,每变化1单位,Y的均值E(Y|X,2,X,3,)的变换。换句话说,2,给出保持X,3,不变时Y的均值E(Y|X,2,X,3,)对X,2,的斜率。类似的,3,度量者在保持X,2,不变的情况下,X,3,每变化1单位,Y的均值E(Y|X,2,X,3,)的变换。,如何理解保持不变?假定Y代表产出,X,2,和X,3,分布代表劳动和资本投入。再假定X,2,和X,3,都是生产必须的,且它们用于生产的投入比例可以变换。当劳动投入增加一个单位带来的产出的增加(劳动的边际产量)。在这里有一个前提,就是劳动增加的同时,资本投入的数量保持不变,否则我们无法区分在增加的Y中,那些是由于劳动X,2,的增加带来的,那些是由于资本X,3,增加带来的。只有想办法使得资本X,3,投入保持不变,才能衡量劳动X,2,投入对产出增长的,真实贡献,。,1.3 偏回归系数的含义,6,1.4 偏回归系数的OLS估计,先写出样本回归函数(SRF):,OLS方法是要选择未知参数的值,使得残差平方和尽可能的小,用符号表示为:,对未知数求微分,并令表达式为零,得到下述正则方程:,1.4 偏回归系数的OLS估计,7,按照用小写字母表示对样本离差的惯例,解正则方程得:,2,和,3,最小二乘估计量的性质:,(1)可以从方程2和方程3中通过x,2,和x,3,的对调得到另外一个,所有它们本质上是对称的;,(2)两个方程的分母完全相同;,(3)三变量情形是双变量的自然推广。,按照用小写字母表示对样本离差的惯例,解正则方程得:,8,得到偏回归系数的OLS估计量,既可以推出这些估计量的方差和标准误。我们计算标准误有两个目的:建立置信区间和检验统计假设。下列公式不加证明的给出,相关推导过程请参阅文献。,得到偏回归系数的OLS估计量,既可以推出这些估计量的方差和标,9,仿照前章,我们能够证明,2,的一个无偏估计量是,(注意:这里的自由度是(n-3),因为我们在估计残差之前必须要估计参数,1,、,2,和,3,,所以消耗了3个自由度。),仿照前章,我们能够证明2的一个无偏估计量是(注意:这里的自,10,1.5 OLS估计量的性质,1.,三变量回归线(面)通过均值,。(为什么?),2.,估计的Y,i,的均值等于真实Y,i,的均值,。证明:,1.5 OLS估计量的性质,11,3.,4.,残差 与Y,X2和X3均不相关,,于是有,5.根据式子:,随着X,2,和X,3,的相关系数r,23,增大,的方差也在增大,在r,23,=1时,完全共线性,这些方差变得无限大。直观地看,随着r,23,的增大,要知道,2,和,3,的真值越来越难。而X的样本值变化越大(,x,越大),则方差越小,从而能够更精确的估计,2,和,3,。,3.,12,1.6 复判定系数R,2,在三变量模型中,我们想知道Y的变异由X,2,和X,3,联合解释的比例,提供这一信息的数量被称为复相关系数,记为R,2,。,1.6 复判定系数R2,13,式中各项均可以从样本数据中计算得出,因此R,2,也很容易得到。R,2,是一个落在0和1之间的数。如果是1,则所拟合的回归线100%的解释了Y的变异;如果是0,则模型不解释任何Y的变异。R,2,越靠近1,说明模型的“拟合”越好。,1.7 校正的R,2,R,2,有一个重要的性质,即它是出现在模型中的解释变量个数的非减函数。随着解释变量个数的增加,R,2,必然增大而不会减少。回忆R,2,的定义:,这里,与模型中X的变量没有关系。但是RSS即 与模型中的X个数有关。随着X的个数增加,模型的 很可能减小(至少不会变大),随之,R,2,变大。,式中各项均可以从样本数据中计算得出,因此R2也很容易得到。R,14,那么,怎样解决这个问题呢?我们必须考虑到模型中X变量的个数,那么:,也就是说,分子分母均除以其自由度(df),这样我们就消除了由于解释变量增加而带来的R,2,变大的问题,被称为校正的R,2,(adjusted R,2,)。,在计算中要先计算均值,故损失一个自由度,自由度为(n-1),的自由度中的k,是指包括截距项在内的模型中的参数的个数。在三变量模型中,的自由度是(n-3)。,那么,怎样解决这个问题呢?我们必须考虑到模型中X变量的个数,,15,2.复回归分析:推断问题,2.1 再一次正态性假设,如果我们的唯一目的是对回归模型的参数作点估计,则普通最小二乘法(OLS)将足够使用,并不需要对干扰项ui的概率分布作任何假设,但我们的目的还要对其进行估计和推断,我们还需要假定ui服从某个概率分布。,我们曾经假设u,i,遵循均值为零、方差为常数的正态分布。有了正态分布的假设,我们发现,偏回归系数的OLS估计量是最优线性无偏估计(BLUE),此外,估计量 本身也是正态分布,其均值等于 ,而方差 遵循自由度为n-3的,2,分布,并且三个OLS估计量均独立于 而分布,在标准误的计算中,由它的无偏估计 替代时,我们有:,均服从自由度为n-3的t分布。,2.复回归分析:推断问题2.1 再一次正态性假设,16,注意,自由度为n-3是因为我们在计算 和 之前,我们必须先要估计三个回归系数,从而给残差平方和(RSS)的计算加上了三个约束。于是,t分布可用于建立关于真实总体偏回归系数的置信区域并检验统计假设。同理,2,分布可用于检验关于真实 的假设。,一个例子:美国个人消费与个人可支配收入的关系,假设我们要研究在过去几年中美国个人消费支出的行为,用了下述简单模型:,其中 Y:个人消费支出(PCE),X2:个人可支配收入(PDI),X3:以年计的时间,在用到时间序列数据的回归分析中,我们通常引进一个时间或趋势变量。,注意,自由度为n-3是因为我们在计算 和,17,第3章-多元(复)回归分析分解ppt课件,18,对上述回归方程结果解释如下:,如果把X,2,和X,3,固定在零处,则个人消费支出的均值估计为531.6亿美元;,偏回归系数0.7266是说,保持其他变量(X,3,)不变,个人收入每增加1美元,平均消费支出增加约73美分。同理,若X,2,不变,平均个人消费支出估计每年约增加27亿美元。,R,2,值为0.9988,表明两个解释变量解释了1956-1970年间美国个人消费支出的变异约99.9%。校正的R,2,值则表明考虑了自由度的作用后,X,2,和X,3,仍解释Y的变异的99.8%。,我们根据表8.1中的数据,估计回归线如下:,对上述回归方程结果解释如下:我们根据表8.1中的数据,估计回,19,2.2 复回归中的假设检验:总评,一旦我们走出简单的双变量线性回归模型的范围,假设检验就会以多种有趣的形式出现,诸如:,1.检验关于个别偏回归系数的假设。,2.检验所估计的复回归模型的总显著性,也就是要判别是否全部偏回归系数同时为零。,3.检验两个或多个系数是否相等。,4.检验偏回归系数是否满足某种约束条件。,5.检验所估计的回归模型在时间上或在不同横截面单元上的稳定性。,6.检验回归模型的函数形式。,因为在经验分析中常常出现这些类型的一种或多种检验,我们将分节讨论每一种类型的检验。,2.2 复回归中的假设检验:总评,20,2.3 检验关于个别偏回归系数的假设,如果假设 成立,我们可以用t检验统计量对任一偏回归系数进行检验。,我们设:,虚拟假设的意思是:,保持X,3,不变,个人可支配收入对个人消费支出无(线性)影响,。为了检验这个虚拟假设,我们利用t检验。如果计算的t值超过了选定显著水平的临界t值,就可以拒绝假设;否则,就不拒绝它。,如果取,=0.05,对于12个自由度有t,/2,=2.179(双尾检验)。由于计算的t值14.9060远远超过临界t值2.179,故我们拒绝原假设,在统计上是显著的,或显著地异于零。,2.3 检验关于个别偏回归系数的假设,21,从图解上来展示这一情形。,我们曾在前面看到假设检验和置信区间估计之间存在密切关系:,2,的95%置信区间是:,具体的数值是:,从图解上来展示这一情形。,22,也就是说,,2,以95%的置信系数落在0.6205与0.8327之间。这样,如果选取了样本容量为15的100个样本,构造100个这样的置信区间,则我们预测其中95个包含着真实的,2,值。,由于虚拟假设,2,=0下,计算的t统计变量的值14.9060没有落在这个区间内,从而我们拒绝虚假假设H,0,。,事实上,我们注意:,各个回归系数的p值都异常的低,表明每个回归系数都在一个比5%或1%低得多的显著水平上,是统计上显著的。,也就是说,2以95%的置信系数落在0.6205与0.832,23,2.4 检验样本回归的总显著性,上面我们讨论的仅仅是对个别的系数的显著性进行检验,下面我们考虑虚拟假设,H,0,:,2,=,3,=0,是关于,2,和,3,联合地或者同时地等于零的一个联合假设。对象这样的一个假设检验称之为对,回归的总显著性检验,。,我们在上面的讨论中逐一地检验了偏回归系数的个别显著性,为什么还有对样本回归进行总显著性检验?事实上,上述单个检验我们只能够保证每个偏回归系数单独地来看,在统计上显著的不为零,但是我们无法保证他们联合起来共同的不为零。用统计的话说:“,检验一个个假设,不等于联合地检验同样的这些假设。其直观上的理由是,在对几个假设的联合检验中,任一单一假设都受其他假设所含信息的影响。,”,那么,我们如何联合检验虚拟假设H,0,:,2,=,3,=0?,2.4 检验样本回归的总显著性,24,检验复回归的总显著性的方差分析法:F检验,回忆等式:,按照方差分析(ANOVA)程序,列出方差分析表:,检验复回归的总显著性的方差分析法:F检验,25,我们可以证明,在u,i,的正态分布的假设下,构造一个F变量:,服从自由度为2和(n-3)的F分布。,上述F有什么用?我们进一步可以证明,若 则:,若,2,=,3,=0,便能证明:,也就是说,如果虚拟假设成立,上面