资源预览内容
第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
第9页 / 共43页
第10页 / 共43页
第11页 / 共43页
第12页 / 共43页
第13页 / 共43页
第14页 / 共43页
第15页 / 共43页
第16页 / 共43页
第17页 / 共43页
第18页 / 共43页
第19页 / 共43页
第20页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STAT,第十一章 回归分析与相关分析,第9 章 相关分析与回归分析,刘廷兰,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,第9 章 相关分析与回归分析刘廷兰相关和回归分析是研究事物的,1,本章学习目的,通过本章的学习要求理解相关分析和回归分析的有关概念,掌握计算相关系数和配合回归方程的方法,并能结合实际资料对变量进行相关和回归分析。,本章学习目的,2,本章教学内容,第一节,相关分析,第二节,简单线性回归分析,第三节,多元线性回归模型,本章教学内容 第一节 相关分析,3,出租汽车费用与行驶里程:,总费用=行驶里程,每公里单价,家庭收入与恩格尔系数:,家庭收入高,则恩格尔系数低。,函数关系,(确定性关系),相关关系,(非确定性关系),比较下面两种现象间的依存关系,出租汽车费用与行驶里程:家庭收入与恩格尔系数:函数关,4,在自然界和社会现象中,客观现象之间的数量关系通常有两种类型,即:,函数关系,相关关系,客观存在、确定性、严格的数量对应关系,(相关分析的对象),现象(变量)之间客观存在的、非确定性的数量对应关系。,例如:,消费支出与收入的关系;,学习成绩与学习时间的关系等。,在自然界和社会现象中,客观现象之间的数量关系通常有两种,5,相关关系的种类(四种),单相关,复相关,线性相关(直线相关),非线性相关(曲线相关),正相关,负相关,完全相关(函数关系),不完全相关,不相关,按涉及变量多少,按相关的,表现形式,按相关的方向(直线相关),按,相关的程度,相关关系的种类(四种)单相关线性相关(直线相关)正相关完全相,6,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的基础上,通过编制,相关表,、,绘制,相关图,、,计算,相关系数,与,判定系数,等方法,来判断现象之间相关的方向、形态及密切程度,相关关系的测定,对相关关系的分析是统计学的重要研究内容。,主要研究方法:相关分析和与回归分析。,定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否,7,相关分析与回归分析,相关分析(,Correlation Analysis,),研究变量之间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,因而无法从一个变量推测另一个变量。,回归分析(Regression),可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对另一个变量的影响程度,并根据回归方程进行预测。,相关分析与回归分析 相关分析(Correlation Ana,8,自变量和因变量,如果两个变量中一个变量是另一个变量变化的结果,那么,代表原因的变量称为,自变量,Independent (Explanatory)Variable,,,代表结果的变量称为因变量,Dependent(Response)Variable,。,在散点图中习惯上把因变量绘制在纵轴上。,自变量和因变量如果两个变量中一个变量是另一个变量变化的结果,,9,简单,相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组,相关表,适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况,将现象之间的相互关系,用表格的形式来反映。,相关表,简单适用于所观察的样本单位数较少,不需要分组的情况分组适用于,10,正 相 关,负 相 关,曲线相关,不 相 关,x,y,x,y,x,y,x,y,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,用散点图观察变量之间的相关关系,正 相 关负 相 关曲线相关不 相 关xyxyxyxy用直角,11,在,直线相关,的条件下,用以反映,两变量,间,线性相关,密切程度的统计指标,用,r,表示,相关系数,在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指,12,1,r,1,两个变量完全相关,两个变量不存在线性相关关系,两个变量存在一定程度线性相关关系,两个变量正相关,两个变量负相关,|,r,|,0.3,0.3,0.5,0.5,0.8,0.8,1,弱相关,低度相关,显著相关,高度相关,1 r 1两个变量完全相关两个变量不存在线性相关关,13,调查,50,个房地产公司,房屋销售面积与广告费用之间的相关系数为,0.76,,这说明(),A.,二者之间有较强的正相关关系,B.,平均看来,销售面积的,76,归因于其广告费用,C.,如要多销售,1,万平方米的房屋,则要增加广告费用,7600,元,D.,如果广告费用增加,1,万元,可以多销售,7600,平方米的房屋,调查50个房地产公司,房屋销售面积与广告费用之间的相关系数为,14,样本能代表总体吗?,如果红色的点碰巧为你的样本,则样本相关系数为,0.907,,总体相关系数为,0.00005,样本能代表总体吗?如果红色的点碰巧为你的样本,则样本相关系数,15,相关系数的显著性检验,1,、提出假设:,H,0,:,;,H,1,:,0,2、计算检验的统计量:,3、确定显著性水平,并作出决策,若,t,t,,拒绝,H,0,或者:若p值,a,,拒绝,H,0,检验的步骤是:,相关系数的显著性检验1、提出假设:H0:;H1:,16,计算结果:,t,检验值为,临界值,t,(,21,),2.08,,故拒绝,H,0,,认为相关系数显著。,消费支出和可支配收入的相关系数,23个家庭调查,计算结果:消费支出和可支配收入的相关系数23个家庭调查,17,注意:相关关系,因果关系!,典型的错误推断:,统计分析表明,庆祝生日次数越多的人越长寿。因此,庆祝生日有利于健康。,调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命越长。,对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。,注意:相关关系因果关系!典型的错误推断:,18,9,2 一元线性回归分析,总体回归函数、样本回归函数,一元线性回归模型的估计,一元线性回归模型的检验,92 一元线性回归分析 总体回归函数、样本回归函数,19,趋向中间高度的回归,回归这个术语是由英国著名统计学家,Francis Galton,在,19,世纪末期研究孩子及他们的父母的身高时提出来的。,Galton,发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。,Galton,把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。,趋向中间高度的回归回归这个术语是由英国著名统计学家Franc,20,Regression,的原始释义,Regression 的原始释义,21,回归分析与相关分析,理论和方法具有一致性;,无相关就无回归,相关程度越高,回归越好;,相关系数和回归系数方向一致,可以互相推算。,联系:,回归分析与相关分析理论和方法具有一致性;联系:,22,相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;,相关分析中x、y均为随机变量,回归分析中只有y为随机变量;,相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,回归分析与相关分析,区别:,相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;,23,注意,我们不能把回归分析看作是在变量间建立一个因果关系的过程。回归分析只能表明,变量是如何或者是以怎样的程度彼此联系在一起的。有关因果关系的任何结论,必须建立在理论分析的基础之上。,注意 我们不能把回归分析看作是在变量间建立一个因果关系,24,回归分析的种类,一元回归,(简单回归),多元回归,(,复回归,),线性回归,非线性回归,一 元线性回归,Simple Linear regression,按自变量的 个数分,按回归曲线的形态分,回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归,25,总结:,一元线性回归模型,对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:,假定E(,)=0,有总体一元线性回归方程,:,总结:一元线性回归模型对于经判断具有线性关系的两个变量y与x,26,一元线性回归方程的几何意义,截距,斜率,一元线性回归方程的可能形态,1,为正,1,为负,1,为0,一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态,27,总体一元线性,回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,斜率(回归系数),截距,截距,表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;,回归系数,表明自变量x每变动一个单位,因变量y平均变动,多少个,单位。,(估计的回归方程),(一元线性回归方程),总体一元线性样本一元线性回归方程:以样本统计量估计总体参数斜,28,总体回归直线与样本回归直线,Y,X,总体回归直线与样本回归直线YX,29,在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无偏估计量。需要的基本假设条件包括:,1、,2、对于所有的,x,,,的方差,相等,3、与X之间不相关,4、之间不相关,5、服从正态分布,一元线性回归模型的统计假设,在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无,30,一元线性回归模型的估计,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。,在总体参数未知的情况下,如何保证样本回归系数尽可能接近总体参数的真实值?,在回归分析中最常用的估计方法是,最小二乘法,。,一元线性回归模型的估计 总体回归直线是未知的,它只有一条;而,31,的意义,为残差:点到直线的纵向距离。,11,12,13,14,15,16,5.0,5.5,6.0,6.5,的意义 为残差:点到直线,32,最小二乘估计,x,y,(,x,n,y,n,),(,x,1,y,1,),(,x,2,y,2,),(,x,i,y,i,),e,i,=,y,i,-,y,i,通过使残差平方和,达到最小来求得,最小二乘估计xy(xn,yn)(x1,y1),33,最小二乘估计,将Q对和求偏导数并令其等于零,可以得到正规方程组(Normal Equations)。,最小二乘估计将Q对和求偏导数并令其等于零,可以得到正,34,解这个方程组可得:,注意的符号与相关系数,r,是一致的。,解这个方程组可得:注意的符号与相关系,35,直线的起点值(不变费用),当产量每增加1000件时,单位成本平均降低1.82元件。,直线的起点值(不变费用),36,一元线性回归方程的评价和检验,拟合优度,1,、决定系数,2,、估计标准误差,显著性检验,3,、,t,检验,4,、,F,检验,一元线性回归方程的评价和检验 拟合优度,37,决定系数为:,决定系数为:,38,决定系数的取值,R,2,的取值范围是,0,,,1,。,R,2,越接近于,1,,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。,在一元线性回归中,相关系数,r,的平方等于判定系数,符号与自变量,x,的系数一致。因此可以根据回归结果求出相关系数。,所有的回归程序都会给出,R,2,的值,.,决定系数的取值R2的取值范围是0,1。,39,本学期课程结束,统计方法,描述统计,推断统计,参数估计,假设检验,本学期课程结束统计方法描述统计推断统计参数估计假设检验,40,本学期内容,第2章+搜集数据,第,3,章+用图表展示数据,第,4,章+用统计量描述数据,第,6,章+参数估计,第,7,章+假设检验,第8章+,一元
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6