资源预览内容
第1页 / 共45页
第2页 / 共45页
第3页 / 共45页
第4页 / 共45页
第5页 / 共45页
第6页 / 共45页
第7页 / 共45页
第8页 / 共45页
第9页 / 共45页
第10页 / 共45页
第11页 / 共45页
第12页 / 共45页
第13页 / 共45页
第14页 / 共45页
第15页 / 共45页
第16页 / 共45页
第17页 / 共45页
第18页 / 共45页
第19页 / 共45页
第20页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第8章 相关与回归分析,回归分析广义上的回归分析,同时包括狭义的相关分析与回归分析的全部内容,亦即本章既研究现象间相互依存关系的密切程度,又研究现象之间数量相关的具体形式。,重点:明确相关关系,函数关系,因果关系,掌握基本的回归分析和预测方法,能应用实际资料构建一元线性回归模型,并借助计算机进行系统分析。,难点:多元线性回归分析和预测方法的准确运用,。,第8章 相关与回归分析回归分析广义上的回归,1,第1节 变量间关系的度量,一、变量间的相互关系,1、相关关系,函数关系,,是指当一个或几个变量取一定的值时,另一个变量有确定值与之相对应的 确定性关系。,相关关系,,是指当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值按某种规律在一定的范围内发生不确定性的变化。,2、相关关系的种类,正相关和负相关,完全相关、不完全相关和完全不相关,线性相关和非线性相关,单相关和复相关,第1节 变量间关系的度量一、变量间的相互关系1、相,2,二、相关关系的描述与测度,1、散点图,2、相关系数,3、相关表,二、相关关系的描述与测度,3,三、相关关系的显著性检验,1、提出假设,2、确定显著水平,3、计算统计量,4、比较,5、决策,三、相关关系的显著性检验,4,第2节 一元线性回归分析(Simple linear regression),一、一元线性回归模型(,简单线性回归,模型),1、简单线性回归模型(Simple linear regression model),假定因变量y主要受自变量x的影响,它们之间的简单线性回归模型如下:,为参数,为随机误差项。,对于误差项,在回归分析中有如下假设:,1)误差项是随机变量,它的期望值为0。,2)对于所有的 x值,误差项的方差 为常数。,3)误差项之间相互独立,即与一个值相联系的误差对与另一个值相联系的误差没有影响。,4)随机误差项服从正态分布。,第2节 一元线性回归分析(Simple linear reg,5,2、一元线性回归方程(Simple linear regression equation),描述y的均值E(y)与 x的关系的方程叫做回归方程。,由于,所以,不难看出,简单线性回归方程的图形是一条直线。这条直线被称为,总体回归直线,。是回归直线的截距,是回归直线的斜率,E(y)是给定某个x的值y的均值或期望值。,各实际观测点与总体回归线垂直方向的间隔,就是,随机误差项,,即,2、一元线性回归方程(Simple linear regre,6,3、估计一元线性回归方程(Estimated simple linear regression equation),在实践中,参数往往是未知的,需要用样本数据进行估计。根据样本数据拟合的直线,称为,样本回归直线,。,分别为 的估计值,是样本回归直线的截距和斜率。,实际观测到的因变量y值,并不完全等于估计值 ,如果用e表示二者之差,则样本回归模型为:,3、估计一元线性回归方程(Estimated simple,7,样本回归模型与总体回归模型的区别,:,第一,总体回归线是未知的,它只有一条;而样本回归线则是根据样本数据拟合的,可以有若干条样本回归线。,第二,总体回归模型中的,0,和1是未知的参数,表现为常数;而样本回归模型中的b,0,和b,1,是随机变量,其数值随样本观测值不同而变动。,第三,总体回归模型中的,是y与未知的总体回归线之间的纵向距离,它是不可直接观测的;而样本回归模型中的e,是y与样本回归线之间的纵向距离,可以根据样本观测值计算得出。,样本回归模型与总体回归模型的区别:,8,二、一元线性回归模型的估计,1、回归系数的估计,例1 假定我们想为某街区内的住宅房地产的销售价格y与评估价值x之间的关系建立一个回归模型,从去年已售出的房地产中随机抽选5所住宅作样本,相应的数据如表所示。,房地产,评估价值(拾万美元),销售价格(拾万美元),1,2,3,4,5,2,3,4,5,6,2,5,7,10,11,二、一元线性回归模型的估,9,直线回归分析步骤,1、绘制散点图,2、计算回归系数(最小二乘法),3、作回归直线(在自变量的实测范围内任取两个相距较远的数值 、,根据 两点作图。,直线回归分析步骤1、绘制散点图,10,例2:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本苗数推算成熟期有效穗数的方法。在5块田上进行对比试验,取得数据如下:,试验号,基本苗数,有效穗数,1,2,3,4,5,15,25.8,30,36.6,44.4,39.4,42.9,41.0,43.1,49.2,例2:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本,11,解:回归直线方程计算表(1),编号,x,y,xy,1,2,3,4,5,15.0,25.8,30.0,36.6,44.4,39.4,42.9,41.0,43.1,49.2,225.00,665.64,900.00,1339.56,1971.36,1552.36,1840.41,1681.00,1857.61,2420.64,591.00,1106.82,1230.00,1577.46,2184.48,合计,151.8,215.6,5101.56,9352.02,6689.76,解:回归直线方程计算表(1)编号xyxy115.039.42,12,回归直线方程计算表(2),回归直线方程计算表(2),13,练习1:某企业上半年产品产量与单位成本数据如表所示。试根据表中数据:(1)绘制散点图;(2)建立回归方程,说明产量每增加1000件,单位成本平均变动如何?(3)作回归直线。,产量(千件),单位成本(元/件),2,3,4,3,4,5,73,72,71,73,69,68,练习1:某企业上半年产品产量与单位成本数据如表所示。试根据表,14,练习2:根据Pizza连锁店的学生人数和季度销售收入数据,建立回归直线方程,并预测学生人数为25人时的销售收入。,连锁店,学生人数x,销售收入y,xy,1,2,3,4,5,6,7,8,9,10,2,6,8,8,12,16,20,20,22,26,58,105,88,118,117,137,157,169,149,202,116,630,704,944,1404,2192,3140,3380,3278,5252,4,36,64,64,144,256,400,400,484,676,合计,140,1300,21040,2528,练习2:根据Pizza连锁店的学生人数和季度销售收入数据,,15,练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数据:,a,、用身高作自变量,画出散点图,b、根据散点图表明两变量之间存在什么关系?c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关系d、求出估计的回归方程e、如果一名运动员的身高是63英寸,你估计她的体重是多少?,身高,68 64 62 65 66,体重,132 108 102 115 128,练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重,16,2、总体方差的估计,根据回归模型及其关于误差项的假定,我们能够得出这样的结论:的方差,2,说明了y关于回归直线的方差。由于,2,的值很少知道,而我们知道y关于回归直线的偏差是残差e,因此,残差平方和就是实际观察值关于估计回归直线差异的一种测度。,如果以s,2,表示误差平方的均值,以SSE表示残差平方和,则有:s,2,=SSE/(n-2)。它是总体方差的无偏估计量。,s称为估计标准误差。即:,s越小说明实际观察值与估计回归直线的离差越小,回归直线代表性较好;反之,s越大说明实际观察值与估计回归直线的离差越大,回归直线代表性较差。,直接计算s,2,比较复杂,可采用以下公式:,2、总体方差的估计根据回归模型及其关于误差项的假定,我们能,17,例3:根据例1数据计算s,2,和s。,解:,例3:根据例1数据计算s2和s。解:,18,三、一元线性回归模型的检验,理论检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型未能很好地解释现实的现象。,一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。,二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等。,三、一元线性回归模型的检验理论检验主要涉及参数估计值的符号,19,1、拟合程度的评价,拟合程度,是指样本观察值聚集在估计回归线周围的紧密程度。,评价拟合程度最常用的方法是测定系数或判定系数。,对于任何观察值y总有:,得,设SST=,SSR=,那么:,SST=SSR+SSE,SST为总平方和,SSR为回归平方和,SSE为误差平方和。,比率SSR/SST可以用来评价拟合的程度。我们称之为,测定系数(或判定系数,),用r,2,表示,显然,0r,2,1。,1、拟合程度的评价 拟合程度,是指样本观察值聚集在估计回归线,20,两个变量之间线性相关的强弱可以用,相关系数,r(Correlation coefficient)度量。,相关系数(样本中 x与y的线性关系强度)计算公式如下:,相关系数的取值范围在-1r1之间。当r接近于0时,说明x与y之间不相关;当r=1或r=-1时,说明x与y完全相关;当-1rF,时,拒绝原假设,即自变量与因变量之间的线性关系显著。,2、显著性检验由离差平方和的分解公式可知,回归模型的总平方,39,方差分析表,变动原因,平方和,自由度,方差,回归,误差,合计,SSR,SSE,SST,k-1,n-k,n-1,SSR/(k-1),SSE/(n-k),n为样本容量,k为参数个数(回归系数个数),方差分析表变动原因平方和自由度方差回归SSRk-1SSR/(,40,练习1有两个自变量和10组观察值的估计回归方程如下:,1、解释该方程中的回归系数。,2、当 时,估计 的值。,练习1有两个自变量和10组观察值的估计回归方程如下:,41,练习2已知根据下表数据建立的回归方程是:,1、检验因变量与自变量之间关系的显著性(显著水平为0.05)2、是否显著?(显著水平为0.05)3、是否显著?(显著水平为0.05)4、计算 ,并评述拟合优度。,30,47,25,51,40,51,74,36,59,76,12,10,17,16,5,19,7,12,13,16,94,108,112,178,94,175,170,117,142,211,练习2已知根据下表数据建立的回归方程是:1、检验,42,3、多元线性回归的估计和预测,对线性模型作过显著检验,并认为模型对自变量与因变量之间的线性关系拟合有效,我们就可以利用模型进行估计和预测。其方法同简单线性回归的情况完全相同,即在自变量 x给定的条件下对E(y)进行点估计或区间估计,或在x值给定的条件下构造y的预测区间。,2,的估计值s,2,的计算公式如下:,式中,n为样本容量,k为参数个数(回归系数个数),在进行多元线性回归预测时应注意的问题,与简单线性回归预测注意的问题相同,即切勿用最小二乘模型作外推预测。,3、多元线性回归的估计和预测对线性模型作过显著检验,并认为,43,第5节 一元非线性回归分析,1、指数回归方程,2、抛物线回归方程,3、幂函数回归方程,4、双曲线回归方程,第5节 一元非线性回归分析1、指数回归方程,44,本章小结,函数关系、相关关系,一元回归模型、回归方程、估计方程,多元回归模型、回归方程、估计方程,拟合优度评价,显著性检验,利用回归方程进行估计和预测,本章小结函数关系、相关关系,45,
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6