单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章 相关与回归,学习目标,能够正确判断客观现象之间存在的关系及其密切程度,要正确掌握回归分析的概念及回归模型确实定方法,能够对构建的回归模型作出科学检验。,第一节 相关分析的一般问题,相关分析的概念,相关分析是研究一个变量与另一个变量或另一组变量之间相互关系密切程度和相关方向的一种统计分析方法。,事物间存在普遍的联系与相互影响,如受教育水平与工作后的收入、预防疾病支出与疾病的发生率等,这种依存关系可以用数量关系表现出来。有两种类型:,函数关系(确定性依存关系),相关关系(非确定性依存关系),相关分析的概念,变量间存在完全对应的相互依存关系,当自变量的值确定时,因变量就有一个完全确定的值和它相对应。,销售额=销售量,单价,确定性关系,函数关系,相关分析的概念,变量间客观存在的,在数量变化上受随机因素影响的,不严格,不确定的相互依存关系。,家庭收入与恩格尔系数:,家庭收入高,那么恩格尔系数低。,非确定性关系,相关关系,相关分析的主要内容,现象间有无依存关系,相关关系的表现形式是什么,判定相关关系的密切程度与方向,如,有,曲线还是直线,相关关系的种类,确定的因果的关系,如:施肥量(自变量)与粮食产量(因变量),分不清因果的依存关系,如:销售量与销售价格,依存关系特点的不同,自变量与因变量不能换位置,自变量与因变量可以相互转化,相关关系的种类,完全相关,不完全相关,不相关,相关关系的密切程度,相关关系的种类,相关关系的方向,正相关,自变量与因变量变化方向一致,负相关,自变量与因变量变化方向相反,相关关系的种类,相关关系的表现形式,x,y,x,y,直线(线性)相关,曲线相关,相关关系的种类,单相关,一个自变量与一个因变量,复相关,多个自变量与一个因变量,涉及变量的多少,相关关系的特点,相关关系研究的两个变量是对等的,两个变量之间只能计算出一个反映相互关系密切程度的相关系数,改变自变量与因变量的位置,不改变数值,相关分析中两个变量均为随机变量,相关分析的方法选择,交互列表法,检验法,品质相关系数分析法,相关表,相关图,相关系数,数据,定比数据,定距数据,定序数据,定量数据,定性数据,定类数据,第二节 定量数据的相关分析,相关表,表现现象之间相关关系的一种统计表。一般以x为自变量,y为因变量,在表格中一一对应地排列。可以初步反映相关关系的形式、密切程度和相关方向。可分为简单相关表和分组相关表两种。,相关表,生产性固定资产与工业总产值的相关表,企业编号 生产性固定资产总值x 工业总产值y,1,2,3,4,5,6,7,8,9,10,4,4,6,7,7,8,9,10,10,11,16,21,26,26,31,31,30,37,38,41,简单相关表,相关表,按自变量分组,计算各组中的次数与因变量的组平均数。,分组相关表单变量分组表,9,13,20,29,31,32,40,15,18,23,26,33,38,42,工人看管织机台数x 工人数f 时劳动生产率y,5-7,7-9,9-11,11-13,13-15,15-17,17-19,生产性固定资产与工业总产值的相关表,对自变量、因变量都进行分组,交叉列表,并列出两种变量的共同次数。又称盘式相关表。,相关表,分组相关表双变量分组表,木材运量x,1-11 11-21 21-31 31-41 41-51 合计,运材本钱,y,16-21,11-16,1-11,合计,2,5,7,1,3,3,7,4,3,7,1,1,2,1,1,3,13,8,24,相关图,又称散点图,横轴为,自变量,纵轴为因量将对应的变量值用坐标点描绘出来。可以判断两变量之间有无相关关系,方向和程度如何。,相关图,x,y,强正相关,相关图,x,y,弱正相关,相关图,x,y,强负相关,相关图,x,y,弱负相关,相关图,x,y,非线性相关曲线相关,相关图,x,y,不相关,相关系数,反映两变量之间直线相关关系密切程度的统计分析指标,。,协方差(covariance):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,相关系数,为正,为负,为正,为负,协方差为大的正值时,表示强的正线性相关关系。,协方差接近于零时,表示很小或没有线性相关关系。,相关系数,协方差为大的负值时,表示强的负线性相关关系。,相关系数,相关系数,相关系数:协方差与自变量、因变量标准差乘积,的比照值。,其值在-和之间,正值为正相关,负值为负相关。,其绝对值接近为不相关,其绝对值在.和.左右为低度相关,其绝对值在.左右为中度相关,其绝对值在.以上为高度相关,相关系数,积差法,但此公式需要先有各变量的平均值,当均值计算中有保存时,计算结果将会有误差。影响准确性。,约掉共因子/n 后,相关系数,进一步推导,相关系数,同理,相关系数,相关系数,人均销售额x 利润额y x,2,y,2,xy,6,5,8,1,4,7,6,3,3,7,合计50,12.6,10.4,18.5,3.0,8.1,16.3,12.3,6.2,6.6,16.8,110.8,36,25,64,1,16,49,36,9,9,49,294,158.76,108.06,342.25,9.00,65.61,265.69,151.29,38.44,43.56,282.24,1465.00,75.0,52.0,148.0,3.0,32.4,114.1,73.8,18.6,19.8,117.6,654.9,相关系数,简捷法,积差法,对分组资料计算加权相关系数,第三节 一 元 线 性 回归分析,一元线性回归分析的概念和特点,把两个或两个以上变量之间的相关关系加以模型化,求出回归方程,并据以进行估计推算,这种方法在统计学中成为回归分析。,概念,回归,分析,分类,按自变量个数分类,一元回归,简单回归,多元回归,复回归,按方程式特征分类,线性回归,非线性回归,一 元线性回归,一元线性回归分析的概念和特点,分类,一元线性回归分析的概念和特点,两变量之间不是对等的关系,必须根据研究目的和研究对象的性质,正确确定出自变量和因变量,相关分析中的相关系数是个抽象的数,反映变量间相互依存关系的密切程度;回归分析中的回归方程,是利用自变量的给定值来推算因变量值的数学模型,它反映变量之间具体的变动关系。,特点,一元线性回归分析的概念和特点,改变自变量与因变量的地位,会产生不同的回归方程。,直线回归方程中的回归系数也有正负号,正号表示两变量之间的变动方向相同,为正相关关系;为负号表示两变量之间的变动方向相反,为负相关关系。,回归分析中的自变量是给定的数值,不是随机的,而因变量是随机的。,特点,一元线性回归模型的建立,假设两变量存在线性关系散点图近似一条直线,可设估计模型为:,一元线性回归线的可能形态,截距,斜率,b,为正,b,为负,b,为0,a、b为待定参数,其中b称为回归系数,一元线性回归模型的建立,偏差,a、b值的估计直接关系到模型的回归效果,一元线性回归模型的建立,一元线性回归模型的建立,计算公式,学生,身高,x,体重,y,x,2,y,2,xy,估计值,残差,y-,A,B,C,D,E,F,G,H,I,J,158,160,162,164,166,168,170,172,174,176,47,50,48,55,62,60,52,61,70,65,24964,25600,26244,26896,27556,28224,28900,29584,30276,30976,2209,2500,2304,3025,3844,3600,2704,3721,4900,4225,7426,8000,7776,9020,10292,10080,8840,10492,12180,11440,47.291,49.448,51.606,53.764,55.921,58.079,60.236,62.394,64.552,66.709,-0.291,0.552,-3.606,1.236,6.079,1.921,-8.236,-1.394,5.448,-1.709,1670,570,279220,33032,95546,-,0,一元线性回归模型的检验,估计标准误差,估计标准误差越小越好,