单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,10,讲,回归分析与独立性检验,1.,变量间的关系,(1),常见的两变量之间的关系有两类:一类是函数关系,另,一类是相关关系;与函数关系不同,相关关系是一种非确定性,关系,.,(2),将样本中,n,个数据点,(,x,i,,,y,i,)(,i,1,2,,,,,n,),描在平面直,角坐标系中,表示两个变量关系的一组数据的图形叫,做散点图,.,(3),正相关、负相关,.,在散点图中,点散布在从左下角到右上角的区域,对于两,个变量的这种相关关系称为正相关,.,在散点图中,点散布在从左上角到右下角的区域,两个变,量的这种相关关系称为负相关,.,2.,回归分析,(1),定义:对具有相关关系的两个变量进行统计分析的一种,常用方法,.,(2),线性相关关系:,观察散点图的特征,如果散点图中点的分布从整体上看大,致在一条直线附近,我们就称这两个变量之间具有线性相关关,系,这条直线叫做回归直线,.,(3),回归直线的求法:,对于一组具有线性相关关系的数据,(,x,1,,,y,1,),,,(,x,2,,,y,2,),,,,,的方法,即求回归直线,使得样本数据的点到它的距离的平方,和最小,这一方法叫做最小二乘法,则回归直线方程,的,系数为:,样本点的中心,(4),线性相关强度的检验:,当,r,0,时,表明两个变量正相关;,当,r,3.841.,7522521090,因此有,95%,的把握认,为,“该校学生的每周平均体育运,动时,间与性别有关,”,.,【规律方法,】,解决独立性检验问题的一般步骤:,制作列联表;,利用公式,K,2,n,(,ad,bc,),2,(,a,b,)(,c,d,)(,a,c,)(,b,d,),计算,近似计算,要精确到小数点后三位;,查表得出结论,要选择满足条件,P,(,K,2,k,0,),的,k,0,作为拒,绝域的临界值,.,项目,不及格,及格,总计,男,6,14,20,女,10,22,32,总计,16,36,52,【互动探究,】,2.(2014,年江西,),某人研究中学生的性别与成绩、视力、智,商、阅读量这,4,个变量之间的关系,随机抽查,52,名中学生,得,到统计数据如表,1,至表,4,,则与性别有关联的可能性最大的变,量是,(,),表,1,成绩,项目,不及格,及格,总计,男,4,16,20,女,12,20,32,总计,16,36,52,项目,不及格,及格,总计,男,8,12,20,女,8,24,32,总计,16,36,52,表,2,表,3,视力,智商,项目,不及格,及格,总计,男,14,6,20,女,2,30,32,总计,16,36,52,表,4,A.,成绩,C.,智商,阅读量,B.,视力,D.,阅读量,解 析:,由公式,K,2,n,(,ad,bc,),2,(,a,b,)(,c,d,)(,a,c,)(,b,d,),计算得,A.,528,2,16362032,,,B.,52112,2,16362032,,,C.,5296,2,16362032,,,D.,52408,2,16362032,.,显然,D,的值最大,,说明阅读量与性别有关联,的可能性最大,.,答案:,D,考点,3,回归分析的综合运用,例,3,:,(20,15,年新课标,),某公司为确定下一年度投入某种,产品的宣传费,需了解年宣传费,x,(,单位:千元,),对年销售量,y,(,单,位:,t),和年利润,z,(,单位:千元,),的影响,对近,8,年的宣传费,x,i,和,年销售量,y,i,(,i,1,,,2,,,,,8),数据作了初步处理,得到下面的散,点图,(,如图,9-10-2),及一些统计量的值,.,图,9-10-2,(1),根据散点图判断,,y,a,bx,与,y,c,d,,哪一个适宜,作为年销售量,y,关于年宣传费,x,的回归方程类型,(,给出判断即,可,不必说明理由,),;,(2),根据,(1),的判断结果及表中数据,建立,y,关于,x,的回归方,程;,(3),已知这种产品的年利润,z,与,x,,,y,的关系为,z,0.2,y,x,,,根据,(2),的结,果回答下列问题:,46.6,563,6.8,289.8,1.6,1469,108.8,当年宣传费,x,49,时,年销售量及年利润的预报值是多,少?,当年宣传费,x,为何值时,年利润的预报值最大?,附:对于一组数据,(,u,1,,,v,1,),,,(,u,2,,,v,2,),,,,,(,u,n,,,v,n,),,其回,归直线,u,的斜率和截距的最小二乘估计分别为,年份,2007,2008,2009,2010,2011,2012,2013,年份代号,t,1,2,3,4,5,6,7,人均纯收入,y,2.9,3.3,3.6,4.4,4.8,5.2,5.9,【互动探究,】,3.(2014,年新课标,),某地区,200,7,年至,庭纯收入,y,(,单位:千元,),的数据如下表:,(1),求,y,关于,t,的线性回归方程;,(2),利用,(1),中的回归方程,分析,2007,年至,附:回归直线的斜率和截距的最小二乘法估计公式分别为:,(2),由,(1),知,,0.50,,故,2007,年至,民家庭人均纯收入逐年增加,平均每年增加,0.5,千,元,.,将,2015,年的年份代号,t,9,带入,(1),中的回归方程,,得 ,0.59,2.3,6.8.,故预测该地区,2015,年农村居民家庭,人均纯收入为,6.8,千,元,.,日期,1,月,11,日,1,月,12,日,1,月,13,日,1,月,14,日,1,月,15,日,平均气温,/,9,10,12,11,8,销量,/,杯,23,25,30,26,21,易错、易混、易漏,对回归分析的理解,例题:,(2015,年广东,广州调研,),某位同学进行寒假社会实践,活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的,关系进行分析研究,他分别记录了,1,月,11,日至,1,月,15,日的白,天平均气温,(,单位:,),与该奶茶店的这种饮料销量,(,单位:杯,),,,所得数据如下表:,(1),若从这,5,组数据中随机抽出,2,组,求抽出的,2,组数据恰,好是相邻,2,天数据的概,率;,正解:,(1),设,“,选取的,2,组数据恰好是相邻,2,天数据,”,为事,件,A,.,所有基本事件,(,m,,,n,)(,其中,m,,,n,为,1,月份的日期数,),有,(11,12),,,(11,13),,,(11,14),,,(11,15),,,(12,13),,,(12,14),,,(12,15),,,(13,14),,,(13,15),,,(14,15),,共,10,种,.,事件,A,包括的基本事件有,(11,12),,,(12,13),,,(13,14),,,(14,15),,,共,4,种,.,1.,求回归方程,关键在于正确求出系数,a,,,b,,由于,a,,,b,的,计算量大,计算时应仔细谨慎,分层进行,避免因计算而产,生,错误,.(,注意回归直线方程中一次项系数为,b,,常数项为,a,,这与,一次函数的习惯表示不同,),2.,回归分析是处理变量相关关系的一种数学方法,.,主要解,决:,确定特定量之间是否有相关关系,如果有,就找出它们,之间的数学表达式;,根据一组观察值,预测变量的取值及判,断变量取值的变化趋势;,求出回归直线方程,.,3.,独立性检验中统计量,K,2,的观测值,k,的计算公式很复杂,,在解题中易混淆一些数,据的意义,代入公式时出错,而导致整,个计算结果出错,.,