单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,讲解人:,XXX,时间:,2020.6.1,PEOPLES EDUCATION PRESS HIGH SCHOOL MATHEMATICS ELECTIVE 2-3,3.1,回归分析的基本思想及其初步应用,第,3,章 统计案例,人教版高中数学选修,2-3,讲解人:XXX 时间:2020.6.1PEOPLES E,1,在,数学,3,中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为,:,画散点图,求回归直线方程,用直线方程进行预报,课前导入,在数学3中,我们对两个具有线性相关关系的变量利用回归分析,函数关系是一种确定性关系,而相关关系是一种非确定性关系,.,那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析,.,提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?,课前导入,函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,探究,对于一组具有线性相关关系的数据,(x,1,,,y,1,),,,(x,2,,,y,2,),,,,,(x,n,,,y,n,),,,我们知道回归直线,y=bx+a,的斜率和截距的最小二乘估计分别为,新知探究,探究 对于一组具有线性相关关系的数据新知探究,其中,称为,样本点的中心,,你能推导出这两个计算公式吗?,回归直线过样本点的中心,新知探究,其中 称为样本点的中心,你能推导出这两个计算公式,从已经学过的知识我们知道,斜距 和斜率 分别是使,取最小时 的值,.,由于,新知探究,从已经学过的知识我们知道,斜距 和斜率,继续答题,新知探究,继续答题新知探究,这正是我们所要推导的公式,.,在上式中,后两项和 无关,而前两项为非负数,因此要使,Q,取得最小值,当且仅当前两项的值均为,0,,即有,新知探究,这正是我们所要推导的公式.在上式中,后两项和,从某大学中随机选取,8,名女大学生,其身高和体重数据如下表所示:,例题,1,编号,1,2,3,4,5,6,7,8,身高,/cm,165,165,157,170,175,165,155,170,体重,/kg,48,57,50,54,64,61,43,59,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为,172cm,的女大学生的体重,.,新知探究,从某大学中随机选取8名女大学生,其身高和体,解答,第一步,:,画散点图,新知探究,解答第一步:画散点图新知探究,第二步:求回归方程,第三步,:,代值计算,计算器得:,故线性回归方程:,当,x=172,时,,新知探究,第二步:求回归方程第三步:代值计算 计算器得:当x=172时,显然,身高,172cm,的女大学生的体重不一定是,60.316kg,,但一般可以认为她的体重在,60.316kg,左右,下图中的样本点和回归直线的相互位置说明了这一点,.,探究,高为,172c,的女大学生的体重一定是,60.316kg,吗?如果不是,其原因是什么,?,新知探究,显然,身高172cm的女大学生的体重不一定是60.316kg,由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型,y=bx+a+e,来表示,这里,a,和,b,为模型的未知参数,,e,是,y,与,bx+a,之间的误差,.,通常,e,为随机变量,称为随机误差,.,它的均值,E(e)=0,,方差,D(e)=,2,0,,这样线性回归的完整表达式为,y=bx+a+e,E(e)=0,,,D(e)=,2,.,新知探究,由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身,注意,存在误差的原因,(,1,)随机误差,其大小取决于随机误差的方差,.,在线性回归模型中,随机误差,e,的方差,2,越小,用,bx+a,预报真实值,y,的精度越高,.,(,2,)和 为斜率和截距的估计值,它们与真实值,a,和,b,之间也存在误差,.,要牢记!,新知探究,注意存在误差的原因要牢记!新知探究,探究,在线性回归模型中,,e,是用,bx+a,预报真实值,y,的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?,在实际应用中,我们用回归方程,中的 估计,bx+a.,由于随机误差,e=y-(bx+a),,所以 是,e,的估计值,.,对于样本点,(x,1,,,y,1,),,,(x,2,,,y,2,),,,,,(x,n,,,y,n,),新知探究,而言,它们的随机误差为,e,i,=y,i,-bx,i,-a,,,i=1,,,2,,,,,n,,,其估计值为,称为相应于点,(x,i,,,y,i,),的,残差,(residual),.,要牢记!,探究在线性回归模型中,e是用bx+a预报真实值y的随机误差,,思考,如何发现数据中的错误?如何衡量模型的拟合效果?,(,1,)可以利用残差图来分析残差特性;,(,2,)可以利用,.,来刻画回归的效果,.,何为残差图?,新知探究,思考如何发现数据中的错误?如何衡量模型的拟合效果?(,残差图,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图,.,编号,1,2,3,4,5,6,7,10,20,30,40,50,60,70,80,-10,-20,-30,-40,-50,-60,90,100,要牢记!,新知探究,残差图编号123456710203040506070,对,R,2,的理解,(,1,)在含有一个解释变量的线性模型中,,R,2,恰好等于相关系数,r,的平方,.,(,2,)对于已经获取的样本数据,,R,2,表达式中的,为确定的数,.,因此,R,2,越大,意味着残差平方和,越小,即模型的拟合效果越好;反之,越差,.,要牢记!,新知探究,对R2的理解要牢记!新知探究,用身高预报体重时,需要注意以下问题,(,1,)回归方程只适用于我们所研究的样本总体;,(,2,)我们所建立的回归方程一般都有时间性;,(,3,)样本取值的范围会影响回归方程的适用范围;,(,4,)不能期望回归方程得到的预报值就是预报变量的精确值,.,新知探究,用身高预报体重时,需要注意以下问题新知探究,建立回归模型的基本步骤,:,(,1,)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;,(,2,)画出解释变量和预报变量的散点图,观察它们之间的关系;,(,3,)由经验确定回归方程的类型;,(,4,)按一定规则估计回归方程中的参数;,(,5,)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等,.,要牢记!,新知探究,建立回归模型的基本步骤:要牢记!新知探究,为了对,x,、,Y,两个变量进行统计分析,现有以下两种线性模型 和 试比较哪一个模型拟合的效果更好,.,例题,2,关于,X,与,Y,有如下数据,:,x,2,4,5,6,8,y,30,40,60,50,70,新知探究,为了对x、Y两个变量进行统计分析,现有以下两种线性模型,分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论,.,84.5%,82%,,所以甲选用的模型拟合效果较好,.,解答,新知探究,分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归,1.,某校有学生,2000,人,其中高三学生,500,人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个,200,人的样本,则样本中高三学生的人数为,_.,解析:本题考查抽样的方法,.,由已知抽样比,200/2000=1/10,,故样本中高三学生数为,500*,(,1/10,),=50.,课堂练习,1.某校有学生2000人,其中高三学生500人,为了了解学,2.,下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量,x,(吨)与相应的生产能耗,y,(吨标准煤)的几组对照数据,.,x,3,4,5,6,y,2.5,3,4,4.5,(,1,)请画出上表数据的散点图;,(,2,)请根据上表提供的数据,用最小二乘法求出,y,关于,x,的线性回归方程,课堂练习,2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产,(,3,)已知该厂技改前,100,吨甲产品的生产能耗为,90,吨标准煤试根据(,2,)求出的线性回归方程,预测生产,100,吨甲产品的生产能耗比技改前降低多少吨标准煤?,解析:,(1),如下图,课堂练习,(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,故线性回归方程为,y=0.7x+0.35.,(3),根据回归方程的预测,现在生产,100,吨产品消耗的标准煤的数量为,0.7100+0.35=70.35.,课堂练习,故线性回归方程为y=0.7x+0.35.课堂练,1.,选择,(,1,)下列说法中正确的有,:,(),若,r0,,则,x,增大时,,y,也相应增大,;,若,r0,,则,x,增大时,,y,也相应增大,;,若,r=1,或,r=-1,,则,x,与,y,的关系完全对应,(,由函数关系,),,在散点图上各个点均在一条直线上,A.B.C.D.,C,课堂练习,1.选择 (1)下列说法中正确的有:(,(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是(),A.模型的相关系数r为0.98,B.模型的相关系数r为0.80,C.模型的相关系数r为0.50,D.模型的相关系数r为0.25,A,课堂练习,(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们,(,3,)对有线性相关关系的两个变量建立的回归直线方程 中,回归系数 (),A.,可以小于,0 B.,小于,0,C.,能等于,0 D.,只能等于,0,A,课堂练习,(3)对有线性相关关系的两个变量建立的回归直线方程,2.,解答题,(,1,)现随机抽取了我校,10,名学生在入学考试中的数学成绩(,x,)与入学后的第一次考试中的数学成绩(,y,),数据如下:,学生号,1,2,3,4,5,6,7,8,9,10,x,120,108,117,104,103,110,104,105,99,108,y,84,64,84,68,69,68,69,46,57,71,试问这,10,个学生的两次数学考试成绩是否具有显著性线性相关关系?,课堂练习,2.解答题(1)现随机抽取了我校10名学生在入学考试中的数学,查表得自由度为,10-2=8,相应的相关关系临界值 由 知,两次数学考试成绩有显著性的线性相关关系,.,易得,则相关系数为,解答,课堂练习,查表得自由度为10-2=8相应的相关关系临界值,1.,数学知识,(,1,)建立回归模型及残差图分析的基本步骤;,(,2,)不同模型拟合效果的比较方法;,(,3,)相关指数和残差的分析,.,2.,数学思想,数形结合的思想,化归思想及整体思想,.,3.,数学方法,数形结合法,转化法,换元法,.,课堂小结,1.数学知识课堂小结,讲解人:,XXX,时间:,2020.6.1,PEOPLES EDUCATION PRESS HIGH SCHOOL MATHEMATICS ELECTIVE 2-3,感谢你的聆听,第,3,章 统计案例,人教版高中数学选修,2-3,讲解人:XXX 时间:2020.6.1PEOPLES E,33,