3.1回归分析的基本思想及初步应用(1),哈尔滨市第三中学 郜新利,3.1回归分析的基本思想及初步应用(1)哈尔滨市第三中学,(1)作散点图(用样本点是否呈直线,趋势来判断两个变量是否线性相关),想一想?,求回归直线方程步骤:,复习回顾,(3)根据回归直线方程进行预报,(2)求回归直线方程,(1)作散点图(用样本点是否呈直线 想一想?求回归直线方程,用什么方法求?,最小二乘法.,利用最小二乘法可以得到 的计算公式为:,为样本中心点.,用什么方法求?最小二乘法.利用最小二,例1.,从某大学中随机选出8名女大学生,其身高和体重数据如下表:,编号,1,2,3,4,5,6,7,8,身高(cm),165,165,157,170,175,165,155,170,体重(kg),48,57,50,54,64,61,43,59,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172,c,的女大学生的体重.,探索新知,例1.从某大学中随机选出8名女大学生,其身高和体重数据如下,是体重的精确值吗?,平均体重的估计值,大多数身高为,172,c,的女大学生体重在,60.316kg附近!,由最小二乘法得到:,是体重的精确值吗?平均体重的估计值大多数身高为172c的女,由图形观察可以看出,样本点呈条状分布,不共线,因此线性函数模型只能近似地刻画身高与体重之间的关系.,由图形观察可以看出,样本点呈条状分布,不共线,因此线,回归模型的基本思想,抽 样,分 析,样本,模 拟,实际,回归模型的基本思想抽 样分 析样本模,从散点图可以看到,样本点散布在某一条直线的附近,而不是一条直线上,这时我们用下面的,线性回归模型,来描述身高和体重的关系:,其中 和 为模型的,未知参数,,,是,y,与,样本的回归直线,之间的误差,通常,为随机变量,称为,随机误差,.,(注解:是身高 所对应的真实体重值;,中,与 分别是 与 的,估计值,,即,是 的,估计值,.),从散点图可以看到,样本点散布在某一条直线的附近,而不,一般假定 的均值为0,方差,这样,线性回归模型的完整表达式为:,只能解释部分 的变化,因此 称为解释变量,为预报变量.,越小,,通过,样本,回归直线 预报真实值,的精度就越高.,一般假定 的均值为0,方差这样,线性回归模型的完整表达式为,随机误差 的主要来源,(3)模型误差,(2)观测误差,(1)忽略了某些因素影响,用线性回归模型近似真实模型所引起的误差,影响变量 的因素不只变量 一个,测量工具造成的误差,随机误差 的主要来源(3)模型误差(2)观测误差(1),线性回归模型中,是用 预报真实值 的误差,它是一个不可观测的量.,想一想?,如何来衡量预报的精度呢?又应该怎样,研究随机误差?,用方差 衡量随机误差的大小,为了衡量预报的精度,需要,估计,的值!,线性回归模型中,是用 预报真实值 的误差,,解决问题的途径是通过,样本,的估计值来,估计 .,随机误差 ,,因为 是 的估计量,,所以,是 的估计量.,对于样本点,而言,解决问题的途径是通过样本的估计值来随机误差,相应它们的随机误差为:,其估计值为:,称为相应于点 的,残差,.,类比样本方差估计总体方差的思想,可以用,作为 的估计量,,称为,残差平方和,,,越小,,预报精度越高.,相应它们的随机误差为:其估计值为:称为相应于点,计算下表中女大学生身高和体重的原始数据的相应的,残差数据,.,编号,1,2,3,4,5,6,7,8,身高(cm),165,165,157,170,175,165,155,170,体重(kg),48,57,50,54,64,61,43,59,残差,计算下表中女大学生身高和体重的原始数据的相应的残差数,坐标轴纵轴为残差,横轴可以选为样本编,号或身高数据等,这样做出的图形称为,残差图,.,错误数据,若模型选择的正确,,残差图中的点应该分布在以横轴为心的带形区域,;,异常点,对于远离横轴的点,要特别注意,.,模型问题,带状区域宽度越窄,模型拟合精度越高,坐标轴纵轴为残差,横轴可以选为样本编 错误数据若模型,研究两个变量间关系时,首先根据散点图来,粗略判断它们是否线性相关,是否可以用线性回,归模型来拟合数据,然后通过残差,来判断模型拟合的效果,这种分析工作称为,残差分析,.,通过残差分析,可以使回归方程达到更好的拟合效果.,研究两个变量间关系时,首先根据散点图来,另外,还可以用相关指数 来刻画回归的拟合效果,.,相关指数 计算公式为:,越大,模型拟合效果越好.,越接近1,回归的效果越好;,若用几种,不同回归方程,进行回归分析,选,择,大,的模型,.,在含有一个解释,变量 的线性模,型中,R,2,=,r,2,.,残差平方和越小,模型拟合效越好.,另外,还可以用相关指数 来刻画回归的拟合效果.相关指数,表明“女大学生的身高解释了 的体重变化”或者说“女大学生的体重差异有 是由身高引起的”,.,表明“女大学生的身高解释了 的体重变化”或者说“女大学,预报时应该注意的问题,(1)回归方程只适用于我们所研究的样本的总体,(2)回归方程具有时间性,(3)回归方程有适用范围,(4)预报值不是精确值,是平均值的估计值,例如:,预报时应该注意的问题(1)回归方程只适用于我们所研究的样本,(2),画出散点图,建立回归模型的基本步骤,是否存在线性关系,(1)确定解释变量和预报变量,(3)确定回归方程类型,(4)求出回归方程,(5)分析残差图,是否存在异常点,(2)画出散点图 建立回,小 结,实际问题,样本分析,回归模型,抽样,回归分析,预报精度,预报,残差分析,小 结 实际问题 样本分析,作业:,90,习题.第题,作业:,请多提宝贵意见,谢谢!,邮箱:,请多提宝贵意见,谢谢!邮箱:gaoxinli8868163,天 数,2,4,5,6,8,销售量,30,40,60,50,70,现有如下两个模型:,(1),(2),试比较哪一个拟合效果更好,.,练习1.,某书店统计某种书近期的销售量,销售,天数 及当天销售量 (本)的部分数据如下:,参照公式:,合作探究,天 数24568销售量 3040605070现有如下两个模,天 数,2,4,5,6,8,销售量,30,40,60,50,70,(1),(1)残差,(2),(2)残差,分析:只需比较 的大小,.,(1),(2),解:,天 数24568销售量3040605070(1)(1)残差,函数模型,模型 (1),155,模型 (2),180,比一比,最好的模型是哪个?,模型(1)好!,函数模型 模型 (1)155 模型 (2)180,