单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据分析,描述数据,数据分析的三步骤,第一步:了解数据,1,、检查数据的整体特征,对数据进行必要的编辑,或者“清理”。,2,、注意检查数据中的错误,如数据输入错误、不可能的值(超出给定范围)以及极端值。,3,、茎叶图可以有效的将数据的整体特征直观呈现出来,并有利于探测极端值。,4,、用数字、图形的方式可以有效地总结数据。,例子-年龄对记忆成绩影响,大学生组:,59,31,47,43,54,42,38,44,48,57,42,48,30,41,59,23,62,27,53,51,39,38,50,58,56,45,老年组:,70,59,68,68,57,66,78,78,64,43,53,83,74,69,59,44,73,65,32,60,54,64,82,62,62,78,问题:,1,、每组的数据分布是正态分布吗(对称且呈钟形)?还是偏态的(数据不对称,偏向一个方向)?,2,、有没有缺失值、异常值、是否要剔除数据?,最大值,75%,四分位数,中位数,25%,四分位数,最小值,箱形图,异常值,异常值(差不多是超过均值,2,倍标准差)用,O,表示,极端值(差不多是超过均值,3,倍标准差)用*表示,对于异常值分析原因:那天有没有特殊情况如服药?有没有阅读障碍?,如果有的话考虑删除数据用平均值来替代(,1,、在,excel,中用空格替代,,2,、如果因为有的软件缺失数据后不能进行统计分析,可以把该数值删除后的均值补进去),可以直接删除,当数据量很大也可以在,excel,中用,if,函数,=if,(,b1,下限,“”,,b1,),备注,也可以直接用,excel,判断异常值,先计算平均数、标准差、最大值和最小值,再计算平均值,+-2,倍标准差,或者平均值,+-3,倍标准差,超过这些标准的就是异常值或者极端值,茎叶图和箱形图spss操作方法,Spss,操作方法,把数据输入或从,excel,中导入,然后,analyzedescriptive statistics-explore,把因变量放入,depedent list,和自变量,factor listplotsboxplots,的,factor levels togetherdescriptive,的,stem-and-leafcontinueok,第三步:用,置信区间,证实数据所揭示的意义,用平均数和,95%,置信区间表示,如果,95%,置信区间不重叠,说明两组来自不同的总体,有差异。,如果完全重叠,那么两组来自相同的总体,没有差异。,如果部分重叠,不能推测是否有差异,需要显著性检验。,平均数,+-95%,置信区间,独立样本,t,检验发现,大学生组和老年组的词汇判断的正确率存在显著差异,,t,=5.84,df,=50,P,0.0005,。与大学生相比,老年人的正确率更高(,45.57,10.48 vs,64.03 12.28,),第三步:用,显著性检验,证实数据所揭示的意义,