资源预览内容
第1页 / 共45页
第2页 / 共45页
第3页 / 共45页
第4页 / 共45页
第5页 / 共45页
第6页 / 共45页
第7页 / 共45页
第8页 / 共45页
第9页 / 共45页
第10页 / 共45页
第11页 / 共45页
第12页 / 共45页
第13页 / 共45页
第14页 / 共45页
第15页 / 共45页
第16页 / 共45页
第17页 / 共45页
第18页 / 共45页
第19页 / 共45页
第20页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,多元统计分析及SPSS应用,天津大学,rzhaoorsc.edu,:/orsc.edu/zhao,Ruiqing Zhao,赵瑞清,Tianjin University,session,3 聚类分析,应用多元统计分析及SPSS应用,Session,3,统计数据的收集、整理与描述,Session Topics,统计数据的来源,统计数据的收集,统计数据的描述,统计数据的整理,统计数据的来源,一、统计数据的直接来源,来源于管理和研究需要而专门组织的调查,来源于科学试验的数据,二、统计数据的间接来源,来源于公开出版物的数据,来源于内部调查的数据,统计数据的收集,数据的搜集方法,询问调查,访问调查,观察实验,电话调查,邮寄调查,观,察,电脑辅助,座,谈,会,个别深访,实,验,访问调查,1.调查者与被调查者通过面对面地交谈而获得资料,2.有标准式访问和非标准式访问,标准式访问通常按事先设计好的问卷进行,非标准式访问事先一般不制作问卷,邮寄调查,也称邮寄问卷调查,是一种标准化调查,调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷,通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点,问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种,调查,调查者利用 与被调查者进行语言交流以获得信息,时效快、本钱低,问题的数量不宜过多,您好!,我是调查公司的调查,员,电脑辅助调查,又称电脑辅助 调查,电脑与 相结合完成调查的全过程,一般需借助专门的软件进行,硬件设备要求较高,座谈会,1.也称集体访谈,2.将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料,3.参加座谈会的人数不宜过多,一般为610人,4.侧重于定性研究,个别深度访问,一次只有一名受访者参加、针对特殊问题的调查,适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题,侧重于定性研究,观察法,1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息,2.调查人员不是强行介入,3.能够在被调查者不觉察的情况下获得资料,实验法,1.在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料,2.有室内实验法和市场实验法,统计数据的间接来源,1.公开出版物:?中国统计年鉴?、?中国统计摘要?、?中国社会统计年鉴?、?中国工业经济统计年鉴?、?中国农村统计年鉴?、?中国人口统计年鉴?、?中国市场统计年鉴?、?世界经济年鉴?、?国外经济统计资料?、?世界开展报告?,Internet,2.,网络,中国统计年鉴2001,中国人口统计年鉴,中国市场统计年鉴,世界发展报告,世界经济年检,工业普查数据,中国统计出版社,统计数据的整理,一、统计分组,根据统计研究的目的和客观现象的内在特点,按某个标或几个标志把被研究的总体划分为假设干个不同性质的 组,称为统计分组。,例:某班学生按考试成绩分组,二、频数分布与频率分布,将数据按其分组标志进行分组的过程,就是频数分布和频率分布形成的过程。表示各组的单位的次数称为频数,各组次数与总次数之比称为频率。,二、频数分布与频率分布,频数分布就是观察值按其分组标志分配在各组内的次数,由分组标志序列和各组相对应的分布次数两个要素构成。,由分组标志序列和各组相应的频率构成频率分布。,当所观察的次数很多,组距很小并且组数很多时,所绘出的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这种曲线即频数分布曲线,反映了数据的分布规律。,三、累积频数分布与频率分布,为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要绘出累积频数或累计频率。,在SPSS 中对下数据进行频数率分析,1.定义工人编号和加工零件数的变量名分别为NO 和X,然后输入变量NO 和X 的原始数据。,2.选择Analyze=Descriptive Statistics=Frequencies.,弹出Frequencies主对话框。,现欲X 进行频数分析,在对话框左侧的变量列表中选X,单击按钮使之进入Variable(s)列表框,并选择Display Frequency Tables显示频数分布表。,3.可单击Format.按钮弹出Frequencies:Format子对话框,根据数值大小按升序从小到大作频数分布,数值大小按降序从大到小作频数分布,频数多少按升序从少到多作频数分布,频数多少按降序从多到少作频数分布,4.可单击Statistics.按钮,弹出Frequencies:Statistics子对话框,并单击相应工程,在作频数表分析的根底上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。这里不选。,5.可单击Charts.钮,弹出Frequencies:Charts子对话框,,用户可选三种图形:直条图Bar chart、饼图Pie Charts和直方图Histogram。这里选择Histogram 项,并选择With Normal Curve要求绘制正态曲线。单击Continue按钮返回Frequencies主对话框,再单击OK钮即可得到累计频数频率分布表和直方图。,输出结果,频数率分布表,加工零件数,应该注意的是,SPSS 在未特别指定的情形下,直方图或频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在一定数目的要求不符。,在调用Frequencies统计过程命令之前,可先对原始数据进行预处:,最小值为84,最大值为128,全距为10,故可要求分成5 组,起点为80,组距为10。,选择Transform=Recode=Into Different Variable.,在弹出的Recode Into Different Variable对话框中选定X,单击按钮使之进入Numeric VariableOutput Variable列表框,在OutputVariable栏的Name文本框中输入x1,单击Change按钮表示新生成的变量名为x1。,单击Old and New Values按钮弹出Recode Into Different Variable:Old and New Values子对话框,在Old Value选项中单击Range项,输入第一个分组的数值范围:8089,在New value栏内输入新值:80,单击Add按钮.,依此将各组的范围及对应的新值逐一输入,最后单击Continue按钮返回,再单击OK按钮即完成。系统在原数据库中生成一新变量为x1,这时再调用Frequencies统计过程将输出等距分组且组数为5 的频数分布表。,统计数据的描述,作为统计数据的代表值,一个是分布的中心,反映分布的集中趋势,另一个是分布的形状,反映分布的离散程度。这些代表性的数量特征值精确地描述出不同的统计数据分布。,一、分布的中心,众数(mode),在正态分布和一般的偏态分布中,分布曲线最高点所对应的数值即是众数。如果没有明显的最高点,众数可以不存在。当然,如果有两个最高点,也可以有两个众数。,中位数(median)与分位数,中位数是数据排序后,位置在最中间的数值。,与中位数相似的还有四分位数(quartiles)、十分位数(decile)和百分位数(percentile)。中位数是将统计分布从中间分成相等的两局部,而四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布十等分和一百等分的数值。,平均数均值(mean),平均数是数据集中趋势的最主要测度值,三个中心度量的比较,二、分布的形状,用于描述数据分布形状即分布关于其中心的波动程度的代表值有:极差、内距、方差和标准等,它们描述了分布的离散程度和差异程度。,一极差(range),极差也称为全距,是最大值与最小值之间的距离,它是数据离散或差异程度的最简单测度值,即,例如,在前面的数据中,极差为128-84=44件。显然,数据的离散程度大,极差就越大。极差虽然很容易计算,但它只告诉我们数据分布范围,至于分布的中间局部是如何变化的那么不得而知。而且它受极端值的影响可能是很大的。,二内距(Inter-Quartile Range,IQR),内距又称为四分位差,是两个四分位数之差,IQR=高四分位数低四分位数。,假设内距比较小,那么说明数据比较集中在中位数附近;反之那么比较分散。内距常和中位数一起用来描述一个定距特别是定序测量数据的分布。,三方差(variance)和标准差(standard deviation),方差是离差平方的平均数,即,或,三、偏度与峰度,一偏度(skewness),所谓偏度是指反映频数分布偏态方向和程度的测度。,在频数分布中,最大集中点以上频数曲线图横轴上众数的右边的频数占总频数的一半多,称为右偏或正偏。,最大集中点以下频数曲线图横轴上众数的左边的频数占总频数的一半多,称为左偏或负偏。,偏度的计算公式为:,二峰度(kurtosis),所谓峰度,是指频数分布曲线顶峰的形态,即反映分布曲线,的尖峭程度的测度。,峰度的计算公式为,当=0 时,表示分布的峰度是正态分布的峰度;当0 时,表示分布曲线的顶峰是尖顶顶峰;当Descriptive Statistics=Descriptives.,翻开Descriptives主对话框。,翻开Descriptives主对话框。在主对话框左边列表中选定变量X,单击按钮使之进入Variables(s)列表框。,三单击Options.按钮,翻开Descriptives:Options子对话框。选择均值(Mean)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度Skewness和峰度(Kurtosis),选好后单击Continue按钮返回Descriptives主对话框,再单击OK按钮即可得到各种统计量的计算结果。,输出结果:,以上结果没有给出中位数、众数等统计量,可以在频数率分析时增加选项计算相应的统计量,具体操作步骤如下:,一定义工人编号和加工零件数的变量名分别为NO 和X,然后输入变量NO 和X 的原始数据。,二选择Analyze=Descriptive Statistics=Frequencies.,,弹出Frequencies主对话框。现欲X 进行频数分析,在对话框左侧的变量列表中选X,单击按钮使之进入Variable(s)列表框,并选择Display Frequency Tables显示频数分布表。,三单击Statistics.按钮,弹出Frequencies:Statistics子对话框,并单击相应工程。本例中选择均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度Skewness和峰度(Kurtosis),选好后单击Continue按钮返回Frequencies主对话框,再单击OK按钮即可得到各种统计量的计算结果。,输出结果:,The End!Enjoy!,4F7IaMdPgSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNfQiTlXo#r%v(y0B3E6I9LcOgRjVmYp!t&w)z1C4G7JaMePhSkWnZr$u*x+A2D5H8KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JbMePhTkWnZr$u(x+A2E5H8KcNfRiUlXp#s%v)y0C3F6IaLdOgSjVmYq!t*w-z1D4G7JbMeQhTkWoZr$u(x+B2E5H9KcNfRi
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6