Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,第,3,章 问卷数据的录入与清理,统计数据分析基础教程,基于,SPSS,和,Excel,的调查数据分析,第,3,章,问卷数据的录入与清理,本章内容,3.1,问卷数据的录入,3.2,在,Excel,中录入数据,3.3,核对和清理数据,3.4,在,Excel,中核对数据,3.5,在,SPSS,中录入数据,3.6,在,SPSS,中核对数据,附录,Excel,数据分析工具,附录,在,Excel,中生成随机数,问卷数据的录入与清理,进行数据统计分析之前,必须先将,问卷数据录入计算机,。,为了保证,不,“,GIGO,,,Garbage In Garbage Out”,(垃圾进垃圾出),在统计分析之前,需要,对录入的数据进行核对和清理,。,3.1,问卷数据的录入,数据输入,就是将,问卷数据,所对应的,编码,通过扫描或,用键盘,输入,计算机,,建立,数据文件,的过程,。,目前,数据输入的方式主要有三种,:,人工输入,计算机辅助系统转换,光电输入,3.1,问卷数据的录入,(,人工输入,),人工输入,的注意事项:,要规定,统一,的输入内容和输入格式。,挑选和培训,数据输入人员,。,数据输入过程中需要注意:,第一,,统一,规定,数据文件名,。,第二,数据输入时要为每一个输入人员,提供,一份有关输入内容和格式的,手册,。,第三,要为每个输入人员,提供足够的空间摆放问卷,,避免不同输入人员的问卷或者同一输入人员已输入和未输入的问卷发生混淆,造成漏输或重复输入,影响问卷的质量。,第四,每个输入人员在完成各自负责的问卷的输入任务后,由研究者把他们的数据,合并,成一个总的,数据文件,,以供统计分析使用。为了避免数据丢失,要把每个输入人员输入的数据单独存档,以备查找。,3.2,在Excel中录入数据,(,单选题,),1,确定取得,单一,答案,2,尽可能使用,单选题,3,单选题如何,编码,和,输入,Q1.,请问您现在是否拥有手机?,1.,有,2.,没有(跳至,Q12,题),例,3-1,在,Excel,中录入单选题,Q1,的数据,单选题的编码和输入(用,文字,当列名,图,3-1,),单选题的编码和输入(用,题号,当列名,图,3-2,),3.2,在Excel中录入数据,(,单选题,),例,3-1,在,Excel,中录入单选题,Q1,的数据,单选题的编码和输入(用,文字,当列名,图,3-1,),单选题的编码和输入(用,题号,当列名,图,3-2,),3.2,在Excel中录入数据,(,多选题,),多选题分为,多项限选题,、,多项排序题,、,多项任选题,。,Q2.,请问您当初购买手机的原因是什么?(可多选,最多,3,项),1.,方便与家人联络 ,2.,方便与朋友同学联络 ,3.,追求流行,4.,工作需要 ,5.,同学间比较的心理 ,6.,别人赠送,7.,手机价格下降 ,8.,厂商推出的促销方案,9.,网内互打较便宜 ,10.,其他,例,3-2,在,Excel,中录入多选题,Q2,的数据,多,选题,的编码有,2,种:,分类法,和,二分法,。,“,分类法,”编码和输入(图,3-3,),“,二分法,”编码和输入,有关,“分类法”,和,“二分法”,编码,请参见,P72,74,冻结窗格,(比较图,3-4,和图,3-5,),3.2,在Excel中录入数据,(,多选题,),例,3-2,在,Excel,中录入多选题,Q2,的数据,“,分类法,”编码和输入(图,3-3,),3.2,在Excel中录入数据,(,多选题,),例,3-2,在,Excel,中录入多选题,Q2,的数据,冻结窗格,(比较图,3-4,和图,3-5,),3.2,在Excel中录入数据,(,填空题,),填空题,也称,开放题,,不提示任何答案,要求使用者直接填写,。,对,数值型,的数据,为了取得其真正的数字(如:,55,),而非只取得区间(如:,41,60,),会采用,填空题,的方式取得数据(,定量数据,数值型数据,),例如:,请问您平均每个月手机的话费约,元?,定量数据可不经任何转换,即可计算各种统计量:均值、标准差、最大值、最小值等,而且也可以直接进行均值比较与检验,甚至可以作为回归分析的因变量或自变量。,如果为了取得数据的方便,就设计成选择题(,单选题,):,请问您平均每个月手机的话费约多少钱?,1.20,元及以下,2.21,40,元,3.41,60,元,4.61,80,元,5.81,100,元,6.101,元及以上,例,3-3,在,Excel,中录入填空题的数据,(图,3-6,),3.2,在Excel中录入数据,(,填空题,),例,3-3,在,Excel,中录入填空题的数据,(,图,3-6),3.2,在Excel中录入数据,(,量表,),量表,其实是一种顺序尺度,(,有序变量,),只有,大小先后,的关系,无倍数关系。,量表有,多种编码,方式,如,P60,的表,3-2,是量表常用的三种编码方式。,例,3-4,在,Excel,中录入量表的数据,(图,3-7,),产品属性,非常重要,重要,普通,不重要,非常不重要,(,1,)大小适中,5,4,3,2,1,(,2,)重量轻巧,5,4,3,2,1,(,3,)颜色炫丽,5,4,3,2,1,(,4,)外型大方,5,4,3,2,1,(,5,)符合人体工学,5,4,3,2,1,(,6,)附属功能多,5,4,3,2,1,补充:输入数据时,对于量表编码,要取得同向,如,P34,的例,2-26,,反向题要正向编码后再输入,3.2,在Excel中录入数据,(,量表,),例,3-4,在,Excel,中录入量表的数据,(图,3-7,),3.2,在Excel中录入数据,(,排名题,),排名(多项排序)是一种衡量的方式。如,:,下列几种手机的入网方式,请问您认为哪一种的收费最便宜?,请依排名顺序,填入,1,、,2,、,3,、,4,、,5,:,全球通,神州行,如意通,动感地带,新时空,分,此种类型的问卷,作为被排名的对象也不宜太多。否则,受访者也无法排列好。排个,5,、,6,项基本就是上限了。,例,3-5,在,Excel,中录入排名题的数据,(图,3-8,),可将,排名题,改为,单选题,3.2,在Excel中录入数据,(,排名题,),例,3-5,在,Excel,中录入排名题的数据,(图,3-8,),3.3,核对和清理数据,数据,有效范围,的清理,对数据中的,奇异值,进行清理。,数据,逻辑一致性,的清理,依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合理性,主要针对的是,相倚问题,和,多项限选题,。,数据,质量,的抽查,个案(,Case,):一份问卷的数据在计算机中的编码值,占一行,3.4,在,Excel,中核对数据,筛选出,范围不合理,的单列,例,3-6,在,Excel,中核对“大小适中”的数据,用自动筛选找出,不合理的关联题,例,3-7,在,Excel,中核对关联题“是否有手机”与“平均月费”的数据,用高级筛选找出,重复的,记录,例,3-8,用,Excel,处理重复的记录,3.4,在,Excel,中核对数据,筛选出,范围不合理,的单列,例,3-6,在,Excel,中核对“大小适中”的数据,3.4,在,Excel,中核对数据,用自动筛选找出,不合理的关联题,例,3-7,在,Excel,中核对关联题“是否有手机”与“平均月费”的数据,没有手机但有手机话费,有手机但没有手机话费,3.4,在,Excel,中核对数据,用高级筛选找出,重复的,记录,例,3-8,用,Excel,处理重复的记录,3.5,在,SPSS,中录入数据,手工建立数据文件,例,3-9,在,SPSS,中,手工建立调查问卷的数据文件,1.,调查问卷(,P68,69,),2.,确定变量的个数,3.,在,SPSS,中定义变量,4.,单选题的变量定义,5.,多选题的变量定义:,二分法,和,分类法,从,Excel,获取数据文件,例,3-10,将,Excel,中的数据导入到,SPSS,数据文件中,方法一,:先在,SPSS,中定义好变量,然后通过“,复制粘贴,”方式将数据从,Excel,复制到,SPSS,中。,方法二,:利用,打开数据文件,的方法直接把,Excel,中的数据导入到,SPSS,中,然后再定义变量属性。,3.5,在,SPSS,中录入数据,多选题的变量定义:,二分法,和,分类法,二分法,(,Multiple,Dichotomies,Method,):将每个可能的答案设为一个变量,变量的取值最多有,两,个(,1,和,0,),分别表示“,选,”或“不选”(在实际应用中,经常只有一个取值,1,,表示“选”,而用,空值,表示,“,不选,”,)。这种方法的,缺点,是需要的,变量个数比较多,;,优点是比较简单,。,二分法常用于“不限选”和“限选不排名”,。,分类法,(,Multiple,Category,Method,):,分类法常用于“限选”(很少用于“不限选”),包括“限选不排名”和“限选排名”。,按照,限选的最多答案设置变量个数,,每个变量的取值为选项值。比如,一个多选题,如果最多可选,3,个答案,那就设置,3,个变量,分别用来存放,3,个可能的答案。如果某受访者只填答两个,那么第,3,个变量的取值为缺失值;如果某受访者只填答一个,那么第,2,、,3,个变量的取值均为缺失值。,分类法的优点是需要的变量个数比较少,。,补充,:,限选不排序多选题的两种编码三种组合方式,以问题,5,(,Q5,),限选不排序多选题,为例,方式,1,:,二分法,编码:,P73,的表,3-5,(,4,个变量,编码为,1,),方式,2,:,分类法,编码:,P73,的表,3-6,(,2,个变量,编码为,1,、,2,、,3,、,4,),补充,方式,3,:,变量个数采用,二分法,(,4,个变量),编码采用,分类法,(,1,、,2,、,3,、,4,),具体如下:,Name,Type,Label,Values,例子的取值,Q5_1,N,家庭就业人数增加,1=,家庭就业人数增加,,2=,工资增加,,3=,奖金和津贴增加,,4=,其他收入来源增加,Q5_2,N,工资增加,同上,2,Q5_3,N,奖金和津贴增加,同上,3,Q5_4,N,其他收入来源增加,同上,建议,:应用案例实验,1,,如果,限选不排序多选题,的选项,超过,了,2,项(如:可多选,最多,3,项),建议采用,方式,3,,,这样的好处是,核对,容易。请参见,“,补充:多选题两种编码和核对,.,xls,”,实际应用中,,建议,采用,方式,2,。,因为,一般,只核对,单列数据,有效范围,,,很少核对,逻辑一致性,改错:,P74,的表,3,9,改为,由于采用,“,分类法,”,编码,所以在,SPSS,中的,Values,也应该是,分类法,编码,而不是简单的,“,选,”,或空白。,修改的目的,:,在用,SPSS,进行多选变量的频率分析时(具体见第六章),,SPSS,的输出结果,可读性好,。,Name,变量名,Type,类型,Label,变量名标签,Values,变量值标签,例子的取值,Q7_1,N,银行理财,1=,银行理财,,2=,股票,,3=,债券,,4=,股票型基金,,5=,货币基金,,6=,外汇,,7=,其他,Q7_2,N,股票,同上,2,Q7_3,N,债券,同上,3,Q7_4,N,股票型基金,同上,Q7_5,N,货币基金,同上,Q7_6,N,外汇,同上,6,Q7_7,N,其他,同上,3.5,在,SPSS,中录入数据,从,Excel,获取数据文件,例,3-10,将,Excel,中的数据导入到,SPSS,数据文件中,方法一,:先在,SPSS,中定义好变量,然后通过“,复制粘贴,”方式将,数据,从,Excel,复制到,SPSS,中。,方法二,:利用,打开数据文件,的方法直接把,Excel,中的数据导入到,SPSS,中,然后再定义变量属性。,