3.3 用SPSS作聚类分析,常言道:“物以类聚”,对事物分门别类进展争论,有利于我们做出正确的推断。日常生活中,我们不自觉地用定性方法将人分为“好人”、“坏人”;按生疏程度分为“朋友”、“熟人”、“生疏人”等等。,数理统计中的数值分类有两种问题:,判别分析:分类状况,将未知个体归入正确类别,聚类分析:分类状况未知,对数据构造进展分类,通过分类,有利于我们抓住重点,从总体上去把握事物,找出解决问题的方法。例如将股票进展分类,可以为我们投资供给参考。,一、聚类分析Cluster Analysis简介,聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差异较大的归入不同的类的分析技术。,要做聚类分析,首先得依据我们聚类的目的,从对象中提取出能表现这个目的的特征指标;然后依据亲疏程度进展分类。,聚类分析依据分类对象的不同可分为Q型和R型两大类,Q型是对样本进展分类处理,其作用在于:,能利用多个变量对样本进展分类,分类结果直观,聚类谱系图能明确、清晰地表达其数值分类结果,所得结果比传统的定性分类方法更细致、全面、合理,二、聚类对象,R型是对变量进展分类处理,其作用在于:,可以了解变量间及变量组合间的亲疏关系,可以依据变量的聚类结果及它们之间的关系,选择主要变量进展回归分析或Q型聚类分析,聚类的主要过程一般可分为如下四个步骤:,数据预处理标准化,构造关系矩阵亲疏关系的描述,聚类依据不同方法进展分类,确定最正确分类类别数,以下我们结合实际例子分步进展争论。,三、聚类过程与方法,为什么要做数据变换,指标变量的量纲不同或数量级相差很大,为了使这些数据能放到一起加以比较,常需做变换。,在SPSS中如何选择标准化方法:,Analyze Classify Hierachical Cluster Analysis Method 然后从对话框中进展如下选择,1.数据预处理标准化,例、下表给出了1982年全国28个省、市、自治区农民家庭收支状况,有六个指标,是利用调查资料进展聚类分析,为经济进展决策供给依据。,详见文件1982“农民生活消费聚类.sav”,从Transform Values框中点击向下箭头,将消逝如下可选项,从中选一即可:,常用标准化方法选项说明:,None:不进展标准化,这是系统默认值,Z Scores:,标准化变换,为了便于后面的说明,作如下假设:,均值表示为,标准差表示为,全部样本表示为,极差表示为,作用:变换后的数据均值为0,标准差为1,消去了量纲的影响;当抽样样本转变时,它仍能保持相对稳定性。,Range 1 to 1:,极差标准化变换,作用:变换后的数据均值为0,极差为1,且|xij*|1,消去了量纲的影响;在以后的分析计算中可以削减误差的产生。,Maximum magnitude of 1,作用,:变换后的数据最大值为1。,Range 0 to 1极差正规化变换/规格化变换,作用,:变换后的数据最小为0,最大为1,其余在区间0,1内,极差为1,无量纲。,Mean of 1,作用,:变换后的数据均值为1。,Standard deviation of 1,作用,:变换后的数据标准差为1。,在SPSS中如何选择测度:,Analyze Classify Hierachical Cluster Analysis Method 然后从对话框中进展如下选择,2.构造关系矩阵,描述变量或样本的亲疏程度的数量指标有两种:,相像系数性质越接近的样品,相像系数越接近于1或-1;彼此无关的样品相像系数则接近于0,聚类时相像的样品聚为一类,距离将每一个样品看作m维空间的一个点,在这m维空间中定义距离,距离较近的点归为一类。,相像系数与距离有40多种,但常用的只是少数,从Measure框中点击Interval项的向下箭头,将消逝如左可选项,从中选一即可。,常用测度选项说明:,Euclidean distance:欧氏距离,二阶Minkowski距离,Squared,Eucidean,distance:,平方欧氏距离,用途,:,聚类分析中用得最广泛的距离,但与各变量的量纲有关,未考虑指标间的相关性,也未考虑各变量方差的不同,用途,:,聚类分析中用得最广泛的距离,Cosine:夹角余弦(相像性测度),用途:计算两个向量在原点处的夹角余弦。当两夹角为0o时,取值为1,说明极相像;当夹角为90o时,取值为0,说明两者不相关。,取值范围:01,Pearson correlation:,皮尔逊相关系数,Chebychev,:,切比雪夫距离,用途,:计算两个向量的皮尔逊相关系数,用途,:计算两个向量的切比雪夫距离,Block:确定值距离一阶Minkowski度量,又称Manhattan度量或网格度量,用途:计算两个向量确实定值距离,Minkowski,:,明科夫斯基距离,用途,:计算两个向量的明科夫斯基距离,Customized:,自定义距离,用途,:计算两个向量的自定义距离,确定了样品或变量间的距离或相像系数后,就要对样品或变量进展分类。分类的一种方法是系统聚类法又称谱系聚类;另一种方法是调优法如动态聚类法就属于这种类型。此外还有模糊聚类、图论聚类、聚类预报等多种方法。,我们主要介绍系统聚类法(实际应用中使用最多)。,系统聚类法的根本思想:令n个样品自成一类,计算出相像性测度,此时类间距离与样品间距离是等价的,把测度最小的两个类合并;然后依据某种聚类方法计算类间的距离,再按最小距离准则并类;这样每次削减一类,持续下去直到全部样品都归为一类为止。聚类过程可做成聚类谱系图(Hierarchical diagram)。,3.选择聚类方法,系统聚类法的聚类原则准备于样品间的距离或相像系数及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。,SPSS,中如何选择系统聚类法,从Cluster Method框中点击向下箭头,将消逝如左可选项,从中选一即可。,1)系统聚类法的产生,Between-groups linkage,组间平均距离连接法,特点,:非最大距离,也非最小距离,方法简述:合并两类的结果使全部的两两项对之间的平均距离最小。项对的两成员分属不同类,Within-groups linkage,组内平均连接法,方法简述:两类合并为一类后,合并后的类中全部项之间的平均距离最小,3)常用系统聚类方法,Nearest neighbor 最近邻法最短距离法,特点:样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。,方法简述:首先合并最近或最相像的两项,Furthest neighbor 最远邻法最长距离法,方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法,Centroid,clustering,重心聚类法,特点:该距离随聚类地进展不断缩小。该法的谱系树状图很难跟踪,且符号转变频繁,计算较烦。,方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值,Median clustering,中位数法,特点:图形将消逝递转,谱系树状图很难跟踪,因而这个方法几乎不被人们承受。,方法简述:两类间的距离既不承受两类间的最近距离,也不承受最远距离,而承受介于两者间的距离,Wards method,离差平方和法,特点:实际应用中分类效果较好,应用较广;要求样品间的距离必需是欧氏距离。,方法简述:基于方差分析思想,假设分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大,经过系统聚类法处理后,得到聚类树状谱系图,Demirmen(1972)提出了应依据争论的目的来确定适当的分类方法,并提出了一些依据谱系图来分类的准则:,任何类都必需在接近各类中是突出的,即各类重心间距离必需极大,确定的类中,各类所包含的元素都不要过分地多,分类的数目必需符合有用目的,假设承受几种不同的聚类方法处理,则在各自的聚类图中应觉察一样的类,四、谱系分类确实定,SPSS中其他选项通过实例演示,例、下表给出了1982年全国28个省、市、自治区农民家庭收支状况,有六个指标,是利用调查资料进展聚类分析,为经济进展决策供给依据。,详见文件1982“农民生活消费聚类.sav”,生成树形图,生成冰柱图,分散状态表,显示聚类过程,各项间的距离矩阵,类成员栏,结果分析:方法选择如下,通过比较,可知离差平方和法Wards method分类结果较好,将28各样本分为三类:,第一类包含6个元素:2、15、10、11、6、7,其次类包含10个元素:8、17、28、12、13、18、14、20、21、22,第三类包含9个元素:3、16、23、24、4、27、5、25、26,另有三个元素1、9、19为孤立点。,从分类结果可以看出:1、9、19表示北京、上海、广东三地农民属高消费生活水平;天津等第一类的农民生活水平较高;安徽等其次类的农民生活水平为中等;陕西等地的农民生活水平较低。,试用不同方法对变量进展聚类,并分析结果的含义,