单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,应用多元统计分析,第六章部分习题解答,1,第1页,第1页,第六章 聚类分析,6-1,证实下列结论:,(1)两个距离和所构成函数仍是距离;,(2)一个正常数乘上一个距离所构成函数仍是距离;,(3)设,d,为一个距离,c,0为常数,则,仍是一个距离;,(4)两个距离乘积所构成函数不一定是距离;,2,第2页,第2页,第六章 聚类分析,(2),设,d,是,距离,a,0为,正常数.令,d*=ad,显然有,3,第3页,第3页,第六章 聚类分析,故,d*=ad,是一个距离.,(3),设,d,为一个距离,c,0为常数,显然有,4,第4页,第4页,第六章 聚类分析,故,d*,是一个距离.,5,第5页,第5页,第六章 聚类分析,6,第6页,第6页,第六章 聚类分析,6-2,试证实二值变量相关系数为(6.2.2)式,夹角余弦为(6.2.3)式.,证实:,设变量,X,i,和,X,j,是二值变量,它们,n,次观测值记为,x,ti,x,tj,(,t,=1,n,).,x,ti,x,tj,值或为0,或为1.由二值变量列联表(表6.5)可知:变量,X,i,取值1观测次数为,a,+,b,取值0观测次数为,c,+,d,;变量,X,i,和,X,j,取值均为1观测次数为,a,取值均为0观测次数为,d,等等。利用两定量变量相关系数公式:,7,第7页,第7页,第六章 聚类分析,8,第8页,第8页,第六章 聚类分析,故二值变量相关系数为:,(6.2.2),9,第9页,第9页,第六章 聚类分析,利用两定量变量夹角余弦公式:,其中,故有,10,第10页,第10页,第六章 聚类分析,6-3,下面是5个样品两两间距离阵,试用最长距离法、类平均法作系统聚类,并画出谱系聚类图.,解:,用最长距离法:,合并,X,(1),X,(4),=CL4,并类距离,D,1,=1.,11,第11页,第11页,第六章 聚类分析,合并,X,(2),X,(5),=CL3,并类距离,D,2,=3.,合并CL3,CL4=CL2,并类距离,D,3,=8.,所有样品合并为一类CL1,并类距离,D,4,=10.,12,第12页,第12页,第六章 聚类分析,最长距离法谱系聚类图下列:,13,第13页,第13页,第六章 聚类分析,合并,X,(1),X,(4),=CL4,并类距离,D,1,=1.,用类平均法:,14,第14页,第14页,第六章 聚类分析,合并,X,(2),X,(5),=CL3,并类距离,D,2,=3.,合并CL3,CL4=CL2,并类距离,D,3,=(165/4),1/2,.,所有样品合并为一类CL1,并类距离,D,4,=(121/2),1/2,.,15,第15页,第15页,第六章 聚类分析,类平均法谱系聚类图下列:,16,第16页,第16页,第六章 聚类分析,6-4,利用距离平方递推公式,来证实当,0,p,0,q,0,p,+,q,+,1时,系统聚类中类平均法、可变类平均法、可变法、Ward法单调性.,证实:,设第,L,次合并G,p,和G,q,为新类G,r,后,并类距离,D,L,D,pq,且必有,D,pq,2,D,ij,2,.,新类G,r,与其它类G,k,距离平方递推公式,当,0,p,0,q,0,p,+,q,+,1 时,这表明新距离矩阵中类间距离均,D,pq,D,L,,故有,D,L,1,D,L,,即相应聚类法有单调性.,17,第17页,第17页,第六章 聚类分析,对于类平均法,因,故类平均法含有单调性。,对于可变类平均法,因,故可变类平均法含有单调性。,18,第18页,第18页,第六章 聚类分析,对于可变法,因,故可变法含有单调性。,对于离差平方和法,因,故离差平方和法含有单调性。,19,第19页,第19页,第六章 聚类分析,6-5,试从定义直接证实最长和最短距离法单调性.,证实:,先考虑最短距离法:,设第,L,步从类间距离矩阵,出发,假设,故合并G,p,和G,q,为一新类G,r,,这时第L步并类距离:,且新类G,r,与其它类G,k,距离由递推公式可知,设第,L+,1步从类间距离矩阵,出发,,20,第20页,第20页,第六章 聚类分析,故第L1步并类距离:,即最短距离法含有单调性.,类似地,能够证实最长距离法也含有单调性.,21,第21页,第21页,第六章 聚类分析,6-6,设A,B,C为平面上三个点,它们之间距离为,将三个点当作三个二维样品,试用此例阐明中间距离法和重心法不含有单调性.,解:,按中间距离法,取,=-1/4,将B和C合并为一类后,并类距离,D,1,=1,而A与新类,G,r,=B,C类间平方距离为,22,第22页,第22页,第六章 聚类分析,故中间距离法不含有单调性。,按重心法,将B和C合并为一类后,并类距离,D,1,=1,而,A,与新类,G,r,=B,C类间平方距离为,当把A与B,C并为一类时,并类距离,23,第23页,第23页,第六章 聚类分析,故,重心法,法不含有单调性。,并类过程下列:,当把A与B,C并为一类时,并类距离,A,B,C,24,第24页,第24页,第六章 聚类分析,解一:,利用,假如样品间距离定义为欧氏距离,则有,6-7,试推导重心法距离递推公式(6.3.2);,25,第25页,第25页,第六章 聚类分析,26,第26页,第26页,第六章 聚类分析,27,第27页,第27页,第六章 聚类分析,解二:,因样品间距离定义为欧氏距离,利用,28,第28页,第28页,第六章 聚类分析,利用,29,第29页,第29页,第六章 聚类分析,故有,30,第30页,第30页,第六章 聚类分析,6-8,试推导Ward法距离递推公式(6.3.3);,解:,Ward法把两类合并后增长离差平方和当作类间平方距离,即把类,G,p,和,G,q,平方距离定义为,利用,W,r,定义:,31,第31页,第31页,第六章 聚类分析,32,第32页,第32页,第六章 聚类分析,33,第33页,第33页,第六章 聚类分析,(当样品间距离定义为欧氏距离时),记,G,r,G,p,G,q,则新类,G,r,与其它类G,k,平方距离为,利用重心法递推公式(6-7题已证实)可得:,34,第34页,第34页,第六章 聚类分析,35,第35页,第35页,第六章 聚类分析,6-9,设有5个样品,对每个样品考察一个指标得数据为1,2,5,7,10.试用离差平方和法求5个样品分为,k,类(,k,5,4,3,2,1)分类法,b,k,及相应总离差平方和,W,(,k,).,解:,计算样品间欧氏平方距离阵,合并 1,2 CL4,并类距离,D,1,=(0.5),1/2,=0.707,并利用递推公式计算新类与其它类平方距离得,36,第36页,第36页,第六章 聚类分析,合并 5,7 CL3,并类距离,D,2,=(2),1/2,=1.414,,并利用递推公式计算新类与其它类平方距离得,合并 CL3,10=5,7,10 CL2,并类距离,D,3,=(32/3),1/2,=3.266,并利用递推公式计算新类与其它类平方距离得,37,第37页,第37页,第六章 聚类分析,合并 CL4,CL2=1,2,5,7,10 CL1,并类距离,D,4,=(245/6),1/2,=,6.39,并利用递推公式计算新类与其它类平方距离得,分类法,b,k,及相应总离差平方和,W,(,k,):,k,=5,1,2,5,7,10,W(5)=0,k,=4,1,2,5,7,10,W(4)=0.5,k,=3,1,2,5,7,10,W(3)=2.5,k,=2,1,2,5,7,10,W(2)=13.666,k,=1,1,2,5,7,10,W(1)=54,38,第38页,第38页,