经济管理学院,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,经济管理学院,1,第三章系统模型与模型化,2,第三章 系统模型与模型化,第一节:系统模型与模型化概述,第二节:系统结构模型化技术,第三节:主成份分析及聚类分析,第四节:状态空间模型,第五节:系统工程模型技术的新进展,第三节 主成分分析,什么是主成分分析,主成分分析(,Principal Components Analysis,),也称主分量分析,是将多个指标,化为少数几个不相关的,综合指标的一种统计方法。,在综合评价工业企业的经济效益中,考核指标有:,1,每百元固定资产原值实现产值、,2,每百元固定资产原值实现利税、,3,每百元资金实现利税、,4,每百元工业总产值实现利税、,5,每百元销售收入实现利税、,6,每吨标准煤实现工业产值、,7,每千瓦电力实现工业产值、,8,全员劳动生产率、,9,每百元流动资金实现的产值,指标间信息有重叠,指标数量又多。,经过主成分分析计算,最后确定选择了,2,个主成分作为综合评价工业企业经济效益的依据,变量数由,9,个减少到,2,个,这两个主成分代表的信息达,91.6%,,使所研究的问题简化。,主成分分析的几何意义,:,为了直观,先在二维空间中讨论主成分的几何意义。,一般情况下,例如有,n,个样品,每个样品有两个变量值,X,1,和,X,2,,这,n,个样品的散点图如带状,.,由图可见这,n,个样品点无论是沿着,X,1,轴方向或,X,2,轴方向都具有较大的离散性,其离散的程度可以分别用观测变量,X,1,的方差和,X,2,的方差定量地表示。,主成分分析的几何解释,主成分分析的几何解释,主成分分析的几何解释,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。,但是,,坐标轴通常并不和椭圆的长短轴平行。,因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。,如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。,椭圆(球)的长短轴相差得越大,降维效果就越好。,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。,首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。,注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分,(principal component),。,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,,有几个变量,就有几个主成分。,选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。,有些文献建议,所选的主轴总长度占所有主轴长度之和的大约,85%,即可,,具体选几个,要看实际情况而定。,第二节 主成分的求解,假设我们所讨论的实际问题中,有,p,个指标,我们把这,p,个指标看作,p,个随机变量,记为,X,1,,,X,2,,,,,X,p,主成分分析就是要把这,p,个指标的问题,转变为讨论,p,个指标的线性组合的问题,主成分分析通常的做法是,寻求原指标的线性组合,Y,i,。,并且满足:,1 (i=1,2,P)*,2,不相关性,,Y,i,与,Y,j,不相关。,3,方差极大条件,,主成分的求解:,求系数 ,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解 的特征方程,得到,P,个特征根和,P,个单位特征向量,把,P,个特征根按从大到小的顺序排列,记作,i,(i=1,2,p),,它们分别代表,P,个主成分所解释的观测变量的方差,即,Var(Y,i,)=,i,(i=1,2,p),。相应的,P,个单位特征向量就是主成分的系数 (,i=1,2,p,)。,在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用,P,个主成分,而是根据如下方法选取前,K,个主成分。,定义,为第,i,主成分,Y,i,的方差贡献率。,这个值越大,说明这个主成分,Y,i,综合原指标信息的能力越强。,主成分的方差贡献率,定义,(,KP,),为主成分,Y,l,Y,2,Y,k,的累积方差贡献率。,当前,K,个主成分的累积方差贡献率达到,85%,以上时,就取,K,个主成分。这样,K,个主成分基本反映了原指标的信息,指标数目由,P,个减少到,K,个。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,主成分得分,:,当选取了,n,个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。,若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。,若主成分是由标准化数据计算,即由,R,计算,则计算主成分得分时,一定要用标准化数据,否则会出现错误。,量纲相同,用协方差阵求解主成分的步骤,1.,求样本均值 和样本协方差矩阵,S;,2.,求,S,的特征根,求解特征方程 ,其中,I,是单位矩阵,解得,2,个特征根,3.,求特征根所对应的单位特征向量,4.,写出主成分的表达式,例,1,下面是,8,个学生两门课程的成绩表,65 85 70 90 65 45 55 65,数学,100 90 70 70 85 55 55 45,语文,对此进行主成分分析。,1.,求样本均值和样本协方差矩阵,2.,求解特征方程 ,0,化简得:,解得:,3.,求特征值所对应的单位特征向量,所对应的单位特征向量 ,,其中,解得(,),=,所对应的单位特征向量,,其中,解得:,4.,得到主成分的表达式,第二主成分:,第一主成分:,5.,主成分的含义,通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。,第一主成分,F,1,是 和 的加权和,表示该生成绩的好坏。,第二主成分,F,2,表示学生两科成绩的均衡性,6.,比较主成分重要性,第一主成分,F,1,的方差为,第二主成分,F,2,的方差为,方差贡献率,方差贡献率为,主成分,F,1,和,F,2,的方差总和为,原变量,和,的方差总和为,总方差保持不变,身高,x,1,(cm),胸围,x,2,(cm),体重,x,3,(kg),149.5,162.5,162.7,162.2,156.5,156.1,172.0,173.2,159.5,157.7,69.5,77.0,78.5,87.5,74.5,74.5,76.5,81.5,74.5,79.0,38.5,55.5,50.8,65.5,49.0,45.5,51.0,59.5,43.5,53.5,例,2,下表是,10,位学生的身高,、胸围,、体重,的数据。,对此进行主成分分析。,1.,求样本均值和样本协方差矩阵,2.,求解协方差矩阵的特征方程,3.,解得三个特征值,和对应的单位特征向量:,4.,由此我们可以写出三个主成分的表达式:,5.,主成分的含义,F,1,表示学生身材大小。,F,2,反映学生的体形特征,三个主成分的方差贡献率分别为:,前两个主成分的累积方差贡献率为:,量纲不同,用相关阵计算主成分的步骤,:,1,、原始数据标准化,2,、计算样本协差阵或相关系数矩阵,R,3,、求,R,的非零特征根及对应的标准正交特征向量,4,、,求出主成分,(i=1,2,P),根据累计方差贡献率大于等于,80%,,,85%,,,90%,等,确,定选取主成分个数。,结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。,变量的标准化,:,由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,,例如:,X,1,表年收入,从万元到百万元变化,,X,2,表净收入与总资产之比,从,0.01,到,0.60,变化,那么,X,1,的方差的绝对量将远远大于,X,2,的方差,这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理,.,例,1,对全国,30,个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下:,GDP,X,1,居民消费水平,X,2,固定资产投资,X,3,职工平均工资,X,4,货物周转,量,X,5,居民消费价格指数,X,6,商品零售价格指数,X,7,工业总产,值,X,8,北京,天津,河北,山西,内蒙,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,海南,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆,1394.89,920.11,2849.52,1092.18,832.88,2793.37,1129.2,2014.53,2462.57,5155.25,3524.79,2003.58,2160.52,1205.11,5002.34,3002.71,2391.42,2195.7,5381.72,1606.15,364.17,3534,630.07,1206.68,55.98,1000.03,553.35,165.31,169.75,843.57,2505,2720,1258,1250,1387,2697,1872,2334,5343,1926,2249,1254,2320,1182,1527,1034,1527,1408,2699,1314,1814,1261,942,1261,1110,1208,1007,1445,1355,1469,519.01,345.46,704.87,290.9,250.23,387.99,320.45,435.73,996.48,1434.95,1006.39,474,553.97,282.84,1229.55,670.35,571.68,422.61,1639.83,382.59,198.35,822.54,150.84,334,17.87,300.27,114.81,47.76,61.98,376.95,8144,6501,4839,4721,4134,4911,4430,4145,9279,5943,6619,4609,5857,4211,5145,4344,4685,4797,8250,5105,5340,4645,4475,5149,7382,4396,5493,5753,5079,5348,373.9,342.8,2033.3,717.3,781.7,1371.1,497.4,824.8,207.4,1025.5,754.4,908.3,609.3,411.7,1196.6,1574.4,849,1011.8,656.5,556,232.1,902.3,301.1,310.4,4.2,500.9,507,61.6,121.8,339,117.3,115.2,115.2,116.9,117.5,116.1,115.2,116.1,118.7,115.8,116.6,114.8,115.2,116.8,117.6,116.5,120,119,114,118.4,113.5,118.5,121.4,121.3,117.3,119,119.8,118,117.1,119.7,112.6,110.6,115.8,115.6,116.8,114,114.2,114.3,113,114.3,113.5,112.7,114.4,115.9,114.2,114.9,116.6,115.5,111.6,116.4,111.3,117,117.2,118.1,114.9,117,116.5,116.3,115.3,116.7,843.43,582.51,1234.85,697.25,419.39,1840.55,762.47,1240.37,1642.95,2026.64,916.59,824.14,433.67,571.84,2207.69,1367.92,1220.72,843.83,1396.35,554.97,64.33,1431.81,324.72,716.65,5.57,600.98,468.79,105.8,114.4,428.76,第