单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,本章主要内容,:,10.1,主成分分析的概念,10.2,主成分计算,10.3,样本主成分,10.4,主成分的选取,10.5,案例分析,10.6,上机实现,本章内容重点:,主成分分析的概念,;,主成分的选取;上机实现,1 本章主要内容:10.1 主成分分析的概念,2,在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间,通常不是相互独立而是相关的,。,因此,从统计分析或推断的角度来说,人们总是希望能,把大量的原始指标组合成较少的几个综合指标,,从而使分析简化。,案例,:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用,长度和肥瘦,两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的,两个综合指标,。,10.1,主成分的概念,2在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每,3,假设观测指标共有,p,个,分别用,x,1,x,2,x,p,表示,将这些指标综合为一个指标的方法显然有很多,但最简单的方法是将这些指标用线性组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线性组合,即,我们希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的,。,其中反映原始观测指标的变动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;,,,3假设观测指标共有p个,分别用x1,x2,xp,表示,,4,10.2,主成分计算,设,p,个指标,(,随机变量,),是,p,维随机变量,其协方差矩阵为,式中,协方差,当,求 的最大值。,实际上,这就是求的 的值,410.2 主成分计算 设p个指标(随机变量)是p,5,根据线性代数的理论,我们知道这就是矩阵 的最大特征根 ,并且 就是相应的特征向量。,就为随机向量,X,的第一主成分。,X,的第二主成分不应该再重复反映第一主成分已经反映的内容,所以求第二主成分时,除了有类似于第一主成分的约束条件外,还必须加上第二主成分与第一主成分不相关这一条件,即,要使 也就是要使,即第二主成分的特征向量必须于第一主成分的特征向量正交。,5根据线性代数的理论,我们知道这就是矩阵 的最大特征根,6,事实上,由于协方差矩阵,为非负定矩阵,故有,p,个非负特征根,从而可求出,p,个特征向量,将每一个特征向量作为一个主成分的系数向量,就可得出,p,个主成分。,若记,p,个主成分组成的主成分向量为,特征向量 组成的矩阵为,A,,即,则可写成主成分向量的表达形式为:,6事实上,由于协方差矩阵为非负定矩阵,故有p个非负特征根,,7,我们有,即 不相关 各自的方差为,总的方差是,我们从 中,,选出对方差贡献最大的部分指标,就达到了主成分分析的目的。,7我们有,8,案例,10.1,假设市场上肉类、鸡蛋、水果,3,种商品价格的月份资料的协方差矩阵为:,试求这,3,种价格的主成分。,解:根据上述协方差矩阵,可写出其特征多项式为,令此特征多项式为,0,,则得特征方程,解此特征方程,从而得,的特征值为,8案例10.1 假设市场上肉类、鸡蛋、水果3种商品价格的月份,9,得这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述,3,个特征根的,3,个单位特征向量分别为,:,于是,,3,种商品价格的,3,个主成分分别为,9得这些特征根分别代入特征方程,然后求解就可得到相应的各个特,10,在解决实际问题时,总体的协方差和相关阵往往都是未知的,需要通过样本来进行估计。设样本数据矩阵为,则样本协方差矩阵为,样本相关矩阵记为,10.3,样本主成分,10在解决实际问题时,总体的协方差和相关阵往往都是未知的,需,11,由主成分分析的基本思想和计算过程可以看出,主成分分析是把,p,个随机变量的总方差,tr(,),分解为,p,个不相关的随机变量的方差之和。各个主成分的方差即相应的特征根表明了该主成分的方差,方差的值越大,表明主成分综合原始变量的能力越强。,累计贡献率:,在研究实际问题时,一般要求累计贡献率不小于,85,。,10.4,主成分的选取,11由主成分分析的基本思想和计算过程可以看出,主成分分析是把,12,虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但是累计贡献率只是表达了前,m,个主成分提取了的多少信息,它并没有表达某个变量被提取了多少信息,因此仅仅使用累计贡献率这一准则,并不能保证每个变量都被提取了足够的信息。因此,有时还往往需要另一个辅助的准则。,由于,,,所以,显然,是第,j,个主成分所能说明的第,i,个原始变量的方差,即第,j,个主成分从第,i,个原始变量中所提取的信息。,12虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但,13,原始变量 的信息提取率 定义为,:,我们选取主成分时,不仅要使前,m,个主成分的累计贡献率达到一定的程度,而且还要使每个原始变量的信息提取率也达到一定的程度,。,13原始变量 的信息提取率 定义为:,14,案例:,假设某商场运动鞋、凉鞋、皮鞋,3,种消费量的协方差矩阵为,试求各主成分,并对各主成分的贡献率及各个原始观测变量的信息提取率进行讨论。,【,解,】,由上述协方差矩阵,写出其特征多项式为,14案例:假设某商场运动鞋、凉鞋、皮鞋3种消费量的协方差矩阵,15,令此特征多项式为,0,,得特征方程。求解特征方程,得三个特征根分别为,将各个特征根代入特征方程,求解相应的齐次线性方程,得到各个特征向量,经过单位化处理,就得到相应的三个单位化特征向量分别为,15令此特征多项式为0,得特征方程。求解特征方程,得三个特征,16,如果我们只取一个主成分,则累计贡献率为,效果似乎已经很理想。但是,如果我们进一步计算每个变量的信息提取率,则,16如果我们只取一个主成分,则累计贡献率为,17,需再取第,2,个主成分,此时累计贡献率为,各个变量的信息提取率分别为,17需再取第2个主成分,此时累计贡献率为,18,在制定服装标准的过程中,对,128,名成年男子的身材进行了测量,每人测得的指标中含有这样,6,项:身高、坐高、胸围、手臂长、肋围和腰围。所得相关矩阵如表,10.1,所示。,10.5,案例分析,18在制定服装标准的过程中,对128名成年男子的身材进行了测,19,前三个主成分分别为,19前三个主成分分别为,20,SPSS,软件,FACTOR,模块提供了主成分分析的功能。下面,我们以,SPSS,软件包自带的数据,Employee data,为例,介绍主成分分析的上机实现方法,在,SPSS,软件的安装目录下可以找到该数据集。,数据,Employee data,为,Midwestern,银行在,19691971,年之间雇员情况的数据,共包括,474,条观测及以下,10,个变量:,Id(,观测号,),、,Gender(,性别,),、,Bdate(,出生日期,),、,Educ(,受教育程度,),、,Jobcat(,工作种类,),、,Salary(,目前年薪,),、,Salbegin(,开始受聘时年薪,),、,Jobtime(,受雇时间,(,月,),、,Prevexp(,受雇以前的工作时间,(,月,),、,Minority(,是否少数民族,),。下面我们用主成分分析方法处理该数据,以期用少量的变量来描述该地区居民的雇用情况。,10.6,主成分分析的上机实现,20SPSS软件FACTOR模块提供了主成分分析的功能。下面,21,进入,SPSS,软件,打开数据集,Employee data,后,依次执行,AnalyzeData ReductionFactor,命令,系统弹出选择变量和分析内容的主窗口,如图,10.1,所示。,21进入SPSS软件,打开数据集Employee data后,22,依次选中变量,Educ,,,Salary,,,Salbegin,,,Jobtime,,,Prevexp,并单击向右的箭头按钮,这,5,个变量变进入了图,1,中,variable,窗口。单击右侧的,OK,按钮,即可得到输出结果,1,。,22依次选中变量Educ,Salary,Salbegin,J,23,Communalties,给出了从每个原始变量提取的信息,比如从,Current Salary,中提取的信息为,89.6,.,23Communalties给出了从每个原始变量提取的信息,,24,从上面表格中可以看出前三个主成分集中原始变量信息的,90.66,。第一主成份的方差为,2.477,,第二主成份的方差为,1.052,。,24从上面表格中可以看出前三个主成分集中原始变量信息的90.,25,Component Matrix,表中给出了标准化原始变量用,3,个主成份的线性表示的近似表达式。例如:令,F1,F2,F3,分别表示标准化的主成分,那么,,标准化的,Current Salary=0.94F1+0.104F2,0.029F3,25Component Matrix 表中给出了标准化原始变,26,由,SPSS,软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果,就需要对,Factor Analysis,模块中的设置做一些调整,方法如下:,进入,Factor Analysis,对话框并选择好变量之后,单击对话框下部的,Scores,按钮进入,Factor Scores,对话框,如图,10.3,所示。,26由SPSS软件默认选项输出的结果,我们还不能得到用原始变,27,该距阵给出了用原是变量表示出成分的系数信息,例如:,标准化第一成分,F1=0.342,标准化的,X1,0.38,标准化的,X2+0.37,标准化的,X3,0.027,标准化的,X4-0.072,标准化的,X5,。,27该距阵给出了用原是变量表示出成分的系数信息,例如:,