单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2008,年,8,月,第,13,章 主成分分析和因子分析,第13章 主成分分析和因子分析,13.1,主成分分析,1,3.1.1,主成分分析的基本原理,13.1.2,主成分分析的数学模型,13.1.3,主成分分析的步骤,13.1.4,主成分分析的,Stata,命令,13.1 主成分分析13.1.1 主成分分析的基本原理,主成分的概念由,Karl Pearson,在,1901,年提出,考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分,(principal component),来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关,主成分分析的目的:数据的压缩;数据的解释,常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释,什么是主成分分析?,(principal component analysis),主成分的概念由Karl Pearson在1901年提出什么是,对这两个相关变量所携带的信息,(,在统计上信息往往是指数据的变异,),进行浓缩处理,假定只有两个变量,x,1,和,x,2,,从散点图可见两个变量存在相关关系,这意味着两个变量提供的信息有重叠,主成分分析的基本思想,(,以两个变量为例,),如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维的过程,对这两个相关变量所携带的信息(在统计上信息往往是指数据的变异,数学上的处理是将原始的,p,个变量作线性组合,作为新的变量,设,p,个原始变量为 ,新的变量,(,即主成分,),为,,主成分和原始变量之间的关系表示为,主成分分析的数学模型,主成分分析的数学模型,a,ij,为第,i,个主成分,y,i,和原来的第,j,个变量,x,j,之间的线性相关系数,称为载荷,(loading),。比如,,a,11,表示第,1,主成分和原来的第,1,个变量之间的相关系数,,a,21,表示第,2,主成分和原来的第,1,个变量之间的相关系数,数学上的处理是将原始的p个变量作线性组合,作为新的变量主成分,对原来的,p,个指标进行标准化,以消除变量在水平和量纲上的影响,根据标准化后的数据矩阵求出相关系数矩阵,求出协方差矩阵的特征根和特征向量,确定主成分,并对各主成分所包含的信息给予适当的解释,主成分分析的步骤,对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响主,Stata,命令,pca,、,pcamat,estat,screeplot,scoreplot,、,loadingplot,rotate,predict,Stata命令pca、pcamat,【,例,】,根据,2008,年一季度沪深两市农业板上市公司,的,9,项主要指标数据,进行主成分分析,找出主成分并进行适当的解释,主成分分析,(,实例分析,),基本情况,公司成长性指标,公司盈利能力性指标,公司股本扩张能力指标,公司名称,ROA,主营收入增长率,净利润增长率,主营业务利润率,ROE,EPS,每股净资产,每股公积金,总资产增长率,禾嘉股份,0.063,0.232,0.822,0.258,0.009,0.01,1.11,0.05,0,亚盛集团,-0.008,0.161,0.709,0.143,0.006,0.006,1.144,0.006,0.047,冠农股份,0.438,0.755,0.284,0.107,0.003,0.004,1.621,0.421,0.096,St,中农,-0.02,-0.421,0.983,0.209,0,0,1.565,0.757,-0.206,敦煌种业,0.112,-0.158,7.144,0.367,0.025,0.077,3.096,1.988,-0.057,新农开发,0.277,0.041,-2.376,0.251,-0.005,-0.016,3.46,1.86,0.392,香梨股份,0.107,-0.054,2.101,-0.148,0.012,0.03,2.51,1.516,-0.234,新赛股份,0.82,0.194,0.058,0.113,0.02,0.101,3.83,2.285,0.392,2008,年,8,月,【例】根据2008年一季度沪深两市农业板上市公司的9项主要指,Stata,的输出结果,estat smc,变量之间的存在较强的相关关系,适合作主成分分析,Stata的输出结果estat smc 变量之间的存在较强的,Stata,的输出结果,(,选择主成分,),该表是选则主成分的主要依据,Stata的输出结果(选择主成分)该表是选则主成分的主要依,“,Initial Eigenvalues,”,(,初始特征根,),实际上就是本例中的,9,个主轴的长度,特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息,特征根又叫,方差,,某个特征根占总特征根的比例称,为主成分方差贡献率,设特征根为,则第,i,个主成分的方差贡献率为,比如,第一个主成分的特征根为,3.54354,,占总特征根的的比例,(,方差贡献率,),为,39.37%,,这表示第一个主成分解释了原始,9,个变量,39.37%,的信息,可见第一个主成分对原来的,9,个变量解释的还不是很充分,根据什么选择主成分?,“Initial Eigenvalues”(初始特征根)根,根据主成分贡献率,一般来说,主成分的累计方差贡献率达到,80%,以上的前几个主成分,都可以选作最后的主成分,比如表中前,3,个主成分的累计方差贡献率为,78.13%,根据特特征根的大小,一般情况下,当特征根小于,1,时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大,比如表中除前,3,个外,其他主成分的特征根都小于,1,。所以只选择了,3,个主成分,根据什么选择主成分?,根据主成分贡献率根据什么选择主成分?,Stata,还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图,(Scree Plot),从碎石图可以看到,9,个主轴长度变化的趋势,实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前,3,个主成分即可,根据什么选择主成分?,(,Scree Plot,),Stata还提供了一个更为直观的图形工具来帮助选择主成分,即,怎样解释主成分?,主成分的因子载荷矩阵,表,1,中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数,a,ij,比如,第一主成分所在列的系数,-0.0364,表示第,1,个主成分和原来的第一个变量,(ROA),之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大,怎样解释主成分?主成分的因子载荷矩阵 表1中的每一列表示一个,载荷图,(Loading Plot),直观显示主成分对原始,9,变量的解释情况,图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数,每一个变量对应的主成分载荷就对应坐标系中的一个点,第一个主成分很充分地解释了原始的后,4,个变量,(,与每个原始变量都有较强的正相关关系,),,第二个主成分则较好地,var2,var3,var5,var6,这,2,个变量,(,与它们的相关关系较高,),,而与其他变量的关系则较弱,(,相关系数的点靠近坐标轴,),怎样解释主成分?,(,Loading Plot,),载荷图(Loading Plot)直观显示主成分对原始9变量,13.2,因子分析,1,3.2.1,因子分析的基本原理,13.2.2,因子分析的数学模型,13.2.3,因子分析的步骤,13.2.4,因子分析的,Stata,命令,13.2 因子分析13.2.1 因子分析的基本原理,因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更深入、更细致一些。实际上,主成分分析可以看作是因子分析的一个特例,简言之,因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始变量的绝大部分信息,然后根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。因此,因子分析属于多元统计中处理降维的一种统计方法,其目的就是要减少变量的个数,用少数因子代表多个原始变量,什么是因子分析?,(factor analysis),因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更,原始的,p,个变量表达为,k,个因子的线性组合变量,设,p,个原始变量为 ,要寻找的,k,个因子,(kp),为 ,主成分和原始变量之间的关系表示为,因子分析的数学模型,因子分析的数学模型,系数,a,ij,为第个,i,变量与第,k,个因子之间的线性相关系数,反映变量与因子之间的相关程度,也称为载荷,(loading),。由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因子。,为特殊因子,代表公因子以外的因素影响,原始的p个变量表达为k个因子的线性组合变量因子分析的数学模型,共同度量,(Communality),因子的方差贡献率,因子分析的数学模型,(,共同度量,Communality,和公因子的方差贡献率,),变量,x,i,的信息能够被,k,个公因子解释的程度,用,k,个公因子对第,i,个变量,x,i,的方差贡献率表示,第,j,个公因子对变量,x,i,的提供的方差总和,反映第,j,个公因子的相对重要程度,共同度量(Communality)因子分析的数学模型(共同,Stata,命令,factor,estat,screeplot,scoreplot,、,loadingplot,rotate,predict,Stata命令factor,21,本章结束,谢谢观看!,2024/11/17,21本章结束,谢谢观看!2023/9/26,