,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,第十章,SPSS,因子分析,ppt课件,第十章ppt课件,本章内容,10.1,因子分析概述,10.2,因子分析的基本内容,10.3,因子分析的基本操作及案例,2,本章内容10.1 因子分析概述2,10.1,因子分析概述,10.1.1,因子分析的意义,在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。,因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。,3,10.1 因子分析概述10.1.1因子分析的意义3,因子分析的特点,1,、因子个数远远少于原有变量的个数;,2,、因子能够反应原有变量的绝大部分信息;,3,、因子之间不存在线性关系;,4,、因子具有命名解释性。,4,因子分析的特点4,10.1.2,因子分析的数学模型和相关概念,数学模型,假设原有变量有,p,个,分别用 表示,且每个变量的均值是,0,,标准差是,1,,现将每个原有变量用,k,(,kp,)个因子 的线性组合来表示,即:,5,10.1.2因子分析的数学模型和相关概念5,在这个数学模型中,,F,称为公共因子,因为它出现在每个变量的线性表达式中,简称因子。因子可理解为高维空间中互相垂直的,k,个坐标轴;,A,称为因子载荷矩阵,称为因子载荷,是第,i,个原始变量在第,j,个因子上的负荷;称为特殊因子,表示原始变量不能被因子解释的部分。其均值为,0,,相当于多元线性回归模型中的残差。,因子分析的几个相关概念,1,、因子载荷,在因子不相关的前提下,因子载荷是第,i,个变量与第,j,个因子的相关系数。因子载荷越大说明因子与变量的相关性越强,所以因子载荷说明了因子对变量的重要作用和程度。,6,在这个数学模型中,F称为公共因子,因为它出,2,、变量共同度,变量共同度也称为公共方差。第,i,个变量的共同度定义为因子载荷矩阵中第,i,行元素的平方和,即:,3,、因子的方差贡献,因子方差贡献是因子载荷矩阵中第,j,列元素的平方和,反映了第,j,个因子对原有变量总方差的解释能力。该数值越高,说明相应因子的重要性越高。,7,2、变量共同度7,10.2,因子分析的基本内容,10.2.1,因子分析的基本步骤,1,、因子分析的前提条件;,因子分析的前提条件是原始变量之间应存在较强的相关关系。,2,、因子提取;,3,、使因子更具有命名可解释性;,4,、计算各样本的因子得分。,8,10.2 因子分析的基本内容10.2.1因子分析的基本步骤8,10.2.2,因子分析的前提条件,1,、计算相关系数并进行统计检验,如果相关系数矩阵中的大部分相关系数小于,0.3,,那么这些变量不适合进行因子分析。,2,、计算反映象相关矩阵,9,10.2.2因子分析的前提条件9,3,、,Bartletts,球度检验,以原有变量的相关系数矩阵为出发点,假设相关系数为单位矩阵,如果该检验对应的,P,值小于给定的显著性水平,a,,则应拒绝原假设,认为原有变量适合进行因子分析。,4,、,KMO,检验,该统计量取值在,0-1,之间,越接近于,1,说明变量间的相关性越强,原有变量适合做因子分析。,0.9,以上表示非常合适;,0.8-0.9,表示合适;,0.7-0.8,表示一般;,0.6-0.7,表示尚可;,0.5-0.6,表示不太合适;,0.5,以下表示极不合适。,10,3、Bartletts球度检验10,10.2.3,因子提取和因子载荷矩阵的求解,因子载荷矩阵的求解一般采用主成分法。主成份分析法通过坐标变换的手段,将原有的,p,个变量标准化后进行线性组合,转换成另一组不相关的变量,y,,即:,11,10.2.3因子提取和因子载荷矩阵的求解11,式中的系数按以下原则进行求解:,(,1,),(,2,),根据以上原则确定的变量依次为原始变量的第,1,、第,2,第,p,个主成分。其中第一个主成分在总方差中所占比例最大,其余主成分在总方差中所占比例依次递减,即主成分综合原始变量的能力依次减弱。在主成份的实际应用中,一般只选取前面几个主成分即可,这样既减少了变量的数目,又能够用较少的主成分反映原始变量的绝大部分信息。,12,式中的系数按以下原则进行求解:12,可见,主成分分析关键的步骤是如何求出上述方程中的系数。通过方程的推导可以发现,每个方程中的系数向量是原始变量相关系数矩阵的特征值对应的特征向量。具体求解步骤如下:,(,1,)将原有变量进行标准化处理;,(,2,)计算变量的相关系数矩阵;,(,3,)求相关系数矩阵的的特征根 及对应的特征向量,13,可见,主成分分析关键的步骤是如何求出上述方,因子分析利用主成分分析得到的,p,个特征根和对应的特征向量,在此基础上计算因子载荷矩阵:,由于因子分析的目的是减少变量个数,因此在计算因子载荷矩阵时,一般不选取所有特征值,而只选取前,k,个特征值和特征向量,得到下面包含,k,个因子的因子载荷矩阵:,14,因子分析利用主成分分析得到的p个特征根和对,因子个数的确定方法:,(,1,)根据特征根确定因子数:一般选取大于,1,的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数;,(,2,)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于,85%,的特征根个数为因子个数。,15,因子个数的确定方法:15,16,16,例:成绩数据(,student.sav,),100,个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,17,例:成绩数据(student.sav)100个学生的数,从本例可能提出的问题,能不能把这个数据的,6,个变量用一两个综合变量来表示呢?,这一两个综合变量包含有多少原来的信息呢?,能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。,18,从本例可能提出的问题能不能把这个数据的6个变量用一两个综合变,例中的的数据点是六维的;也就是说,每个观测值是,6,维空间中的一个点。我们希望把,6,维空间用低维空间表示。,先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。,19,例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。,但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。,如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。,椭圆(球)的长短轴相差得越大,降维也越有效果。,20,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的,21,21,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。,首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。,注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,即主成分,(principal component),。,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。,22,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观,原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前 23个主成分已包含了85%以上的信息,其他的可以忽略不计。,提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。,23,原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它,9.2.4,因子的命名,观察因子载荷矩阵,如果因子载荷的绝对值在第,j,列的多个行上都有较大的取值,则表明因子,fj,能够同时解释许多变量的信息,且对每个变量只能揭示较少部分信息,但不能代表任何一个原有变量。这种情况下,因子,fj,的含义是模糊不清的,为解决这个问题,可通过因子旋转的方式是一个变量值在尽可能少的因子上有比较高的载荷。因子旋转一般采用正交旋转使新生成的变量仍可保持不相关,正交旋转一般采用方差最大法(,varimax,)。然后再根据各因子对各原始变量的解释程度进行命名。,24,9.2.4因子的命名24,9.2.5,计算因子得分,在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。计算因子得分的途径是用原有变量描述因子,第,j,个因子在第,i,个样本上的值可表示为:,估计因子得分系数的方法有很多,通常采用最小二乘意义下的回归法进行估计。,25,9.2.5 计算因子得分25,9.3,因子分析的基本操作,1,、选择菜单,Analyze,Data Reduction,Factor,,出现主窗口:,26,9.3 因子分析的基本操作1、选择菜单AnalyzeDat,2,、把参与因子分析的变量选到,Variables,框中。,3,、选择参与因子分析的样本。把作为条件变量的变量指定到,Selection Variable,框中并单击,Value,按钮输入变量值,只有满足条件的样本数据才参与因子分析。,4,、在主窗口中单击,Descriptives,按钮指定输出结果。,Statistics,框中指定输出哪些基本统计量,其中,Univariate descriptives,表示输出各个变量的基本描述统计量;,Initial solution,表示输出因子分析的初始解。,Correlation Matrix,框中指定考察因子分析条件的方法及输出结果,其中,Coefficients,表示输出相关系数矩阵;,Significance levels,表示输出相关系数检验的概率,p,值;,Determinant,表示输出变量相关系数矩阵的行列式值;,Inverse,表示输出相关系数矩阵的逆矩阵;,Anti-image,表示输出反映象相关矩阵;,KMO and Bartletts test of sphericity,表示进行巴特利特球度检验和,KMO,检验。,27,2、把参与因子分析的变量选到Variables框中。27,28,28,5,、在主窗口中单击,Extraction,按钮指定提取因子的方法。在,Method,框中提供了多种提取因子的方法,其中,Principal components,是主成分分析法,是,SPSS,默认的方法;在,Analyze,框中指定提取因子的依据,其中,Correlation matrix,为相关系数矩阵,当原有变量存在数量级的差异时,通常选择该选项;,Covariance matrix,为协方差阵。在,Extract,框中选择如何