单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,ZUEL,Negative impact of noise on the principal component analysisof NMR data,对核磁共振数据进行主成分分析时噪音的负面影响,报告人:孙宝发,Negative impact of noise on th,1,Challenges of Metabonomics,Sample Complexity and Data Handling,Each sample has.,a wide range of compound classes,a wide variation in metabolite concentrations,a large number of potential components,Each group of samples has,many sample analyses are required for statistical relevance,a complex raw dataset that needs to be processed,differences between sample groups which need to be highlighted,Challenges of MetabonomicsSam,2,The strategy for large scale metabonomics research,The strategy for large scale m,3,核磁共振(NMR),主要技术,能对样品实现,非破坏性,非选择性,的分析,1,H-NMR,对含氢化合物均有响应,能完成代谢产物中大多数化合物的检测,满足代谢组学中的对尽可能多的化合物进行检測的目标.,不足:,其对每个分子的化学和物理环境敏感,样品制备的要求很高,且数据处理比较复杂,NMR的动态范围有限,很难同时測定生物体系中共存的浓度相差较大的代谢产物,硬件投资较大,核磁共振(NMR)主要技术,4,一、主成分分析,主要原理,基本思想,几何意义,数学模型,软件应用,图形解释,一、主成分分析,5,主成份分析的主要原理,在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。,主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。,从数学角度来看,这是一种降维处理技术。,很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。,孙宝发-Negativeimpactofnoiseonthe-生物化学与分子生物学课件,6,主成分分析的基本思想,将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。,以两个指标为例,信息总量以总方差表示:,主成分分析的基本思想将原来众多具有一定相关性的指标重新组合成,7,其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。,主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事物的一种方法。,其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地,8,主成分分析的几何意义,为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,如果,n个样本点,形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的),但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;,椭圆的长短轴相差得越大,降维越有道理。,在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。,主成分分析的几何意义为了方便,我们在二维空间中讨论主成分的几,9,主成分分析的几何解释,平移、旋转坐标轴,10,主成分分析的几何解释,平移、旋转坐标轴,11,数学模型,定义:记,x,1,,,x,2,,,x,P,为原变量指标,,z,1,,,z,2,,z,m,(,m,p,)为新变量指标,(3.5.2),各主成分的得分,数学模型定义:记x1,x2,xP为原变量指标,z1,z,12,基本步骤,(,1)对原变量的样本数据矩阵进行标准化变换,(2)求标准化数据矩阵的相关系数矩阵R,(3)求R的特征根及相应的特征向量和贡献率等,(4)确定主成分的个数,(5)解释主成分的实际意义和作用,基本步骤,13,具体步骤,(1)、将所获得的P个指标 (每一指标有n个样品)的一批数据写成一个(Pn)维数据矩阵,具体步骤,14,(2)为了消除各个变量量纲之间的差异,对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为:,其中:样本均值,样本标准差,得标准化后的数据矩阵,(2)为了消除各个变量量纲之间的差异,对数据矩阵Y作标准化处,15,(3)、计算样本相关系数矩阵R,其中:,(4)、由下列特征方程式,(I为单位矩阵),可求出R的特征值,再根据求出的特征向量,(3)、计算样本相关系数矩阵R其中:(4)、由下列特征方程式,16,(5)、把标准化后数据矩阵X的行向量 的线性组合,称为主成份,称F1是第一主成份,F2是第二主成份,Fi是第I主成份。,注:求各主成份的关键是求特征根()及其相应的特征向量()。又称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。,(5)、把标准化后数据矩阵X的行向量,17,(6)主成份分析的方差贡献率,要说明主成份的方差贡献率先要说明特征值 的意义,是样本点在其第 i个主成份方向上的方差(分散程度),如果 的值很小,说明样本间在坐标 的方向上分散程度很小,这个主成份在分析样本数据时所起作用不大,可以忽略不计。那么 小到什么程度才认为无足轻重,可以忽略呢?为此引入方差贡献率。,称比值 为第k个主成分 的方差贡献率。,(6)主成份分析的方差贡献率要说明主成份的方差贡献率先要说明,18,为前m个主成分 的累计方差贡献率。,由于 ,所以p个主成分的方差贡献率是依次递减的,这样 对应的第一主成分F1起的作用最大,其次是第二主成分F2。,通常要求作为主成份的特征值 要大于1,各个主成分按累计方差贡献率要达到85%。,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。,为前m个主成分 的累计方,19,软件应用,成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,软件应用 成绩数据(student.s,20,SPSS数据形式,SPSS数据形式,21,主成分分析实例1,不旋转,使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components),菜单:AnalyzeData ReductionFactor,(主成分分析法Principal components,选取特征值1,不旋转),这里的Initial Eigenvalues就是这里的六个主轴长度,即特征值。,主成分分析实例1不旋转使用默认值进行最简单的主成分分析(默,22,怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806,-0.674,-0.675,0.893,0.825,0.836。,怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下,23,如用,x,1,x,2,x,3,x,4,x,5,x,6,分别表示原先的六个变量,而用,y,1,y,2,y,3,y,4,y,5,y,6,表示新的主成分,那么,第一和第二主成分为,这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。,可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。,如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,24,PCA实例2,不同嫌疑人头发中元素的含量(g/g),样品CuMnClBrI,19.20.30 173012.0 3.6,212.40.39 93050.0 2.3,37.20.32 275065.3 3.4,410.20.36 15003.4 5.3,510.10.50 104039.2 1.9,66.50.20 249090.0 4.6,75.60.29 294088.0 5.6,811.80.42 86743.1 1.5,98.50.25 16205.2 6.2,原始数据,X,(95),autoscaling,计算,相关矩阵,计算,特征值,PCA实例2 不同嫌疑人头发中元素的含量(g/g)原,25,模式识别与分类,得分图,主成分图形解释,PCA实例2,3个聚类分属三人,t,1对,t,2作图,经过聚类分析后结果如图所示,模式识别与分类得分图主成分图形解释PCA实例23个聚类分属,26,孙宝发-Negativeimpactofnoiseonthe-生物化学与分子生物学课件,27,模式识别与分类,主成分图形解释,PCA实例2,载荷图,l,1对,l,2作图,载荷大小是重要性的度量位于原点的载荷不重要可用于进行生物标记物的筛选,模式识别与分类主成分图形解释PCA实例2载荷图l1对l2作图,28,PCA is used to simplify the examination of complex metabolite mixtures obtained from biological samples that may be composed of hundreds or thousands of chemical components.,A common concern with PCA of NMR data is the potential over emphasis of small changes in high concentration metabolites that would over-shadow significant and large changes in low-concentration components that may lead to a skewed or irrelevant clustering of the NMR data.We have identified an additional concern,very small and random fluctuations within the noise of the NMR spectrum can also result in large and irrelevant variations in the PCA clustering.Alleviation of this problem is obtained by simply excluding the noise region fromthe PCA by a judicious choice of a threshold above the spectral noise.,29,The success of the application of PCA in the analysis of NMR metabolomic data is intrinsically dependent on the consistency of sample and dat