单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,正态分布,Normal Distribution,Medical Statistics,医学统计学 第三讲,变量和随机变量,变量取值的相对频率说明了具有某个性质的观察对象的出现的可能性。,随机变量,离散型:性别、血型、子女数、事故数,连续型:身高、体重,2,分布函数和概率密度函数,3,密度函数,分布函数,分布函数和概率密度函数,4,x,随机变量的概率分布,概率函数,(,Probability Function),,或者说概率密度函数,(,Probability Density Function),、密度函数。,在统计学中,我们说变量具有分布函数,(Distribution Function),。用此函数的大小来说明变量取,某些值,的可能性。,当变量的取值包括了所有可能的取值时,分布函数为,1,。,当变量具备了以上两个函数之后,称它具有某种分布,(,Distribution),。,正态分布的概念及图形,6,(,a,),(,b,),(,d,),(,c,),正态分布的定义,如果随机变量,X,的概率密度函数为,则称,X,服从,正态分布,(,normal distribution,),记作,X,N,(,2,),为分布的均数,,为分布的标准差。,7,(-,X,+),正态分布的图形,8,Gauss,简介,9,约翰卡尔弗里德里希高斯(,Carl Friedrich Gauss,,1777年4月30日1855年2月23日),德国著名数学家、物理学家、天文学家、大地测量学家,生于布伦瑞克,卒于哥廷根。,高斯被认为是历史上最重要的数学家之一,,被称为“数学王子”。他的主要著作包括:,1799年:关于代数基本定理的博士论文,1801年:算术研究,1809年:天体运动论,1827年:曲面的一般研究,1843-1844年:高等大地测量学理论(上),1846-1847年:高等大地测量学理论(下),Gauss,和正态分布,10,主要内容,正态分布的定义,正态分布的特征,标准正态分布,正态分布的应用,11,正态分布的特征,(I),正态分布是单峰分布,高峰位置在均数,X,=,处,总体中位数亦为,;,正态分布以均数为中心,左右完全对称;,正态分布取决于两个参数,:,均数,和标准差,;,为位置参数,;,为形态参数。,12,正态分布的位置参数,13,3,1,2,正态分布的形状参数,2,1,3,正态分布的特征,(II),有些指标本身不服从正态分布,但通过适当的变换,(,transformation,),后服从正态分布,;,例,:,对数正态分布,(,log-normal distribution,),15,正态分布的特征,(III),正态分布曲线下的面积分布是有规律的,;,正态分布曲线下总面积为,1,或者,100%,;,曲线下对称于,的区间,面积相等,。,16,对称区域面积相等,17,S(-,-,x,),S(,+,x,),S(-,-,X,),对称区域面积相等,18,S(,-,x,1,-,x,2,),-,x,1,-,x,2,+,x,2,+,x,1,S(,-,x,1,-,x,2,)=S(,+,x,1,+,x,2,),主要内容,正态分布的定义,正态分布的特征,标准正态分布,正态分布的应用,19,正态分布的曲线下面积规律,20,-4 -3 -2 -1 0 1 2 3 4,-3 -2 -+2 +3,S,(-,-3,)=0.0013,S,(-,-2,)=0.0228,S,(-,-1,)=0.1587,S,(-,)=0.5,S,(-,+3,)=0.9987,S,(-,+2,)=0.9772,S,(-,+1,)=0.8413,S,(-,)=1,正态分布的曲线下面积规律,21,-4 -3 -2 -1 0 1 2 3 4,-3 -2 -+2 +3,S,(-,-3,)=0.0013,S,(-,-2,)=0.0228,S,(-,-1,)=0.1587,S,(-,)=0.5,S,(-,+3,)=0.9987,S,(-,+2,)=0.9772,S,(-,+1,)=0.8413,S,(-,)=1,正态分布的曲线下面积规律,2,3,1,X,2,=,-,2,X,2,X,1,=,-,1,X,1,X,3,=,-,3,X,3,0.1587,0.1587,0.1587,S,(-,2-1.101.5,),?,S,(-,2-1.11.5,),2,S,(-,-,1.10,),0,标准正态分布,要求,解,某正态分布,N,(,2,),的曲线下面积,,可通过,公式,将,其转换到,标准正态分布,N,(0,1),求解。,标准正态分布的概率密度函数为,24,标准正态分布曲线下面积,(,u,),25,u,0.00 0.02 0.04 0.06 0.08,-3.0,0.0013 0.0013 0.0012 0.0011 0.0010,-2.5,0.0062 0.0059 0.0055 0.0052 0.0049,-2.0,0.0228 0.0217 0.0207 0.0197 0.0188,-1.9,0.0287 0.0274 0.0262 0.0250 0.0239,-1.6,0.0548 0.0526 0.0505 0.0485 0.0465,-1.0,0.1587 0.1539 0.1492 0.1446 0.1401,-0.5,0.3085 0.3015 0.2946 0.2877 0.2810,0,0.5000 0.4920 0.4840 0.4761 0.4681,0,u,常用正态分布的曲线下面积及界值,-1.96,+1.96,2.5%,2.5%,95%,常用正态分布的曲线下面积及界值,-1.64,+1.64,5%,5%,90%,常用正态分布的曲线下面积及界值,-2.58,+2.58,0.5%,0.5%,99%,主要内容,正态分布的定义,正态分布的特征,标准正态分布,正态分布的应用,29,应用:估计频数分布,出生体重低于,2500(g),为低体重儿,某市婴儿出生体重均数,3200(g),,标准差为,350(g),。设该资料服从正态分布,试求该地低体重儿占该地所有出生婴儿的比例。,根据标准正态离差公式,查表得其对应的下侧尾部面积为,2.28%,。即该地低出生体重儿占所有出生婴儿的,2.28%,。,30,应用:估计参考值范围,参考值范围,(,reference interval,),又称,正常值范围,(,normal range,),,是指绝大多数正常人某项指标的波动范围。,参考值范围是临床医生判断正常与异常的参考依据,。,31,参考值范围确定的原则,(I),选定足够多例数同质的,正常人,作为研究对象;,若资料中存在异质性,须考虑分组计算正常值范围;,根据专业知识判断参考值范围取单侧还是双侧界值;,统一测量标准,严格控制测量误差;,32,参考值范围确定的原则,(II),综合考虑研究目的、指标性质等合理选择百分界值;,根据资料分布特征选择合理的参考值范围计算方法。,33,正常人和病人间存在重叠,34,正常人,病人,假阳性率,假阴性率,正常人和病人间存在重叠,正常人,病人,假阴性率,正常人和病人间存在重叠,36,正常人,病人,假阴性率,参考值范围计算方法,:正态分布法,37,参考值范围,双侧,单侧,90%,低,侧,高,侧,95%,低,侧,高,侧,99%,低,侧,高,侧,参考值范围计算方法,:百分位数法,38,参考值范围,双侧,单侧,90%,P,5,P,95,低,侧,P,10,高,侧,P,90,95%,P,2.5,P,97.5,低,侧,P,5,高,侧,P,95,99%,P,0.5,P,99.5,低,侧,P,1,高,侧,P,99,参考值范围,实例,某地调查了,200,名成年女子的平均血清总蛋白为,73.5(g/L),,标准差,3.9(g/L),,试估计该地成年女子血清总蛋白,95,的参考值范围。,参考值范围应为双侧范围。用正态分布法求,95%,参考值范围的上、下界限:,此范围可用以判断该地区成年女性血清总蛋白正常与否。,39,小结,正态分布是医学研究中最重要的分布之一。正态分布,N,(,2,),以,为中心,左右对称,,决定了正态分布的形状。,正态分布的曲线下面积可以通过标准正态分布曲线下面积表得到。,绝大多数正常人某项指标的波动范围称为参考值范围。参考值范围的计算方法包括正态分布法和百分位数法,可根据资料的分布特征选择。,40,Thank You,Zhao Yang,PhD,Department of Epidemiology and Biostatistics,School of Public Health,Nanjing Medical University,Email:,41,