单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,上节课回顾,3-1 有效数字极其运算规则,一、,有效数字(有效数字的位数),二、修约规则,“四舍六入五成双”,三、计算规则,加减法小数点后位数最少的数字为依据。,乘除法有效位数最少的数字为依据。,1,3-2 分析化学中的误差,绝对误差 相对误差,偏差 平均偏差,相对平均偏差,标准偏差相对标准偏差,平均值中位数,极差(全距),2,3-3 分析化学中的数据处理,第三章 误差及数据处理,3,一、随机误差的正态分布,1、Frequency distribution (,频数分布,),因测量过程中存在随机误差,使测量数据具有分散的特性,但仍具有一定的规律性:具有一定的集中趋势。,分散测量时误差的不可避免,,集中大误差少而小误差多,第三章 误差及数据处理 3-3,4,在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下:,1.60 1.67 1.67 1.64 1.58 1.64 1.67 1.62 1.57 1.60,1.59 1.64 1.74 1.65 1.64 1.61 1.65 1.69 1.64 1.63,1.65 1.70 1.63 1.62 1.70 1.65 1.68 1.66 1.69 1.70,1.70 1.63 1.67 1.70 1.70 1.63 1.57 1.59 1.62 1.60,1.53 1.56 1.58 1.60 1.58 1.59 1.61 1.62 1.55 1.52,1.49 1.56 1.57 1.61 1.61 1.61 1.50 1.53 1.53 1.59,1.66 1.63 1.54 1.66 1.64 1.64 1.64 1.62 1.62 1.65,1.60 1.63 1.62 1.61 1.65 1.61 1.64 1.63 1.54 1.61,1.60 1.64 1.65 1.59 1.58 1.59 1.60 1.67 1.68 1.69,第三章 误差及数据处理 3-3,5,首先视样本容量的大小将所有数据分成若干组:容量大时分为10-20组,容量小时(n20),(3-21),第三章 误差及数据处理 3-3,11,2、正态分布(Normal distribution),根据概率统计理论:,若随机变量是由,为数众多,的,相互独立,的,随机因素,的影响,迭加,而成,且这些随机因素每一个的影响又都表现得,十分微弱,,则这个随机变量表现为,正态分布。,因测定值与测定误差都是随机变量,(,随机因素),,故分析测试中的误差可用正态分布来描述。,第三章 误差及数据处理 3-3,12,正态分布曲线,N,(,),特点:,极大值在,x,=,处,.,拐点在,x,=,处,.,于,x,=,对称,.,4.,x,轴为渐近线,.,y,:概率密度,x,:测量值,:,总体平均值,x,-,:,随机误差,:,总体标准偏差,(3-22),第三章 误差及数据处理 3-3,13,式中,y,表明测定次数趋于无限时,测定值,x,i,出现的概率密度。若以,x,值表示横坐标,,y,值表示纵坐标,就得到测定值的正态分布曲线。曲线的最高点,它对应的横坐标值,即为总体平均值,这就说明了在等精密度的许多测定值中,平均值是出现概率最大的值。,式(3-22)中的,为总体标准偏差,是曲线两侧的拐点之一到直线,x,=,的距离,它表征了测定值的分散程度。标准偏差较小的曲线陡峭,表明测定值位于,附近的概率较大,即测定的精密度高。与此相反,具有较大标准偏差较大的曲线平坦,表明测定值位于,附近的概率较小,即测定的精密度低,。,第三章 误差及数据处理 3-3,14,由图可得,:,x,=,(即误差为零)时y值最大,。说明大多数测量值集中在算术平均值附近,或说算术平均值是最可信赖值。,曲线以,x,=,的直线,呈轴对称分布,,即正、负误差出现概率相等。,x,值趋于,或,(即,x,与,差,很大)时,,曲线以轴为渐近线,,说明小误差出现的概率大而大误差出现的概率小。,值越大,测量值的分布越分散;,越小,测量值越集中,曲线越尖锐。,第三章 误差及数据处理 3-3,15,和,是误差的正态分布的两个重要参数:,说明了数据的集中趋势,表示了数据的离散程度,只要确定了,和,,便确定了分布曲线的图形。故通常把表达式记作用 N(,2,),。并将N(0,1)称为标准正态分布。,第三章 误差及数据处理 3-3,16,相同,,3,2,1,不,相同,,相同,第三章 误差及数据处理 3-3,17,误差(测量值)在某区间出现概率的计算:,(3-23),第三章 误差及数据处理 3-3,18,3、标准正态分布,由于,和,不同时就有不同的正态分布,曲线的形状也随之而变化。为了使用方便,将正态分布曲线的横坐标改用,u(注意不是,),来表示(以为单位表示随机误差),并定义,(3-24),代入(3-22)中得:,由于,第三章 误差及数据处理 3-3,19,故,u,称为标准正态变量。此时式(3-22)就转化成只有变量,u,的函数表达式:,(3-25),经过上述变换,总体平均值为,的任一正态分布均可化为,=0,,2,=1的标准正态分布,以N(0,1)表示。,标准正态分布曲线,是以总体平均值为原点,标准偏差为横座标单位的曲线,。,标准正态分布曲线如图3-4所示,曲线的形状与,和,的大小无关。,第三章 误差及数据处理 3-3,20,图3-4 标准正态分布曲线,第三章 误差及数据处理 3-3,21,4、随机误差的区间概率,正态分布曲线与横坐标之间所夹的总面积,就等于概率密度函数从-至+的积分值。它表示来自同一总体的全部测定值或随机误差在上述区间出现概率的总和为100%,即为1。,(3-26),欲求测定值或随机误差在某区间出现的概率P,可取不同的,u,值对式(3-26)积分求面积而得到。例如随机误差在,区间(,u,=1),即测定值在,区间出现的概率是:,第三章 误差及数据处理 3-3,22,按此法求出不同,u,值时的积分面积,制成相应的概率积分表可供直接查用。,表3-2中列出的面积对应于图中的阴影部分。若区间为|,u,|值,则应将所查得的值乘以2。例如:,随机误差出现的区间 测定值出现的区间 概率,u,=1,x,=,0.34132=0.6826,u,=2,x,=,2 0.47732=0.9546,u,=3,x,=,3 0.49872=0.9974,第三章 误差及数据处理 3-3,23,以上概率值表明,对于测定值总体而言,随机误差在2,范围以外的测定值出现的概率小于0.045,即20次测定中只有1次机会。随机误差超出3,的测定值出现的概率更小。平均1000次测定中只有3次机会。通常测定仅有几次,不可能出现具有这样大误差的测定值。如果一旦发现,从统计学的观点就有理由认为它不是由随机误差所引起,而应当将其舍去,以保证分析结果准确可靠。,第三章 误差及数据处理 3-3,24,表3-2 正态分布概率积分表,|,u,|面积|,u,|面积|,u,|面积,0.0 0.0000 1.1 0.3643 2.2 0.4821,0.1 0.0398 1.2 0.3849 2.2 0.4861,0.2 0.0793 1.3 0.4032 2.3 0.4893,0.3 0.1179 1.4 0.4192 2.4 0.4918,0.4 0.1554 1.5 0.4332 2.5 0.4938,0.5 0.1915 1.6 0.4452 2.58 0.4951,0.6 0.2258 1.7 0.4554 2.6 0.4953,0.7 0.2580 1.8 0.4641 2.7 0.4965,0.8 0.2881 1.9 0.4713 2.8 0.4974,0.9 0.3159,1.96 0.4750,3.0 0.4987,1.0 0.3413 2.0 0.4773 0.5000,第三章 误差及数据处理 3-3,25,概率积分面积表的另一用途是由概率确定误差界限。例如要保证测定值出现的概率为0.95,那么随机误差界限应为1.96。,例1 经过无数次测定并在消除了系统误差的情况下,测得某钢样中磷的质量分数为0.099%。已知=0.002%,问测定值落在区间0.095%-0.103%的概率是多少?,解:根据得,|,u,|=2,由表3-2查得相应的概率为0.4773,则,P(0.095%x0.103%)=0.47732=0.955,第三章 误差及数据处理 3-3,26,例2 对烧结矿样进行150次全铁含量分析,已知结果符合正态分布(0.4695,0.0020,2,)。求大于0.4735的测定值可能出现的次数。,解:,查表,P=0.4773,故在150次测定中大于0.4773的测定值出现的概率为:,0.5000-0.4773=0.0227,1500.02273,第三章 误差及数据处理 3-3,27,(一)、平均标准偏差,如果从同一总体中随机抽出容量相同的数个样本,由此可以得到一系列样本的平均值。实践证明,这些样本平均值也并非完全一致,它们的精密度可以用平均值的标准偏差来衡量。显然,与上述任一样本的各单次测定值相比,这些平均值之间的波动性更小,即平均值的精密度较单次测定值的更高。,二、总体平均值的估计,第三章 误差及数据处理 3-3,28,因此,,,在实际工作中,,,常用样本的平均值 对总体平均值进行估计。统计学证明,平均值的标准偏差 与单次测定值的标准偏差之间有下述关系。,(,n,),(3-27b),对于有限次的测定则有:,(3-27a),第三章 误差及数据处理 3-3,29,式中 称样本平均值的标准偏差。由以上两式可以看出,平均值的标准偏差与测定次数的平方根成反比。因此增加测定次数可以减小随机误差的影响,提高测定的精密度。,第三章 误差及数据处理 3-3,30,(二)、,有限测定数据的统计处理,置信度与,的置信区间,日常分析中测定次数是很有限的,总体平均值自然不为人所知。但是随机误差的分布规律表明,测定值总是在以,为中心的一定范围内波动,并有着向,集中的趋势。因此,如何根据有限的测定结果来估计,可能存在的范围(称之为置信区间)是有实际意义的。该范围愈小,说明测定值与,愈接近,即测定的准确度愈高。但由于测定次数毕竟较少,由此计算出的置信区间也不可能以百分之百的把握将,包含在内,只能以一定的概率进行判断。,第三章 误差及数据处理 3-3,31,1、已知总体标准偏差,时,对于经常进行测定的某种试样,由于已经积累了大量的测定数据,可以认为,是已知的。根据(3-24)式并考虑u的符号可得:,(3-24a),由随机误差的区间概率可知,测定值出现的概率由u决定。例如,当u=1.96时。,x,在,-1.96至,+1.96,区间出现的概率为0.95。如果希望用单次测定值,x,来估计,可能存在的范围,则可以认为区间,x,1.96,能以0.95的概率将真值包含在内。即有,(3-30),第三章 误差及数据处理 3-3,32,由于平均值较单次测定值的精密度更高,因此常用样本平均值来估计真值所在的范围。此时有,式(3-30)和式(3-31)分别表示在一定的置信度时,以单次测定值,x,或以平均值为中心的包含真值的取值范围,即,的置信区间。在置信区间内包含,的概率称为置信度,它表明了人们对所作的判断有把握的程度,用P表示。,u,值可由表3-2中查到,它与一定的置信度相对应。,(3-31),第三章 误差及数据处理 3-3,33,在对真值进行区间估计时,置信度的高低要定得恰当。一般以95%或90%的把握即可。,式(3-30)和式(3-31)还可以看出置信区间的大小取决于测定的精密度和对置信度的选择,对于平均值来说还与测定的次数有关。当,一定时,置信度定得愈大,,u,值愈大,过大的置信区间将使其失去实用意义。若将置信度固定,当测定的精密度越高和测定次数越多时,置信区间越小,表明