单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,用样本数字特性预计,总体数字特性,(第一学时),第1页,第1页,一、众数、中位数、平均数,1、,众数,在一组数据中,出现次数最多数据叫做这一组数据众数。,2,、,中位数,将一组数据按大小依次排列,把处于最中间位置一个数据(或两个数据平均数)叫做这组数据中位数。,3、,平均数,(1),x=1/n(x,1,+x,2,+x,n,),第2页,第2页,练习,:在一次中学生田径运动会上,参与男子跳高17名运动员成绩下列表所表示:,成绩,(单位:米),1.50,1.60,1.65,1.70,1.75,1.80,1.85,1.90,人数,2,3,2,3,4,1,1,1,分别求这些运动员成绩众数,中位数与平均数,第3页,第3页,解:在17个数据中,1.75出现了4次,出现次数最多,即这组数据众数是1.75,上面表里17个数据可当作是按从小到大顺序排列,其中第9个数据1.70是最中间一个数据,即这组数据中位数是1.70;,这组数据平均数是,答:17名运动员成绩众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).,第4页,第4页,二、众数、中位数、平均数与频率分布直方图关系,1、,众数在样本数据频率分布直方图中,就是最高矩形中点横坐标。,比如,在上一节调查100位居民月均用水量问题中,从这些样本数据频率分布直方图能够看出,月均用水量众数是2.25t.如图所表示:,第5页,第5页,频率分布直方图下列,:,月均用水量/t,频率,组距,0.10,0.20,0.30,0.40,0.50,0.5,1,1.5,2,2.5,3,3.5,4,4.5,第6页,第6页,2、,在样本中,有50个体小于或等于中位数,也有50个体不小于或等于中位数,,因此,,在频率分布直方图中,中位数左边和右边直方图面积应当相等,,由此能够预计中位数值。下图中虚线代表居民月均用水量中位数预计值,此数据值为2.02t.,月均用水量/t,频率,组距,0.10,0.20,0.30,0.40,0.50,0.5,1,1.5,2,2.5,3,3.5,4,4.5,第7页,第7页,说明:,2.03这个中位数预计值,与样本中位数值2.0不同,这是因为样本数据频率分布直方图,只是直观地表明分布形状,不过从直方图本身得不出原始数据内容,因此由频率分布直方图得到中位数预计值往往与样本实际中位数值不一致.,第8页,第8页,3.能够从频率分布直方图中预计平均数,平均数是频率分布直方图中每个小矩形面积乘以小矩形底边中点横坐标之和,月均用水量/t,频率,组距,0.10,0.20,0.30,0.40,0.50,0.5,1,1.5,2,2.5,3,3.5,4,4.5,第9页,第9页,0.250.04+0.750.08+1.250.15+1.750.22+2.250.25+2.750.14+3.25 0.06+3.750.04+4.250.02=2.02(t).,平均数是2.02.,平均数与中位数相等,是必定还是巧合?,0.25,0.75,1.25,1.75,2.25,,2.75,3.25,3.75,4.25.,第10页,第10页,频率分布直方图下列,:,月均用水量/t,频率,组距,0.10,0.20,0.30,0.40,0.50,0.5,1,1.5,2,2.5,3,3.5,4,4.5,第11页,第11页,三 三种数字特性优缺点,1、众数表达了样本数据最大集中点,但它对其它数据信息忽略使得无法客观地反应总体特性.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t居民数比月均用水量为其它数值居民数多,但它并没有告诉我们多多少.,第12页,第12页,2、中位数是样本数据所占频率等分线,它不受少数几种极端值影响,这在一些情况下是长处,但它对极端值不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽略。,第13页,第13页,3、由于平均数与每一个样本数据相关,因此任何一个样本数据改变都会引起平均数改变,这是众数、中位数都不含有性质。也正因如此,与众数、中位数比较起来,平均数能够反应出更多关于样本数据全体信息,但平均数受数据中极端值影响较大,使平均数在预计时可靠性减少。,第14页,第14页,样本众数、中位数和平均数惯用来表示样本数据“中心值”,其中众数和中位数容易计算,不受少数几种极端值影响,但只能表示样本数据中少许信息.平均数代表了数据更多信息,但受样本中每个数据影响,越极端数据对平均数影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据中心位置,也许与实际情况产生较大误差,难以反应样本数据实际情况,因此,我们需要一个统计数字刻画样本数据离散程度.,第15页,第15页,思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中环数下列:,甲:7 8 7 9 5 4 9 10 7 4,乙:9 5 7 8 7 6 8 6 7 7,甲、乙两人本次射击平均成绩分别为多少环?,第16页,第16页,甲、乙两人射击平均成绩相等,观测两人成绩频率分布条形图,你能阐明其水平差别在那里吗?,环数,频率,0.4,0.3,0.2,0.1,4 5 6 7 8 9 10,O,(甲),环数,频率,0.4,0.3,0.2,0.1,4 5 6 7 8 9 10,O,(乙),甲成绩比较分散,极差较大,乙成绩相对集中,比较稳定.,第17页,第17页,对于样本数据x,1,,x,2,,x,n,,设想通过各数据到其平均数平均距离来反应样本数据分散程度,那么这个平均距离如何计算?,第18页,第18页,反应样本数据分散程度大小,最惯用统计量是原则差,普通用s表示.假设样本数据x,1,,x,2,,x,n,平均数为,则原则差计算公式是:,那么原则差取值范围是什么?原则差为0样本数据有何特点?,s0,原则差为0样本数据都相等.,第19页,第19页,思考5:对于一个容量为2样本:x,1,,,x,2,(x,1,x,2,),则 ,在数轴上,这两个统计数据有什么几何意义?由此阐明原则差大小对数据离散程度有何影响?,原则差越大离散程度越大,数据较分散;原则差越小离散程度越小,数据较集中在平均数周围.,第20页,第20页,s,甲,=2,s,乙,=1.095.,计算甲、乙两名运动员射击成绩原则差,比较其射击水平稳定性.,甲:7 8 7 9 5 4 9 10 7 4,乙:9 5 7 8 7 6 8 6 7 7,第21页,第21页,例题分析,例1 画出下列四组样本数据条形图,,阐明他们异同点.,(1),;,(2),;,O,频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,(1),O,频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,(2),第22页,第22页,(3),;,(4),.,频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,O,(3),频率,1.0,0.8,0.6,0.4,0.2,1 2 3 4 5 6 7 8,O,(4),第23页,第23页,例2 甲、乙两人同时生产内径为25.40mm一个零件,为了对两人生产质量进行评选,从他们生产零件中各随机抽取20件,量得其内径尺寸下列(单位:mm):,甲:,25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39,乙:,25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48,从生产零件内径尺寸看,谁生产零件质量较高?,第24页,第24页,甲生产零件内径更靠近内径原则,且稳定程度较高,故甲生产零件质量较高.,阐明:1.生产质量能够从总体平均数与原则差两个角度来衡量,但甲、乙两个总体平均数与原则差都是不知道,我们就用样本平均数与原则差预计总体平均数与原则差.,2.问题中25.40mm是内径原则值,而不是总体平均数.,第25页,第25页,第26页,第26页,第27页,第27页,第28页,第28页,第29页,第29页,第30页,第30页,