,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,第2章 数据的组织与表达,Arrangement and Presentation of Data,Section 2.1Data and Data Type,数据与数据类型,一、原始数据的组织,资料以电子表格(,spreadsheet),方式记录。,包括个体(,Individual):,一笔数据所描述的对象(,object)。,电子表格中输入在一行。,及变量(,Variable):,描述任何一个个体的特征,一个变量对不同的个体取不同的数值(,value)。,电子表格中输入在一列。,(一)数量性状资料,数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。,1.,不连续性或间断性变数,(discontinuous or discrete variable),指用计数方法获得的数据,。,2.,连续性变数,(continuous variable),指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。,二、试验资料的性质与分类,(二)质量性状资料,质量性状(qualitative trait),指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:,统计次数法,于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。,2.,给分法,给予每类性状以相对数量的方法,二、试验资料的性质与分类,Section 2.2次数分布表,表1 100个麦穗的每穗小穗数,18,15,17,19,16,15,20,18,19,17,17,18,17,16,18,20,19,17,16,18,17,16,17,19,18,18,17,17,17,18,18,15,16,18,18,18,17,20,19,18,17,19,15,17,17,17,16,17,18,18,17,19,19,17,19,17,18,16,18,17,17,19,16,16,17,17,17,15,17,16,18,19,18,18,19,19,20,17,16,19,18,17,18,20,19,16,18,19,17,16,15,16,18,17,18,17,17,16,19,17,一、间断性变数资料的整理,每穗小穗数(,y,),次数(,f,),15,6,16,15,17,32,18,25,19,17,20,5,总次数(,n,),100,表,2 100,个麦穗每穗小,穗数的次数分布表,从表,2,中看到,一堆杂乱的原始资料表,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,每穗小穗数在,1520,的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为,6,组,组与组间相差为,1,小穗,称为,组距,。这样可得表,2,形式的次数分布表。,一、间断性变数资料的整理,二、连续性变数资料的整理,177,215,197,97,123,159,245,119,119,131,149,152,167,104,161,214,125,175,219,118,192,176,175,95,136,199,116,165,214,95,158,83,137,80,138,151,187,126,196,134,206,137,98,97,129,143,179,174,159,165,136,108,101,141,148,168,163,176,102,194,145,173,75,130,149,150,161,155,111,158,131,189,91,142,140,154,152,163,123,205,149,155,131,209,183,97,119,181,149,187,131,215,111,186,118,150,155,197,116,254,239,160,172,179,151,198,124,179,135,184,168,169,173,181,188,211,197,175,122,151,171,166,175,143,190,213,192,231,163,159,158,159,177,147,194,227,141,169,124,159,表3 140行水稻产量(单位:克),具体步骤:,1.,数据排序(sort),首先对数据按从小到大排列(升序)或从大到小排列(降序)。,2.,求极差(range),所有数据中的最大观察值和最小观察值的差数,称为,极差,,亦即整个样本的变异幅度。从表,3,中查到最大观察值为,254g,,最小观察值为,75g,,极差为,254,75=179g,。,二、连续性变数资料的整理,3.,确定组数和,组,组距(classinterval),根据极差分,为,为若干组,,每,每组的距离,相,相等,称为,组距,。在确定组数,和,和组距时应,考,考虑:,(1)观察,值,值个数的多,少,少;,(2)极差,的,的大小;,(3)便于,计,计算;,(4)能反,映,映出资料的,真,真实面貌等,方,方面。,样本大小(,即,即样本内包,含,含观察值的,个,个数的多少)与组数多,少,少的关系可,参,参照表4来,确,确定。,二、连,续,续性变数资,料,料的整理,表4样本,容,容量与组数,多,多少的关系,样本内观察值的个数,分组时的组数,50,510,100,816,200,1020,300,1224,500,1530,1000,2040,组数确定后,,,,还须确定,组,组距。组距=极差/组,数,数。以表,3,中,140,行水稻产量,为,为例,样本,内,内观察值的,个,个数为,140,,查表4可,分,分为,816,组,假定分,为,为,12,组,,则组距为,179/12=14.9g,,为分组方,便,便起见,可,以,以,15g,作为组距。,二、连,续,续性变数资,料,料的整理,4.,选定组限(class limit)和,组,组中点值(,组,组值,classvalue),以表,3,中,140,行水稻产量,为,为例,选定,第,第一组的中,点,点值为,75g,,与最小观,察,察值,75g,相等;则第,二,二组的中点,值,值为,75+15=90g,,余类推。,各组的中点,值,值选定后,,就,就可以求得,各,各组组限。,每,每组有两个,组,组限,数值,小,小的称为,下限(lowerlimit),,数值大的,称,称为,上限(upperlimit),。上述资料,中,中,第一组,的,的下限为该,组,组中点值减,去,去,1/2,组距,即,75,(15/2)=67.5g,,上限为中,点,点值加,1/2,组距,即,75+(15/2)=82.5g,。故第一组,的,的组限为,67.582.5g,。按照此法,计,计算其余各,组,组的组限。,二、连,续,续性变数资,料,料的整理,5.,把原始资料,的,的各个观察,值,值按分组数,列,列的各组组,限,限归组,可按原始资,料,料中各观察,值,值的次序,,逐,逐个把数值,归,归于各组。,待全部观察,值,值归组后,,即,即可求得各,组,组的次数,,制,制成一个次,数,数分布表。,例如表,3,中第一个观,察,察值,177,应归于表5,中,中第,8,组,组限为,172.5,187.5,;第二个观,察,察值,149,应归于第,6,组,组限为,142.5,157.5,;,。,。,依,依,次,次,把,把,140,个,观,观,察,察,值,值,都,都,进,进,行,行,归,归,组,组,,,,,即,即,可,可,制,制,成,成,140,行,水,水,稻,稻,产,产,量,量,的,的,次,次,数,数,分,分,布,布,表,表(,表,表5),。,。,二,、,、,连,连,续,续,性,性,变,变,数,数,资,资,料,料,的,的,整,整,理,理,表5140,行,行,水,水,稻,稻,的,的,次,次,数,数,分,分,布,布,组 限,中点值(,y,),次数(,f,),67.5 82.5,75,2,82.5 97.5,90,7,97.5112.5,105,7,112.5127.5,120,13,127.5142.5,135,17,142.5157.5,150,20,157.5172.5,165,25,172.5187.5,180,21,187.5202.5,195,13,202.5217.5,210,9,217.5232.5,225,3,232.5247.5,240,2,247.5262.5,255,1,合计(,n,),140,注,:前,面,面,提,提,到,到,分,分,为,为,12,组,,,,,但,但,由,由,于,于,第,第,一,一,组,组,的,的,中,中,点,点,值,值,接,接,近,近,于,于,最,最,小,小,观,观,察,察,值,值,,,,,故,故,第,第,一,一,组,组,的,的,下,下,限,限,小,小,于,于,最,最,小,小,观,观,察,察,值,值,,,,,实,实,际,际,上,上,差,差,不,不,多,多,增,增,加,加,了,了,1/2,组,;,;,这,这,样,样,也,也,使,使,最,最,后,后,一,一,组,组,的,的,中,中,点,点,值,值,接,接,近,近,于,于,最,最,大,大,值,值,,,,,又,又,增,增,加,加,了,了,1/2,组,,,,,故,故,实,实,际,际,的,的,组,组,数,数,比,比,原,原,来,来,确,确,定,定,的,的,要,要,多,多,一,一,个,个,组,组,,,,,为,为,13,组,。,。,二,、,、,连,连,续,续,性,性,变,变,数,数,资,资,料,料,的,的,整,整,理,理,三,、,、,属,属,性,性,变,变,数,数,资,资,料,料,的,的,整,整,理,理,属性变,数,数的资,料,料,也,可,可以用,类,类似次,数,数分布,的,的方法,来,来整理,。,。,在整理,前,前,把,资,资料按,各,各种质,量,量性状,进,进行分,类,类,分,类,类数等,于,于组数,,,,,然后根,据,据各个,体,体在质,量,量属性,上,上的具,体,体表现,,,,分别,归,归入相,应,应的组,中,中,,即可得,到,到属性,分,分布的,规,规律性,认,认识。,例如,,某,某水稻,杂,杂种第,二,二代植,株,株,米粒性,状,状的分,离,离情况,,,,归于,表,表6。,表6,水,水稻杂,种,种二代,植,植株,米粒性,状,状的分,离,离情况,属性分组(,y,),次数(,f,),红米非糯,96,红米糯稻,37,白米非糯,31,白米糯稻,15,合计(,n,),179,Section 2.3,次,次数,分,分布图,一、,方,方柱形,图,图,方柱形,图,图(histogram),适用于,表,表示连,续,续性变,数,数的次,数,数分布,。,。,现以表,3,的,140,行水稻,产,产量的,次,次数分,布,布表为,例,例加以,说,说明。,即,即成方,柱,柱形次,数,数分布,图,图,1,。,图1 140行水稻产量次数分布方柱形图,二、多,边,边形图,多边形,图,图(polygon),也是表,示,示连续,性,性变数,资,资料的,一,一种普,通,通的方,法,法,且,在,在同一,图,图上可,比,比较两,组,组以上,的,的资料,。,。,仍以,140,行水稻,产,产量次,数,数分布,为,为例,,所,所成图,形,形即为,次,次数多,边,边形图(图,2,)。,图2 140行水稻产量次数分布多边形图,三、,条,条形,图,图,条形图(bar),适用于,间,间断性,变,变数和,属,属性变,数,数资料,,,,用以,表,表示这,些,些变数,的,的次数,分,分布状,况,况。一,般,般其横,轴,轴标出,间,间断的,中,中点值,或,或