单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物统计学总复习,2021-06-29,一、什么是统计学,Statistics,?,统计学是收集、分析、表述和解释统计数据的科学。统计学是关于数据的科学。,资料的,收集,就是取得统计数据。,数据整理,是将数据分组、归纳和汇总并将其用图表的形式表达出来。,数据分析,是通过统计方法研究数据,并结合实际背景阐述实际问题的特征的过程。,数据解释,是对分析结果进行说明。,统计学分为,描述统计学,和,推断统计学,。,反映客观现象的数据,总体内在的数量规律性,推断统计,(利用样本信息和概率论对总体的数量特征进行估计和检验等),概率论,(包括分布理论、大数定律和中心极限定理等),描述统计,(统计数据的搜集、整理、显示和分析等),总体数据,样本数据,描述统计与推断统计的关系,几个根本概念,总体(population)、个体individual与样本(sample),总体N:一个统计问题所研究对象的全体,有限总体:一个班级学生的身高,无限总体:临床试验中来推断某一药品疗效高、某一棉田棉铃虫的头数,个体:组成总体的每一根本单元,样本n:从总体中抽取的局部个体,用于对总体进行推断n30,小样本;n30,大样本,通过某事物的一局部样本,来估计事物的全部总体特征,J,J,J,J,J,J,J,几个根本概念续,几个根本概念续,变量(variable)与观测值(observation),变量变数:相同性质的事物表现差异性的某种特征,其表现随个体而异,身高、体重、叶绿素含量、叶片形状,随机变量:变量取值的变化是不可预测的,变量通常记为:x,y,z,,观测值:对变量进行测量或观察所获得的数值,观测值也称为:变量值value of variables、资料/数据data,二、均值和方差,:第i个观察值或变数,n:观察值或变数的个数,:求和符号sigma,计算公式:,标准差和方差,总体方差和总体标准差,样本方差和样本标准差,三、概率与概率分布,概率分布,-,几个概念,概率函数(probability function),随机变量取某一特定值的概率函数离散型随机变量,二项分布对立事件和泊松分布(出现概率较小,样本容量大),概率密度函数(probability density function),随机变量取某一特定值的密度函数连续型随机变量,概率分布函数(probability distribution function),随机变量取值小于或等于某特定值的概率,离散型随机变量的概率分布,概率分布图,概率分布函数,累积函数,密度函数,连续型随机变量的密度函数及概率分布函数,x=,某一特定值时,,P=0,13,假设n,二项分布连接线表现为一个光滑的曲线。,这一曲线称之为正态分布曲线或正态概率曲线。其概率密度函数为:,记做:,N,(,2,),14,由于正态曲线受和的制约,曲线随这两个参数的变化而改变。,构造一个新变数,这个变数要消去和的影响。假定新变数用u来表示,那么:,标准正态分布的概率密度函数,u,变换,标准正态分布,u,服从均数为,0,、标准差为,1,的正态分布,16,原总体,样本,1,样本,2,样本,n,新总体,n,统计量,如果沉着量为N的总体抽样放回,假设每次抽取容量为n的样本,那么一共可以得到Nn个样本。,每个样本可以计算一个平均数,如果将这些平均数集合起来便构成一个新总体。,由于每次随机抽样所得的平均数可能会存在差异,所以由平均数构成的新总体也应该有其分布,这种分布称为平均数的抽样分布。,样本均值的抽样分布,1,、样本平均数的期望值,由于不同的样本可得到不同的样本均值,因此,考察样本均值的期望就显得非常重要。,用 表示样本均值的期望值,表示总体均值,可证明在简单随机抽样中。,2.,样本平均数的标准差,称为,标准误,。,t,分布,当总体标准差,未知时,且样本数小于,30,时,以样本标准差,S,代替,所得到的统计量 记为,t,。在计算时,由于采用,S,来代替,,使得,t,变量不再服从标准正态分布,而是服从,t,分布,服从自由度为,n,-1,的,t,分布,2、t分布密度曲线以纵轴为对称轴,左右对称,且在t0时,分布密度函数取得最大值,3、与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平.df越小这种趋势越明显.df越大,t分布越趋近于标准正态分布.当n 30时,t分布与标准正态分布的区别很小;n 100时,t分布根本与标准正态分布相同;n时,t分布与标准正态分布完全一致,正态分布曲线与t分布曲线的比较,t,分布的特征,1,、,t,分布受自由度,df=n-1,的制约,每一个自由度都有一条,t,分布密度曲线,分布,设从一正态总体 中随机抽取样本容量为n,m的两个独立样本,其样本的方差为 ,那么定义 两者的比值为F:,服从自由度为,n-1,m-1,的,F,分布,F,分布特征,1)F,分布的平均数,1,,,F,的取值区间为,0,,,+),2)F,分布曲线的形状仅决定于,df,1,和,df,2,.,在,df,1,l,或,2,时,F,分布曲线呈严重倾斜的反向,J,型,当,df1=3,时转为左偏曲线,(,在平均值的左边,),不同自由度下的,F,分布曲线,四、统计推断,统,计,推,断,由一个样,本或一糸,列样本所,得的结果,来推断总,体的特征,假设检验,参数估计,原理:概率很小的事件在,一次,抽样试验,中实际是几乎不可能发生的。,=0.05/0.01,假设检验Hypothesis,如何进行检验:,样本,平均数,总体,均数,推断,样本,随机抽样,总体,1,、提出假设,无效假设,/,零假设,/,检验假设,备择假设,/,对应假设,0,0,误差,效应,处理,效应,H,0,H,A,2,、确定显著水平,0.05,显著水平,*,极显著水平,*,能否认H0的人为规定的概率标准称为显著水平,记作。,统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理根底上建立的假设检验也常取=0.05和=0.01两个显著水平。,P1.581)=20.0571=0.1142,根据研究设计的类型和统计推断的目的选择使用不同的检验方法。,本例:服从,N(,x,x,2,),分布。,例:,4,、作出推断结论:是否接受假设,P,P30,时,可用样本方差,s,2,来代替,总体方差,2,,仍用,u,检验法。,3,、总体方差,2,未知,且,n30且n230时,用u检验法。,2,、两个总体方差,1,2,和,2,2,未知,且两个样本都是小样本,即,n,1,30,且,n,2,30,时,用,t,检验法,。,成组数据平均数的比较-应用情景,成对数据平均数的比较,略,所谓方差的同质性,就是指各个总体的方差是相同的。,方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同,方差的同质性检验,五、方差分析,t,检验可以判断两组数据平均数间的差异显著性,对多个处理进行平均数差异显著性检验时,采用,t,检验法的缺点:,方差:又叫均方,是标准差的平方,是表示变异的量。,确定各种原因在总变异中所占的重要程度。,处理效应,试验误差,相差不大,说明试验处理对指标影响不大。,相差较大,即处理效应比试验误差大得多,说明试验处理影响是很大的,不可无视。,x,ij,=,+,i,+,ij,(i=1,2,3,k,;,j=1,2,3,n),总体平均数,i,处理效应,ij,试验误差,x,ij,是在第,i,次处理下的第,j,次观测值,多重比较multiple comparisons,要明确不同处理平均数两两间差异的显著性,每个处理的平均数都要与其他的处理进行比较,这种差异显著性的检验就叫多重比较。,即:统计上把多个平均数两两间的相互比较称为多重比较。,概念,五、多重比较,多重比较方法较多multiple comparisons,不同离子,对木聚糖,酶活性,的影响,(mg/ml),0.00,0.25,0.50,0.75,1.00,1.25,0.00,0.06,0.12,0.18,0.24,0.30,0.00,0.40,0.80,1.20,1.60,2.00,0.00,0.40,0.60,0.80,1.00,1.20,Na,+,K,+,Cu,2+,Mn,2+,水平,实验指标,因素,*,对,多因素试验,而言,,处理就是指水平与水平的组合,定义,:是指对,试验指标,同时受到两个试验,因素,作用的试验资料的方差分析。,二因素都是固定因素,二因素均为随机因素,固定模型,随机模型,混合模型,一个因素是固定因素,一个因素是随机因素,二因素方差分析,三种模型在计算上类似,但在对待检验及结果解释时有所不同,。,主效应和互作,主效应main effect:,各试验因素的相对独立作用不同饲料的增重差异,不同品种玉米产量不同,互作、交互interaction:,某一因素在另一因素的不同水平上所产生的效应不同。,方差分析的根本假定,正态性,可加性,方差同质性,二因素方差分析,六、回归与相关的概念,相,关,变,量,因果关系,平行关系,回归分析,(regression analysis),相关分析,(correlation analysis),一个变量的变化,受到,另一个变量或几个变量的,制约,两个以上变量之间,共同受到,另外因素的,影响,(,一,),、直线回归的变异来源,(x,y),实际值与估计值之差,剩余或残差。,估计值与均值之差,它与回归系数的大小有关。,因变量,y,的平方和,总平方和,,SS,T,或,SS,总,回归平方和,U/SS,R,离回归平方和,Q/SS,E,变异分解,两个变量是否存在线性关系,采用F检验法进行。也以采用t检验法进行需分别检验a、b值。,假设x与y间不存在直线关系,那么总体回归系数=0;,假设x与y间存在直线关系,那么总体回归系数0.,F值较大时,说明方程的变异主要有回归平方和U造成,方程成立。,t,检验法,F,检验法,回归方差,离回归方差,=F,直线回归的,适应范围,一般以自变量的,取值为限,。,直线回归注意问题,在自变量范围内求出的估计值,一般称为内插,(interpolation);,超过自变量取值范围所计算出的估计值,称为外延,(extrapolation),。,假设无充分理由证明超过自变量取值范围还是直线,应该防止外延。,决定系数,coefficient of determination,变量,x,引起,y,变异的回归平方和占,y,总变异平方和的比率,