单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第五讲 数据统计分析以及 概率模型,1 MATLAB中统计工具箱中的基本统计命令,2 概率模型,11/17/2024,1,第五讲 数据统计分析以及 概率模型1 MATL,一 MATLAB中统计工具箱中的基本统计命令,1.数据的录入、保存和调用,2.基本统计量,3.,常见的概率分布函数,4.,频 数 直 方 图 的 描 绘,5.参数估计,6.假设检验,7.综合实例,返回,11/17/2024,2,一 MATLAB中统计工具箱中的基本统计命令1.数据的录,一、数据的录入、保存和调用,例1,上海市区社会商品零售总额和全民所有制职工工资总额的数据如下:,统计工具箱中的基本统计命令,11/17/2024,3,一、数据的录入、保存和调用 例1 上海市区社会,1,年份数据以1为增量,用产生向量的方法输入.,命令格式:,x=a:h:b,t=78:87,2,分别以,x,和,y,代表变量职工工资总额和商品零售总额.,x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4,y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3将变量,t、x、y,的数据保存在文件,data,中.,save data t x y,4进行统计分析时,调用数据文件,data,中的数据.,load data,To MATLAB(txy),方法1,11/17/2024,4,1年份数据以1为增量,用产生向量的方法输入.2分别,1,输入矩阵:,data=78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,2将矩阵,data,的数据保存在文件,data1,中:,save data1 data,3,进行统计分析时,先用命令,:load data1,调用数据文件,data1,中的数据,再用以下命令分别将矩阵,data,的第一、二、三行的数据赋给变量,t、x、y,:,t=data(1,:),x=data(2,:),y=data(3,:),若要调用矩阵,data,的第,j,列的数据,可用命令:,data(:,j),方法2,To MATLAB(data),返回,11/17/2024,5,1输入矩阵:2将矩阵data的数据保存在文件data1中,基本统计量,11/17/2024,6,基本统计量10/5/20236,11/17/2024,7,10/5/20237,二、基本统计量,对随机变量,x,,计算其基本统计量的命令如下:,均值:,mean(x),中位数:,median(x),标准差:,std(x),方差:,var(x),偏度:,skewness(x),峰度:,kurtosis(x),例,对例1中的职工工资总额,x,,可计算上述基本统计量.,To MATLAB(tjl),返回,11/17/2024,8,二、基本统计量对随机变量x,计算其基本统计量的命令如下:例,三,、,常见概率分布的函数,MATLAB,工具箱对每一种分布都提供5类函数,其命令字符为:,概率密度:,pdf,概率分布:,cdf,逆概率分布:,inv,均值与方差:,stat,随机数生成:,rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),11/17/2024,9,三、常见概率分布的函数MATLAB工具箱对每一种分布都提供5,在,MATLAB,中输入以下命令:,x=-6:0.01:6;,y=normpdf(x);z=normpdf(x,0,2);,plot(x,y,x,z),1密度函数,:,p=normpdf(x,mu,sigma),(当,mu,=0,sigma,=1时可缺省),To MATLAB(liti2),如对均值为mu、标准差为sigma的正态分布,举例如下:,11/17/2024,10,在MATLAB中输入以下命令:1密度函数:p=normpd,To MATLAB(liti3),2概率分布,:,P=normcdf(x,mu,sigma),4均值与方差:,m,v=normstat(mu,sigma),例5,求正态分布,N,(3,5,2,)的均值与方差.,命令为:,m,v=normstat(3,5),结果为:,m=3,v=25,To MATLAB(liti5),11/17/2024,11,To MATLAB(liti3)2概率分布:P=normc,1,给出数组,data,的,频数表,的命令为:,N,X=hist(data,k),此命令将区间,min(data),max(data),分为,k,个小区间(缺省为10),返回数组,data,落在每一个小区间的频数,N,和每一个小区间的中点,X,.,2描绘数组,data,的,频数直方图,的命令为:,hist(data,k),四、数 直 方 图 的 描 绘,返回,11/17/2024,12,1给出数组data的频数表的命令为:2描绘数组da,五、参数估计,1,正态总体的参数估计,设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:,muhat,sigmahat,muci,sigmaci=normfit(X,alpha),此命令在显著性水平,alpha,下估计数据X的参数(,alpha,缺省时设定为,0.05,),返回值,muhat,是,X,的均值的点估计值,,sigmahat,是标准差的点估计值,muci,是均值的区间估计,sigmaci,是标准差的区间估计.,11/17/2024,13,五、参数估计1正态总体的参数估计 设总体服从正,2其它分布的参数估计,有两种处理办法:,一、取容量充分大的样本(,n,50),按中心极限定理,它近似地,服从正态分布;,二、使用MATLAB工具箱中具有特定分布总体的估计命令.,(1)muhat,muci=expfit(,X,alpha),在显著性水平,alpha,下,求,指数分布的数据,X,的,均值的点估计及其区间估计.,(2)lambdahat,lambdaci=poissfit(,X,alpha),在显著性水平,alpha,下,求,泊松分布的数据,X,的参数的点估计及其区间估计.,(3)phat,pci=weibfit(,X,alpha),在显著性水平,alpha,下,求,Weibull分布的数据,X,的参数的点估计及其区间估计.,返回,11/17/2024,14,2其它分布的参数估计 有两种处理办法:(1)muha,六、假设检验,在总体服从正态分布的情况下,可用以下命令进行假设检验.,1,总体方差,已知时,总体均值的检验使用,z,检验,h,sig,ci=ztest(x,m,sigma,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 m”,tail=1,检验假设“x 的均值大于 m”,tail=-1,检验假设“x 的均值小于 m”,tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,11/17/2024,15,六、假设检验 在总体服从正态分布的情况下,可用以,例7,MATLAB统计工具箱中的数据文件gas.mat.中提供了美国1993年1月份和2月份的汽油平均价格(price1,price2分别是1、2月份的油价,单位为美分),它是容量为20的双样本.假设1月份油价的标准偏差是每加仑4分币(,=4),试检验1月份油价的均值是否等于115.,解,作假设:m=115.,首先取出数据,用以下命令:,load gas,然后用以下命令检验,h,sig,ci=ztest(price1,115,4),返回:h=0,sig=0.8668,ci=113.3970 116.9030.,检验结果:1.布尔变量,h=0,表示不拒绝零假设.说明提出的假设均值115,是合理的.,2.,sig,值为0.8668,远超过0.5,不能拒绝零假设,3.95%的置信区间为113.4,116.9,它完全包括115,且精度很,高.,.,To MATLAB(liti7),11/17/2024,16,例7 MATLAB统计工具箱中的数据文件gas.mat.,2,总体方差,未知时,总体均值的检验使用,t,检验,h,sig,ci=ttest(x,m,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 m”,tail=1,检验假设“x 的均值大于 m”,tail=-1,检验假设“x 的均值小于 m”,tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,11/17/2024,17,2总体方差 未知时,总体均值的检验使用t 检验 h,返回:,h=1,sig=4.9517e-004,ci=116.8 120.2.,检验结果:1.布尔变量,h,=1,表示拒绝零假设.说明提出的假,设油价均值115是不合理的.,2.95%的置信区间为,116.8 120.2,它不包括,115,故不能接受假设.,3.,sig,值为,4.9517e-004,远小于0.5,不能接受零,假设.,To MATLAB(liti8),例8,试检验例8中2月份油价,price2,的均值是否等于115.,解,作假设:m=115,,price2,为2月份的油价,不知其方差,故用以下命令检验,h,sig,ci=ttest(price2,115),11/17/2024,18,返回:h=1,sig=4.9517e-004,ci,3,两总体均值的假设检验,使用,t,检验,h,sig,ci=ttest2(x,y,alpha,tail),检验数据 x,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 y 的均值”,tail=1,检验假设“x 的均值大于 y 的均值”,tail=-1,检验假设“x 的均值小于 y 的均值”,tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间.,11/17/2024,19,3两总体均值的假设检验使用 t 检验 h,sig,ci,返回:,h=1,sig=0.0083,ci=-5.8,-0.9.,检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的,假设“油价均值相同”是不合理的.,2.95%的置信区间为,-5.8,-0.9,说明一月份油,价比二月份油价约低1至6分.,3.sig-值为,0.0083,远小于0.5,不能接受“油价均,相同”假设.,To MATLAB(liti9),例9,试检验例8中1月份油价,price1,与2月份的油价,price2,均值是否相同.,解,用以下命令检验,h,sig,ci=ttest2(price1,price2),11/17/2024,20,返回:h=1,sig=0.0083,ci=-5.,4,非参数检验:总体分布的检验,MA