资源预览内容
第1页 / 共21页
第2页 / 共21页
第3页 / 共21页
第4页 / 共21页
第5页 / 共21页
第6页 / 共21页
第7页 / 共21页
第8页 / 共21页
第9页 / 共21页
第10页 / 共21页
第11页 / 共21页
第12页 / 共21页
第13页 / 共21页
第14页 / 共21页
第15页 / 共21页
第16页 / 共21页
第17页 / 共21页
第18页 / 共21页
第19页 / 共21页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,1,SAS,基础与金融计算,游家兴,厦门大学经济学院计统系,1SAS基础与金融计算游家兴,2,描述统计中的单变量分析,UNIVARIATE,过程,该过程除可以完成类似,MEANS,过程,的基本统计量的计算外,它还可以计算以下统计量:,描述变量极端值的情况;,计算分位数,如中位数;,生成若干个描述变量的分布图;,生成频率表;,对数据进行正态性检验,;,对数据进行,t,检验和秩和检验。,2描述统计中的单变量分析UNIVARIATE过程,3,该过程由下列语句控制:,PROC UNIVARIATE,options;,VAR variables;,BY variables;,OUTPUT out=SAS-data-set output-statistics;,Run;,3该过程由下列语句控制:,4,PROC UNIVARIATE语句,详解,PROC UNIVARIATE ,options,;,用于,UNIVARIATE,过程语句的可选项有(与,MEANS,过程相同用法的选项略去说明):,DATA=SAS-data-set,FREQ,:要求生成包括变量值、频数、百分数和累计频数的频率表。,NORMAL,:要求计算关于变量服从正态分布的假设检验统计量,这个检验统计量相应的概率也被输出。,4PROC UNIVARIATE语句详解PROC UNIVA,5,PLOT,:要求生成茎叶图、盒形图和正态概率图。,PCTLDEF=value,:规定计算百分位数的方法,值取为,1,,,2,,,3,,,4,,,5,。缺省时为,5,。,5 PLOT:要求生成茎叶图、盒形图和正态概率图。,6,OUTPUT,语句,OUTPUT,语句的用法与,MEANS,过程中类似,下面指出两点不同之处:,output-statistics,选项中可用的关键词除了在,MEANS,过程中已介绍过的以外,还有:,NOBS,,,MEDIAN,,,MODE,,,P1,,,P5,,,P10,,,P90,,,P95,,,P99,,,MSIGN,(,符号统计量,),,PROBN,(正态性检验统计量对应的概率),,SIGNRANK,,,NORMAL,,,Q1,,,Q3,,,QRANGE,(,四分位差,)。,6OUTPUT语句 OUTPUT语句的用法与MEANS,7,PCTLPTS=percentiles,:规定在该过程中不能自动提供而用户又希望计算的百分位数。例如要计算第,33,分位数值,必须选择此项。,PCTLPRE=prefix-names,:该选项规定要求计算的百分位数的输出变量名的前缀。,PCTLNAME=suffix-names,:该选项规定要求计算的百分位数的输出变量名的后缀。,7PCTLPTS=percentiles:规定在该过程中不能,8,以上三个选项往往结合起来使用,,如:,Proc univariate data=,;,var age weight height;,output pctlpts=33.3 66.7,pctlpre=a w h,pctlname=p33_3 p66_7;,Run;,8以上三个选项往往结合起来使用,如:Proc univari,9,例:我们利用前面建立的数据集,student,来看看,Univariate,过程的输出结果。,Data student;,input class sex$age,weight height;,cards;,1 f 15 46 156,1 f 14 41 149,1 m 13 48 155,2 m 16 55 165,2 f 17 50 160,2 f 16 60 165,2 m 17 65 175,3 f 18 65 165,3 m 18 70 180,3 m 17 68 176,;,Run;,Proc univariate data=student;,var height;,Run;,Proc univariate data=student,normal,;,var height;,Run;,Proc univariate data=student,plot,;,var height;,Run;,9例:我们利用前面建立的数据集student来看看Univa,10,Moments,N,15,Sum Weights,15,Mean,163.2,Sum Observations,2448,Std Deviation,9.1354881,Variance,83.4571429,Skewness,0.28385259,Kurtosis -,0.5095875,Uncorrected SS,400682,Corrected SS,1168.4,Coeff Variation,5.59772555,Std Error Mean,2.35877289,Basic Statistical Measures,Location Variability,Mean,163.2000,Std Deviation,9.13549,Median,162.0000,Variance,83.45714,Mode,160.0000,Range,31.00000,Interquartile Range,14.00000,NOTE:The mode displayed is the smallest of,2,modes with,a count of,3.,10 M,11,Extreme Observations,-Lowest-Highest-,Value Obs Value Obs,149,2,165,11,150,5,170,7,155,4,175,10,156,1,176,15,160,12,180,13,Tests for Location:Mu0=,0,Test -Statistic-p Value-,Students t t,69.18852,Pr|t|=|M|=|S|,.0001,Quantiles(Definition 5),Quantile Estimate,100,%Max,180,99,%,180,95,%,180,90,%,176,75,%Q3,170,50,%Median,162,25,%Q1,156,10,%,150,5,%,149,1,%,149,0,%Min,149,11 Extreme Observations,12,Tests for Normality,Test -Statistic-p Value-,Shapiro-Wilk W,0.961232,Pr D ,0.1500,Cramer-von Mises W-Sq,0.042367,Pr W-Sq ,0.2500,Anderson-Darling A-Sq,0.259036,Pr A-Sq ,0.2500,Normal,(,1,)当样本量小于,2000,时,应选用,Shapiro-Wilks,的,W,检验。,W,值愈接近于,1,,说明该变量愈接近正态分布;,(,2,)当样本量大于,2000,时,应选用,Kolmogorov-Smirnov,正态性检验。,D,值越大,,P,值越小,说明该变量愈不服从正态分布;,D,值越小,,P,值越大,说明该变量愈服从正态分布。,Proc univariate data=student,normal,;,var height;,Run;,12 Tests for,13,为什么要进行正态检验,?,正态分布是许多统计方法的理论基础。,t,检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。,许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。,如果变量不服从正态分布,那么以正态分布为假设所获得的结论就不可靠。,13为什么要进行正态检验?正态分布是许多统计方法的理论基础。,14,Proc univariate data=student,plot,;,var height;,Run;,获得三个图,:,1,、茎叶图,2,、箱线图,3,、正态概率图,14Proc univariate data=studen,15,茎叶图,茎叶图,类似直方图,但又与直方图不同,它的思路是将数组的数按位数进行比较,将数大小基本不变或变化不大的位作为一个主杆(茎),将变化大的位的数作为分枝(叶),列在主杆的后面,这样就可以清楚地看到每个主杆后面的几个数,每个数具体是多少。,15茎叶图 茎叶图,类似直方图,但又与直方图不同,它的思,16,茎叶图有三列数:,(,1,)最左边的一列表示茎,也就是变化不大的位数;,(,2,)中间的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图;,(,3,)右边的一列数为统计数,表示该组的单位个数。,Stem Leaf#,18,0,1,17,56,2,17,0,1,16,555,3,16,0002,4,15,56,2,15,0,1,14,9,1,Multiply Stem.Leaf by,10,*+,1,16 茎叶图有三列数:Stem Leaf,17,箱线图,箱线图,也称盒须图,由一个箱子(或盒子)和两条线段组成。其绘制的方法是,求出总体的五个数量特征值:,极大值,、,极小值,、,中位数,、,上四分位数,、,下四分位数,,连接上四分位数和下四分位数画出箱体,再将两个极值点与箱体相连。,Stem Leaf#Boxplot,18,0,1,|,17,56,2,|,17,0,1,+-+,16,555,3,|,16,0002,4,*-+-*,15,56,2,+-+,15,0,1,|,14,9,1,|,-+-+-+-+,Multiply Stem.Leaf by,10,*+,1,17箱线图 箱线图,也称盒须图,由一个箱子(或盒子)和两,18,Normal Probability Plot,182.5,+*+,|*+,|*+,|*+*+,|*+*+,|*+*+,|+*+,147.5,+*+,+-+-+-+-+-+-+-+-+-+-+,-,2,-,1,0,+,1,+,2,纵轴为实测值标度,横轴按标准正态分布,U,值标度。图中的“,+”,号标记标准正态,u,值的参考直线,“*”号标记实际数据点。,如果样本来自正态总体,则观测值数据“*”构成的直线与参考直线基本重合,表明观测值数据服从正态分布。,正态概率图,18纵轴为实测值标度,横轴按标准正态分布U值标度。图中的“+,19,Proc univariate data=student,frep,;,var height;,Run;,生成包括变量值、频数、百分数和累计频数的频率表。,19Proc univariate data=studen,20,本次课上机作业,对数据集,finance,进行如下操作:,1,、画出股票收益率正态概率图,并判断它是否服从正态分布?,2,、剔除股票收益率和市盈率在,1%,和,99%,分位数之外的观测值,将结果生成新的数据集(,test,);,3,、用,Univariate,过程对,test,数据集中的股票收益率进行描述性统计分析,将结果生成新的数据集(,stat,),要求该数据集包含均值、标准差、中位数、上,10,分位数和下,10,分位数等统计量。,20本次课上机作业对数据集finance进行如下操作:,铸造辉煌,唯有质量。,11月-24,11月-24,Saturday,November 16,2024,防护加警惕保安全无知加大意必危险。,02:51:08,02:51:08,02:51,11/16/2024 2:51:08 AM,智者防患于前,愚者灭灾于后。,11月-24,02:51:08,02:51,Nov-24,16-
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6