Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,第九章,普通相关分析,变量之间的相关关系有两种:,确定性的关系,不确定性的关系,相关分析是研究变量之间不确定关系的统计方法。最为常见的是两个或多个随机变量之间的线性相关关系。也是本章研究的主要内容。,定义:X,Y 是随机变量,已知二维(X,Y)分布,总体相关系数,1.两个随机变量的总体(简单)相关系数,一.两个随机变量的总体相关与样本相关,相关系数,XY,-1,1,若,XY,=0,则称 X 与 Y 不相关.,若 X 与Y 相互独立,则必然不相关,即,XY,=0.,反之,不相关,不一定独立.但对两个正态分布,不相关 独立.,2.样本相关,定义:,(X,1,Y,1,),(X,n,Y,n,)是(X,Y)的 一组样本(样本 X,Y 是配对的,不可独自交换顺序),则样本相关系数:,注意,:小写的 x,i,是大写 X,i,的中心化结果,即 x,i,=X,i,X.,对y,i,同理.,这种相关关系,又称 Pearson积矩相关.,表10-1 我国人均国民收入与人均消费金额数据,单位:元,年份,人均,国民收入,人均,消费金额,年份,人均,国民收入,人均,消费金额,1981,1982,1983,1984,1985,1986,1987,393.8,419.14,460.86,544.11,668.29,737.73,859.97,249,267,289,329,406,451,513,1988,1989,1990,1991,1992,1993,1068.8,1169.2,1250.7,1429.5,1725.9,2099.5,643,690,713,803,947,1148,相关系数计算,【例】,在研究我国人均消费水平的问题中,把全国人均消费额记为,y,,把人均国民收入记为,x,。我们收集到19811993年的样本数据(,x,i,,,y,i,),,i,=1,2,,13,数据见表10-1,计算相关系数。,计算结果,解:,根据样本相关系数的计算公式有,人均国民收入与人均消费金额之间的相关系,数为,0.9987,3 样本相关系数的几何解释,x,y,|y|=,y,1,2,+y,n,2,表示向量 y=(,y,1,y,n,),T,的模长.,4.直观散点图,设有配对样本观测值,:,x,1,x,n,与,y,1,y,n,则其直观散点图如图:,该散点图,反映出x,y 之间的正相关关系.,1.两组配对的顺序数据的 Spearman 等级相关系数(又称秩相关 或 名次相关),对两组配对顺序样本而言,无法求出上述样本相关系数,而应当采用Spearman 等级相关系数.,设有配对样本观测值,x,1,x,n,与,y,1,y,n,.,二.Spearman 等级相关,等级相关系数公式如下:,式中,而,表示,x,i,的名次,表示,y,i,的名次.,注:两个相同的名次,要加起来除以 2.,一个等价的公式是:,2.刻度级(Scale)配对样本的等级相关系数,刻度级的配对样本,也可以排名次(秩),因此可以求Spearman 等级相关系数.计算公式同上.,等级相关,也称非参数相关.,Spearmanman相关,我国30个省市区1997年的出生率X(单位:千分之一)和文盲率Y(单位:百分之一)为,20.08 16.68 22.05 20.87 24.70 14.99 18.43 21.89 19.03 14.45,17.91 18.99 30.18 28.48 61.13 21.00 32.88 42.14 25.02 14.65,出生率,文盲率,12.09 16.00 13.22 17.53 10.60 14.28 16.08 12.81 18.05 16.83,17.71 20.97 21.24 16.40 23.20 16.59 17.40 14.12 14.24 13.82,出生率,文盲率,8.02 10.09 13.85 16.59 16.09 12.15 12.53 12.40 5.60 12.11,7.33 10.80 15.06 10.15 17.05 8.86 10.00 10.94 9.70 18.52,出生率,文盲率,13 16 10 22 20 26 19 29 27 30 14 23 28 24 25,14 16 9 10 8 18 20 27 26 30 22 28 29 25 11,-1 0 1 12 12 8 -1 2 1 0 -8 -5 -1 -1 14,2 3 12 18 17 7 9 8 1 6 5 15 11 21 4,1 6 12 5 15 2 4 7 3 19 17 21 23 13 24,1 -3 0 13 2 5 5 1 -2 -13 -12 -6 -12 8 -20,三.偏相关,偏相关,就是,在诸多相关的变量中,剔除了其中的一个或若干个变量的影响后,两个变量之间的相关关系.,1.剔除了一个变量 Z 的影响后,两个变量 X,Y 之间的偏相关系数。,偏相关系数是:,式中,r.是普通样本相关系数.,2.剔除了两个变量 Z,1,Z,2,的影响后,两个变量 X,Y 之间的偏相关系数,偏相关系数是:,式中,r.,.是偏相关系数.,四.相关系数异于零的显著性检验,由于我们是通过抽样的方法来研究变量之间的关系,所以,当求出各类样本相关系数不为零时,并不能真正一定表明变量之间是相关的,要通过假设检验判别是否显著异于 0.,1.简单样本相关系数(Pearson)显著异于 0 的 T 检验,在二维总体(X,Y)服从正态分布条件下,Fisher 给出了检验简单相关系数(Pearson)显著异于0的t 统计量为:,服从 t(n-1)分布,式中,n 是样本容量,r 是简单相关系数.,设定假设:,H,0,:r=0,H,1,:r,0,这是一个双尾检验问题.,2.等级相关系数(Spearman)显著异于 0 的 T 检验,检验等级相关系数(Spearman)显著异于0的t 统计量为:,服从 t(n-1)分布,式中,n 是样本容量,r 是等级相关系数.,3.偏相关系数显著异于 0 的 T 检验,检验偏相关系数显著异于0的t 统计量为:,服从 t(n-1)分布,式中,n 是样本容量,r 是偏相关系数,k是剔除了的变量数.,注意:如果要作正负相关的双向检验,就要做双尾的T检验。如果只作正相关或负相关的检验,就只作单尾的T检验。,选择双尾还是单尾的T检验,所计算出来的 t 值是相同的,但是t的显著性概率p(统计值t的外侧概率)是不同的。在双尾情况下,t的外侧的概率是 21-P(Tt).在单尾的情况下,t的外侧的概率是1-P(T,t,(25-2)=2.0687,拒绝,H,0,,不良贷款与贷款余额之间存在着显著的正线性相关关系,