单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第十章非线性回归:二元Logistic 回归,教育程度,X1,X2,X3,小学:1,1,0,0,初中:2,0,1,0,高中:3,0,0,1,大学:4,0,0,0,以大学作为参照,为什么使用 logistic 回归,在许多实际问题中,经常遇到非数值型因变量。比方:,二分类:青少年是否在学、成功或失败、健康或不健康,多个有序分类:上等社会地位,中等社会地位,下等社会地位,多个无序分类:单身,目前在婚,离婚,寡居,线性回归模型不适宜。相反,当因变量为分类变量时,必须使用其它回归分析方法,可用于处理分类因变量的统计分析方法有:判别分析(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等,在社会科学中,应用最多的是Logistic回归分析,Logistic的分类,由于因变量DV取值的不同,logistic又可分为,binary logistic,ordered logistic秩序logistic,multinomial logistic 多分类logistic,当DV为虚拟变量时即0,1分类,使用binary logistic,当因变量为有序分类时如上等社会地位,中等社会地位,下等社会地位,采用ordered logistic模型,当DV为无序多分类变量时,采用multinomial 模型,这里只介绍一般的二分类Binarylogistic模型,简称Logistic 回归,Logistic回归的根本原理I,Logistic回归分析是对因变量为定性变量的回归分析。非线性概率回归模型,其根本特点是:,因变量必须是二分类变量,假设令因变量为y,那么常用y1表示“yes,y0表示“no,在在学与不在学的对照研究中,分别表示在学和对照组不在学,自变量可以为分类变量,也可以为连续变量,Logistic回归的根本原理II,从模型角度出发,把事件发生的情况定义为Y=1,事件未发生的情况定义为Y=0,这样取值为0、1 的因变量可以写为:,比方,假设因变量为是否在学,那么最终的可能性只有两个:要么在学事件发生,要么不在学事件没发生:,Logistic回归的根本原理III,可采用多种方法对取值为0、1 的DV进行分析如:%或比例,通常以p 表示事件发生的概率事件未发生的概率为1-p,并把p 看作自变量Xi 的线性函数,变量是否在学有两个取值,1=在学;0=否,那么简单的回归模型为:,由于y是0-1型baloni,分布,故有如下概率分布:,根本概念,事件发生的概率 =p =p(y=1|x),事件不发生的概率=1-p=1-p(y=1|x)=p(y=0|x),发生比odds=,Odds:相对风险relative risk,事件发生的概率与不发生的概率之比,对数发生比log odds=,也是事件发生概率p的一个特定函数。通过Logistic转换,该函数可以写成Logistic回归的logit模型:,Logit变换对数单位转换,logit:“逻辑斯蒂概率单位logistic probability unit 存头取尾的缩写,logit p 可以称为“p的逻辑斯蒂概率单位或简称为“逻辑斯蒂 p,logit p一方面表达出它是事件发生概率p的转换单位;另一方面它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归中的模式,Logistic回归模型I,Logistic回归模型II,OROdds Ratio,参数估计,最大似然估计法,Maximum likelihood estimate,似然函数:L=Pi,对数似然函数:,lnL=(ln P)=ln P1+ln P2+ln Pn,非线性迭代方法,Newton-Raphson法,参数检验:-2LLI,-2对数似然值-2 log likelihood,-2LL:数值越小越好,似然(likelihood)即概率,由自变量观测值预测因变量观测值的概率,与任何概率一样,似然的取值范围在0、1 之间,对数似然值(log likelihood,LL)是其自然对数形式,由于取值范围在0,1之间的数的对数值为负数,所以对数似然值的取值范围在0 至-之间,对数似然值通过最大似然估计的迭代算法计算,参数检验:-2LLII,因为-2LL 近似服从卡方分布,且在数学上更为方便,所以-2LL 可用于检验Logistic 回归的显著性,-2LL 反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变异局部的显著性问题,又称为拟合劣度卡方统计量(Badness-of-fit Chi-square),当-2LL 的实际显著性水平大于给定的显著性水平时,因变量的变异中无法解释的局部是不显著的,意味着回归方程的拟合程度越好,Logistic回归系数的意义,从数学上讲,与多元线性回归分析中回归系数的解释并无不同:bi表示xi改变一个单位时,logit P的平均变化量,Logistic回归中的常数项b0表示,在不接触任何潜在危险保护因素条件下,因变量发生与不发生事件的概率之比的对数值,Logistic回归中的回归系数 bi 表示,某一因素改变一个单位时,因变量发生与不发生事件的概率之比的对数变化值,即OR的对数值,Logistic回归分析的根本命令,.logit y x1 x2,:二元非线性回归的根本命令参数,输出回归系数,:参与回归分析的变量,y为因变量,x1和x2为自变量,.logistic y x1 x2,:二元非线性回归的根本命令参数,输出发生比,.xi:logit enroll age girl i.sibs if age12,i.sibs _Isibs_0-2 (naturally coded;_Isibs_0 omitted),Iteration 0:log likelihood=-361.07032,Iteration 1:log likelihood=-315.29173,Iteration 2:log likelihood=-311.064,Iteration 3:log likelihood=-310.99469,Iteration 4:log likelihood=-310.99464,Logistic regression Number of obs =789,LR chi2(4)=100.15,Prob chi2 =0.0000,Log likelihood=-310.99464 Pseudo R2 =0.1387,-,enroll|Coef.Std.Err.z P|z|95%Conf.Interval,-+-,age|-.7678598 .0877037 -8.76 0.000 -.9397559 -.5959637,girl|.197315 .2112021 0.93 0.350 -.2166311 .6112611,_Isibs_1|-.214453 .2296539 -0.93 0.350 -.6645664 .2356604,_Isibs_2|-.8062853 .397851 -2.03 0.043 -1.586059 -.0265118,_cons|13.41728 1.39888 9.59 0.000 10.67553 16.15903,-,Log likelihood即对数似然值,乘以2即为-2LL,是模型的估计方法。在进行逐步回归时,通过比较不同模型的-2LL,判断模型的适应程度,取值越小,模型的适应性越好,取值越大,模型的效果越差,LR chi2(4)即为卡方检验统计量,Probchi2是其p值LR chi2为回归模型无效假设(即所有协变量的发生比均为1)所对应的似然比检验量(其自由度为协变量个数的卡方),它们与线性回归的F统计量和其p值的功能大体一致,0.0000数值说明,该模型是显著的,统计量Pseude R2是伪决定系数R2。虽不完全等于R2,但大致提供模型中自变量对因变量变异的解释能力,Coef.是每个自变量对应的系数估计值。在logistic回归分析中,该系数为对数;Std.Err.即系数相应的标准误;OLS通过t检验来判断自变量对因变量的影响是否显著,logistic模型使用z检验来到达该目的,z是单个系数检验的统计量;P|z|是系数检验的p值,最后一列为系数95%的置信区间,但是,由于系数为对数,不能像线性回归系数那样进行直接解释。需要将其利用上述公式转换为风险比后,系数才有更明确的意义。假设否,那么不能直接将系数解释为自变量对因变量的影响程度,比方,年龄是数值变量。随着年龄的增长,孩子在学的概率显著降低,但我们不能将系数解释为“孩子的年龄每增加一岁,在学概率降低76.79%,事实上,我们并不知道年龄对在学概率的影响程度,虽然我们知道其影响性质和显著水平。对变量girl来说,女孩的在学概率高于男孩,不知道二者的差异有多大,但可以使用发生比OR来解释,.xi:logistic,enroll age girl i.sibs if age12,i.sibs _Isibs_0-2 (naturally coded;_Isibs_0 omitted),Logistic regression Number of obs =789,LR chi2(4)=100.15,Prob chi2 =0.0000,Log likelihood=-310.99464 Pseudo R2 =0.1387,-,enroll|Odds Ratio Std.Err.z P|z|95%Conf.Interval,-+-,age|.4640051 .040695 -8.76 0.000 .3907232 .5510313,girl|1.218128 .2572696 0.93 0.350 .805227 1.842754,_Isibs_1|.8069827 .1853267 -0.93 0.350 .5144966 1.265744,_Isibs_2|.4465136 .1776459 -2.03 0.043 .2047309 .9738366,-,Odds Ratio:变量所对应的风险比;Std.Err.即相应的风险比的标准误;z是单个风险比=1的检验的Z统计量;P|z|是单个风险比=1的检验的p值,由风险比Odds Ratio可知,样本的年龄每增长一岁,他们的在学概率降低46.4%,女孩的在学概率比男孩高22%,与独生子女相比,有一个姊妹的孩子的在学概率下降20%,有两个姊妹的孩子的在学概率不到独生子女的一半,