单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2012/4/11,#,生存分析,(2),由于生存曲线只是对样本生存过程的统计,描述,样本,生存率或生存曲线不同也可能是抽样误差所致,,,在,生存分析中一个重要的问题是进一步对总体的生存曲线进行,假设检验,log-rank,检验,属于非参数,方法,该,法并不指定生存时间服从某种特定的,分布,所,比较的是整个生存时间的分布,而不是仅仅比较某个特定时间点的,生存率,例,23-3,就例,23-1,数据,比较甲乙两疗法组脑瘤患者的生存率有无差别,?,两种,治疗方式的脑瘤患者生存曲线,相同,两种,治疗方式的脑瘤患者生存曲线不同,由于假设成立,时,两组的生存分布相同,故可把两组的数据,合并,计算,合并的死亡概率,以此计算相应的期望死亡人数,故将两组的完全生存时间混合排序列在表,23-5,第,2,列,相同,生存时间只列,1,次,k,=1,2,表示在每个时点,当两组的死亡率相等且均为该时点的总死亡数除以该时点的总观察数时,按照各组期初例数计算的期望死亡人数,分别将两组各时点期望死亡人数,相加列,在第,5,、第,9,列合计处,而两组实际总死亡数为第,4,、第,8,列合计,如果,两组各时点生存率都相等,,那么两,组总的期望死亡,数和,总的实际死亡,数相差,不大,注意事项,(,1,)以上介绍的是,log-rank,检验的近似法,计算简便,但其结果较精确法(一般统计软件中输出精确法计算结果)保守。,log-rank,检验精确法,统计量计算公式为,:,wi,为权重,,,对,log-rank,检验,,,wi=1,,,即该检验给任意时间点处两组间死亡的差别相同的权重。当比较的两总体生存曲线呈比例时,检验效能最大,;,wi=ni,则对应,Gehan,检验(,1965,)或,Wilcoxon,检验,该检验给两组间死亡的早期差别更大的,权重,(,2,)对于大样本频数表形式的生存曲线比较,基本方法与上述相同,。,另外,,该法很容易推广到多个组的比较,在此不赘述,。,需要,强调的是,生存曲线的比较也和前面均数、率的比较一样,要求组间具有可比性,最好是按照比较因素进行随机化分配之后再比较,。,如果,是未经随机化分配的观察对比资料,要考虑是否有混杂因素干扰,若存在混杂因素,可进行分层分析或采用多因素分析方法(见本章第四节)。,(,3,)当假设检验发现组间生存曲线有差别时,可通过中位生存期、相对危险度,RR,(,relative risk,)等指标评价其差别,。,相对,危险度是两个对比组相对死亡比的比值,而相对死亡比是实际死亡数与期望死亡数之比,于是,第,i,组相对于第,j,组的相对危险度为:,(,4,),log-rank,检验用于整条生存曲线的比较,若比较两组某时间点处的生存率,则按下式计算,:,如比较多个时间点处生存率,检验水准可取,Bonferroni,校正,,以,保证总的,I,型错误概率不超过,趋势检验,多组生存率比较时,若分组变量是等级变量,如肿瘤分期为,期、,期、,期,或连续变量等级化分组,如年龄(岁),30,、,30,、,40,、,50,,在,log-rank,检验组间生存率差别有统计学意义后,还可作趋势检验(,trend test,),分析危险率是否有随分组等级变化而变化的趋势。即是否有肿瘤分期越高,预后越差,或年龄越大(或越小),预后越差的情况。,(,1,)按某种因素影响大小将病人分组,可采用临床上该因素的自然分组,如疾病的分期等,组数一般取奇数,如,3,组或,5,组。,(,2,)计算每组的实际死亡数,与期望死亡数,。,(,3,)进行趋势检验。,Cox,比例风险回归模型,log-rank,检验属于生存时间比较的单因素分析方法,应该注意的是生存分析中的单因素比较在实验设计方面和均数、率的比较一样,要求对比组之间在非处理因素方面具有可比性,。,一般而言,,经过随机化分配处理的实验设计数据在处理组之间可比性,较好,在,实际工作中多见的观察对比资料其可比性通常不能,满足,或者,研究者关心的影响生存时间的因素不止一个,此时应采用适当的多因素分析,方法,由于生存分析问题中反应变量比较特殊,是事件结局以及出现这一结局所经历的时间,普通的线性回归和,logistic,回归通常并不适用,。,如果,仅考虑生存时间作为反应变量进行线性回归,由于生存时间通常并不是正态分布,不满足线性回归的模型要求,;,仅,考虑某一时点事件结局作为反应变量进行,logistic,回归,生存时间长短的信息又未能充分利用,;,生存时,间资料中还有删失数据的问题,上述两种模型都不能够利用这种不完全数据提供的,信息,模型,结构,式,中,x,的,表示研究者认为可能影响生存的诸因素,也称协变量(,covariates,),这些变量在随访期间的取值不随时间变化而变化,例如根据研究目的可以是随访对象的年龄、性别、接受的不同治疗方式等。,t,表示,生存时间,,好,h(t,x),称为具有协,变量,x,的个体,在,t,时刻的风险函数(,hazard function,),表示生存时间已达,的个体在,t,时刻,的瞬时风险率,,h,0,(t),称为,基线风险函数(,baseline hazard function,),表示所有,x,都,取值为,0,时的个体,在,t,时刻的瞬时风险率或死亡率,。,风险函数,定义为具有协变量,x,的,个体在活,过,t,时刻以后在,t,到,t+,t,这,一段很短时间内死亡概率与,t,之,比的,极限值,参数,为回归系数,其,估计值,可以,从样本计算得出。,由于模型右侧的基线,风险函数不,要求服从特定分布形式,具有非参数的特点,而指数部分的协变量效应具有参数模型的形式,故,Cox,回归属于半参数模型(,semi-parametric model,)。,参数的统计学意义,模型,假定,参数估计与假设检验,模型中的回归系数可借助部分似然函数(,partial likelihood function,)用最大似然估计方法得到,。,对,回归模型的假设检验通常采用得分检验(,score test,)、,wald,检验和似然比检验(,maximum likelihood ratio test,),这些检验统计量均,为卡,方,分布,,自由度为模型中待检验的协变量个数,。,得分,检验常用于模型外新变量的入选,,wald,检验常用于模型中变量的剔除;似然比检验用于不同协变量模型的比较,既可用于变量入选也可用于变量剔除。,多因素分析时协变量的筛选策略与其他回归模型类似,通常可采用逐步法。,注意到上面的表,23-9,中和表,23-10,上都出现了,-2ln,(,L,)的数值,其中的,L,就是现有模型的部分似然函数值(,L,取值在,0,到,1,之间,其对数,ln,(,L,)称为对数似然函数,取值在负无穷大到,0,之间),。,按照,Cox,模型的最大似然估计原则,当模型中增加自变量时,,L,将增大而,-2ln,(,L,)将减小,在自变量个数即模型的自由度一定时,,-2ln,(,L,)取值最小的模型最好,这一点类似于前述多重线性回归中的剩余平方和,。,可以,根据模型的,-2ln,(,L,)数值大小来考虑自变量的筛选策略。,表达式右边指数部分取值越大,则风险函数,越大,预后相对越差,故称为预后指数(,prognostic index,,,PI,),。,本,例预后指数,。例如,,1,号患者,age,66,,,dtime,33,,则预后指数,0.23387,66,0.44460,33,30.1072,。,可,按适当的预后指数分位数将观察对象分成若干组(,2,5,组),如低危组、中危组和高危组,以考察预后指数范围不同,其生存率的差异,对制定更合理的个体化治疗方案,正确指导病人的治疗,提高长期生存率有着重要意义。,Cox,回归应用中的注意事项,Cox,回归分析结论的正确性要以科学的设计、有代表性的抽样为前提,。,如果,样本例数过少(多因素分析中死亡例数一般应在自变量个数的,10,倍以上),或者抽样不随机而使得某些变量在其各个水平上分布极端,很难得到真正的结果,。,有时,回归分析得到的相对危险度与专业知识相悖,并非是什么专业上的新发现,而是设计上的缺陷造成,。,通过,计算机软件进行模型拟合只能保证计算上的准确,由不合理的设计得到的数据计算出的结果只能是错得更复杂,。,另外,,虽然它可以利用删失数据的信息,但过多的删失数据很可能会带来分析结果的偏倚。,数据的编码,可能,会严重地影响结论的可解释性,。,对于,某些数值型协变量,根据专业上的考虑转换为等级编码更恰当一些,否则会得到譬如红细胞每减小一个,患者的死亡风险会增加若干倍的夸大解释,;,对于,无序的多分类协变量,应设置哑变量进入模型,例如,4,种血型可转换为,3,个,0-1,型变量拟合模型,并且这,3,个变量应作为一个因素整体进出模型,人为地将血型编码为,1,,,2,,,3,,,4,会造成回归系数或相对危险度解释上的困难。,本章介绍的,Cox,回归必须满足,PH,假定,,,如果,某个协变量不同水平的,Kaplan-Meier,曲线有明显交叉,,,协,变量与时间的交互作用项在,Cox,回归模型中有统计学意义,则不能使用本章介绍的比例风险模型,,,考虑,拟合各种扩展,Cox,模型,如分层,Cox,模型或时变协变量的,Cox,模型等。,自变量的筛选事实上是一个复杂的建模过程,除了考虑以上问题,需要指出的是各种逐步方法只是一个计算手段,并不能保证总是得到最好的模型,。,变量,筛选时首先要进行专业上的充分考虑,很重要的自变量不能遗漏,专业上无关的变量不参与计算。待选变量较多时可以首先进行单因素分析,将具有统计学意义的变量再进行逐步筛选,以避免总的样本例数不够多而使结果不稳定,。,必要,时可以更换筛选变量的方法并调整检验水准,多数情况下总在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断,有时甚至可提供,1,、,2,个模型备选,。,未,选入模型的协变量并非不是影响因素,这一点在应用中要引起注意。,