单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第九章,偏倚及其控制,Biases and Their Control,研究的解说涉及到研究的真实性的问题。研究的真实性直接关系到是否获得正确的结论,而真实性需要通过变异性估计来确定。,引 言,11/19/2024,2,第一节 研究结果的变异性,第二节 研究的真实性,第三节 研究的偏倚,目 录,11/19/2024,3,第一节 研究结果的变异性,概 述,个体水平的变异性,群体水平的变异性,样本水平的变异性,11/19/2024,4,变异性(variability),研究结果包括描述性和分析性数据指标的变动或波动。,第一节 研究结果的变异性,一、概 述,11/19/2024,5,生物学真实变异和测量变异,生物学变异 真实的客观变异,测量变异 测量过程的误差,随机变异和系统变异,随机变异 绝对值和方向交错变化,正态分布,系统变异 绝对值和方向保持恒定,第一节 研究结果的变异性,变异的来源分为两个层次,11/19/2024,6,某个体特征测得值的变化,是个体真值随时间的改变,或是由于测量误差引起的变化。,第一节 研究结果的变异性,二、个体水平的变异性,11/19/2024,7,日间变异,年龄,膳食运动,环境,仪器标度差,仪器,精密度差,读数或记录错误,个体状态,测量误差,11/19/2024,8,个体的累计变异,群体中的个体具有不同的遗传素质并受环境影响,常大于个体变异,根据群体的变异范围确定“正常值范围,用于判定个体测得值是否“正常,群体水平的变异性受测量误差影响,第一节 研究结果的变异性,三、群体水平的变异性,11/19/2024,9,通过不同样本研究所得结果的差异性,为什么高水平的血清总胆固醇是不利的或不健康的?,这可以在关于血清总胆固醇与心血管死亡风险呈正相关的研究中找到答案。,如,Framingham,心脏研究。,第一节 研究结果的变异性,四、样本水平的变异性,11/19/2024,10,描述性结果的样本变异性,第一节 研究结果的变异性,样本A,样本C,样本B,11/19/2024,11,在图8-1中,群体高胆固醇率为25%,样本A为40%,样本B为20%,样本C为0%,。,增大样本含量,样本的变异性会减少,样本的高胆固醇率对群体的代表性会增大。,第一节 研究结果的变异性,11/19/2024,12,分析性结果的样本变异性,膳食改进组,膳食改进组,降低胆固醇药物组,降低胆固醇药物组,研究A(研究对象200人,随机分配到两组),第一节 研究结果的变异性,11/19/2024,13,如图8-2,研究A和B中膳食改进组五年内发生心机梗死的风险为9%,而降胆固醇药物组为6%。,研究A样本较小200人,两组效应指标心肌梗死风险的95%可信限较大,发生重叠,无显著性差异。,研究B样本较大2000人,两组效应指标心肌梗死风险的95%CI较小,未发生重叠,有显著性差异。,第一节 研究结果的变异性,11/19/2024,14,样本越大,效应估计值的抽样误差越小95%可信限越小,统计检验能发现的两组间效应差值越小。,样本非常大,两组间差异很小的效应值也会有统计学显著差异,但这很少有生物学或临床意义。,11/19/2024,15,第二节 研究的真实性,概 述,内部真实性,外部真实性,11/19/2024,16,真实性(效度),定义 指研究收集的数据、分析结果和所得结论与客观实际的符合程度。,研究误差 真实性的反面变异可以是真实的如生物学个体变异,而反映研究误差的变异肯定是不真实的。,一、概 述,11/19/2024,17,系统误差 称为偏倚 来自于对象选取、测量和统计分析等的方法学缺陷,有固定方向和固定大小的误差,。,随机误差 用统计学方法来估计,增大样本含量可减少,没有固定方向和固定大小,一般呈正态分布,。,研究误差的两种常见类型,11/19/2024,18,二、内部真实性,内部真实性internal validity,定义研究结果与实际研究对象真实情况的符合程度,它答复一个研究本身是否真实或有效。,改善措施,限制研究对象的类型和研究的环境条件。,第二节 研究的真实性,11/19/2024,19,三、外部真实性,外部真实性external validity,定义研究结果与推论对象真实情况的符合程度,又称为普遍性generalizability。它答复一个研究能否推广应用到研究对象以外的人群。,改善措施,增加研究对象的异质性,使得研究对象的代表性范围扩大。,第二节 研究的真实性,11/19/2024,20,在实际研究时,需要综合平衡考虑,研究对象的同质性和异质性问题,11/19/2024,21,第三节 研究的偏倚,选择偏倚,信息偏倚,混杂偏倚,混杂偏倚的分层分析,11/19/2024,22,1946年,,Berkson,做最著名的偏倚研究并给予证实,又称为,Berkson,偏倚。,1976年,,Miettinen,详细讨论了偏倚的定义,并给出分类框架,分三类,选择偏倚,信息偏倚,混杂偏倚,11/19/2024,23,一、选择偏倚selection bias,定义,研究对象的选取过程中,由于选取方式不当,导致入选对象与未入选对象之间存在系统差异,由此造成的偏倚称为选择偏倚。例如研究对象采用志愿者,方便样本,或者研究对象的无应答或失访等。,第三节 研究的偏倚,11/19/2024,24,描述性研究的选择偏倚,主要表达在样本对总体的代表性上,如不是采用随机抽样而是使用方便样本,或某些特定群体志愿者、因特网利用者等造成的外部效度外推受限问题。,控制方法,尽量采用随机抽样,防止样本选取的偏向,对特定群体的结果在外推上要谨慎等,第三节 研究的偏倚,11/19/2024,25,分析性研究的选择偏倚,主要表达 研究对象进入、排除、不参与或失访等与研究暴露或处理因素存在关联,由此增大或减少暴露与疾病、处理与效应的关联,导致效应估计的偏倚。,控制方法,选取具体环节或已选取人群的具体特征,分析研究对象的选取是否同暴露或处理因素有关,第三节 研究的偏倚,11/19/2024,26,常见选择偏倚,入院偏倚,失访偏倚,志愿者偏倚,第三节 研究的偏倚,11/19/2024,27,确定有无选择偏倚的关键,把握选取环节或已入选对象,是否存在人为增大或减少研究因素与结局的关联程度,控制,方法,严密掌握对象选取的各个环节,注意选取对象的代表性,增加应答和减少失访等,第三节 研究的偏倚,11/19/2024,28,二、信息偏倚information bias,定 义,又称测量偏倚或观察偏倚,是来自于测量或资料收集方法的问题,使得获取的资料存在系统误差。由于流行病学的暴露或疾病多为分类测量,所以信息偏倚又可称为错误分类偏倚misclassification bias。,信息偏倚同样影响描述性研究和分析性研究的结果。,第三节 研究的偏倚,11/19/2024,29,无差异性错误分类和差异性错误分类,第三节 研究的偏倚,无差异性错误分类,差异性错误分类,错误分类数据,错误分类数据,研究真实数据,研究真实数据,11/19/2024,30,差异性信息偏倚的两种常见类型,回忆偏倚recall bias,产生于研究对象记忆过去活动和暴露能力的差异。,调查者偏倚interviewer bias,产生于调查者对研究对象有差异性地收集信息。采取盲法,可以降低调查者偏倚。,第三节 研究的偏倚,11/19/2024,31,为了减少错误分类以及改善测量的准确性,研究者们正在越来越多地使用生物学标记物biological markers。它们可以用来测量易感性、内暴露实际进入体内剂量或生物学效应剂量等。,第三节 研究的偏倚,11/19/2024,32,三、混杂偏倚confounding bias,定义,是指暴露因素与疾病发生的相关(关联)程度受到其他因素的歪曲或干扰。,混杂的本来含义是“混合掺杂(mixing together),这里是指暴露因素对疾病的独立效应与混杂因素的效应混在一起,造成对暴露因素效应的估计偏倚。,第三节 研究的偏倚,11/19/2024,33,判定原那么,比较混杂因素调控前后的暴露因素效应估计值,如果存在有意义的差异,就产生了混杂偏倚。,调控的统计方法,设计阶段:标准化率、分层和多变量分析,设计阶段:配比、随机化分配或限制进入,第三节 研究的偏倚,11/19/2024,34,继发关联secondary association,定义,是一种纯粹由混杂偏倚产生的关联,即疑心的病因暴露E与疾病D并不存在因果关系,而是由于两者E,D有共同的原因C,E,D同C存在关联,从而继发产生E与D的关联。,第三节 研究的偏倚,C,?,D,E,11/19/2024,35,例如 高血清胆固醇是冠心病的危险因素,高血清胆固醇可产生沉积于眼睑的黄色瘤,从而导致黄色瘤与冠心病的继发关联。另外,E与C也可以由于相关因果方向不明而产生继发关联。,例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖啡存在相关没有确定的时间先后,从而造成喝咖啡与胰腺癌的继发关联。,第三节 研究的偏倚,11/19/2024,36,直接因果关联的歪曲,如果疑心病因E与疾病D既存在直接关联,又存在间接关联(图A)或与其他危险保护因素F存在相关(图B),暴露E与疾病D的直接因果关联程度或方向将可能受到混杂干扰,即得到歪曲的关联估计值。,第三节 研究的偏倚,F,D,E,F,D,E,?,?,A,B,11/19/2024,37,例如 静脉吸毒E与性乱F都是HIV感染D的危险因素,吸毒者易发生多性伴行为,即吸毒同HIV感染既存在直接关联ED又存在间接关联EFD图8-3,(2),吸毒与多性伴没有确定的时间先后而呈双向相关图8-3,(3),多性伴F将对吸毒E与HIV感染D的直接因果关联起混杂或歪曲作用。,第三节 研究的偏倚,11/19/2024,38,第三节 研究的偏倚,图8-3,11/19/2024,39,四、混杂偏倚的分层分析,M-H(Mantel-Haenszel)分层分析方法的步骤,对可能的混杂因素进行分层,判定层间RR或OR是否相等或相近,得到控制混杂后的调整RR或OR,再将调整RR或OR与分层前的粗RR或粗ORcRR或cOR进行比较,第三节 研究的偏倚,11/19/2024,40,队列研究,(1),累计发病率资料,第三节 研究的偏倚,表8-4,11/19/2024,41,(2)发病密度资料,第三节 研究的偏倚,11/19/2024,42,病例对照研究,第三节 研究的偏倚,11/19/2024,43,1按可能的混杂因素吸烟分层,第三节 研究的偏倚,a,i,b,i,m,1i,c,i,d,i,m,0i,n,i,n,0,t,i,11/19/2024,44,(2),判定层间关联效应水平是否同质,按是否吸烟分层后,两层内的饮酒与肺癌的关联效应大小是同质,(同质性检验)的,可以应用M-H方法计算综合,OR,第三节 研究的偏倚,11/19/2024,45,(3)计算综合或调整OR,并与粗OR比较,P,0.25,第三节 研究的偏倚,11/19/2024,46,(4)结论,吸烟对饮酒与肺癌的关联cOR=3.69有混杂作用cOR ORMH,控制吸烟的混杂作用后,饮酒与肺癌无关联=0.6509,P0.25,注意针对ORMH的2检验是在排除了混杂偏倚的根底上再排除随机误差,而针对cOR的2检验是建立在没有排除混杂偏倚的根底上的,第三节 研究的偏倚,11/19/2024,47,