,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,/10/29,.,*,医学杂志论文中常见的统计学错误及对策,同济大学医学院 医学统计学教研室 艾自胜,2014-9-28,医学杂志论文中常见的统计学错误及对策,内容,(,1,)描述性分析中的常见错误,(,2,)假设检验中常见的统计学方法选择错误,(,3,)研究设计中的常见错误,(,4,)纠正错误的对策,内容(1)描述性分析中的常见错误,描述性分析中的常见错误,在医学论文中,对不同类型的研究资料需要用不同的统计指标进行描述。实际工作中统计指标选择常见的问题有,:,计量资料无论是否服从正态分布,统统用均数,标准差描述研究结果的数据特征,;,计数资料混淆率和构成比,(,百分比,),的概念,常将构成比误用为率来说明事物发生的强度,;,率和构成比的分母太小,却计算相对数来进行描述和比较。,描述性分析中的常见错误 在医学论文中,对不同类型,计量资料描述常见错误分析,(,1,)误用正态分布的描述性统计指标描述呈偏态分布的资料(标准差,均数,)仍采用“均数,标准差”表示,特别当表中采用标准误,取代标准差,s,时,前述的错误很难被察觉出来;,(2),统计图方面的主要错误有两个,其一,横坐标轴上的刻度值不准确,等长的间隔代表的数量不等;在直角坐标系中,从任何一个数值开始作为横轴或纵轴上的第一个刻度值。其二,,用条图或复式条图表达连续性变量的变化趋势;,计量资料描述常见错误分析(1)误用正态分布的描述性统计指标描,(3),统计表中数据的含义未表达清楚,令人费解;,(4),运用相对数时,混淆“百分比”与“百分率”;,(3)统计表中数据的含义未表达清楚,令人费解;,计量资料的案例一,计量资料的案例一,计量资料的案例一的分析与对策,各项指标的均数均大于,2,倍标准差,说明资料为偏态分布,用均数、标准差描述资料的集中趋势和离散程度显然是不妥当的,案例一中只列出,P,值,也未说明具体的统计学方法。,正确的做法应用中位数描述集中趋势,用四分位数间距表示离散程度。或者是将原始数值经对数等转换后,再计算转换值的平均数和标准差,同时在表格中应该列出具体的统计量及,P,值。,计量资料的案例一的分析与对策 各项指标的均数均大,计数资料描述性分析中的常见错误,(,1,)错误地将构成比当作率使用,(,2,)错误地计算平均率,(,3,)计算相对数时分母过小,计数资料描述性分析中的常见错误(1)错误地将构成比当作率使用,计数资料的案例一,计数资料的案例一,计数资料的案例一的分析与对策,研究者对计数资料的案例一资料进行分析,认为“轮状病毒腹泻的发病率最高为,43.1%,痢疾次之,28.8%,伤寒最低为,13.1%,”,。,这是将构成比当作发病率使用的典型错误,是临床科研中最常见的错误之一。,计数资料的案例一的分析与对策 研究者对计数资料的案例,实际上表中所提供的信息,只能用来说明在该腹泻门诊就诊的,521,例病人中,各种腹泻病人所占的比重,并不能反映出各自发病率的高低,而且计数资料的案例一所列的,%,号也未指明是构成比还是发病率,容易引起歧义。正确的描述应该是在腹泻门诊病人中,轮状病毒引起的腹泻所占的比例最高,伤寒最低。,实际上表中所提供的信息,只能用来说明在该腹泻门诊就诊的52,计数资料的案例二,计数资料的案例二,计数资料的案例二的分析与对策,某研究者为了研究三种不同值班情况孕妇的早产发生情况,作者在计算平均率时,错误地将几个率相加后取其平均值,这种类型的错误也是临床科研论文中常见的错误之一。,如计算计数资料的案例二中三种值班女工的早产的合计发生率,(,即平均率,),时,以,(2.7+4.8+10.3)/3=5.9,即平均发生率为,5.9%,。,正确的算法是,:(94/1547)100%=6.1%,。,计数资料的案例二的分析与对策 某研究者为了研究三种,假设检验中常见的统计学方法选择错误,定量资料进行假设检验的方法很多,其常见错误是,:,(,1,)忽视,t,检验和,F(,方差分析,),检验的前提条件;,(,2,)误用,t,检验代替,F,检验;,(,3,)误用参数检验代替非参数检验;,(,4,)各种方差分析混用。,假设检验中常见的统计学方法选择错误定量资料进行假设检验的,假设检验中常见的统计学方法选择错误,计数资料统计分析的常见错误是:,(,1,)错误选择了四格表卡方检验方法,未选用,Fisher,精确检验;,(,2,)等级变量资料一律地使用卡方检验。,假设检验中常见的统计学方法选择错误 计数资料统计分析的常见,计量资料统计分析的常见错误,(,1,)忽视了,t,检验的使用条件;,(,2,)多个样本均数比较错误地用多个,t,检验代替方差分析;,(,3,)误用,t,检验分析重复测量设计资料,计量资料统计分析的常见错误(1)忽视了t检验的使用条件;,t,检验的使用条件,单样本,t,检验的应用条件:样本服从正态分布;,成组,t,检验的应用条件:样本服从正态分布,;,两样本的总体方差相等即方差齐性。,配对,t,检验的应用条件:差值服从正态分布。,t检验的使用条件 单样本t检验的应用条件:样本服从,假设检验的案例一,假设检验的案例一,假设检验的案例一的分析与对策,这类错误是临床医学科研论文中定量资料分析中最常见的错误,而且是原则性错误,会增加犯第一类错误的概率。假设检验的案例一资料为不同年龄组不同性别基础能耗情况,原作者用,t,检验分别对各组均数逐一进行比较,得出在男女研究对象青年组与中年、老年组的基础能耗差异有显著性。,假设检验的案例一的分析与对策这类错误是临床医学科研论文中定量,假设检验的案例一的分析与对策,这种检验方法有误,因为该资料为多组基本均数间的比较,正确的方法是用单因素方差分析,只有在方差分析有显著性的基础上有必要再作均数间的两两比较,用,q,检验,而不是,t,检验,同时假设检验的案例一中应该列出方差分析的统计量,F,值及具体的,P,值。,假设检验的案例一的分析与对策 这种检验方法有误,因为,假设检验的案例二,假设检验的案例二,假设检验的案例二的分析与对策,重复测量数据是指同一受试对象的同一指标在不同时间点上进行多次测量所获得的资料,常用来分析某项观察指标在不同时间点上的变化特点,这类资料在临床试验中较为常见。本案例是两种不同处理方案对病人血浆,ET,浓度,(pg/m l),变化比较,分别在麻醉前、术毕、术后,24 h,、术后,48 h,测量病人血浆,ET,浓度,观察两种处理方案对病人血浆,ET,浓度的影响及变化趋势。,假设检验的案例二的分析与对策重复测量数据是指同一受试对象的同,假设检验的案例二的分析与对策,原文作者用配对比较,t,检验对不同时间两个处理方式血浆,ET,浓度的差异进行检验,发现有统计学差异,并认为,A,组术后,ET,浓度相对稳定,术后无明显升高。我们认为资料的统计处理不恰当,因为这时一个典型的重复测量的多个样本均数的比较,故应该采用重复测量方差分析检验不同处理组间和时间因素及处理因素与时间的交互效应是否具有统计学意义,如果差异有显著性,然后再作两均数间的两两比较。,假设检验的案例二的分析与对策 原文作者用配对比较t,假设检验的案例三,假设检验的案例三,假设检验的案例三的分析与对策,本案例反映不同分娩方式重症肝炎孕妇结局的比较。,原作者使用一般四格表卡方检验,得,:,卡方值,=7.24,P,=0.007;,但观察了,22,例,总例数小于,40,不适合使用一般卡方检验。应用,Fisher,精确概率检验法。,假设检验的案例三的分析与对策 本案例反映不同分娩方,假设检验的案例三的分析与对策,本例正确的计算结果为,P,=0.011(,双侧概率,),。很多分析人员认为两种方法分析的结果都是认为不同分娩方式重症肝炎孕妇结局有差别,但统计学意义是不一样的,因为,P,值大小不一样,拒绝和不拒绝无效假设的概率是不一样的。,假设检验的案例三的分析与对策本例正确的计算结果为P=0.,假设检验的案例四,假设检验的案例四,假设检验的案例四的分析与对策,本文作者将资料中三个等级中的,“,有效,”,和,“,显效,”,合并,使之成为二分变量。然后,用四格表卡方检验,得卡方值,=3.302,P,=0.069,作出两组治疗总有效率差异无统计学的结论。原统计分析中将三个等级合并为两个等级,导致信息丢失,结果得出两处理组总疗效无显著性差异的结论。,假设检验的案例四的分析与对策 本文作者将资料中三个等级,假设检验的案例四的分析与对策,从本案例中可见到对照组“有效”的构成比为,28.57%,,高于治疗组的“,有效”构成比,17.64%,而治疗组“,显效”构成比,76.47%,高于对照组“显效”构成比,50.00%,另外显效与有效在临床上都是表示治疗的有利效果,盲目合并会导致错误的结果。,假设检验的案例四的分析与对策 从本案例中可见到对照组“有,假设检验的案例四的分析与对策,正确显著性检验方法应该,用,Ridit,分析,或者非参数检验,(,秩和检验,),或者,CMH,检验,或者,Logistic,回归分析,本案例采用秩和检验分析,z,=2.27,P,=0.023,差异有统计学意义,说明治疗组的疗效优于对照组。,假设检验的案例四的分析与对策正确显著性检验方法应该,研究设计中的常见错误,(,1,)随机分组与随机抽样没有真正遵循随机化原则;,(,2,)无对照或对照设计不合理;,(,3,)样本含量太少。,研究设计中的常见错误(1)随机分组与随机抽样没有真正遵循随机,随机分组与随机抽样的错误,无论是随机抽样还是随机分组都要有足够的样本作前提,要在文章中描述清楚随机抽样的抽样总体、样本含量、抽样方法,随机分组的随机方法、各组的样本含量与基本特征等。医学科研论文中最普遍的问题是滥用“随机”,只要是抽样或分组,不管实际是否采用了随机的方法,在论文中均不谈采用了什么样的随机方法,就将“随机”写上,将随机误解为随意、随便、不采用随机化处理方法,导致结果缺乏可靠性。,随机分组与随机抽样的错误 无论是随机抽样还是随机分组都,随机分组与随机抽样的错误的对策,随机化原则是由,Fisher,在创建实验设计理论的过程中首先提出的,随机化原则是实验研究中保证取得无偏估计的重要措施。随机化方法由最初的抽签、掷硬币和抓阄等方法发展到随机数字表、随机排列表和用计算机软件或计算器产生的伪随机数。,随机分组与随机抽样的错误的对策 随机化原则是由Fish,对照的错误与对策,医学研究,尤其是实验设计的研究,需要设立合适的对照组,只有设立了对照,才能消除非处理因素对实验结果的影响,从而将所关心的处理因素的效应分离出来。在论文中应说明对照取自的总体,如何得来的,样本含量多大?,是否与实验匹配或配伍,与试验组的均衡性如何?,对照的错误与对策 医学研究,尤其是实验设计的研究,对照的错误与对策,有些文章虽然设立了对照组,却使用非同期对照或历史对照,组间的基础状况如性别、年龄、病情等不一致,缺乏可比性。还有些作者虽然设立了正常对照组,在分析的时候却未考虑,使该设计失去了原有的意义。,对照的错误与对策 有些文章虽然设立了对照组,却使用,样本量问题与对策,研究的实验单位要达到一定的数量,才能避免将个别情况误认为普遍情况,将偶然性或巧合的现象当成必然的规律,以致将实验结果错误地推广到群体。在医学论文中,有些,P,0.05,的“阴性结果”,样本含量不够致检验效能不足是一个主要的原因。实验之前不进行样本含量估计会带来两个问题,:,一是杂志上论文的发表偏倚,即当实验结果出现,P,0.05,的阴性结论,则锁进抽屉,以至于有些医学期刊几乎找不到阴性结果的研究论文。,样本量问题与对策 研究的实验单位要达到一定的数量,才能避,样本量问题与对策,二是用,P,0.05,错误地支持“两种干预措施效果相同”或“两种检测方法可以互相替代”等结论。实际上,由于样本含量小,检验效能不够,容易得到,P,0.05,